datvio

Metodologia danych datvio

Jak zbieramy, normalizujemy i wzbogacamy dane z portali nieruchomościowych — z poszanowaniem RODO i regulaminów portali.

datvio to platforma danych, nie scraper. To rozróżnienie ma znaczenie — zarówno techniczne, jak i prawne. Poniżej krótko, jak pracujemy.

Skąd pochodzą dane

Indeksujemy publicznie dostępne oferty z portali nieruchomościowych, ogłoszeń pracy i e-commerce. Tylko strony, które nie wymagają logowania i nie blokują nas w robots.txt. Każde wywołanie portalu jest zapisywane w naszym audycie zgodności — możemy w każdej chwili pokazać, co i kiedy zostało pobrane.

Co wyrzucamy z danych

  • Telefony osób fizycznych (regex PL: +48 XXX XXX XXX i warianty)
  • Adresy e-mail prywatne (zostawiamy tylko firmowe domeny agencji)
  • Numery PESEL i NIP osób fizycznych
  • Imię i nazwisko sprzedającego prywatnego (jeśli można je odróżnić od nazwy agencji)

Zostawiamy nazwy agencji, telefony służbowe agencji, numery licencji pośredników — to dane biznesowe (RODO art. 6 ust. 1 lit. f).

Co normalizujemy

Każda oferta przed zapisem przechodzi przez normalizator wertykała:

  1. Cena — usuwamy spacje, walutę, normalizujemy do PLN (kurs NBP z dnia)
  2. Powierzchnia — m² jako liczba zmiennoprzecinkowa
  3. Lokalizacja — mapowanie do TERYT (oficjalny rejestr GUS) z fallback na fuzzy match
  4. Typ nieruchomości — taksonomia 4-poziomowa (mieszkanie / dom / działka / lokal)
  5. Typ transakcji — sprzedaż / wynajem (z auto-detekcją z opisu, gdy portal nie udostępnia)

Co utrzymujemy w czasie

Każda zmiana w aktywnym ogłoszeniu (cena, opis, status) trafia do osi czasu — entity_history. Dzięki temu można zobaczyć:

  • jak długo mieszkanie było wystawione
  • ile razy zmieniono cenę i o ile
  • czy oferta wróciła po wycofaniu

To historia, której same portale nie udostępniają — i to jest jedna z głównych wartości platformy.

Otwartość metodologii

Wszystkie nasze schematy danych, lista źródeł i częstotliwość odświeżania są publiczne. Pełna dokumentacja API znajduje się na /docs. Pytania metodologiczne kierujemy na [email protected].