Z našich daní
Projekt Aliancie Fair-play

Často kladené otázky

Dáta o osobách po ich získaní z Obchodného registra ďalej upravujeme. Zo skúsenosti vieme, že totožné osoby bývajú v ORSR často uvedené rôznymi spôsobmi s drobnými odchýlkami - napríklad v prípade, ak dôjde k preklepu v čísle domu. Problém je tiež v prípade menovcov - napríklad otca a syna bývajúcich na tej istej adrese - ktorých je možné pri nesprávnej interpretácii na prvý pohľad zameniť.

Takéto chyby a nejasnosti sú v zdrojových dátach časté. Obchodný register nepoužíva pre osoby unikátne identifikátory a celkom predísť nesprávnemu spájaniu alebo duplikovaniu osôb preto nie je možné. Bez aspoň čiastočného vyčistenia dát sme však nedokázali efektívne párovať konkrétne osoby na získané zákazky.

Túto nekvalitu dát sa snažíme riešiť aspoň čiastočnou štandardizáciou.

Používateľov, ktorí sa chystajú s dátami analyticky pracovať, prosíme, aby si starostlivo preštudovali popis špecifík dát a úprav, ktoré nad nimi robíme.

  1. Za unikátny identifikátor osoby na ZNašichDaní.sk považujeme meno, priezvisko, tituly, adresu a firmy, v ktorých osoba figuruje. Pri viacerých menovcoch dokážeme iba podľa týchto znakov určiť, o koho konkrétne ide.
  2. Osoby s rovnakým menom vedené na rôznych adresách nespájame - ani keby sme zaručene vedeli, že ide o rovnakého človeka, ktorý sa počas svojej kariéry presťahoval.
  3. Nespájame ani menovcov s rôznymi akademickými titulmi.
  4. Nechávame na používateľoch, aby takýchto jednotlivcov pospájali podľa svojich vedomostí vo vlastných analýzach.
  5. Nevieme zabrániť duplikovaniu totožných osôb s neštandardne uvedenými menami alebo adresami - napríklad v prípade, že dôjde v ORSR k preklepu. Často sa vyskytujú aj rôzne vedené trvalé bydliská, napríklad Hodžovo námestie 12 a Hodžovo nám. 12 - takéto prípady spojiť nedokážeme.
  6. Na spájanie osôb používame nasledovný postup:
    • Mená, priezviská a adresy prevedieme na malé písmená, odstránime diakritiku. Z adries odstránime aj znaky: „,./-“ a slová ako “okres”, “okr.”, “PSČ” a pod.
    • Podmienka 1: osoba1.meno = osoba2.meno
    • Podmienka 2: osoba1.priezvisko = osoba2.priezvisko
    • Podmienka 3: osoba1.titulPredMenom = osoba2.titulPredMenom
    • Podmienka 4: osoba1.titulZaMenom = osoba2.titulZaMenom
    • Podmienka 5: existuje osoba1.adresa aj osoba2.adresa
    • Podmienka 6: osoba1.adresa [je súčasťou] osoba2.adresa OR osoba2.adresa [je súčasťou] osoba1.adresa

Dve osoby označíme za totožné iba vtedy, ak je po úvodných úpravách splnených všetkých šesť podmienok: ak sa zhoduje meno, priezvisko, titul pred menom a titul za menom oboch osôb, a ak majú obidve osoby vyplnenú adresu. Tie sa navyše musia zhodovať.

Za zhodné označíme adresy iba vtedy, ak je možné povedať, že jedna z adries je podmnožinou druhej:

- Z oboch reťazcov adries odstránime slová, ktoré sa nachádzajú v oboch adresách
- Ak následne zostane jedna adresa prázdna (je "podmnožinou" druhej adresy), považujeme adresy za zhodné