Rodinné, individuální a firemní porovnávání
|
Individuální porovnávání dat je určeno pro odstraňování individuálních duplicit. Individuální duplicita je skupina stejných nebo takměř stejných osob na podobné adrese. Uveďme si příklad: J. Novák a Jan Novák je tatáž osoba (zde předpokládáme, že se jedná o stejnou osobu - ve skutečnosti by to mohla být jiná osoba - např. pod J. se může schovávat Josef) Vycházíme zde podle pravidla "Je lepší neoslovit adresáta nežli ho oslovit dvakrát najednou". Při zjištění vícenásobného výskytu adresy je důležité ponechat tu nejsprávnější a nejúplnější adresu. Pro názornost uvádíme příklad individuální duplicity (multiplicity):
|
|
|
|

Rodinné porovnávání dat je určeno pro odstraňování duplicitních členů rodiny. Rodinná duplicita je skupina osob se stejným příjmením na podobné adrese. Uveďme si příklad: Josef Novák a Zita Nováková je tatáž rodina. Zde je složitější porovnávání, jelikož příjmení osob pro ženy a muže je rozdílné (Machů - Machů, Novák - Nováková, Macek - Macková ....) Tak jako u individuálního porovnávání i zde je nutné při zjištění vícenásobného výskytu adresy ponechat tu nejsprávnější a nejúplnější adresu. Pro názornost uvádíme příklad rodinné duplicity:

Firemní porovnávání dat je určeno pro odstraňování duplicitních firem. Firemní duplicita je skupina podobných firem na podobné adrese. Uveďme si příklad: A +A s.r.o. a A&A spol s r.o. je tatáž firma. Zde je nejsložitější porovnávání, jelikož název firmy má mnoho variant (uvádí se jen část názvu, právní forma je psaná různými způsoby: s.r.o. spol. s r.o. společnost s r.o. atd.)
Pozor!
Záměrně byly použity v příkladech adresy, které nebyly zhomologovány. Jelikož dostáváme od klientů pro deduplikaci i tyto adresy - uvádíme je jako příklad. Námi vytvořený porovnávací mechanizmus použitý v aplikaci WorkDB si lehce poradí i s těmito adresami.
| Napište si o další informace... |
|
|
|