Deduplikacja danych polega na identyfikacji powtarzających się rekordów, pomimo występowania drobnych różnic pomiędzy nimi. Duplikacja danych powstaje podczas ręcznego wprowadzenia błędnych literowo danych, przy łączeniu różnych baz. Przy pomocy złożonych algorytmów baza jest skanowana w celu odnalezienia podobnych rekordów oraz oceniane jest ich podobieństwo. Wyszukane pary klasyfikowane są do poszczególnych grup według podziału na rekordy typu: • takie same • podobne • różne Deduplikacja danych pozwala na oznaczanie podwójnych rekordów , następnie umożliwia ich usunięcie, co pozwala na zmniejszenie ilości wymaganej pamięci do przechowywania danych. Schemat działania deduplikacji danych: ![]() |