Prof. Dr. Felix Naumann: Schmutzige Daten – Warum wir Werbung doppelt erhalten und was die Informatik dagegen tut
Duplikate in Datenbanken können zu schweren Fehlern führen. Mit einem neuen Verfahren sollen Sie erkannt und vermieden werden.
Datenfehler, zum Beispiel falsche Namensschreibungen, führen zu Duplikaten, also zu mehrfachen Datenbankeinträgen über dieselbe Person. Werden Duplikate nicht erkannt, wird Post doppelt versandt, Kreditrisiken werden nicht erkannt, und Kennzahlen werden falsch berechnet. Das Auffinden solcher Duplikate ist besonders schwierig: Mittels komplexer Ähnlichkeitsmaße werden Datensätze miteinander verglichen, eine hohe Ähnlichkeit lässt auf ein Duplikat schließen. Um nicht aufwändig jeden Datensatz mit jedem anderen vergleichen zu müssen, werden spezialisierte Verfahren eingesetzt, die viele unnötige Vergleiche vermeiden.
Zur Person
Hasso-Plattner-Institut für Softwaresystemtechnik, Chair Information Systems
Felix Naumann leitet seit 2006 das Fachgebiet Informationssysteme am Hasso Plattner Institut in Potsdam. Dort entwickelt er zusammen mit seinem Team Methoden zur Datenanalyse, Datenreinigung und Informationsintegration. Felix Naumann studierte Wirtschaftsmathematik an der Technischen Universität Berlin und promovierte an der Humboldt Universität. Nach einem zweijährigen Forschungsaufenthalt am IBM Almaden Research Center lehrte und forschte er als Juniorprofessor an der Humboldt Universität zu Berlin.
Links
http://hpi.de/naumann/people/felix-naumann.html
Schlagworte
Datenqualität Informationsqualität Datenreinigung Dublettenerkennung Duplikaterkennung
- showPaywall:
- false
- isSubscriber:
- false
- isPaid:
- showPaywallPiano:
- false