« Forschungslandschaft: Projekte
Effiziente und effektive Entitätsauflösung bei Cloud-Daten
Projektleiter:
Projektbearbeiter:
M.Sc. Xiao Chen
Finanzierung:
Fördergeber - Sonstige;
Es kann mehrere unterschiedliche Beschreibungen für eine reale Entität geben. Die Unterschiede können sich aus Tippfehlern, Abkürzungen, Datenformatierungen usw. ergeben. Die unterschiedlichen Beschreibungen können jedoch die Datenqualität mindern und zu Missverständnissen führen. Daher ist es notwendig, solche unterschiedlichen Beschreibungen auflösen und klären zu können. Entity Resolution (ER) ist ein Prozess zur Identifizierung von Datensätzen, die sich auf dieselbe reale Entität beziehen. Es ist auch unter verschiedenen anderen Namen bekannt. Wenn sich die zu identifizierenden Datensätze alle in einer einzigen Quelle befinden, spricht man von Deduplizierung. Ansonsten spricht man in der Informatik auch von Datenabgleich, Datensatzverknüpfung, Duplikaterkennung, Referenzabgleich, Objektidentifikation. Im Datenbankbereich ist ER ein Synonym für Ähnlichkeitsabgleich. Heutzutage spielt ER eine wichtige Rolle in verschiedenen Bereichen, nicht nur in den traditionellen Anwendungen wie Volkszählung, Gesundheitsdaten oder nationale Sicherheit, sondern auch in den Netzwerkanwendungen wie Mailinglisten für Unternehmen, Online-Shopping, Websuche usw. Sie ist auch ein unverzichtbarer Schritt bei der Datenbereinigung, der Datenintegration und dem Data Warehousing. Der Einsatz von Computertechniken zur Durchführung von ER reicht bis in die Mitte des letzten Jahrhunderts zurück. Seitdem haben Forscher aufgrund der umfangreichen Anwendungen viele Techniken und Algorithmen für ER entwickelt. In den Anfängen gab es zwei allgemeine Ziele: Effizienz und Effektivität, d. h. wie schnell und wie genau eine ER-Aufgabe gelöst werden kann. In den letzten Jahren hat das Aufkommen des Internets zu einer Erweiterung der Techniken und Algorithmen für ER geführt. Solche Webdaten (auch als Big Data bezeichnet) sind oft halbstrukturiert, stammen aus verschiedenen Bereichen und sind in sehr großem Umfang vorhanden. Durch diese drei Eigenschaften unterscheiden sich Big Data qualitativ von herkömmlichen Daten, was neue Herausforderungen für ER mit sich bringt, die neue Techniken oder Algorithmen als Lösungen erfordern. Konkret werden spezielle Ähnlichkeitsmaße für halbstrukturierte Daten benötigt; es werden domänenübergreifende Techniken benötigt, um Daten aus verschiedenen Domänen zu verarbeiten; es werden parallele Techniken benötigt, um Algorithmen nicht nur effizient und effektiv, sondern auch skalierbar zu machen, damit sie mit dem großen Umfang der Daten umgehen können. Dieses Projekt konzentriert sich auf den letzten Punkt: Parallelisierung des Prozesses der Entitätssuche. Die spezifische Forschungsrichtung besteht darin, verschiedene Big-Data-Verarbeitungssysteme zu untersuchen, um ihre Vor- und Nachteile bei der Durchführung von ER zu kennen.
Anmerkungen
Schlagworte:
Data Matching, Entity Resolution, Record Linkage, Similarity Join
Data Matching, Entity Resolution, Record Linkage, Similarity Join
Kontakt

Prof. Dr. Gunter Saake
Otto-von-Guericke-Universität Magdeburg
Fakultät für Informatik
Institut für Technische und Betriebliche Informationssysteme
Universitätsplatz 2
39106
Magdeburg
Tel.:+49 391 6758800
Fax:+49 391 6712020
weitere Projekte
Die Daten werden geladen ...