Innovationsportal Sachsen-Anhalt

« Förderinformationen

Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition

Termin:
01.09.2014
Fördergeber:
Deutsche Forschungsgemeinschaft (DFG)
Die Deutsche Forschungsgemeinschaft (DFG) fördert die Erstellung von Digitalisaten historisch bedeutender Textbestände mithilfe von OCR-Verfahren. Die "Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition" zielt darauf ab, standardisierbare Prozesse zu etablieren und die Erstellung von Referenzkorpora zu unterstützen, um die Volltexterstellung auf Basis dieser Image-Digitalisate zu optimieren.
Die gegenwärtigen infrastrukturellen Herausforderungen bei der automatischen Texterkennung liegen weniger im Bereich der technischen Verbesserung einzelner OCR-Engines als vielmehr im Mangel an einschlägigem Trainingsmaterial für diese Engines (Referenzkorpora und lexikalische Ressourcen), in der Uneinheitlichkeit der Workflows zur Volltextgenerierung, in fehlender Interoperabilität von Prozessen und Formaten sowie in ungenügender Nachvollziehbarkeit der Genauigkeitsraten von OCR-Ergebnissen.
Bei der Konzeption der einzelnen Themen- und Aufgabenbereiche sollte berücksichtigt werden, dass die Image-Digitalisate der VDs sowie Drucke des 19. Jahrhunderts als zentrale Materialien gelten. Folgende Felder und Problemstellungen sollten adressiert werden, wobei auf relevanten Erfahrungen und Ergebnissen aus dem nationalen und internationalen Kontext aufzubauen ist:
Auf- und Ausbau von genre-, epochen-, sprach- und gegebenenfalls drucktypenspezifischen Korpora und lexikalischen Ressourcen
Weiterentwicklung von Open-Source-OCR-Engines
Verbesserung von Nachkorrekturanwendungen
Etablierung von praxistauglichen Workflows zum Crowdsourcing, das heißt zur Einbindung von (wissenschaftlichen) Nutzern insbesondere in die Nachkorrektur, beziehungsweise Anreicherung und Veredelung von Volltexten
Standardisierung von Workflows, gegebenenfalls anhand spezieller Use-Cases; Adressierung von Lücken im Workflow und Erarbeitung von nachnutzbaren Prozessen
Weiterentwicklung von Verfahren zur Text/Bild- und Strukturerkennung
Ermöglichung der Interoperabilität von Datenformaten bezüglich des Imports, Exports und der Speicherung
Verfahren zur persistenten Identifizierung von Volltexten und zu deren Langzeitarchivierung
Methoden der einheitlichen und nachvollziehbaren Versionierung
Herstellung von Transparenz über die Berechnung von Genauigkeitenquoten beziehungsweise Fehlerquoten; gegebenenfalls Vorschläge zur Anpassung der DFG-Praxisregeln in dieser Hinsicht
Weiterentwicklung oder Anpassung von Visualisierungswerkzeugen wie dem DFG-Viewer
In einer ersten Phase der Ausschreibung soll eine Koordinierungsstruktur geschaffen werden. Im Antrag für das Koordinierungsprojekt sollen die thematischen Module und Aufgabenbereiche eines koordinierten Vorgehens beschrieben werden. Auf dieser Basis können dann im Rahmen einer offenen Ausschreibung Projektanträge für die Umsetzung der einzelnen Module (zweite Phase) eingereicht werden. Der Antrag für das Koordinierungsprojekt soll darüber hinaus ein Konzept für die Interaktion der Module beinhalten.

Kontakt:
DFG
Wissenschaftliche Literaturversorgungs- und Informationssysteme
53170 Bonn
Ulrike Hintze
Tel.: +49 228 885-2399
Ulrike.Hintze@dfg.de

Weitere Informationen:
http://www.dfg.de/foerderung/info_wissenschaft/info_wissenschaft_14_25/index.html