Innovationsportal

« Forschungslandschaft: Projekte

Center for Dynamic Systems (CDS) - Teilprojekt 2.1 "ChemLitX: Algorithmische Extraktion und Exploration von Wissen über chemische (Kunststoffrecycling-) Prozesse aus der wissenschaftlichen Literatur"

Projektbearbeiter:
Dipl.-Inf. Stefan Langer
Finanzierung:
EU - EFRE Sachsen-Anhalt ;
Center for Dynamic Systems (CDS) ZS/2023/12/182075
Projektbereich 2 Digitalisierung

Hintergrund

Der Übergang zu nachhaltigen und zirkulären Produktionsprozessen erfordert die Erforschung neuartiger chemischer Reaktionswege, die von erneuerbaren Rohstoffen über energieeffiziente und CO₂-arme Syntheseprozesse zu umweltfreundlichen Produkten führen. Die Identifikation solcher Reaktionswege setzt voraus, dass das kollektive chemische Wissen der Welt methodisch, systematisch und gezielt durchsucht und strukturiert wird. Dieses Wissen wächst rasant: Die im Jahr 2017 gegründete Plattform ChemRxiv1 enthält bereits ca. 30.000 wissenschaftliche Artikel zum Fachbereich Chemie. Hinzu kommen Fachzeitschriften wie das International Journal of Molecular Sciences, das allein im Jahr 2022 über 16.400 wissenschaftliche Artikel veröffentlichte, von denen etwa 30–35 % aus dem Bereich der Biochemie stammen [1]. Angesichts dieser enormen Menge an Publikationen, die kontinuierlich weiter wächst, ist eine manuelle Analyse kaum noch umsetzbar.

In den letzten Jahren gab es insbesondere durch die Entwicklung sogenannter Transformer [2] basierter Systeme enorme Entwicklungssprünge in den Forschungsfeldern Natural Language Processing (NLP). Der Encoder-Teil dieser Systeme kann z. B. für sogenanntes Named Entity Recognition (NER) genutzt werden um bestimmte Begriffstypen in natürlichsprach-lichen Texten zu erkennen. Decoder-basierte Systeme konnten als wichtigster Bestandteil der großen, auch in der breiten Bevölkerung bekannten Chatsysteme enorme Erfolge verbuchen. Das tiefe „Textverständnis“ dieser Large Language Models (LLM) lässt sich auch dafür einsetzen um wissenschaftliche Literatur zu analysieren und das enthaltene Wissen in strukturierter und aufbereiteter Form zur Verfügung zu stellen. Mit CEAR [3] wurde in vorhergehenden Arbeiten aus der Arbeitsgruppe um Prof. Dr.-Ing. Andreas Nürnberger in Kooperation mit der Arbeitsgruppe von Prof. Dr.-Ing. Till Mossakowski2 bereits ein System geschaffen, welches chemische Entitäten und Rollen in wissenschaftlicher Literatur erkennt, sie miteinander verknüpft und als Knowledge Graph an die ChEBI Ontologie3 anbindet.

Das vorliegende Projekt ChemLitX soll Wissen über chemische Reaktionsprozesse – insbesondere im Bereich „Kunststoffrecycling“ – extrahieren und aufbereiten, sodass es durch explorative Suchmechanismen flexibel zugänglich wird. Wir planen dafür einen intensiven Austausch mit der Arbeitsgruppe um Prof. Dr.-Ing. Kai Sundmacher, um geeignete Datenquellen und Datensets zu identifizieren, die Forschungsergebnisse zu evaluieren und in Hinblick auf die Relevanz für die SmartProSys Initiative insgesamt bewerten zu können. Das Projekt ist für alle Teilcluster von SmartProSys von großer Bedeutung und bietet neben den Möglichkeiten zur Unterstützung potenzieller Partnern in der Industrie auch zahlreiche zukünftige Interaktionen mit anderen wissenschaftlichen Partnern aus Mathematik, Informatik, Chemie und Wirtschaft.

Ziele
Das Hauptziel von ChemLitX besteht darin, Nutzer des Systems zu befähigen, schnell und gezielt, fundierte Informationen über Reaktionsbedingungen für das chemische Kunststoffrecycling zu finden, zu analysieren und für ihre Forschung oder eine industrielle Anwendungen nutzbar zu machen. Ein weiteres Ziel besteht darin, ein umfassendes flexibles Datenmodell zu schaffen, welches dem Wissensstand in der Forschung zu diesem Thema entspricht und anders als Datenquellen wie ChEBI oder PubChem den Bezug zu konkreten Textstellen in wissenschaftlichen Artikeln herstellt. Dieses Datenmodell muss fortlaufend mit dem Wissen aus neuen wissenschaftlichen Artikeln aktualisiert werden können und sollte so flexibel sein, dass es einfach mit neuen Datentypen erweitert werden oder auch manuell annotiert werden kann.

Kontakt

weitere Projekte

Die Daten werden geladen ...