Lexikography meets AI
Im Rahmen dieses Projekts wird untersucht, in welchem Ausmaß Large Language Models (LLMs) die lexikographische Arbeit am WBÖ unterstützen können – konkret bei der semantischen Klassifikation von Belegen und der Erstellung von Wörterbuchartikeln. Die Herausforderung besteht dabei nicht nur in der technischen Komplexität des Vorhabens, sondern auch darin, dass nicht-standardsprachliche Varietäten wie Dialekte in den Trainingsdaten gängiger LLMs unterrepräsentiert sind.
Abb. 1: Lexikographischer Workflow (Piktogramme © Freepik)
Während Vorarbeiten wie die Lemmaauswahl und die Zusammenstellung des Belegmaterials sowie die abschließende Finalisierung der Wörterbuchartikel weiterhin von ausgebildeten Lexikograph:nnen durchgeführt werden sollen, steht im Zentrum des Projekts die Frage, wie gut LLMs in der Lage sind, die lexikographische Kernarbeit zu unterstützen: die Extraktion von Bedeutungen aus den Originalbelegen, ihre semantische Gruppierung und Strukturierung sowie die Formulierung von Bedeutungsdefinitionen nach dem WBÖ-Artikelschema.
Methodisch setzt das Projekt auf eine Kombination aus Retrieval-Augmented Generation (RAG) und schrittweisem Prompting (Chain of Thought): Dialektbelege aus der WBÖ-Datenbank werden als Text linearisiert, mit einem kontrollierten Glossar und einer Ontologie angereichert und einem LLM als Kontext bereitgestellt. Das Modell wird dann in mehreren aufeinanderfolgenden Prompts durch den lexikographischen Arbeitsprozess geführt: von der Analyse des Belegmaterials und der semantischen Klassifikation über die Formulierung vollständiger Wörterbuchartikel nach dem WBÖ-Schema bis hin zur Dokumentation der verwendeten Belege und einer abschließenden Qualitätskontrolle des generierten Artikels.
Abb. 2: RAG-Pipeline
Die LLM-generierten Artikel werden systematisch mit von menschlichen Lexikograph:innen erstellten WBÖ-Artikeln verglichen. Im Mittelpunkt der Evaluation stehen dabei drei Dimensionen: die strukturelle Konformität mit dem WBÖ-Artikelschema, die Qualität der semantischen Klassifikation sowie die Datentreue – also die Frage, ob die generierten Inhalte tatsächlich aus dem zugrunde liegenden Belegmaterial stammen oder ob das Modell nicht belegte Inhalte produziert. Zur Quantifizierung der Ergebnisse werden F1-Scores berechnet, die einen direkten Vergleich zwischen den Modellen sowie zwischen maschinell und menschlich erstellten Artikeln ermöglichen. Ein besonderes Anliegen ist dabei die Datensouveränität. Neben proprietären Modellen werden daher auch Open-Source-Modelle evaluiert, die lokal auf der institutionseigenen Recheninfrastruktur betrieben werden können.
Publikation:
Stöckle, Philipp, Daniel Elsner, Wolfgang Koppensteiner & Katharina Korecky-Kröll (2025): LLM-Assisted Dialect Lexicography: Challenges and Opportunities in Processing Historical Bavarian Dialects. In: Iztok Kosem et al. (eds.): Electronic Lexicography in the 21st Century (eLex 2025). Intelligent Lexicography. Proceedings of the eLex 2025 Conference. Bled, 18-20 November 2025. Bled: Lexical Computing, 453–475. |Link|