Die Sammlung von Netzpublikationen (E-Books, E-Journals etc.) durch die Deutsche Nationalbibliothek (DNB) hat in den letzten Jahren zu einem starken Anstieg der Menge inhaltlich zu erschließender Medienwerke geführt. Jährlich werden bis zu zwei Millionen Netzpublikationen neu in den Katalog aufgenommen. Mit einem Projekt im Rahmen der nationalen KI-Strategie untersucht die DNB, welche der vielversprechenden aktuellen Entwicklungen aus den Bereichen des maschinellen Lernens und der natürlichen Sprachverarbeitung sich für die Erschließung textbasierter Medienwerke eignen. Die Gemeinsame Normdatei (GND) mit potentiell 1,3 Millionen Deskriptoren zur Inhaltserschließung stellt für die maschinellen Verfahren dabei ein sehr komplexes Zielvokabular dar und macht das Problem der Beschlagwortung zu einem sog. „Extreme Multi Label Classification“ (XMLC) Problem. Wir wollen skizzieren, welche Implikationen dies für die Anwendung maschineller Verfahren zur Inhaltserschließung mit sich bringt, und welche Lösungen es dazu aktuell gibt.
Im Anschluss an den Vortrag gibt es die Möglichkeit, Fragen zu stellen.