Sylvia Kullmann
KI-Sprachmodelle wie sie durch GPT-3 am 30. November 2022 für die breite Öffentlichkeit sichtbar geworden sind, verändern in diesen Tagen vieles: die Sicht auf zwischenmenschliche Kommunikation und auf Mensch-Maschine-Interkation, auf Grenzen von Technologie, auf Lehren und Lernen und auch auf die Einschätzung, welche Kompetenzen in Zukunft weiterhin nur dem Menschen vorbehalten bleiben werden. Die Liste an Perspektiven auf KI und sich daraus ergebenden Fragestellungen lässt sich schnell erweitern, wenn einzelne fachliche Domänen betrachtet werden. Für die Informationswissenschaft wird man über typische Aufgabenbereiche wie die Erschließung von unterschiedlichen Informations-/Medienobjekten und den Umgang mit sprachlicher Vielfalt schnell auf die zu erwartenden Auswirkungen von KI-Sprachmodellen auf Kernbereiche informationswissenschaftlicher Tätigkeiten kommen. Dazu zählen Verfahren zur inhaltlichen Erschließung durch Klassifikationen und Thesauri. Auch Werkzeuge und Prozesse zur semantischen Modellierung von Realitätsausschnitten rücken in den Fokus.
Das Thema ist grundsätzlich nicht neu. Automatisierte Erschließungsverfahren werden schon seit einiger Zeit genutzt um Menschen bei der Erschließungsarbeit zu unterstützen. KI ist aber sicherlich eine „andere Liga“. Projekte wie sie bei der Deutschen Nationalbibliothek aktuell durchgeführt werden, könnten die nächste Stufe der automatisierten inhaltlichen Erschließung von Informationsobjekten einläuten. Es stehen durch die aktuellen Entwicklungen aber noch weitere, sehr grundsätzliche Fragen im Raum. Eine der interessantesten ist die nach einer möglichen Erweiterung oder gar einem Wechsel der bisherigen Perspektive auf das, was in Zukunft Gegenstand von Erschließungsarbeit ist und wie diese funktioniert. Generative KI-Sprachmodelle nehmen grob gesagt textbasierte Informationsobjekte als Ausgangsbasis und generieren auf eine Informationsnachfrage, einen sog. (natürlichsprachlichen) Prompt, maßgeschneiderte Informationsprodukte in Form von statistisch berechnetem Text. Die Leistungsfähigkeit dieser Modelle, insbesondere des aktuell als state of the art eingestuften GPT-3, ist beeindruckend. Und auch wenn es bei genauem Hinsehen noch eine ganze Reihe von Schwachstellen gibt (inhaltlich falscher Text, mangelnde Aktualität aufgrund von Trainingsdaten bis maximal aus dem Jahr 2021, fehlende Quellenangaben usw.) bietet GPT-3 doch Raum für Überlegungen, wie die Zukunft informationswissenschaftlicher Erschließungsarbeit aussehen könnte. Ganz konkrete Fragen sind:
- Wird es auch in Zukunft bei der Fokussierung auf (einzelne) Informationsobjekte als Gegenstand der formalen und inhaltlichen Erschließungsarbeit bleiben oder wird sich der Schwerpunkt auf die Weiterverarbeitung des reinen Inhalts verlagern?
- Werden Informationsobjekte langfristig ihre Eigenständigkeit verlieren und ihre Inhalte in einem allgemeinen Wissenspool aufgehen, aus dem „just in time“ individuelle, auf spezifische Bedürfnisse (von Nutzenden) ausgerichtete Informationsprodukte generiert werden?
- Und noch weiter gefragt: Werden diese neuen Informationsobjekte zukünftig gar nicht mehr primär textbasiert, sondern multimodal (also aus einer Kombination unterschiedlicher Arten von Inhaltsträgern wie Text, Video, Audio, virtueller Realität etc.) aufgebaut sein?
KI-Modelle wie GPT-3 oder auch DALLE für den bildverarbeitenden Bereich geben erste Hinweise in diese Richtung. Auch Beiträge von Moritz Schubotz sowie von Friederike Kramer und Anika Wilde in unserer DGI-Vortragsreihe zu Herausforderungen und Chancen offener Infrastrukturen ließen diese Idee anklingen. In unserer parallel laufenden, neuen Vortragsreihe Künstliche Intelligenz – Vom Wunderkind zum Allrounder beschäftigen wir uns intensiv mit Möglichkeiten und Grenzen von KI. Wir werden sehen, welche disruptive Kraft KI-Sprachmodelle in unterschiedlichen Lebens- und Arbeitsbereichen tatsächlich haben werden.