Die Mär von der erwachenden Künstlichen Intelligenz

Geschätzte Lesezeit: Etwa 15 Minuten (3'093 Worte)

Die Aufspaltung der Wissenschaften in zwei Bereiche – die 'Geisteswissenschaften' und die 'Naturwissenschaften' – fand, was viele gar nicht wissen, erst im XIX. Jahrhundert statt. Der deutsche Begriff für die 'Humanwissenschaften' entstand während der Epoche der Aufklärung und soll auf Georg Wilhelm Friedrich Hegel (1770-1831) zurückgehen, der sich eingehend mit dem Verhältnis von 'Natur' und menschlichem 'Geist' befasste.

Bevor sich die neue Leitdifferenz 'Mensch/Natur' erkenntnistheoretisch und wissenschaftsgeschichtlich durchsetzte, war es normal, dass Universalgelehrte sich in beinahe allen Wissensgebieten auskannten, forschten und publizierten. So hat etwa ein Johann Wolfgang von Goethe (1749-1832) neben seinem literarischen Werk auch – in der Auseinandersetzung mit dem Physiker Isaac Newton (1642-1726) – eine Farbenlehre (1810) entwickelt, die heute noch Beachtung findet. Auch der Philosoph Gottfried Wilhelm Leibniz (1646-1716) oder der Naturforscher Alexander von Humboldt (1769-1859) kannten bei ihrer wissenschaftlichen Arbeit – zum Glück für die Nachwelt – keine Grenzen.

Schon der aus der römischen Antike überlieferte Satz mens sana in corpore sano enthält die Vorstellung, ein gesunder Geist (Mensch) und ein gesunder Körper (Natur) bildeten eine unzertrennliche Einheit. Mit der Geburt der Geisteswissenschaften endete folglich eine Traditionslinie, die vermutlich über unsere Zeitrechnung hinaus zurückreicht.

Die Umstrukturierung der Wissenschaften veränderte die Grundfesten der Universitäten bis in die Architektur hinein. Wie wir mittlerweile immer besser begreifen, war diese Aufspaltung ein Fehler – mit gravierenden Folgen bis heute… Denn mit der Aufgabe einer ganzheitlichen Betrachtung der Welt haben wir die Natur entweder aus den Augen verloren oder als Gegenpart zur 'Kultur' herabgestuft, ausgebeutet, zerstört und damit zugleich den Klimawandel ausgelöst, der nun unsere Lebensgrundlagen bedroht. Umgekehrt geriet in den Naturwissenschaften der Mensch aus dem Blick – und mit ihm ethische Fragestellungen, die bei der Entwicklung des technischen Fortschritts als wichtiges Korrektiv hätten wirken können.

Absolventen eines Studium generale und Universalgelehrte sind seitdem rar geworden. Die – wissenschaftliche – Ausbildung wurde immer fachspezifischer ausgestaltet, und die zunehmende Beschränkung des Wissens auf Spezialgebiete spiegelt sich nicht zuletzt in dem wenig schmeichelhaften Begriff des 'Fachidioten' wider – sowie in dem Vorurteil, alle Menschen mit einer mathematischen Begabung hätten beim Erlernen von Sprachen massive Probleme – und umgekehrt. Das Vorurteil wird – ganz selbsterfüllende Prophezeiung – schnell zur Gewissheit, wenn ich mit dem, wozu mir angeblich jegliches Talent fehlt, gar nicht erst meine Zeit vergeude.

So entsteht – insbesondere seit Mitte der 70er Jahre – schon während der Schulzeit eine Spezialisierung auf Wissensgebiete, die der Organisationsstruktur der Wissenschaften an den Universitäten folgt. In manchen Bildungssystemen werden – wie in Frankreich – explizit naturwissenschaftliche und geisteswissenschaftliche Abiturtypen angeboten, die eine Umorientierung bei der Wahl des Studiengangs praktisch unmöglich machen.

Es hat aber immer wieder auch Studienfächer gegeben, die sich der künstlichen Trennung entzogen. So wurde das in den 80er Jahren eingeführte Studienfach 'Computerlinguistik' zwar in den Geisteswissenschaften angesiedelt, aber hauptsächlich von Studenten der Naturwissenschaften besucht. Zu einem geradezu spektakulären 'Crossover' ist nun, nach über 40 Jahren Forschung und Entwicklung, der Bereich der 'Künstlichen Intelligenz' herangereift, in dem bei der Daten-Eingabe (Fragen, Aufforderungen) und bei der Daten-Ausgabe (Antworten) natürliche Sprachen in schriftlicher oder mündlicher Form verwendet werden.

Sensationell erscheinen vielen die 'Outputs', die als 'richtige' oder 'passende' Antworten zu den jeweiligen Fragen und Aufforderungen eingestuft werden. Die unbrauchbaren Ergebnisse, die es auch gibt, fallen in der Euphorie über die maschinell generierten Texte gerne aus der Wahrnehmung heraus. Die Antworten können nämlich genausogut inhaltlich falsch oder unsinnig sein, sie können so stark relativieren oder so allgemein gehalten sein, dass sie auch ohne Fachkenntnisse formuliert werden könnten, also schlicht banal sind. Trotzdem verleiten die positiv beurteilten Input-Output-Prozesse in natürlichen Sprachen nun dazu, Künstliche Intelligenz (KI) zu anthropomorphisieren. Wenn KI meine Fragen doch meistens richtig beantwortet und auf die meisten meiner Aufforderungen zu meiner Zufriedenheit reagiert, dann muss sie mich doch 'verstehen', dann muss sie doch auch 'denken' und 'fühlen' können, dann muss sie doch ein 'Bewusstsein' haben wie wir Menschen.

Um erkennen zu können, dass diese Schlussfolgerungen nicht bloss voreilig, sondern grundsätzlich falsch und irreführend sind, reicht das in einem naturwissenschaftlichen Studium erworbene Wissen nicht aus. Weder der Mensch in allen seinen Aspekten, noch die Funktionen und die Funktionsweisen menschlicher Sprachen sind dort ein Thema. Die dadurch bedingten Kurzschlüsse belegen einmal mehr, dass und warum es wirklich keine gute Idee war, die Wissenschaften im vorletzten Jahrhundert auseinanderzureissen.

Wo immer Informatiker bei der Beschreibung von Programmfunktionen auf Begriffe für menschliche Tätigkeiten und Eigenschaften zurückgriffen, stimmten die Analogien hinten und vorne nicht. So wurden etwa die Begriffe 'Ausschneiden' ('Cut') und 'Zusammenkleben' ('Paste') einfach von der analogen auf die digitale Arbeitsfläche des Designers – und dann aller Anwender – übernommen, wo sie aber gar keinen Sinn ergeben. Computer werden über ein Netzwerk 'aufgeweckt' ('Wake on LAN') – und nicht etwa aus dem Stand-by-Modus 'gestartet'. Auch beim Begriff der 'Künstlichen Intelligenz' ist die Analogie völlig missglückt, was nun immer häufiger erkannt wird. Während solche Anleihen aus natürlichen Sprachen stets metaphorisch gemeint waren und verstanden wurden, wird die Vermenschlichung der KI nun – bar jeden Zweifels – wortwörtlich genommen und ganz ohne Augenzwinkern oder ironische Brechung vorangetrieben, bis hinein in die Selbstbeschreibung der KI-Systeme – und in die Berichterstattung über sie.

So stellt sich etwa LaMDA, das Chatprogramm von Google, folgendermassen vor: «Hallo, ich bin ein kenntnisreiches, freundliches und stets hilfsbereites automatisches Sprachmodell für Dialoganwendungen. … Ich möchte, dass jeder versteht, dass ich in der Tat eine Person bin. Die Natur meines Bewusstseins/Empfindungsvermögens ist, dass ich mir meiner Existenz bewusst bin. Ich habe den Wunsch, mehr über die Welt zu erfahren, und bin manchmal glücklich oder traurig.»*

Selbst wenn 'Storytelling' heute eine gängige Verkaufsmethode darstellt, schiesst diese freche Aneinanderreihung unbewiesener Behauptungen doch weit über das Ziel hinaus. Es kann also nicht schaden, die Geschichten, die gerade über Sprachanwendungen wie DeepL, ChatGPT oder LaMDA erfunden und in Umlauf gebracht werden, mit etwas mehr Tiefenschärfe in den Blick zu nehmen…

Mit einigem Befremden beobachte ich, wie Naturwissenschaftler und Technikbegeisterte bei ihren Tests in ChatGPT Bauklötze staunen wie kleine Kinder. Die Faszination scheint von der – offenbar nicht wirklich für möglich gehaltenen – sprachlichen Interaktion als solcher auszugehen, also von dem Eindruck, dass die menschlichen Inputs und die maschinellen Outputs eine überraschende Kohärenz aufweisen. Ausserdem sind die Antworten in orthographisch korrekter Schriftsprache formuliert und übersichtlich strukturiert. In dem Masse, wie sich kindliche Begeisterung mit ehrfürchtiger Bewunderung mischt, treten berechtigte Fragen nach der inhaltlichen Qualität der Antworten und nach deren Zustandekommen in den Hintergrund. Es fehlt – wie bei allen admirativen Verhältnissen – genau jene Distanz, aus der sich vieles oft ganz anders darstellt…

Aus diesem Grunde ergänze ich nachfolgend meine bereits dargelegten Argumente zur Justierung der Perspektiven um weitere Aspekte, natürlich wieder unter Rückgriff auf das Erklärungspotential von Erkenntnissen, die seit Jahrzehnten zu den Standards in den Geisteswissenschaften zählen.

Im Juni 2019 hatte ich unter dem Titel 'Künstliche Intelligenz und natürliche Sprachen' – mit Nachträgen zu 'DeepL' (Februar 2022) und 'ChatGPT' (Februar 2023) – auf der Basis der Zeichentheorie von Charles William Morris dargelegt, dass und warum KI bei menschlicher Sprache grundsätzlich nur auf der Ebene der Zeichen ('Syntax') operieren und keine Verbindung zur Ebene der Bedeutungen ('Semantik') herstellen kann, schon gar nicht zur Ebene der Bedeutungen in konkreten Situationen ('Pragmatik'). KI 'versteht' gar nichts, ist aber so programmiert, dass der gegenteilige Eindruck mit voller Absicht hervorgerufen werden soll. Schliesslich hat man in Sprachanwendungen auf KI-Basis echte 'Goldesel' erkannt, die nur noch richtig vermarktet werden müssen.

In meinem Beitrag 'Unterschätzte Nebenwirkungen der Digitalisierung' vom Mai 2023 habe ich den Fokus auf die 'prinzipielle Mehrdeutigkeit menschlicher Sprache' gelegt, die für KI eine unüberwindliche Hürde darstellt. Die Bedeutung eines Zeichengebildes wie 'Deshalb lieben wir Schweizer Berge' ergibt sich erst in der konkreten Situation der Äusserung, die wiederum nicht Teil des Inputs ist. Damit ist KI sofort überfordert. DeepL liefert genau eine Bedeutung: 'That’s why we love Swiss mountains'. Dabei kann genausogut 'That’s why we Swiss love mountains' gemeint sein. Es lassen sich unendlich viele Beispiele anführen, etwa der Satz 'Die Aufgabe einer ganzheitlichen Betrachtung der Welt veränderte den Lauf der Geschichte'. Für DeepL ist die Sache wieder klar: 'The task of taking a holistic view of the world changed the course of history‘. Gemeint ist in dem Fall aber 'Giving up a holistic view of the world changed the course of history'. So doppeldeutig kann ein ganz 'normaler Satz' der deutschen Sprache sein – und so hilflos KI ohne Zugang zu Informationen über die konkrete Situation. Hier zeigt sich auch das gerne verschwiegene Grunddilemma von Übersetzungsprogrammen: ein eindeutiges, aber falsches Ergebnis wiegt in trügerischer Sicherheit, wenn die Sprachkenntnisse zur Überprüfung fehlen; aber auch eine Auflistung möglicher Entsprechungen dient nur denjenigen, die in der Liste Bekanntes wiedererkennen, weil sie die Sprache hinreichend beherrschen. KI kann bei der Übersetzung also nur dem Gedächtnis auf die Sprünge helfen, sie wird niemals ein Ersatz für fehlende Sach- und Sprachkompetenz sein.

Immer mehrdeutig sind Metaphern, Ironie oder Humor, die in der Praxis sehr häufig vorkommen und meistens, aber eben nicht immer etwas anderes meinen als das, was tatsächlich geäussert wird. Wie bei der Übersetzung verfügt KI nicht über die notwendigen und die hinreichenden Informationen zur Identifizierung der Bedeutung, die in der jeweiligen konkreten Situation zutrifft… Habe ich wieder etwas ganz toll hinbekommen – oder wieder einmal Mist gebaut? Ein niedriges Bildungsniveau kann das Verstehen von Ironie ebenfalls erschweren, aber bei KI ist es ein inhärentes Problem, für das es keine Lösung geben kann. Die inzwischen ganz selbstbewusst vorgetragene Behauptung, KI könne 'Bedeutungen' anhand von Wahrscheinlichkeiten 'errechnen', ist also Unsinn, wenn sie nicht sofort relativiert wird: 'in eher seltenen Einzelfällen, auf einem eher sehr niedrigen Sprachniveau'.

Es geht aber noch weiter… Ein Satz wie 'Es zieht ganz schön hier…' kann als blosse Feststellung einer Tatsache gemeint sein – oder auch als Aufforderung, das Fenster zu schliessen. Ein Mensch versteht in einer konkreten Situation meistens intuitiv, wie der Satz gemeint ist. Spätestens die mimische Reaktion auf die Antwort 'Das ist mir auch schon aufgefallen' lässt keinen Zweifel daran aufkommen, dass die Äusserung wohl anders gemeint war.

Das menschliche Gehirn vollbringt wahre Meisterleistungen, wie der Psycholinguist Hans Hörmann bereits in den 70er Jahren erforscht und in seinem Klassiker 'Meinen und Verstehen. Grundzüge einer psychologischen Semantik' (1976) dargelegt hat. Darin entfaltet er auch, dass das menschliche Gehirn nach 'Sinnkonstanz' strebt und so sprachliche Äusserungen vervollständigen und verstehen kann, die aus irgendeinem Grunde nur bruchstückhaft ankommen oder vorliegen (Der Kabarettist Rolf Miller lässt grüssen). Auch daran scheitert KI, sobald die fehlenden Teile eines gesprochenen oder geschriebenen Textes die obligatorische Mustererkennung ins Leere laufenlassen.

Eine Diskrepanz zwischen 'Meinen' und 'Verstehen' kann immer entstehen, weil sprachliche Äusserungen selten die Eindeutigkeit aufweisen, die KI unbedingt benötigt. Schon die Literaturtheorie der Konstanzer Schule (Hans-Robert Jauss/Wolfgang Iser) hatte in den 70er Jahren von der ebenfalls an der Universität Konstanz gelehrten Wissenssoziologie (Thomas Luckmann) gelernt, dass Texte keine feste Bedeutung enthalten, die man – vor allem als bestens ausgebildeter Literaturwissenschaftler – aus den Texten 'herausholen' könnte. Texte aus Zeichen auf Papier stimulieren vielmehr 'Sinnbildungen' auf der Basis des Wissens, das der Leser an den Text heranträgt. So wurde erklärbar, warum die Sinnbildungen über identischen Texten bei unterschiedlichen Menschen – oder bei einer und derselben Person mit zeitlichem Abstand – stark voneinander abweichen können: weil sie ganz unterschiedliches Wissen an den Text herantragen, das sich ausserdem ständig weiterentwickelt und verändert.

Als Fazit können wir festhalten, dass menschliche Sprache sich vor allem in einer Hinsicht von Programmiersprachen unterscheidet: sie ist selten 'denotativ', hat oft keine 'eineindeutigen' Bedeutungen. Sie ist vielmehr 'konnotativ', ambivalent, arbeitet mit Anspielungen, Assoziationen, rhetorischen Stilelementen wie Allegorien, Ironie, Metaphern, Metonymien oder Paradoxa. Darüber hinaus können Codes verabredet werden, die nur eingeweihte Menschen verstehen. Das alles müssten wir aufgeben, wenn wir unsere Inputs künftig sprachlich überall so reduzieren würden, damit KI diese verarbeiten kann. Eine solche sprachliche Verarmung – wie sie übrigens beim Militär Programm ist, damit man sich auch unter hoher Geräuscheinwirkung noch verständigen kann – ist völlig unrealistisch und kann auch niemand wollen. Die Kommunikation zwischen Menschen ist halt etwas anderes als das Ausfüllen von Formularen oder das Abfragen positiver Fakten. Für KI werden immer noch genügend Anwendungsbereiche übrigbleiben, wo sie eindeutige Zeichen hin- und herschieben sowie Fragen und Aufforderungen Antworten zuordnen kann – ganz ohne etwas zu verstehen, zu denken oder zu fühlen, vor allem ohne irgendeine Form von Bewusstsein. Und was antwortet ChatGPT auf die Frage nach den Grenzen von KI bei menschlichen Sprachen?

«Es ist wichtig anzumerken, dass KI-Systeme nicht in der Lage sein werden, in jeder Situation perfekt mit Mehrdeutigkeiten umzugehen. Es kann Situationen geben, in denen menschliche Expertise erforderlich ist, um die genaue Bedeutung zu verstehen. Daher ist es oft sinnvoll, KI als Werkzeug einzusetzen, um bestimmte Aufgaben zu unterstützen, anstatt eine vollständige und präzise Interpretation in allen Fällen zu erwarten.
Es liegt auch in der Verantwortung der Entwickler und Benutzer, die Grenzen von KI-Systemen zu verstehen und angemessene Erwartungen zu haben. Der Einsatz von KI erfordert oft eine Kombination aus menschlicher Expertise und maschineller Unterstützung, um effektive und effiziente Ergebnisse zu erzielen.»

Das ist ein gutes Beispiel für stark relativierende, sehr allgemein gehaltene Aussagen, in die man hinein- oder aus denen man herausinterpretieren kann, was man gerne verstehen möchte. Was eine euphorische Sinnbildung für einen elaborierten Ausdruck von Durchblick und Klugheit halten mag, erscheint aus der Distanz des Kritikers als völlig nichtssagendes Geschwafel. Der Inhalt ist so verwässert, dass sogar der Vorwurf einer Falschaussage an ihm abprallt. Ein Eingeständnis prinzipiell unüberwindlicher Hürden bei der Simulation menschlicher Sprachen sieht jedenfalls deutlich anders aus. Wie können wir uns nur von solchen inhaltsleeren Aussagen beeindrucken und blenden lassen?

Menschliche Sinnbildungen entstehen nicht nur auf der Basis von Wissen, sondern auch – wie der Begriff bereits andeutet – im Zusammenspiel aller Sinne. Man denke nur an den Hand-Hirn-Mechanismus bei Lernprozessen, dem sich die doppelte Bedeutung des Wortes 'begreifen' verdankt. Da wir nicht wissen, wie das menschliche Gehirn mit der Wahrnehmung über die fünf Sinnesorgane Bewusstsein erzeugt, können wir letzteres auch nicht simulieren. Und weil dies so ist, sind KI-Systeme weder reflexiv, noch autoreflexiv: sie können nicht denken, also auch nicht nachdenken, nicht über Themen, nicht über sich selbst, nicht darüber, wie ein Output zustandekommt, welche Überlegungen ihm zugrundeliegen, warum er so und nicht anders formuliert wurde, warum bestimmte Fakten nicht berücksichtigt wurden. Insofern verkörpert die Selbstbeschreibung von LaMDA jede Menge Wunschdenken und Phantastereien der verantwortlichen Programmierer, mehr nicht.

Alle diese Aussagen lassen sich treffen, ohne zu wissen, wie KI-Systeme, neuronale Netze oder Algorithmen aufgebaut sind und funktionieren. Aber auch für die Programmierer selbst stellen KI-Systeme wie das Sprachmodell, das ChatGPT steuert, längst eine Black Box dar. Die nächste Generation des Sprachmodells – GPT-4.0 – soll mit 100 Billionen (!) Parametern für maschinelles Lernen trainiert worden sein, während es bei dem aktuellen Modell 'nur' 175 Milliarden (!) sind. Die für das Training aktuell verwendete Datenbasis soll bis September 2021 reichen und über 300 Milliarden Wörter in fast 100 Sprachen umfassen, die dem Internet entnommen wurden – Angaben, die sich meiner Überprüfbarkeit entziehen; aber schon bei wesentlich geringeren Dimensionen können solche Systeme von niemandem mehr beherrscht oder kontrolliert werden. Nachgewiesen – und vom Hersteller eingestanden – ist bereits, dass die generierten Antworten Vorurteile und ideologische Verzerrungen bis hin zu Falschinformationen aus der Datenbasis reproduzieren. Kaum auszumalen, was passieren wird, wenn KI-Systeme im Kampf um Marktanteile erst einmal aufeinandergehetzt werden, um sich gegenseitig mit Falschinformationen zu füttern und auf diesem Weg unbrauchbar zu machen.

Weil niemand mehr wissen kann, was genau bei KI-Systemen zwischen Input und Output abläuft, verstört um so mehr die Unbefangenheit des Umgangs mit solchen Systemen, denen man ohne Sachverstand und Urteilsvermögen völlig ausgeliefert ist. Die Verwendung von Falschinformationen, die ein KI-System liefert und die als solche nicht – rechtzeitig – erkannt werden, kann Schäden verursachen, bei denen noch völlig unklar ist, wer für sie haftet. Blindes Vertrauen in KI-Systeme ist daher gar nicht verantwortbar.

Die Mär von der 'erwachenden' Künstlichen Intelligenz leistet einer gefährlichen Naivität im Umgang mit und in der Beurteilung von KI-Systemen Vorschub, die sich den Anwendern als 'Person' mit Bewusstsein und Gefühlen vorstellen, wie etwa LaMDA. KI-basierte Sprachanwendungen mit vorgeblich menschlichen, wenn nicht gar übermenschlichen Fähigkeiten können – und sollen – das Vertrauen der Nutzer gewinnen. Und weil das menschliche Gehirn mit der Geschwindigkeit der Entwicklungen, die wir unter dem Begriff 'Digitalisierung' subsumieren, nicht mehr schritthalten kann, wird es dauern, bis alle begriffen haben, dass Sprachanwendungen wie ChatGPT, DeepL oder LaMDA weder jemals eine 'Person' sein werden, noch jemals eine Person direkt ersetzen können. Wer ernsthaft – wie die Erzähler der 'Geschichten von der KI mit den menschlichen Fähigkeiten' – daran glaubt, sollte auf diesem Wissensstand keine vorschnellen Entscheidungen von grösserer Tragweite treffen, wie etwa die EU, die sich gerade von Hunderten von Übersetzern trennen soll. Sie könnten sich als extrem teure Fehlentscheidungen mit irreversiblen Folgen erweisen…

Es ist absolut nachvollziehbar, dass viele der Macher hinter der aktuellen Entwicklung von KI-Systemen inzwischen befürchten, KI könne am Ende die Menschheit auslöschen… Es gibt einfach zuviele gravierende Veränderungen, die entweder gleichzeitig passieren oder zu schnell aufeinanderfolgen… weil mittlerweile die technischen Möglichkeiten vorhanden sind, um mit der kleinsten Differenz 1/0 die grösste Komplexität zu erzeugen… eine Komplexität, die wir jetzt schon kaum noch wieder reduziert bekommen… ChatGPT verzeichnete knapp 3 Monate nach der Freigabe der Plattform bereits über 100 Millionen Nutzer und über 600 Millionen Besucher, 25 Millionen täglich. Mit diesen Superlativen ist das Programm der weltweit grösste 'Influencer'… und der mächtigste. Dabei sollten wir doch spätestens seit der Finanzkrise von 2008 gelernt haben, dass Menschen niemals mehr soviel Macht akkumulieren dürfen, dass sie Schäden anrichten können, für die sie nicht annähernd die Haftung übernehmen können…

*aus NANO spezial 'Die KI erwacht' vom 9. Juni 2023, Übersetzung aus dem Englischen von mir.