Künstliche Intelligenz und natürliche Sprachen

Geschätzte Lesezeit: Etwa 22 Minuten (4'396 Worte)

'Sprachassistenten' wie Alexa, Google Assistant, Siri oder Cortana machen derzeit von sich reden. Nicht etwa, weil diese smarten Anwendungsbeispiele Künstlicher Intelligenz (KI) mündliche Kommunikation zwischen Mensch und Maschine anscheinend schon ganz gut hinbekommen, sondern weil diese 'Gespräche' heimlich aufgezeichnet und an die Hersteller (Amazon, Google, Apple, Microsoft) weitergeleitet werden, die sie dann auswerten und ohne Erlaubnis für kommerzielle Zwecke missbrauchen. Sie dienen den nicht zufällig weltgrössten Konzernen also zugleich – und vor allem? – als Abhöranlagen, welche die Betroffenen dazu noch auf eigene Kosten anschaffen und ganz freiwillig bei sich installieren. Davon träumt jeder Geheimdienst… Vermutlich wird auch dieser Skandal im Sande verlaufen, weil viele von uns sich längst auf den Verlust der Privatsphäre eingestellt oder nach eigener Einschätzung nichts zu verbergen haben. Was aber passiert eigentlich, wenn ein Gerät mit uns spricht? Wo liegen die Grenzen der Machbarkeit von KI bei menschlicher Sprache? Und was kommt aus dieser Richtung noch auf uns zu?

Historisch beginnt die Arbeit an Künstlicher Intelligenz mit der Erfindung autonom funktionierender Maschinen vor gut 200 Jahren. Die schon in der Antike zu findende Idee, intelligente Maschinen mit Aufgaben zu betrauen, die diese dann selbständig erledigen, nahm bereits in den Anfängen der Industrialisierung vielfältige konkrete Gestalt an. Offenbar gab es eine regelrechte Faszination für 'lebende Maschinen' bzw. 'Automatenmenschen'. Interessanterweise konnte man sich eine 'intelligente Maschine' rund 100 Jahre vor dem Aufkommen des Begriffs 'Roboter' nur als 'menschenähnliches Gebilde' vorstellen. Noch heute assoziieren wir 'Roboter' primär mit dieser Vorstellung. Sogar die Ängste vor 'künstlich erschaffenen Menschen', die ausser Kontrolle geraten, wurden damals schon verarbeitet, etwa in Mary Shellys Roman 'Frankenstein' (1818).

Erst mit der Verfügbarkeit von Grossrechnern an den Universitäten konnte die KI-Forschung in den 70er Jahren auf die menschliche Sprache ausgeweitet werden. Vom FBI wohl mit beachtlichen Mitteln ausgestattet, sollte ein Computersystem zur Überwachung des Telefonnetzes der USA entwickelt werden, um alle Gespräche aufzuzeichnen, in denen Verbrechersprache vorkam. Das Abhören spielte also von Anfang an eine wichtige Rolle. Zeitgleich wurden auch in Europa Lehrstühle für neue Fächer wie 'Computerlinguistik' geschaffen, welche die Grundlagenforschung vorantreiben sollten für die Entwicklung von Sprachrobotern, die dann etwa an Flughäfen mündliche Fragen von Reisenden auf einem Display beantworten, oder von Diktiersystemen, die gesprochene Sprache direkt auf dem PC als schriftliche Texte ausgeben sollten.

Dazu musste allerdings erst einmal geklärt werden, wie natürliche Sprachen überhaupt funktionieren, wie sie es schaffen, aus einem mehr oder minder begrenzten Vorrat an Lauten und Schriftzeichen unendlich viele Lautströme und Texte, Inhalte und Bedeutungen zu erzeugen. Und es musste eine – technische – Lösung gefunden werden, um die Lautströme gesprochener Sprache – trotz etwaiger Störgeräusche, individueller Aussprachen und zahlreicher Homophone (gleichlautender Wörter wie 'Wahl' und 'Wal') – fehlerfrei zu verschriftlichen und – umgekehrt – schriftliche Texte ruckelfrei als Lautströme wiederzugeben… Keine leichte Aufgabe, zumal Schriftsprache und mündliche Sprache sich sehr stark unterscheiden, wie ich an anderer Stelle bereits ausgeführt habe.

Erste Antworten lieferte die Sprachwissenschaft (Linguistik), die Anfang der 80er Jahre einen Boom erlebte, speziell die Phonetik (Wissenschaft von den sprachlichen Lauten) und die Semiotik (Wissenschaft von den Zeichensystemen). Die Erklärungsmodelle kamen mitunter etwas technizistisch daher, hantierten auf einmal in den Geisteswissenschaften mit Begriffen wie 'Sender', 'Empfänger', 'Nachricht' und ('Geräuschen' im) 'Übertragungskanal'.

Das beste Erklärungspotential für die Funktionsweise natürlicher Sprachen hält offenbar noch immer die Zeichentheorie von Charles William Morris aus dem Jahr 1938 (!) bereit. Morris unterschied bei Zeichensystemen drei Ebenen, die auch bei natürlichen Sprachen immer zusammenwirken, obwohl man sie separat behandeln und beschreiben kann…

Auf der Ebene der Syntax werden aus Zeichen Wörter, Sätze, Absätze und Texte (und aus Lauten Lautströme) gebildet. Die Syntax der deutschen Sprache kommt mit einer überschaubaren Anzahl Buchstaben, Ziffern, Sonderzeichen (und Lauten) aus. Die Rechtschreibung (Duden 1-3, 5, 7-12), die Grammatik (Duden 4, 9) und die Aussprache (Duden 6) liefern die normativen Vorgaben und Regeln für deren Kombination. Die Reform der deutschen Rechtschreibung, die ich persönlich – wie auch einige renommierte Printmedien – von Anfang an als unsinnig abgelehnt habe, hat die Schriftsprache übrigens 1996 vereinfacht – und damit den Analphabeten angenähert. Die Umstellung hat einen höheren zweistelligen Millionenbetrag gekostet… der anschliessend um ein Vielfaches im Bildungsbereich wieder eingespart wurde – oder zumindest eingespart werden sollte.

Auf der Ebene der Semantik werden solchen Zeichengebilden ('Schloss') Bedeutungen ('Bauwerk', 'Schliessvorrichtung') zugeordnet. Wörterbücher (etwa der Duden) und Enzyklopädien halten traditionell die Wörter einer Sprache fest und listen deren Bedeutungen auf. Im Internet wurden sie mittlerweile durch Suchmaschinen und Online-Wörterbücher abgelöst, die laufend aktualisiert werden können. Durch die Reform der deutschen Rechtschreibung gingen viele Bedeutungsunterschiede verloren, etwa zwischen 'zusammen schiessen' und 'zusammenschiessen' oder zwischen 'gut finden' und 'gutfinden'. Aber auch durch mangelnde Bildung. Viele Menschen kennen Unterscheidungen wie 'der Verdienst / das Verdienst‘, 'der Schild / das Schild', 'der Moment / das Moment', 'der Primat / das Primat', 'der Teil / das Teil', 'der Bock / das Bock', 'der Fleck / der Flecken', 'mahlen / malen', 'abwiegen / abwägen' oder 'dass / das' nicht mehr  und sind dadurch im sprachlichen Ausdruck wie im Denken weniger differenziert. Risiken oder Argumente – etwa – kann man nur 'abwägen' (das Ergebnis ist ein Ausschlag auf der einen oder der anderen Seite der Waage, sofern sich die Waagschalen nicht im Gleichgewicht befinden), und nicht 'abwiegen', wie so oft zu hören ist (das Ergebnis wäre eine Gewichtsangabe). Und fast alle Menschen, die äussern, sie hätten 'kein Bock' mehr, ahnen nicht, dass sie über Bier reden. Sie wissen vermutlich auch nicht, dass 'blinde Flecke' keine Flecken sind.

Die konkrete Bedeutung eines Zeichengebildes ('Sie haben sich ein Schloss gekauft'/ 'Sie sind verliebt in Paris') ergibt sich jedoch meistens erst – durch zusätzliche Informationen – in der jeweiligen Situation, womit wir auf der Ebene der Pragmatik angelangt wären. Ohne den pragmatischen Kontext (oder dessen erfolgreiche Rekonstruktion) entstehen sehr schnell Mehrdeutigkeiten, bei denen nur noch spekuliert werden kann und Missverständnisse an der Tagesordnung sind ('Was genau haben sie denn nun gekauft?' / 'Wer ist denn nun in wen verliebt? Und halten sie sich tatsächlich gerade in Paris auf?').

Um unser Gehirn nicht zu überfordern, nimmt die Komplexität bei natürlicher Sprache von Ebene zu Ebene zu. Wörter und ganze Sätze werden in verschiedenen Kontexten wiederverwendet, die ihnen eine eigene Bedeutung verleihen. 'Ich hätte gerne einen höheren Absatz' meint bei Unternehmern etwas anderes als bei Schuhkäufern. Oder Begriffe wie 'Bildung' und 'Erziehung' werden oft synonymisch verwendet, obwohl sie eigentlich ganz Unterschiedliches bezeichnen. Dank der Ökonomie natürlicher Sprachen ist es möglich, in unendlich vielen Situationen (Kontexten) mit Sprache etwas zu meinen und etwas zu verstehen. Natürliche Sprachen sind lebendig, wandeln sich mit der Gesellschaft. So kommen ständig neue Begriffe hinzu (etwa 'Klimajugend' oder 'Flugscham') und verlieren andere ihre Relevanz und ihre Bekanntheit (etwa 'Telex' oder 'Walkman'). Auch bei den Bedeutungen ist alles im Fluss. So wurde etwa der Begriff 'Schnee' nicht immer als Synonym für Kokain verwendet. Das menschliche Gehirn lernt, sich intuitiv in beliebigen Situationen zurechtzufinden, mit allen Sinnen selbst komplexe Situationen zu erfassen sowie zu erkennen oder herauszufinden, wie man sich darin angemessen verhält. Und dem Psychologen Hans Hörmann (1976) verdanken wir die Einsicht, dass unser Gehirn nach Sinnkonstanz strebt und Äusserungen automatisch vervollständigt, die aufgrund von Geräuscheinwirkung nur bruchstückhaft verstanden werden. Selbst Texte, aus denen alle Vokale entfernt wurden, kann unser Gehirn bei der Lektüre vervollständigen und genauso verstehen wie Ironie, also Äusserungen, die in einer Situation ganz anders gemeint sind als das, was tatsächlich geäussert wird ('Das hast Du ja wieder ganz toll hinbekommen!'). Und wie kommt KI mit diesem Universum von Situationen und Bedeutungen zurecht?

Die Antwort lautet: gar nicht. Wie der Sprachphilosoph John Searle im letzten Jahr in der sehenswerten Sendereihe 'Sternstunde Philosophie' ausgeführt hat, mangelt es Computern an Bewusstsein, einer Fähigkeit, die KI nicht simulieren kann, weil wir nicht wissen, wie das menschliche Gehirn im Zusammenspiel aller Sinne Bewusstsein erzeugt. Im Gegensatz zu Menschen bewegen sich 'sprechende Maschinen' und die ihnen zugrundeliegende KI ausschliesslich auf der Ebene der Syntax. Alexas Antworten basieren auf Zuordnungen von Fragen und Antworten, ohne dass der Sprachassistent die Bedeutung verstehen oder angeben könnte, warum er eine Frage so – und nicht anders – beantwortet. Menschen können einen Sachverhalt auf verschiedene Weisen erklären, bis er verstanden worden ist. Lernprogramme auf Computern und Lernvideos sind grandios daran gescheitert, dass eine schlechte Erklärung nicht verständlich wird, indem man sie wieder und wieder anhört oder anschaut.

Ende der 70er Jahre war ich bereits fest davon überzeugt, dass es KI niemals gelingen kann, natürliche Sprachen zu simulieren oder 'denkende' Maschinen zu erschaffen. Dank einer exponentiellen Steigerung der Rechenleistung von Computern, die damals nicht absehbar war, kann KI inzwischen blitzschnell gigantische Datenmengen auf der syntaktischen Ebene verarbeiten, wodurch der Eindruck entsteht, Menschen und Maschinen führten ein Gespräch auf Augenhöhe. Dabei wird übersehen, dass die Fragen, die Sprachassistenten beantworten und selber zu stellen in der Lage sind, über einfache Schwellen nicht hinausgelangen. Um Fragen überhaupt adäquate Antworten zuordnen zu können, müssen die Situationen drastisch reduziert, ja am besten fixiert werden. Der Rest besteht aus Gegenfragen, die verbergen sollen, dass die Maschine keine Ahnung hat, wonach gefragt wird, weil in dem betreffenden Kontext ('Flughafen') die Zuordnung einer Antwort schlicht daran scheitert, dass die zugehörige Frage – rein syntaktisch – nicht vorgesehen war und daher auch nicht hinterlegt wurde ('Wo kann ich hier Maultaschen kaufen?'). Auch digitale Diktiersysteme sind bis heute nur in dem Masse brauchbar, wie sie sich auf bestimmte Anwendungsbereiche (etwa in der Medizin) spezialisieren und vom Vokabular her auf eine überschaubare Anzahl von Situationen vorbereitet sind, was für die Spracherkennung immer eine wichtige Voraussetzung bleiben wird.

Maschinen sind immer nur so intelligent wie ihre Programmierer. Da kann es dann schon einmal vorkommen, dass nach der Vorselektion von Bewerbern durch ein Computerprogramm keine Frauen zu Vorstellungsgesprächen eingeladen werden, dass Gesichtserkennungssoftware Dunkelhäutige für Gorillas hält oder dass Piloten hilflos dabei zusehen müssen, wie Software ihr Flugzeug zum Absturz bringt. Mittlerweile wird vermeintlich 'objektiven' Algorithmen sogar nachgewiesen, dass sie die rassistischen, frauenfeindlichen, homophoben etc. Vorurteile und Gesinnungen ihrer Programmierer reproduzieren und dabei leider einen viel grösseren Wirkungsgrad erzielen als diese selbst.

So wenig, wie 'intelligente Maschinen' jemals werden denken können, so sehr wird ihre Funktionsfähigkeit und ihre Lernfähigkeit auf die Ebene der Syntax beschränkt bleiben, wo 'nur Zeichen hin- und hergeschoben werden', wie John Searle es ausdrückte. Das ist die Ebene, auf der Zeichen und Laute nach festen Regeln funktionieren, die von KI optimiert oder besser genutzt werden können. Was aber an der Oberfläche als qualitative Verbesserung wahrgenommen wird, ist tatsächlich nur das Ergebnis einer quantitativen Steigerung: einer immer schnelleren Verarbeitung immer grösserer Datenmengen. Wir lassen uns also etwas vormachen. Nicht alles, was wie ein Mensch an einem Gespräch 'teilnimmt' (und dabei noch so viele Sensoren einsetzt), kann auch denken oder hat die Fähigkeit, mit komplementären Sinnen komplexe Situationen zu erfassen.

Man mag für sich entscheiden, ob man seine Privatsphäre aufgibt, um sich auf Zuruf simple Antworten auf simple Fragen liefern zu lassen (ähnlich wie man einen Hund herumkommandiert, der auch nicht versteht, warum er das gerade machen soll, was von ihm verlangt wird). Sprachassistenten sind Teil der mündlichen Kultur – mit allen damit einhergehenden Einschränkungen. Menschen, die gut schreiben und lesen können, kommen ohne solche Helfer aus und entwickeln oft Aversionen gegen sie, weil sie die Kommunikation unnötig aufblähen. Warum soll ich mir eine Sprachnachricht anhören, die mir in fünf Minuten erzählt, was ich auch in zwei, drei Sätzen lesen kann?

Aus den genannten Gründen werden 'intelligente Maschinen' uns auch künftig nur Arbeitsprozesse abnehmen oder erleichtern, die sich automatisieren lassen. Kommunikation, bei der es darauf ankommt, dass alle Beteiligten die jeweilige Kommunikationssituation in ihrer ganzen Komplexität erfassen und vor diesem Hintergrund auch den Inhalt eines Gesprächs verstehen können, wird niemals dazugehören. Die gute Nachricht ist also, dass wir es selbst in der Hand haben, ob wir durch die Digitalisierung von Arbeitslosigkeit bedroht werden: wir sollten früh und lebenslang maximal in Bildung investieren, gut lesen und schreiben können, uns möglichst viel Wissen über die Welt aneignen, das wir dann nie wieder googeln müssen. Nur dadurch können wir auch komplexere Zusammenhänge erkennen und herstellen… Erst dadurch sind wir in der Lage, zu begreifen, dass es keine Option ist, wenn wir uns jetzt alle zu Programmierern ausbilden lassen, womöglich schon als Kleinkind. Und wir können besser – als vielleicht mancher Programmierer – die Gefahren und Nebenwirkungen wahrnehmen und einschätzen, die von Künstlicher Intelligenz ausgehen… und uns an entsprechenden Gegenmassnahmen beteiligen.

Digitale Sprachassistenten sind bloss geschickt darin, bei uns den Eindruck zu erwecken, sie würden die Gespräche mit uns auch verstehen, doch tatsächlich machen sie nur das, was ihre Software ihnen vorschreibt: sie schieben Zeichen hin und her. Wir dürfen uns davon nur nicht beeindrucken lassen…

Als Ergänzung und zur Vertiefung empfehle ich – neben dem erwähnten Gespräch von Wolfram Eilenberger mit John Searle über den Sinn des Bewusstseins – die Diskussion von Yves Bossart mit dem Wissenschaftsjournalisten Ranga Yogeshwar in einer aktuelleren Sendung der 'Sternstunde Philosophie', zum Thema 'Künstliche Intelligenz – Was bringt die Zukunft?'. Das Gespräch von Wolfram Eilenberger mit dem Soziologen Armin Nassehi, ebenfalls in der Sternstunde Philosophie, beleuchtet unter dem Titel 'Digitalisierung verstehen' die Probleme, auf welche 'Digitalisierung' – in einem weiteren Sinne – schon vor bald 250 Jahren in den nachrevolutionären Industriegesellschaften die Antwort war. Da sind viele interessante, neue Einsichten dabei…

***

09.02.2022: Am 29.01.2022 erschien in der NZZ ein Beitrag von Ruth Fulterer mit dem Titel Warum automatische Übersetzer so gut funktionieren. Mit künstlicher Intelligenz lassen sich Sprachbarrieren überwinden. Die beste Software kommt nicht von Google, sondern aus Köln. Der Beitrag handelt von Fortschritten bei der automatischen Übersetzung am Beispiel der Online-Plattform DeepL, die auch ich vor einiger Zeit für mich entdeckt habe. Die Ergebnisse sind in der Tat erstaunlich: die Sprache eines eingegebenen Quelltextes wird meistens sofort erkannt, und besonders gut übersetzt dieses Online-Werkzeug meistens dann, wenn ein ganzer Satz oder ein sprachlicher Ausdruck, bestehend aus einer Abfolge von mehreren Wörtern, eingegeben wird. Wie aber passt diese offenbar laufend verbesserte Fähigkeit zu der in meinem Beitrag entwickelten These, dass sich KI bei menschlicher Sprache ausschliesslich auf der Zeichenebene (Syntax) bewegt und niemals mit der Ebene der Semantik, also den Bedeutungen syntaktischer Gebilde, oder gar mit der Ebene der Pragmatik, also der Bedeutung syntaktischer Gebilde in konkreten Situationen in Berührung kommen wird?

DeepL ist vor dem Hintergrund meiner Ausführungen ein gutes Beispiel dafür, in welche Richtung die Reise gehen wird: auch die Algorithmen und die sogenannten neuronalen Netze agieren ausnahmslos auf der syntaktischen Ebene, deren beschränkte Möglichkeiten sie aber mit immer höherem Aufwand immer besser ausreizen. Sie vergleichen – und korrelieren – nicht mehr nur einzelne Wörter oder einfache Sätze, sondern inzwischen auch komplexere syntaktische Gebilde und sogar kleinere Absätze. Während sich das isolierte Wort 'Schloss' nicht eindeutig einer Bedeutung – und somit auch nicht eindeutig der Entsprechung in einer anderen Sprache – zuordnen lässt, trifft dies schon nicht mehr in gleicher Weise auf das 'Schloss in den Bergen' zu.  Und selbst bei dem Satz 'Ich habe mein Schloss in den Bergen verloren' unterscheiden sich die möglichen Bedeutungen zumindest hinsichtlich ihrer Wahrscheinlichkeit. Wenn die einzelnen Wörter einer Sprache schon umfangreiche Enzyklopädien füllen, dann kann man sich ausmalen, welche gigantischen Datenmengen verarbeitet werden müssen, wenn nun auch komplexere syntaktische Gebilde (etwa 'Hat die Mutter einen Defekt?') bei der Zuordnung von Fragen und Antworten (Alexa etc.) bzw. bei der Zuordnung von Quelltexten und Zieltexten – in mehreren Sprachen – hinterlegt und abgeglichen werden. DeepL bietet bereits 26 Zielsprachen an, wobei sogar amerikanisches und britisches Englisch sowie Portugiesisch und brasilianisches Portugiesisch unterschieden werden. Und damit dabei auch nichts schiefläuft, sind vermutlich jede Menge qualifizierter Übersetzer im Einsatz, um KI an all den Stellen auf die Sprünge zu helfen, wo sie an ihre Grenzen stösst. Etwa, wenn manuell dem englischen 'it sounds greek to me' das deutsche 'das kommt mir spanisch vor' oder das französische 'c'est de l'hébreu pour moi' zugeordnet werden muss. Aber trotz aller statistischen Unwahrscheinlichkeit kann in jedem konkreten Einzelfall dennoch die wörtliche Übersetzung die richtige sein.

Ohne professionelle Übersetzer und Dolmetscher werden wir auch in Zukunft nicht auskommen: beim Dolmetschen scheitert KI zwangsläufig, weil die Bedeutung vieler Äusserungen erst in der konkreten Situation entsteht, die wiederum in der Äusserung selbst gar nicht enthalten ist. Auch bei längeren und komplexeren Texten ist KI chancenlos, weil sie keine Muster erkennen kann. Entweder gibt es – noch – keine Vergleichstexte, oder ein Text – wie etwa das Extrembeispiel Ulysses von James Joyce, für dessen Übersetzung in die deutsche Sprache Hans Wollschläger ganze acht Jahre gebraucht hat – lässt sich nur mit Hilfe eines umfangreichen Hintergrundwissens in Sinn überführen und angemessen übersetzen. Insofern sind die Fortschritte von Deep Learning beim schriftlichen Übersetzen zwar beachtlich und erfreulich. Eine echte Hilfe stellt DeepL aber nur für professionelle Übersetzer dar, die das fachliche und das sprachliche Wissen mitbringen, um ein solches Online-Werkzeug sinnvoll nutzen und die Brauchbarkeit seiner Vorschläge beurteilen zu können. Wo immer es darauf ankommt, dass korrekt – und nicht bloss irgendwie – übersetzt wird, haben Dolmetscher und Übersetzer auch in Zukunft von KI rein gar nichts zu befürchten… Alle anderen laufen dagegen Gefahr, sich mit der Weitergabe automatisch generierter Nonsense-Texte lächerlich zu machen, ohne es zu merken…

Nicht zu unterschätzen ist in diesem Zusammenhang, dass Plattformen wie DeepL die eingegebenen Texte bei sich speichern… natürlich nur, um daraus zu lernen und noch besser zu werden… Mit der Länge der eingegebenen Quelltexte steigt automatisch die Gefahr einer Verletzung des obligatorischen Datenschutzes, dem professionelle Übersetzer unterliegen. In der Konsequenz kann dies paradoxerweise bedeuten, dass gerade die Anwender, die überhaupt fähig sind, einen echten Nutzen aus Plattformen wie DeepL zu ziehen, durch rechtliche Auflagen genau davon abgehalten werden…

Zur Lektüre empfehle ich die Gedanken des Übersetzungsprofis Marc Prior aus Wuppertal zum Thema, die meine Ausführungen ergänzen und bestätigen, aber auch ein hervorragendes Beispiel dafür sind, wie man sich in der Branche auf sehr hohem Niveau der Herausforderung stellt und seine eigenen Übersetzungen mit überzeugenden Argumenten von maschinellen Scheinübersetzungen abgrenzt…

Marc Prior: Gedanken zur maschinellen Übersetzung (2022)

08.02.2023: Ende November 2022 hat das amerikanische Unternehmen OpenAI ein Programm namens ChatGPT veröffentlicht, das seitdem viel Staub aufwirbelt, weil es Menschen fasziniert und/oder entsetzt. Es geht um die bisher am weitesten reichende Leistungsschau Künstlicher Intelligenz bei der Erzeugung von Texten in menschlicher Sprache in Reaktion auf sprachliche Inputs (Fragen, Aufforderungen). Und wieder geistert die Vorstellung – und auf seiten der kommerziellen Hersteller der Wunsch – umher, KI könne denken und sprechen wie ein Mensch. Dabei hat sich an der Grundsituation, die ich im Beitrag oben dargelegt habe, nichts geändert. GPT steht für 'Generative Pretrained Transformer', also für ein vorab trainiertes Umwandlungsprogramm, das Inhalte erzeugt. Durch die oben beschriebene Entwicklung, in immer kürzerer Zeit immer grössere Datenmengen verarbeiten zu können, lassen sich auch immer komplexere Texte als Antworten generieren, wie schon der Vorläufer Deep Learning zeigt. Die Antworten der Software können inhaltlich zutreffen – oder falsch,  ja sogar kompletter Unsinn sein. Das wird sich nach meiner Überzeugung auch niemals ändern, weil KI nur auf der Zeichenebene operiert. Der fehlende Zugang zu den Ebenen der Bedeutungen (Semantik) und der Bedeutungen in konkreten Situationen (Pragmatik) mangels der menschlichen Fähigkeit, die wir 'Bewusstsein' nennen, lässt sich nicht künstlich herstellen oder kompensieren. Warum dann also diese Aufregung? Offensichtlich verdanken sich die Faszination und das Entsetzen gleichermassen der Schwierigkeit bzw. dem Unvermögen, zu erkennen, ob die automatisch erzeugten Antworten richtig, falsch oder einfach nur unsinnig sind. Insofern sagen die Reaktionen – von totaler Begeisterung über Beklemmung bis hin zu blankem Entsetzen – mindestens ebensoviel über die Menschen aus wie über die Maschinen. In immer grösserem Masse wird umfangreiches, fundiertes Wissen zur Voraussetzung für den Umgang mit den Erzeugnissen von KI, die uns mittlerweile überall – im Internet – begegnen und als solche oft gar nicht erkannt werden. Und genau dieses Wissen ist leider bei immer weniger Menschen anzutreffen, weil die Bildungssysteme in den letzten Jahrzehnten weitgehend versagt haben. So langsam werden die Folgen greifbarer, auf die reagiert werden muss. Wenn etwa befürchtet wird, dass bei Tests an Schulen oder wissenschaftlichen Arbeiten nicht mehr erkennbar sein könnte, ob sie Ergebnis individueller menschlicher Denkleistungen sind – oder automatische Erzeugnisse eines Computerprogramms. Prüfungen werden sich wegbewegen müssen vom blossen Abfragen von – automatisch reproduzierbaren – Fakten hin zu Aufgabenstellungen, die kreative Lösungen und eigenständige Reflexionen stimulieren. Und wo dies nicht möglich ist, etwa im Bereich der Mathematik, können Tests nur noch in physischer Anwesenheit unter wachsamer Aufsicht durchgeführt werden. Auf diese Weise verändern sich nicht nur die Prüfungen, sondern auch der auf sie vorbereitende Unterricht, die Lernziele, die Lerninhalte und die Methoden. Und so werden die nachfolgenden Generationen auch wieder vorbereitet auf eine aktive und kompetente Teilnahme an einer Gesellschaft mit immer höheren Anforderungen. Dann hält sich ganz sicher auch die Begeisterung für KI wieder in überschaubaren Grenzen… und das Entsetzen weicht einer grösseren Wachsamkeit und Vorsicht gegenüber dem Missbrauch und negativen Auswirkungen von KI. Ich finde, wir lassen uns immer noch viel zu sehr von KI beeindrucken… die sich letztlich doch nur in den beschränkten Horizonten ihrer Entwickler bewegt.

Eine der dringendsten und wichtigsten Aufgaben der nächsten Jahre wird es sein, Wege zu finden, wie der ganze Datenmüll, den KI – auch – in Sekundenbruchteilen erzeugt, wieder entsorgt werden kann, sonst wird das Internet von Minute zu Minute unbrauchbarer und werden unsere Wissensgesellschaften an diesem Datenmüll ersticken und zugrundegehen. Darüber hinaus sind Haftungsfragen zu klären, denn es werden – z.T. grosse – Schäden entstehen und Menschen ihr Leben verlieren, wenn KI falsche Informationen liefert und/oder falsche Handlungsanweisungen gibt, die als solche nicht rechtzeitig erkannt werden. Denn die Situationen werden zunehmen, in denen die Kompetenz und/oder die Zeit für eine Überprüfung der Aussagen bzw. der Anweisungen von KI nicht ausreichen. In den aktuellen Diskussionen wird der Aspekt der Überprüfungskompetenz, die jetzt schon – fast – überall fehlt, genauso wie bei Deep Learning allenfalls oberflächlich gestreift. Auch die sich wieder häufenden Forderungen nach stärkerer Vermittlung von Medienkompetenz in den Schulen bleiben inhaltlich absolut unterbelichtet und unscharf, als wären alle Probleme von KI und Internet bereits mit einer besseren Kenntnis der Gefahren zu vermeiden… Nur der Mensch, der KI programmiert, einsetzt oder ausgesetzt ist, entscheidet mit seinem Wissen aktiv oder passiv darüber, ob das Resultat Individuum und Gesellschaft zum Vorteil oder zum Nachteil gereicht. Zwar werden in den Algorithmen schon jetzt rote Linien eingezogen, die etwa verhindern sollen, dass KI Anleitungen zum Bau tödlicher Waffen liefert… doch da KI nur auf der Zeichenebene operiert, kann man sie mit sprachlichem Geschick, Intelligenz und krimineller Energie trotzdem dazu überlisten, genau diese roten Linien zu überschreiten… Um so aktueller erscheint, was Goethe schon 1797 in seiner berühmten Ballade schrieb: Herr, die Not ist groß! / Die ich rief, die Geister, / werd ich nun nicht los.

13.05.2023: Zunehmend Sorgen bereitet mir die – leider oft inkompetente – Berichterstattung über Online-Übersetzungswerkzeuge, die anscheinend wie Pilze aus dem Boden schiessen. Anlass für diesen Nachtrag ist der folgende Satz aus einem aktuellen Beitrag des itmagazine.ch: 'Wie die Konkurrenz nutzt auch Textshuttle eine KI-basierte Software, die den Text nicht nur übersetzt, sondern auch versteht und somit in der Übersetzung ähnliche Wörter und Synonyme vorschlagen kann'Es ist schlimm, wenn der ahnungslose Autor der Überzeugung ist, KI könnte Texte verstehen wie ein Mensch. Schlimmer allerdings ist die abschreckende Wirkung, die von solchen Falschaussagen ausgeht. Wie soll sich jemand, der vor der Berufswahl steht und solche Berichte liest, noch für den Beruf des Dolmetschers und Übersetzers entscheiden? Dabei kann man heute schon wissen, dass solche Übersetzungswerkzeuge ohne die Sachkompetenz und die Sprachkompetenz ausgebildeter Profis völlig stumpf bleiben – und mehr schaden als nützen. Denn auch die besprochene Software Textshuttle scheitert schon an einfachen Sätzen wie 'Ich verstehe nur Bahnhof'. Wenn die Berichterstattung so weitergeht, werden die Berufe des Übersetzers und Dolmetschers aussterben. Und was dann? Werden wir uns dann sprachlich – und gedanklich – nur noch auf dem schlichten, oberflächlichen Niveau bewegen, das Übersetzungssoftware vorgibt, weil sie nur Zeichen hin- und herschieben kann? Schliesslich hat Wilhelm von Humboldt uns gelehrt, dass Sprache die Weltsicht bedingt. Wir müssen endlich begreifen, dass in der Sache inkompetente Berichterstattung fatale Nebenwirkungen haben kann und tatsächlich hat, gerade wenn ihre Autoren sich von Künstlicher Intelligenz beeindrucken lassen. Sie müssen endlich erkennen, welche Verantwortung sie tragen, und daraus die nötigen Schlussfolgerungen ziehen. Was Sprachkompetenz und Denkvermögen angeht, sind wir auf einem gefährlichen Weg in die Unterkomplexität… während die Welt um uns herum immer komplexer wird und uns zunehmend mit Problemen konfrontiert, für die es keine schlichten Lösungen gibt. Es wird Zeit,  die unterschätzten Nebenwirkungen der Digitalisierung in einem eigenen Beitrag darzulegen.

Hier noch ein Beitrag aus der Praxis, mit vernichtenden Urteilen von Technikphilosophen am Ende, aber auch mit einer häufig anzutreffenden Einstellung des 'Noch nicht' der beiden Autoren, die zwar  Beispiele für  die generelle Beschränktheit von KI erwähnen, ohne sie jedoch als solche zu erkennen. Auch hier findet bei der Beschreibung und bei der Beurteilung unbewusst eine Art Vermenschlichung von KI statt, die insgesamt eher ein admiratives Verhältnis als eine kritische Distanz erkennen lässt: https://www.br.de/nachrichten/netzwelt/chatgpt-schafft-die-ki-das-bayerische-abitur

Veröffentlicht von Armin Biermann 5 Jahren vor, 24.6.2019

Abgelegt in: Allgemein

2 Antworten zu “Künstliche Intelligenz und natürliche Sprachen”

  1. Werner
    3. Juli 2019 at 19:38

    Hoi Armin
    Brilliant wie immer. Danke Dir.
    Aber: Was passiert wenn die Spracherkennung mit weiteren Daten über den Sprechenden verknüpft wird? Die Maschine also weiss wer man ist, was man arbeitet (google), was die Hobbys (facebook), die Interessen (google) und dergleichen mehr sind? Dann ist sie nämlich am Punkt wo sie doch sehr genau weiss, was ich persönlich mit „Absatz“ meine … . Wunderbares Profiling 🙂
    Lieber Gruss
    Werner

  2. Hugo Düggelin
    25. Juni 2019 at 17:35

    Interessant, das mit den 3 Ebenen und der Begründung, warum es für Maschinen schwierig ist, die sprachliche Intelligenz der Menschen zu erfassen. Ich gehe mit dem Autor einig und bin froh darüber, dass uns Maschinen nicht so schnell sprachlich ebenbürtig sein können. Allerdings könnten wir diesbezüglich erst am Anfang stehen: Was ist in den letzten 30 Jahren doch alles möglich geworden, von dem wir uns vorher keine Vorstellung machen konnten! Was mich tröstet ist, dass die Maschinen wohl die „einfachen“ Arbeiten übernehmen, aber die „intelligenten“ den Menschen überlassen müssen!

Kommentare sind geschlossen.