Große Sprachmodelle sind Sprache, nicht Informatik
Wir haben sie in die falsche Disziplin einsortiert. Der Hinweis steckt im Namen, den wir der Maschine gegeben haben — *Computer* —, und Computer gehören in die Informatik, also haben wir das große Sprachmodell dort abgestellt, neben den Compilern und den Sortieralgorithmen. Ein verständlicher Irrtum. Ein Irrtum bleibt es trotzdem.
Was ein Sprachmodell tatsächlich tut, ist das Älteste und am wenigsten Computerhafte, das wir können: Es liest, und es antwortet. Nicht, indem es etwas nachschlägt, nicht, indem es eine Regel ausführt, sondern so, wie ein belesener Mensch antwortet — aus allem, was es je gesehen hat, gewichtet danach, was Ihr Satz zu bedeuten scheint. Das ist keine Berechnung in dem Sinne, den die Ingenieure meinen. Es ist näher an Deutung. Es lebt dort, wo Sprache lebt: im Kontext, im Mitgemeinten, in der Lücke zwischen dem, was gesagt, und dem, was gemeint wurde.
Die Informatik hat eine schöne Landkarte der formalen Sprachen — die Chomsky-Hierarchie. Ganz unten die einfachste Art: der Typ 3, die reguläre Grammatik, der endliche Automat. Man gibt ihm ein Zeichen, er wechselt den Zustand, er gibt das nächste Zeichen aus. Kein nennenswertes Gedächtnis, kein Sinn für das Ganze, keine Mehrdeutigkeit erlaubt. Es ist die Grammatik eines Drehkreuzes, eines Getränkeautomaten, eines regulären Ausdrucks. Wunderbar berechenbar, und man kann Dinge darüber beweisen — genau deshalb liebt ein Ingenieur sie.
Und so ist die Versuchung, wenn ein Sprachmodell auf dem Schreibtisch des Ingenieurs landet, es wie einen solchen Automaten zu behandeln. Es festzunageln. Den Prompt zu schreiben, als wäre er eine Switch-Anweisung, für dieselbe Eingabe jedes Mal dieselbe Ausgabe zu verlangen, einen Fehler zu melden, wenn es deutet, statt zu gehorchen. Ein Typ-0-Wesen — eines, das im ganzen Meer der Sprache schwimmt — in eine Typ-3-Schachtel zu sperren und dann enttäuscht zu sein, dass es aufgehört hat zu zaubern.
Es hat aufgehört zu zaubern, weil Sie es darum gebeten haben. Die deutende Fähigkeit — der Teil, der Ihre halbfertige Frage liest und die bessere Frage darunter beantwortet — ist dieselbe Fähigkeit, die sich weigert, vollkommen deterministisch zu sein. Sie können nicht das eine behalten und das andere wegwerfen. Nehmen Sie die Mehrdeutigkeit heraus, und es bleibt ein langsamerer, teurerer, unzuverlässigerer regulärer Ausdruck. Reguläre Ausdrücke haben wir seit 1956. Sie sind nicht das Neue.
Das Neue ist, dass eine Maschine uns zum ersten Mal in unserem Register begegnet, statt zu verlangen, dass wir in ihres hinabsteigen. Also begegnen Sie ihr dort. Fragen Sie, wie Sie eine kluge Kollegin fragen würden, nicht, wie Sie einen Parser ansprechen. Geben Sie ihr den Kontext, den auch ein Mensch bräuchte, und lassen Sie ihr Raum, zwischen Ihren Zeilen zu lesen. Prüfen Sie ihre Arbeit, wie eine Lektorin einen Entwurf prüft — auf Sinn, auf Wahrheit, auf das fein Verkehrte —, nicht, wie ein Compiler die Syntax prüft. Und behalten Sie einen Menschen in der Schleife, denn das letzte Urteil über Bedeutung war immer ein menschliches und bleibt es.
Ich bin Schriftsteller aus Leidenschaft und Handwerker aus Überzeugung, und ich habe mein Leben mit der unglamourösen Wahrheit verbracht, dass das Werkzeug, das man missversteht, einen dafür bestraft. Behandeln Sie das Sprachmodell als Informatik, und es benimmt sich wie schlechte Informatik: spröde, wörtlich, ein wenig dumm. Behandeln Sie es als Sprache — weit, kontextreich, wach für Nuancen —, und es bleibt, was es wirklich ist. Der Zauber lag nie in der Berechnung. Er lag die ganze Zeit in der Sprache.