Im Detail: Wie funktioniert Künstliche Intelligenz?

© Adobe Stock
Funktionsweise von KI
Künstliche Intelligenz arbeitet nicht mit Wörtern, sondern mit Zahlen. Um zu verstehen, wie KI funktioniert, müssen wir uns vorstellen, wie sie die Welt „sieht“ – nämlich als eine riesige Ansammlung von Zahlen und mathematischen Beziehungen.
Nehmen wir als Beispiel den Satz „Ich mag Erdbeeren“. Für uns Menschen ist die Bedeutung klar, aber eine KI sieht zunächst nur eine Reihe von Symbolen. Um damit arbeiten zu können, wandelt sie diese Symbole in Zahlen um. Dieser Prozess wird als Tokenisierung bezeichnet. Jedes Wort oder sogar jeder Buchstabe wird zu einem „Token“, einer Art digitales Etikett.
Wird in einem KI-Prompt das Wort Erdbeere verwendet, wird das zunächst in eine Reihe von Token umgewandelt. Im Fall von OpenAIs GPT-4 wird das Wort beispielsweise in vier Token aufgeteilt. Die lauten: E, rd, be und ere. Alle vier Token entsprechen wiederum einem eigenen Zahlenwert, mit denen das KI-Modell dann arbeiten kann. Während das Wort Erdbeere für uns ganz klar aus acht Buchstaben besteht, von denen vier der Buchstabe E sind, besteht das Wort aus Sicht von GPT-4 aus den Token-IDs 36, 6.634, 1.395 und 486. Damit wiederum kann das Sprachmodell etwas anfangen, weil es die statistische Verbindung dieser Token untereinander antrainiert bekommen hat, um so den jeweils nächsten Token in einer Reihe zu erzeugen (siehe: Wie oft steckt das E im Wort Erdbeere? Deshalb scheitern KI-Modelle so oft an einer simplen Frage (t3n.de)).
Diese Token werden dann in Vektoren umgewandelt – lange Listen von Zahlen, die verschiedene Eigenschaften repräsentieren. So könnte „Erdbeere“ durch den Vektor [0.2, 0.7, 0.1, 0.9] dargestellt werden, wobei jede Zahl eine bestimmte Eigenschaft wie „Farbe“, „Form“, „Essbarkeit“ oder „Süße“ repräsentieren könnte.
Die KI lernt dann, mit diesen Zahlenlisten zu arbeiten. Sie sucht nach Mustern und Beziehungen zwischen den Vektoren. Wenn sie oft genug sieht, dass „Ich mag“ zusammen mit Dingen wie „Erdbeeren“, „Sonne“ oder „Lächeln“ auftaucht, lernt sie, dass diese Kombination wahrscheinlich etwas Positives bedeutet.
Hochdimensionale Vektorräume
Auf einer fortgeschritteneren Ebene arbeitet KI mit hochdimensionalen Vektorräumen. Jedes Wort oder Konzept wird als ein Punkt in diesem mehrdimensionalen Raum dargestellt. Die Position des Punktes wird durch seinen Vektor bestimmt.
Nehmen wir ein Beispiel mit Ländern und Hauptstädten. Deutschland könnte durch den Vektor [1, 0, 1, 0] und Berlin durch [1, 0, 0, 1] repräsentiert werden. Diese Vektoren könnten Eigenschaften wie [europäisches Land, amerikanisches Land, hat eine Mauer in der Geschichte, ist eine Hauptstadt] darstellen. Ähnlich könnten die USA als [0, 1, 0, 0] und Washington als [0, 1, 0, 1] repräsentiert werden (siehe: https://learn.microsoft.com/de-de/azure/cosmos-db/gen-ai/vector-embeddings und https://www.intersystems.com/de/resources/was-sind-vektordatenbanken-und-wie-funktionieren-sie/ ).
KI-Systeme lernen, Beziehungen zwischen diesen Vektoren zu erkennen. Sie könnten feststellen, dass der Unterschied zwischen den Vektoren von Deutschland und Berlin ähnlich ist wie der zwischen den USA und Washington, und daraus die Beziehung „Hauptstadt von“ ableiten (siehe: https://www.databricks.com/de/glossary/vector-database).
In neuronalen Netzen durchlaufen diese Vektoren mehrere Schichten von „Neuronen“, mathematische Funktionen, die die Eingabedaten transformieren. Jede Schicht führt eine Reihe von Berechnungen durch, wobei die Ergebnisse einer Schicht als Eingabe für die nächste dienen. Diese Berechnungen basieren auf gelernten „Gewichten“, Zahlen, die während des Trainingsprozesses optimiert werden.
Das Training selbst erfolgt durch Algorithmen wie Backpropagation, die die Modellparameter schrittweise anpassen, um die Vorhersagefehler zu minimieren. Wenn das Modell beispielsweise „Ich mag Äpfel“ als negativ klassifiziert, würde es seine internen Parameter leicht anpassen, um beim nächsten Mal eine positivere Bewertung zu geben.
Fortgeschrittene Techniken wie Attention-Mechanismen ermöglichen es Modellen, sich auf relevante Teile der Eingabe zu konzentrieren. Bei der Verarbeitung des Satzes „Der Film war großartig, aber das Ende war enttäuschend“ könnte ein Attention-Mechanismus den Wörtern „großartig" und „enttäuschend“ mehr Gewicht geben, um die Gesamtstimmung genauer zu erfassen.
Die Leistungsfähigkeit moderner KI-Systeme beruht auf ihrer Fähigkeit, komplexe Muster in großen Datenmengen zu erkennen und zu generalisieren. Dies wird durch massive Parallelverarbeitung in spezialisierten Hardwaresystemen wie GPUs ermöglicht, die Millionen von Berechnungen gleichzeitig durchführen können.
Trotz ihrer Komplexität basieren KI-Systeme letztendlich auf der sorgfältigen Anwendung statistischer und optimierungstechnischer Prinzipien. Sie „verstehen“ die Welt nicht in dem Sinne, wie wir es tun, sondern sie erkennen und reproduzieren statistische Muster in den Daten, mit denen sie trainiert wurden.