Tokens & Kontextfenster

Bevor ein LLM deinen Text verarbeiten kann, muss es ihn in kleinere Einheiten zerlegen. Diese Einheiten heißen Tokens – und sie bestimmen, was ein Modell leisten kann und was es kostet.

Was sind Tokens?

Ein Token ist nicht immer ein ganzes Wort. Je nach Sprache und Wortlänge kann ein Token ein Wort, ein Wortteil oder ein einzelnes Zeichen sein.

Beispiele mit medizinischen Begriffen:

Text	Tokens	Anzahl
Husten	`Husten`	1 Token
Blutdruck	`Blut` + `druck`	2 Tokens
Aortenklappeninsuffizienz	`A` + `orten` + `klappen` + `insuff` + `izienz`	5 Tokens
Ibuprofen 400mg	`Ib` + `uprofen` + `400` + `mg`	4 Tokens

Faustregel für deutsche Texte: 1 Token entspricht etwa 3/4 eines Wortes. Ein typischer Arztbrief mit 500 Wörtern verbraucht also ca. 650–700 Tokens.

Warum sind Tokens wichtig?

Kosten

Die meisten KI-Anbieter rechnen pro Token ab – sowohl für deine Eingabe (Input) als auch für die Antwort (Output). Ein kurzer Prompt kostet weniger als ein langer. Eine ausführliche Antwort kostet mehr als eine knappe.

Geschwindigkeit

Je mehr Tokens verarbeitet werden, desto länger dauert die Antwort. Kurze, präzise Eingaben führen zu schnelleren Ergebnissen.

Das Kontextfenster

Das Kontextfenster (englisch: Context Window) ist die maximale Menge an Tokens, die ein Modell gleichzeitig verarbeiten kann. Es ist wie der Schreibtisch des Modells – alles, was darauf liegt, kann es sehen. Was nicht drauf passt, existiert für das Modell nicht.

Wie groß ist ein Kontextfenster?

Modell	Kontextfenster	Entspricht ungefähr
GPT-3 (2020)	4.096 Tokens	5 Seiten Text
GPT-4o (2024)	128.000 Tokens	Ein kurzes Fachbuch
Claude (2025)	bis zu 1.000.000 Tokens	Mehrere Lehrbücher

Was zählt alles zum Kontext?

Alles, was das Modell gleichzeitig “sieht”, belegt Platz im Kontextfenster:

Dein Prompt – die aktuelle Frage oder Anweisung
Der bisherige Gesprächsverlauf – alle vorherigen Nachrichten
System-Anweisungen – versteckte Instruktionen im Hintergrund
Die Antwort des Modells – auch die wird Token für Token generiert und belegt Platz

Das bedeutet: In einem langen Gespräch wird der verfügbare Platz für neue Inhalte immer kleiner.

Was passiert, wenn der Kontext voll ist?

Wenn das Kontextfenster ausgeschöpft ist, gehen ältere Teile des Gesprächs verloren. Das kann dazu führen, dass:

Frühere Anweisungen plötzlich ignoriert werden
Das Modell sich widerspricht
Wichtige Details aus dem Anfang des Gesprächs vergessen werden

Praxisbeispiel

Du möchtest eine aktuelle DEGAM-Leitlinie (30 Seiten, ca. 40.000 Tokens) in ein LLM laden und Fragen dazu stellen. Das passt bei den meisten modernen Modellen problemlos ins Kontextfenster. Aber: Wenn du danach in demselben Chat noch drei weitere Leitlinien nachlädst und ein einstündiges Gespräch darüber führst, wird es irgendwann eng.

Tipp: Bei Themenwechseln lieber einen neuen Chat starten, als ein endlos langes Gespräch zu führen. So nutzt du das Kontextfenster optimal.

Zusammenfassung

Tokens sind die Grundeinheit, in der KI-Modelle Text verarbeiten. Sie bestimmen Kosten und Geschwindigkeit. Das Kontextfenster begrenzt, wie viel Text ein Modell gleichzeitig verarbeiten kann – inklusive Eingabe, Gesprächsverlauf und Antwort. Wer beides versteht, kann KI-Werkzeuge effizienter und kostenbewusster einsetzen.