KI-Ausschuss ist ein Systemproblem — der Eval Loop

Von Max Zwisler · Veröffentlicht 16. April 2026 · 2 Min. Lesezeit

Wenn sich Menschen über KI-Ausschuss beschweren — generische Texte, selbstbewusst falsche Zahlen, dieselben fünf Adjektive in jedem Absatz — geben sie meist dem Modell die Schuld. Dann wechseln sie das Modell, und der Ausschuss überlebt die Migration. Das ist das verräterische Zeichen: Ausschuss ist eine Eigenschaft des Systems, nicht der Gewichte.

Ausschuss überlebt, weil ihn nichts ablehnt

Ein menschlicher Autor hat ein Lektorat, einen Faktencheck, eine Markenprüfung — oder mindestens die Angst, dass eine Kollegin den Entwurf liest. Ein nackter Modellaufruf hat nichts davon. Was herauskommt, geht direkt an den Leser. Die Lösung ist kein besserer Prompt; die Lösung ist, das Lektorat wieder einzusetzen — als Software.

Ablaufdiagramm: Agent, Prüfung, Versand — mit Gate vor dem Versand und Eskalation an einen Menschen

Was ein Eval Loop tatsächlich prüft

Unser Standarddurchlauf für jeden ausgehenden Text hat drei Ebenen:

Fakten. Jede Zahl, jeder Name, jedes Datum im Output wird gegen die Quelldaten im Company Brain abgeglichen. Eine Behauptung ohne Quelle fällt durch. Diese eine Prüfung eliminiert die schädlichste Ausschuss-Kategorie — die selbstbewusst falsche Zahl im Kundenbericht.
Marke. Verbotswortlisten (jedes Team hat seine), Tonregeln, Strukturvorgaben. Unsere lehnt „entfesseln", „nahtlos" und jeden Satz über die heutige schnelllebige Welt auf Sicht ab.
Format. Parst es, passt es in die Vorlage, sind die Links erreichbar — und ist das Deutsch wirklich Deutsch und nicht übersetzte englische Syntax.

Jede Ebene ist für sich langweilig. Gestapelt lehnen sie in unseren eigenen Produktions-Loops rund ein Drittel der ersten Versuche ab — Entwürfe, die nie jemand sieht, in Sekunden korrigiert und erneut geprüft.

Fehler laufen zurück, nicht weiter

Die entscheidende Designentscheidung: Eine durchgefallene Prüfung geht zurück an den Generator, mit dem Fehler im Anhang — nicht in einen menschlichen Posteingang. Der Mensch sieht Versuch drei, bereits verifiziert, mit dem Protokoll auf Abruf. Die Prüfzeit schrumpft vom Redigieren zum Freigeben.

Der Zinseszins-Teil

Jede Ablehnung ist ein Datenpunkt. Wiederkehrende Faktenfehler zeigen Lücken im Brain; wiederkehrende Tonfehler werden neue Regeln; wiederkehrende Formatfehler reparieren die Vorlage. Der Eval Loop ist nicht nur ein Filter — er ist der Mechanismus, durch den das ganze System lernt. Teams, die ihn weglassen, liefern nicht nur schlechteren Output. Sie liefern denselben schlechteren Output. Für immer.

Häufige Fragen

Eine Prüfung, die jeden Output gegen klare Kriterien kontrolliert, bevor er den Leser erreicht. Fehler laufen zurück, nicht weiter.

Nicht wegen des Modells, sondern weil zwischen Modell und Leser niemand die Arbeit prüft. Der Eval Loop schließt diese Lücke.

Operator Notes.

Wie wir ein Unternehmen mit Agenten führen. Eine E-Mail pro Veröffentlichung — keine Drip-Sequenz, kein Vertriebs-Nachfassen.