Warum macht das LLM es nicht gleich richtig?

18.01.2026 - Hamburg, Germany
Zu 98% von einem Menschen geschrieben. Teilen This note is also available in English.

LLMs finden fast immer Fehler in ihrem eigenen Code, wenn man sie um ein Code-Review bittet. Das klingt paradox. Warum haben sie den Fehler dann gemacht? Die Antwort liegt in einem fundamentalen Prinzip: Verifikation ist einfacher als Generierung.

Eine aktuelle ICLR-Studie¹ hat dem Phänomen einen Namen gegeben: “Generation-Verification Gap”. Fehler zu erkennen ist fundamental einfacher als fehlerfreien Code zu schreiben. Und diese Lücke wächst mit der Modellgröße. Das gilt übrigens nicht nur für LLMs. Es gilt für uns alle. Deshalb gibt es Lektoren, Code-Reviews und zweite Meinungen. Produzieren und Prüfen sind unterschiedliche kognitive Aufgaben, und die zweite ist weniger anspruchsvoll.

Der praktische Hack: Einen zweiten Agenten das Ergebnis reviewen lassen, idealerweise ein anderes Modell. Kostet wenig, bringt systematisch bessere Ergebnisse.

Huang et al., Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models , ICLR 2025 ↩︎