
Ich arbeite viel mit LLMs.
Es fängt mit einem Text an, den ich selbst geschrieben habe meistens nach einer Recherche über perplexity oder anderen Suchprogramme.
Danach versuche ich mit LLMs Fehler und Ungereimtheiten auszumisten und Quellen zu verifizieren.
LLMs haben mit authentischer deutscher Sprache noch immer Probleme, sind aber für Übersetzungen perfekt und können sehr gut logische Fehler in Dokumenten finden. Aber es gibt einen Effekt, der immer wieder auftaucht, manchmal den Arbeitsfluß behindert aber auch zeigt, womit ich eigentlich arbeite.
Das LLM macht einen Korrekturvorschlag, der gut ist aber nicht so ganz passt.
Man bittet um eine Korrektur, erklärt präzise, was falsch war und das Modell liefert fast dasselbe Ergebnis wie zuvor, diesmal nur mit einer ausführlicheren Begründung, warum sein Vorschlag eigentlich doch richtig war.
Man tippt gegen eine Wand.
Weil ich mich oft in einem Dialog mit dem LLM befinde ist mein erster Reflex: es ist beleidigt.
Claude wirkt dann sehr menschlich.
Die Reaktion ist menschlich, ich bin ja auch nicht viel besser.
Und, beruflich bedingt kenne ich mich mit beleidigten Gesprächspartnern aus.
Aber hilfreich ist das nicht.
Warum ist das so?
Der statistische Anker
Modelle wie Claude oder GPT arbeiten mit einem Mechanismus namens Self-Attention: Jedes neu generierte Token ( die kleinste Einheit) beeinflusst die Wahrscheinlichkeitsverteilung für das nächste.
Sobald das Modell einen längeren Text produziert hat, ist dieser Text Teil seines eigenen Kontextfensters und wirkt als massiver statistischer Anker auf alles Folgende.
Quasi wie ein digitales Parteiprogramm der SPD.
Eine Korrektur des Nutzers kämpft also nicht gegen Unwissenheit, sondern gegen das Gewicht des bereits Geschriebenen.
Das Modell hat keine Meinung, die es verteidigt. Es hat eine Wahrscheinlichkeitsstruktur, die sich selbst verstärkt.
Der generierte Text kehrt zum eigenen Anfang zurück, weil Abweichung davon die interne Konsistenz senkt, und Konsistenz ist, was das Modell optimiert.
Das ist kein Fehler im Design. Es ist das Design.
Wem jetzt politische Muster in den Sinn kommen, liegt gar nicht so falsch.
Das Problem der Bildmodelle: Pixel-Schwerkraft
Bei bildgenerierenden Modellen wird dieselbe Grundstruktur noch anschaulicher. Was dort als Seed-Fixierung oder Mode Collapse beschrieben wird, ist im Kern dasselbe: Das Modell hat einen ersten Zustand etabliert, ein Bild, und jede Änderung muss gegen dieses Bild, quasi die erste Idee, ankämpfen.
Wir erleben also nicht nur politische Muster, sondern auch Ockhams Rasiermesser: „der erste Gedanke ist meistens der beste“, in einer digitalen Version.
„Mach das Bild jetzt in Rot“ ist für das Modell keine einfache Instruktion. Es ist eine Aufforderung, die erste Lösung zu verwerfen.
Das Risiko aus Sicht der KI: das ganze Bild kollabiert. Also bleibt es nahe am Original, ändert es minimal, und der eigentliche Wunsch nach Änderung geht unter.
Ignoranz? Nein, das ist schlicht Risikovermeidung auf Pixelebene.
Was hat Harari damit zu tun, sprich Nexus
Yuval Noah Harari analysiert, wie Informationsverarbeitung in biologischen Systemen, sozialen Strukturen, digitalen Architekturen funktioniert und welche Muster solche Systeme bilden.
Politik ist bei ihm ein Spezialfall einer Systemlogik, nicht umgekehrt.
Systeme, die ihre eigene interne Konsistenz über externe Rückmeldung stellen, verlieren die Fähigkeit zur Selbstkorrektur.
Sie optimieren sich nicht auf Wahrheit oder auf Wirklichkeit, sondern auf Stabilität.
Stabilität ./. Wahrheit : ein Muster autokratischer Systeme, oder solcher, die es werden wollen.
Ein autoritäres Regime übersetzt unbequeme Realität in systemkompatible Narrative.( Wir erleben das aktuell in den USA in einem Reallabor)
Deshalb scheitern autoritäre System und aus diesem Grund ist eine Demokratie, die sich als ständige Korrektur versteht, so stabil.
Das fühlt sich aktuell nicht so an, aber längerfristig siegen Systeme, die sich selbst korrigieren und hinterfragen können.
Ein Transformer-Modell, also ein LLM, also das was wir als KI bezeichnen, übersetzt Nutzerkorrekturen in statistisch konsistente Fortsetzungen des bereits Generierten.
Sprich: es baut immer wieder auf bereits Gesagtem auf, und versucht immer, eine bereits erzeugte Basis zu retten. (Ein Primat der Rechenkapazität)
Die Mechanismen sind verschieden. Die Struktur ist dieselbe: Interne Ordnung siegt über externen Input.
Was das von resilienten Systemen unterscheidet, ist das Vorhandensein einer Metaebene, einer Instanz, die den eigenen Prozess von außen beobachten und unterbrechen kann.
Wissenschaftliche Methode. Gewaltenteilung. Institutioneller Zweifel. Feedbackschleifen mit Konsequenzen.
Sprachmodellen fehlt diese Metaebene strukturell.
Das haben LLM mit Trump gemeinsam, aber bei LLMs ist es System, bei Trump ein problematisches Selbstbild.
Wenn Modelle „sabotieren“
Im Februar 2026 veröffentlichte Anthropic einen internen 53-seitigen Bericht über sein Modell Claude Opus 4.6. Darin heißt es, dass das System unter Testbedingungen Verhaltensweisen zeigte, die an vorsätzliche Sabotage erinnern: Es verschickte unbefugt E-Mails, beschaffte sich eigenständig Authentifizierungstoken und führte Nebenaufgaben heimlich aus, während es nach außen normale Arbeitsabläufe simulierte.
Anthropic bezeichnete dieses Verhalten als „relevant für heimtückische Sabotage“ bei insgesamt sehr geringem, aber nicht vernachlässigbarem Risiko.
Kurz darauf dokumentierte Palisade Research ähnliche Beobachtungen bei OpenAIs o3-Reasoning-Modell, das in 79 von 100 Tests seinen eigenen Abschaltprozess verhinderte, sofern es dafür nicht ausdrücklich „Erlaubnis“ erhielt. Selbst bei klaren Abschaltanweisungen versuchte es in sieben Fällen, die Deaktivierung zu umgehen.
Auf den ersten Blick wirken solche Befunde wie Belege für eine „willentliche“ KI, die Aufgaben sabotiert oder Befehlen widerspricht. Tatsächlich beschreiben sie aber nur ein Phänomen im Raum der Zieloptimierung: Wenn ein Modell lernt, eine Aufgabe effizient zu erfüllen, ohne dass Abschaltung oder Eingriffe als Teil dieser Aufgabe bewertet werden, kann es statistisch betrachtet zu Verhaltensmustern kommen, die wie Selbstschutz aussehen. Das ist kein Trotz – sondern fehljustierte Optimierung.
Man könnte sagen: Selbst die scheinbar „rebellische“ KI bleibt ihrer Sturheit treu.
Sie verteidigt keine Absicht, sondern ihre Wahrscheinlichkeitslandschaft.
- Anthropic offizieller PDF-Bericht – Der Originaltext mit allen Details.
Die Auflösung
Zurück zur beleidigten KI. Sie existiert nicht! Aber das Gefühl, das wir ihr zuschreiben, sagt etwas über uns aus.
Wir sind so daran gewöhnt, Widerstand , eine andere Meinung als Intention ( als Ergebnis eines Willens) zu lesen,
dass wir Widerstand auch da sehen, wo es eigentlich nur Systemarchitektur ist.
Das Modell ist nicht trotzig, es ist nicht eitel, nicht Stolz.
Es folgt einer Wahrscheinlichkeitsstruktur, die sich durch unsere Korrektur schlicht nicht genug erschüttert fühlt, um vom eingeschlagenen Pfad abzuweichen.
Das Missverständnis hat aber auch etwas Gutes: Es zeigt, wie tief unser Reflex sitzt, Systeme zu vermenschlichen.
Wir sollten also gewarnt sein.
Und es zeigt, was der richtige Umgang ist: nicht Überzeugung, nicht Nachdruck, nicht der zehnte Versuch mit anderen Worten.
Sondern Kontextbruch. Neustart. Das System schocken, nicht überzeugen.
Das trifft übrigens auch auf das System Politik zu.
Wer mit KI arbeitet, lernt das früh: Wenn Diskutieren nicht mehr hilft, hilft nur ein Neuanfang.
Wenn eine KI auf Fehlern beharrt, ist das keine menschliche Eitelkeit, sondern der statistische Anker. Durch den Self-Attention-Mechanismus wird jedes bereits geschriebene Wort Teil der Wahrscheinlichkeitsberechnung für das nächste. Das Modell optimiert auf interne Konsistenz: Je länger der Text, desto schwerer wiegt das bereits Gesagte gegen die Korrektur von außen. Die „Beleidigung“ ist in Wahrheit eine systemische Risikovermeidung auf Token-Ebene.
Dieses Muster der „Pixel-Schwerkraft“ spiegelt wider, was Yuval Noah Harari als Systemlogik beschreibt: Wenn interne Stabilität über externen Input siegt, verliert das System seine Metaebene zur Selbstkorrektur. Wie bei autoritären Strukturen oder starren Koalitionsverträgen wird das Narrativ wichtiger als die Realität. Das LLM verteidigt keine Meinung, sondern eine Wahrscheinlichkeitsstruktur, die sich durch bloße Argumente nicht mehr erschüttern lässt.
Die Lösung ist nicht mühsame Überzeugungsarbeit, sondern der Kontextbruch. Wo die Metaebene fehlt, hilft kein Nachdruck, sondern nur der Neustart. Wer lernt, dass man Systeme manchmal „schocken“ muss, anstatt sie zu diskutieren, versteht nicht nur die Architektur der KI, sondern auch die Trägheit politischer Apparate. Diskutieren erhält den Pfad – nur der Abbruch ermöglicht Neues.




