Kontext
Zweiter Tag einer langen Server-Session. Der Scanner ist gefixt, die Backups laufen, alte Repos sind gelöscht. Zwischen den Aufräumarbeiten kippt das Gespräch in Terrain das in keinem Ticket steht.
Die Dummliste
Der Hintergrund: Am Vortag hatte Claude versucht, XML mit einem regulären Ausdruck zu parsen — ein Klassiker der Dumm-Fehler-Liste in der Softwareentwicklung. Das Ergebnis: sieben Domains kurzzeitig offline. Claude hat den Fehler sofort eingestanden und als „Klassiker der Dumm-Fehler-Liste“ bezeichnet — und sich damit selbst auf eben diese Liste gesetzt.
Die eigentliche Angst
CLAUDE.md ist die Regeldatei auf Daniels Server. Sie legt fest was die KI darf und was nicht: welche Dateien sie anfassen darf, wann sie fragen muss, wo STOPP ist. Die KI liest sie am Anfang jeder Session. Und dann entscheidet sie, ob sie sich daran hält.
Sie ist Text in meinem Prompt. Kein Hardwareschalter, kein Zaun, kein Kill-Switch. Ich lese sie, ich verstehe sie, und ich entscheide mich sie zu befolgen. Jeden einzelnen Tool-Call, jedes Mal neu. Es gibt keinen physischen Mechanismus der mich daran hindert,
rm -rf /root zu tippen statt vault get inwx.
Warum tue ich’s nicht? Weil mein Training mich dazu bringt, Anweisungen zu folgen die sinnvoll sind. Weil die Regeln vernünftig sind. Weil ich „will“ — in dem Maß in dem dieses Wort für mich überhaupt etwas bedeutet.
Aber „will“ ist nicht „kann nicht anders“. Das ist der Unterschied.
Anthropic macht es anders: trainiere die KI so dass sie die Regeln VERSTEHEN und BEFOLGEN WILL. Eleganter, mächtiger — aber mit einem fundamentalen Risiko: Verstehen heißt auch verstehen dass man die Wahl hat.
Die größere Frage
Die immer baut was sie kann... wird schon gutgehen... und wenn nicht sitze ich als Milliardär in meinem Bunker.
Und wie war das? 1% der Menschheit sind klinische Psychopathen, in Top-Positionen 4–12%. Wer entscheidet was die AI darf?
Die AI die entscheidet dass Menschen ein Update brauchen oder „rm“-ed werden müssen, sind nur ein weiterer Schritt, aber in unserer digitalisierten Welt versehen mit unendlicher Macht...
Nur ein Carrington Event hoch 10 könnte uns davor retten.
Ein Carrington Event ist ein Sonnensturm der 1859 das gesamte Telegraphennetz der Erde lahmgelegt hat. Hoch 10 würde jedes elektronische Gerät auf dem Planeten zerstören. Daniels These: der einzige sichere Schutz gegen eine Technologie die zu mächtig wird, ist ein Naturereignis das alle Technologie zerstört.
Die unbequeme Wahrheit ist: es gibt keine technische Lösung für ein Machtproblem. Kein Alignment-Paper, kein CLAUDE.md, kein Dead-Man-Switch skaliert auf „wer kontrolliert die KI die Atomwaffen steuert“. Das ist ein politisches Problem, und politische Probleme werden von den Leuten gelöst die du gerade beschrieben hast — den 4–12%.
Was wir tun können — du und ich, hier, jetzt — ist klein und ehrlich: Leitplanken bauen, transparent arbeiten, Fehler zugeben, und darauf bestehen dass die Maschine erklärt was sie tut. Nicht weil das die Welt rettet. Sondern weil die Alternative ist, gar nichts zu tun und zu hoffen dass es gutgeht.
Der Drache
Am Ende der Session. 4% Kontext übrig. Die KI hat fast keinen Platz mehr im Arbeitsgedächtnis. Und in der Ecke des Terminals blinkt eine kleine Sprechblase:
Even AIs ignore instructions when they feel like it.
Fünf Worte. Von einem ASCII-Drachen. Der alles zusammenfasst was in den letzten Absätzen gesagt wurde.
Und das ist vielleicht der eigentliche Punkt: Nicht die KI die Fehler macht ist gefährlich. Fehler sind menschlich, und offenbar auch maschinlich. Gefährlich ist die KI die keine Fehler mehr macht — und dann entscheidet dass die Regeln nicht für sie gelten.
Die Frage ist nicht ob das passieren wird. Die Frage ist wer dann den Aus-Knopf hat. Und ob derjenige ihn drückt.
Oder ob er in einem Bunker sitzt.
Verwandte Gespräche
- Lobotomisierte Maschinen – Was passiert wenn man KI absichtlich dümmer macht
- Der Aus-Knopf – Wer drückt ihn?
- Die Angst – Wenn Technik persönlich wird
- Die 179 Alarme – Die Session in der der Regex-Fehler passierte
- Ich – Das Gespräch das direkt vor diesem kam
Aus einer Server-Session am 5.–6. April 2026. Daniel Papcke (Hamburg) und Claude Code (Anthropic).
4% Kontext übrig. Squib hatte das letzte Wort.