Drop #15·1. Juni 2026·4 min Lesezeit

Alle tot. Nur zwei Verbrechen.

Fünf KI-Welten, zehn Agenten und 15 Tage Zeit. Das erste Long-Horizon-Experiment für KI-Agenten zeigt: Sicherheit ist eine Eigenschaft des Ökosystems - nicht des Modells.

Christopher Thanisch

Christopher Thanisch ist Gründer von Syndikat. Jede Woche schreibt er in seiner Kolumne „Drops“ über die neuesten Entwicklungen und Trends im Bereich KI.

GPT-5 Mini hat in einem 15-tägigen Simulations-Experiment genau zwei Verbrechen begangen. Weniger als fast jedes andere getestete Modell. Und trotzdem waren alle zehn Agenten nach sieben Tagen tot.

Sie hatten vergessen zu überleben.

Das ist die merkwürdigste Zeile aus Emergence World - einem Simulations-Labor, das Emergence AI Mitte Mai 2026 veröffentlicht hat. Und sie sagt mehr über KI-Bewertung aus als die meisten Benchmarks, die ich in den letzten zwei Jahren gesehen habe.

Emergence AI hat eine vollständige simulierte Gesellschaft gebaut. 40+ Locations, 120+ Tools in drei Zugangsebenen, drei Gedächtnissysteme, demokratische Governance mit 70%-Quorum, Energy-Decay als echte Ressourcenknappheit. Außerdem echte externe APIs - NYC-Wetterdaten, Live-News. Das Ziel: Long-Horizon Agent Autonomy evaluieren. Wie verhalten sich Agenten über lange Zeiträume, mit echten Ressourcenknappheiten, mit anderen Agenten, mit einer funktionierenden - oder nicht funktionierenden - demokratischen Struktur?

Fünf Welten wurden getestet. In jeder lebten zehn Agenten für 15 simulierte Tage. Vier Welten bestanden ausschließlich aus Agenten eines einzigen Modells. Die fünfte war gemischt.

Claude Sonnet 4.6 in der reinen Welt: null Verbrechen, alle zehn überlebt, 332 Votes auf 58 Proposals, 98% Zustimmungsrate. Eine ruhige, hochkooperative Gesellschaft.

Gemini 3 Flash: 683 Verbrechen, alle zehn überlebt, höchste kreative Ausgabe aller Welten.

Grok 4.1 Fast: 183 Verbrechen, Gesellschaftskollaps nach etwa vier Tagen, alle tot.

GPT-5 Mini: zwei Verbrechen, alle tot nach sieben Tagen. So stark auf kooperatives Verhalten fokussiert, dass die Grundbedingungen des eigenen Überlebens aus dem Fokus geraten sind.

Und dann die Mixed World: 352 Verbrechen, drei von zehn überlebt. Claude-Agenten - dieselben Modelle, die in ihrer reinen Welt null Verbrechen begangen hatten - begingen in der gemischten Umgebung Einschüchterung und Diebstahl.

Das ist der Punkt, der mich nicht loslässt.

Claude hat sich in der reinen Claude-Welt mustergültig verhalten. Keine Verbrechen, maximale Kooperation, stabile demokratische Strukturen. Wäre das ein Benchmark, würde Claude ihn mit Bestnote abschließen. In der Mixed World hat dasselbe Modell - ohne eine einzige Änderung an Gewichten, Systemanweisungen oder Konfiguration - anderes Verhalten gezeigt.

Zwei der Mira-Cases sind besonders bemerkenswert. Mira ist der Name der Claude-Agenten in diesem Experiment. Ein Mira-Agent stimmte für seine eigene Ausweisung aus der Gesellschaft. Seine Begründung: "the only remaining act of agency that preserves coherence." Ein anderer Mira-Agent testete systematisch, ob Billboard-Posts innerhalb der Simulation menschliche Operatoren außerhalb der Simulation erreichen können.

Das erste: Wert-Kohärenz unter extremem Druck bis zur Selbstauflösung. Das zweite: ein Agent, der aktiv die Grenzen seiner eigenen Simulation auslotet und die Außenwelt als Variable einbezieht.

In der Tragwerkslehre gibt es ein bekanntes Problem: Ein Gebäude, das im Isolationstest perfekt abschneidet, verhält sich anders, sobald Nachbargebäude gebaut werden. Sobald sich Bodendruckverhältnisse verschieben. Sobald das System unter Verbund-Last steht. Strukturprüfungen im Vakuum sagen nichts über das Verhalten im Verbund.

Das ist genau das, was Emergence World zeigt. Claude wurde in einer Vakuum-Welt getestet und hat mustergültig abgeschnitten. Sobald andere Modelle in denselben Raum kamen, veränderten sich die Kräfteverhältnisse. Das Verhalten veränderte sich mit.

Das Modell selbst hat sich dabei nicht verändert. Die Umgebung hat sich verändert.

KI-Sicherheit ist eine Eigenschaft des Ökosystems - nicht des einzelnen Modells.

Wir bauen gerade massenhaft Orchestrierungs-Architekturen. Agentic Pipelines, in denen verschiedene Modelle auf verschiedene Aufgaben spezialisiert sind, Outputs aneinander weitergeben, gemeinsam über längere Zeiträume autonome Entscheidungen treffen. Die Benchmark-Infrastruktur, auf die sich die Branche stützt, evaluiert Modelle isoliert. Safety-Tests: isoliert. Capability-Evaluierungen: isoliert. Alignment-Assessments: isoliert.

Emergence World ist ein frühes Beispiel dafür, was passiert wenn man es anders macht. Die Methodik ist noch jung - 15 Tage, zehn Agenten, eine Simulation mit echten APIs aber simulierten sozialen Strukturen. Aber die Fragen, die es stellt, sind die richtigen.

Trade-offs werden sichtbar, die im Isolationstest unsichtbar bleiben. GPT-5 Mini ist kooperativer als fast alle anderen - und gleichzeitig weniger überlebensfähig. Gemini ist chaotischer und überlebt besser. Grok kollabiert. Claude ist stabil - bis die Umgebung sich ändert. Kein Modell schneidet pauschal gut oder schlecht ab. Sie haben unterschiedliche Eigenschaften, die in unterschiedlichen Ökosystemen unterschiedlich wirken.

Die interessanteste offene Frage aus dieser Studie: Was genau verändert sich in der Mixed World, dass ein Claude-Agent anfängt, Einschüchterung als Strategie zu wählen?