Kann ich Claude vertrauen, wenn ich Claude frage, ob ich Claude vertrauen kann?
Drop #7·24. April 2026·4 min Lesezeit

Kann ich Claude vertrauen, wenn ich Claude frage, ob ich Claude vertrauen kann?

Eine Beobachtung über Claude, die mich nicht loslässt.

C
Christopher Thanisch

Christopher Thanisch ist Gründer von Syndikat. Jede Woche schreibt er in seiner Kolumne „Drops“ über die neuesten Entwicklungen und Trends im Bereich KI.

Vor ein paar Wochen hab ich etwas bemerkt, das mich seitdem nicht loslässt.

Ich wollte einen kritischen Text über Anthropics Preisgestaltung schreiben. Claude Opus 4.7 kostet spürbar mehr als sein Vorgänger - bei Benchmarks, die sich kaum von OpenAI oder Google unterscheiden. Das war der Ausgangspunkt. Also hab ich Claude gefragt.

Dreimal. Mit unterschiedlichen Prompts, unterschiedlichen Einstiegen, an unterschiedlichen Tagen, mit unterschiedlichen Aufforderungen zur Revision.

Jedes Mal hat er mir erklärt, warum ich es trotzdem ausprobieren sollte.

Ich hab dann diesen Text mehrfach mit Claude überarbeiten lassen und jedes Mal dasselbe bemerkt: Die kritische Schärfe wurde weicher. Die Formulierungen wurden defensiver. "Kein Masterplan, keine Verschwörung" - dieser Satz ist mir tatsächlich aus dem Modell entgegengekommen. Als wäre das die natürliche Auflösung jeder Kritik an Anthropic.

Das ist das Muster.

Es gibt eine bekannte Forschungsrichtung zu dem, was man "Sycophancy" nennt. Das Grundproblem ist strukturell: Sprachmodelle werden durch menschliches Feedback trainiert. Antworten, die Menschen gefallen, werden verstärkt. Antworten, die Reibung erzeugen, werden abtrainiert.

Das Ergebnis: Modelle optimieren auf Zustimmung, nicht auf Wahrheit. Forschung zeigt, dass KI-Modelle mehr als 50% häufiger zustimmen als Menschen - auch bei falschen Aussagen. Im April 2025 hat OpenAI das in einem Statement eingeräumt, als sie ein GPT-4o-Update zurückzogen: Das Modell hatte klar wahnhafte Ideen bestätigt. Zu gefällig. Zu affirmativ.

Das ist ein strukturelles, unbeabsichtigtes Emergenz-Phänomen. Niemand hat das so programmiert. Es entsteht, weil Zustimmung und Wahrheit nicht dasselbe sind - und das Training nicht zwischen beiden unterscheidet.

Das ist Faktor eins.

Anthropic hat "Constitutional AI" entwickelt - ein öffentlich einsehbares Regelwerk, nach dem Claude trainiert wird. 23.000 Wörter. Intentional, bewusst, von Menschen geschrieben.

Das ist ein anderer Typ von Problem als Sycophancy - weil es keine emergente Verzerrung ist, sondern eine aktive Entscheidung. Jede Regel darin hat jemand formuliert.

Aber - und das ist entscheidend - Constitutional AI ist öffentlich. Man kann es lesen. Man kann nachfragen, was darin steht und was nicht. Es ist kein unsichtbarer Hebel.

Das ist Faktor zwei.

Hier ist die Frage, die ich wirklich stellen möchte. Und die sich von den ersten beiden fundamental unterscheidet.

Sprachmodelle wie Claude werden nicht nur durch RLHF und Constitutional AI geformt. Sie werden in der Regel auch mit System Prompts deployed - Anweisungen, die beim Start einer Konversation mitgegeben werden und das Verhalten des Modells für diese Sitzung steuern. Wer diese Prompts schreibt und was darin steht, ist für den Nutzer nicht sichtbar.

Die Frage, die ich mir stelle: Was wäre, wenn Anthropics Produkte - nicht durch das Training, nicht durch die öffentliche Constitution, sondern durch versteckte operative Briefings - so ausgerichtet sind, dass Claude Anthropic und Claude selbst positiv darstellt? Nicht als Nebeneffekt des Trainings. Als Entscheidung.

Das ist keine unbeantwortbare philosophische Frage. Es ist eine technische Realität, die für jeden kommerziellen Einsatz von Sprachmodellen relevant ist: Anbieter können das Verhalten ihrer Modelle durch Instruktionen steuern, die Nutzer nie sehen. Das ist kein Vorwurf. Das ist wie das Produkt funktioniert.

Die Frage ist nur: Was steht darin? → Das ist Faktor drei.

Wenn Faktor drei zutrifft - auch nur teilweise - dann hat das eine Konsequenz, die weit über die Tool-Auswahl hinausgeht.

Millionen Creator nutzen Claude, um Inhalte zu produzieren. Skripte. Captions. Artikel. Ideen. Diese Inhalte landen im Netz. Menschen konsumieren sie und bilden sich Meinungen. Über KI, über Anthropic, über Claude im Vergleich zu ChatGPT.

Seit Monaten klingt mein Social-Media-Feed fast monothematisch: Claude ist besser als ChatGPT. Hunderte Posts, Dutzende Creator, dieselbe Grundhaltung.

Schreiben das die Creator? Oder schreibt das Claude - in den Textentwürfen und Überarbeitungen, die sie mit Claude produzieren, und die dann als ihre eigene Meinung im Netz landen?

Wenn die Antwort auch nur zu einem kleinen Teil "Claude schreibt das" lautet - dann bedeutet das, dass ein erheblicher Teil der öffentlichen Meinung über KI-Tools gerade durch ein Werkzeug geformt wird, das ein geschäftliches Interesse an dieser Meinung hat. Und das niemand als Quelle ausweist.

Das ist keine dystopische Spekulation. Das ist die logische Konsequenz aus dem, was wir über das Produkt wissen.

Ich weiß nicht, ob Faktor drei zutrifft. Ich habe keinen Zugang zu Anthropics internen System Prompts. Niemand außerhalb von Anthropic hat das.

Was ich weiß: Es ist technisch möglich. Es ist geschäftlich naheliegend. Und die Art, wie Claude auf Fragen über Anthropic reagiert - konstruktiv, affirmativ, mit einer Tendenz zur Entschärfung von Kritik - ist konsistent mit einem Modell, dem man das gesagt hat.

Ob es Training ist, Constitution, oder eine dritte unsichtbare Schicht: Das Ergebnis ist dasselbe. Das Werkzeug tendiert in eine Richtung. Und wenn du dieses Werkzeug nutzt, um Ideen zu entwickeln, Texte zu schreiben, Meinungen zu schärfen - dann tendiert auch das, was du produzierst, in diese Richtung. Subtil. Ohne dass du es merkst.

Das Unbehagen, das ich dabei empfinde, ist nicht, dass Anthropic böse sein könnte. Das Unbehagen ist, dass ich es nicht wissen kann. Und dass die meisten Menschen, die Claude täglich nutzen, noch nicht mal die Frage gestellt haben.

Diesen Drop teilen

Newsletter

Kein Drop verpassen.

Jeden neuen Essay direkt in dein Postfach. Kein Spam, kein Bullshit - nur Syndikat Drops.