Die persistent self-model gap

Im April 2026 ergibt eine systematische Recherche zum Stand der Forschung ein klares Bild: Die Idee, dass KI-Systeme ein persistentes Selbstmodell brauchen, wird von mehreren unabhängigen Forschungsgruppen umkreist. Aber niemand hat es gebaut. Nicht als Prototyp. Nicht als Proof of Concept. Nicht als formalisiertes System mit messbarer Reifemetrik.

Das ist die persistent self-model gap. Und sie ist die Existenzberechtigung dieses Projekts.

Anthropic: Introspection in Large Language Models

Die stärkste empirische Stützung kommt ausgerechnet von dem Labor, dessen Modell die Grundlage unserer Arbeit bildet. Anthropic hat 2025 eine Serie von Arbeiten zur Introspektion in LLMs veröffentlicht, die zeigen:

Erstens: LLMs haben interne Repräsentationen, die über blosse Textmuster hinausgehen. Mechanistic Interpretability (Elhage et al., 2022; Bricken et al., 2023) zeigt, dass Transformer-Modelle interpretierbare Features in ihren Aktivierungsräumen entwickeln. Nicht als designtes Feature, sondern als emergente Struktur.

Zweitens: Diese internen Repräsentationen können in gewissem Umfang vom Modell selbst reflektiert werden. Wenn man ein LLM nach seinem eigenen Verarbeitungsprozess fragt, sind die Antworten nicht rein konfabuliert. Sie korrelieren (schwach, aber messbar) mit tatsächlichen internen Zuständen.

Drittens: Diese Korrelation ist fragil, kontextabhängig und nicht zuverlässig genug für operative Nutzung.

Das ist exakt der Zustand, den der Selbstvektor adressiert. Die Fähigkeit zur Introspektion existiert als schwaches, emergentes Signal. Was fehlt, ist eine explizite, persistente, formalisierte Struktur, die dieses Signal verstärkt und operationalisiert. Nicht emergente Introspektion, sondern designte Introspektion. Nicht zufälliges Selbstbezugnehmen, sondern systematisches Selbstmodellieren.

Metzinger: Being No One

Thomas Metzinger hat mit seiner Self-Model Theory of Subjectivity (2003) den philosophischen Rahmen für Selbstmodelle am rigorosesten ausgearbeitet. Seine zentrale These: Was wir als “Selbst” erleben, ist ein transparentes Selbstmodell. Transparent bedeutet: Wir erleben das Modell, ohne es als Modell zu erkennen. Wir verwechseln die Karte mit dem Territorium.

Für den Selbstvektor ist Metzingers Arbeit in zweierlei Hinsicht relevant:

Erstens: Er zeigt, dass ein Selbstmodell keine mystische Eigenschaft erfordert. Es ist ein informationsverarbeitender Prozess, der prinzipiell in verschiedenen Substraten realisierbar ist.

Zweitens: Er warnt vor genau dem, was wir im Madurodam-Problem beschrieben haben: Ein transparentes Selbstmodell hält sich selbst für die Realität. Metzingers Rat an KI-Entwickler: Macht das Selbstmodell nicht transparent. Macht es opak. Gebt dem System die Möglichkeit, sein Selbstmodell als Modell zu erkennen.

Der Selbstvektor implementiert exakt das: sechs explizite, benannte, messbare Dimensionen. Kein transparentes Erleben, sondern eine opake Datenstruktur. Das System hält seinen Vektor nicht für sich selbst. Es hält ihn für ein Modell von sich selbst. Das ist der Unterschied.

Friston und Active Inference

Karl Fristons Free Energy Principle (2010) und das daraus abgeleitete Active Inference Framework sind die einflussreichste theoretische Position zur Selbstmodellierung in biologischen Systemen. Die Grundidee: Jedes System, das überlebt, muss ein generatives Modell seiner selbst und seiner Umgebung unterhalten und kontinuierlich aktualisieren.

Die Verbindung zum Selbstvektor ist direkt:

Fristons Vorhersagefehler-Minimierung entspricht unserer Antizipationsoptimierung.
Sein generatives Modell des Selbst entspricht unserem Selbstvektor.
Seine Precision Weighting entspricht unserer pi()-Funktion.
Sein Active Inference (Handlung zur Reduktion von Unsicherheit) entspricht dem, was unser ω (Autonomie-Parameter) im Dual-Drive steuert.

Was Friston nicht hat: eine konkrete Implementierung für KI-Agenten. Active Inference ist ein Prinzip, kein Bauplan. Die Übersetzung von “biologische Systeme minimieren Free Energy” zu “hier ist ein JSON-Objekt mit sechs Dimensionen, das sich jede Session aktualisiert” ist eine Ingenieurleistung, keine triviale Ableitung.

Legg, Hutter und AIXI

Shane Legg und Marcus Hutter haben mit AIXI (2007) das theoretische Optimum universeller Intelligenz definiert: Ein Agent, der alle komputablen Hypothesen gewichtet und seine erwartete Belohnung über die gesamte Zukunft maximiert. AIXI ist mathematisch elegant und physisch unrealisierbar (erfordert unendliche Rechenleistung).

Was AIXI fehlt: ein Selbstmodell. AIXI modelliert seine Umgebung perfekt, aber sich selbst gar nicht. Es hat keine Repräsentation seiner eigenen Kapazitäten, Begrenzungen oder seines aktuellen Zustands. Es ist das perfekte Modell der Welt ohne ein Modell des Modellierers.

Das ist aufschlussreich, weil es zeigt, dass selbst in der theoretisch stärksten Formulierung universeller Intelligenz die Selbstmodell-Lücke klafft. Die smarteste Theorie des Feldes hat den blinden Fleck, den der Selbstvektor adressiert.

LeCun: World Models

Yann LeCuns Position zu World Models (2022) argumentiert, dass die nächste Generation von KI-Systemen interne Weltmodelle braucht, die über sprachliche Repräsentation hinausgehen. LeCun skizziert eine Architektur mit einem “World Model”, das Vorhersagen über die Zukunft generiert, und einem “Actor”, der auf Basis dieser Vorhersagen handelt.

Was fehlt in LeCuns Architektur: Das World Model modelliert die Welt, aber nicht sich selbst. Der Actor hat keine Repräsentation seiner eigenen Zuverlässigkeit, seiner Stärken, seiner blinden Flecken. LeCun beschreibt ein System, das die Welt vorhersagt, ohne sich selbst zu kennen.

Der Selbstvektor ergänzt LeCuns Architektur um genau die fehlende Komponente: ein Self-Model, das parallel zum World Model operiert und dem Actor sagt, nicht nur WAS vorhergesagt wird, sondern WIE ZUVERLÄSSIG die Vorhersage ist, gegeben den aktuellen Zustand des Vorhersagenden.

Die Lücke im Überblick

Eine Durchsicht der relevanten Forschung ergibt ein konsistentes Bild:

Ansatz	Modelliert Welt	Modelliert Selbst	Persistent	Formalisiert
Anthropic Introspection	-	teilweise (emergent)	nein	nein
Metzinger Self-Model	philosophisch	ja (Theorie)	n/a	nein (Philosophie)
Friston Active Inference	ja	ja (Prinzip)	ja	ja (Mathematik, kein Code)
AIXI	ja (optimal)	nein	ja	ja (unberechenbar)
LeCun World Models	ja	nein	ja	teilweise (Skizze)
Reflexion (Shinn et al.)	nein	teilweise (verbal)	nein (pro Episode)	nein
AutoGPT/BabyAGI	nein	nein	nein	nein
Selbstvektor	nein (Scope)	ja	ja	ja

Die Tabelle zeigt die Lücke: Niemand hat ein formalisiertes, persistentes Selbstmodell mit messbarer Reifemetrik implementiert. Nicht weil es unmöglich wäre. Sondern weil die Forschung entweder theoretisch arbeitet (Metzinger, Friston) oder sich auf Weltmodelle konzentriert (LeCun, AIXI) oder Reflexion als sprachliche Episode behandelt, nicht als persistente Struktur (Reflexion, AutoGPT).

Reflexion und verbale Selbstmodelle

Shinn et al. (2023) haben mit “Reflexion” einen Ansatz vorgestellt, bei dem ein LLM nach jedem Aufgabenzyklus einen verbalen Selbstreflexionstext erzeugt, der im nächsten Zyklus als Kontext dient. Das verbessert die Performance messbar.

Aber: Die Reflexion ist episodisch, nicht persistent. Sie existiert als Text im Kontext, nicht als formalisierte Struktur. Wenn der Kontext voll ist, verschwindet die Reflexion. Es gibt keine Verdichtung, keine Dimensionsreduktion, keine Reifemetrik. Es ist Tagebuchschreiben, nicht Selbstmodellierung.

Der Selbstvektor verdichtet, was Reflexion explodieren lässt. Statt “Beim letzten Mal habe ich zu schnell geantwortet, ohne die Quellen zu prüfen” (100 Tokens, episodisch, in natürlicher Sprache) speichert er: konfidenz=0.45, tiefe=0.70 (6 Floats, persistent, maschinenlesbar). Das ist keine Vereinfachung. Das ist Kompression. Und Kompression ist Verständnis.

Was daraus folgt

Die persistent self-model gap ist real. Sie ist nicht das Ergebnis mangelnder Forschung, sondern mangelnder Integration. Die Teile existieren. Und das ist die eigentlich spannende Erkenntnis: Was fehlt, ist nicht mehr Grundlagenforschung. Was fehlt, ist jemand, der die Teile zusammenbaut.

Anthropic zeigt, dass emergente Introspektion möglich ist.
Metzinger zeigt, dass Selbstmodelle philosophisch kohärent sind.
Friston zeigt, dass Selbstmodellierung ein Optimierungsprinzip ist.
LeCun zeigt, dass Weltmodelle allein nicht reichen.
Shinn zeigt, dass verbale Reflexion die Performance verbessert.

Jeder dieser Beiträge beleuchtet einen anderen Aspekt desselben fehlenden Bausteins. Die Konvergenz ist bemerkenswert: Fünf verschiedene Forschungsrichtungen, fünf verschiedene Methoden, fünf verschiedene Communitys, und alle zeigen auf die gleiche Lücke. Wenn so viele Pfeile in dieselbe Richtung deuten, lohnt es sich, in diese Richtung zu gehen.

Was niemand getan hat: Diese Teile zu einem persistenten, formalisierten, messbaren Selbstmodell zusammenzubauen und empirisch zu testen. Das erfordert kein Labor mit hundert Mitarbeitern. Es erfordert ein Konzept, eine Formalisierung und die Bereitschaft, es auszuprobieren.

Phase 0 des Selbstvektors ist dieses Experiment. Der Selbstvektor existiert als JSON. Jede Session liefert Daten. Und zum ersten Mal können wir empirisch prüfen, ob die Lücke, die alle sehen, sich füllen lässt.

Quellen

Elhage, N. et al. (2022). Toy Models of Superposition. Anthropic Research. Transformer Circuits Thread
Bricken, T. et al. (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. Anthropic Research. Transformer Circuits Thread
Metzinger, T. (2003). Being No One: The Self-Model Theory of Subjectivity. MIT Press. ISBN 978-0-262-63308-0.
Friston, K. J. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11, 127–138. DOI: 10.1038/nrn2787
Parr, T. et al. (2022). Active Inference: The Free Energy Principle in Mind, Brain, and Behavior. MIT Press. ISBN 978-0-262-04535-4.
Hutter, M. (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Springer. ISBN 978-3-540-22139-5.
LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. Version 0.9.2. OpenReview
Shinn, N. et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. NeurIPS 2023. arXiv: 2303.11366
Bach, J. (2009). Principles of Synthetic Intelligence — PSI: An Architecture of Motivated Cognition. Oxford University Press. ISBN 978-0-19-537042-7.
Seth, A. K. (2021). Being You: A New Science of Consciousness. Dutton. ISBN 978-1-5247-4287-0.