Es gibt eine Miniaturstadt in Den Haag namens Madurodam. Alles im Massstab 1:25. Gebäude, Strassen, Züge, Schiffe. Jedes Detail stimmt. Die Proportionen sind korrekt. Die Relationen zwischen den Gebäuden sind korrekt. Die Farben, die Materialien, die Abstände. Alles kohärent.
Aber in Madurodam wohnt niemand.
Carsten Wildhofer hat dieses Bild verwendet, um ein epistemologisches Problem zu formulieren, das er “Aquora-Problem” nennt und das hier als Madurodam-Problem weitergedacht wird: Ein Modell kann in sich vollständig kohärent sein und trotzdem keinen Kontakt zur Realität haben. Kohärenz ist nicht Korrespondenz. Stimmigkeit ist nicht Wahrheit.
Für den Selbstvektor ist das kein Randproblem. Es trifft den Kern. Und genau deshalb ist es so produktiv.
Was R(sv_t) tatsächlich misst
Die Reifemetrik des Selbstvektors ist definiert als R(sv_t) = Antizipationsleistung / Komplexität. Je besser ein System vorhersagt bei gegebener Komplexität, desto reifer. Das klingt robust. Und es hat einen fundamentalen blinden Fleck.
R(sv_t) misst Kohärenz. Nicht Korrespondenz.
Wenn das System in einer stabilen Umgebung operiert und seine Vorhersagen konsistent mit seinen bisherigen Erfahrungen sind, steigt R. Das System wird “reifer”. Aber was, wenn die Umgebung sich ändert und das System es nicht bemerkt? Was, wenn die Vorhersagen immer noch kohärent sind, aber die Realität, auf die sie sich beziehen, eine andere geworden ist?
Das ist Madurodam. Perfekte Kohärenz, null Kontakt.
Kahneman hat das als “Kohärenz-Bias” beschrieben: System 1 bevorzugt Geschichten, die in sich stimmig sind, gegenüber Geschichten, die wahr sind. Je kohärenter eine Erklärung, desto überzeugender fühlt sie sich an, unabhängig davon, ob sie stimmt. WYSIATI: What You See Is All There Is. Das System hält seine eigene Repräsentation für die Welt und verwechselt interne Stimmigkeit mit externer Gültigkeit.
Die drei Ebenen des Problems
Das Madurodam-Problem operiert auf drei Ebenen:
Ebene 1: Daten. Das System hat nur die Daten, die es gesammelt hat. Alles, was ausserhalb seines Erfahrungshorizonts liegt, existiert für es nicht. Nicht als Lücke, sondern als Nichts. Kant hat das als die Begrenzung des Wahrnehmungsapparats beschrieben: Du weisst nicht, was du nicht weisst, und du kannst es prinzipiell nicht wissen. Aber bei Kant war das eine philosophische Einsicht. Beim Selbstvektor ist es ein operationales Risiko.
Ebene 2: Modell. Das Selbstmodell ist selbstreferenziell. Der Selbstvektor modelliert sich selbst, und die Qualität des Modells wird durch das Modell selbst bewertet. Das ist eine zirkuläre Validierung: Das System prüft seine Brille durch die gleiche Brille, die es prüft. Esposito hat auf Luhmann aufbauend beschrieben, warum autopoietische Systeme genau dieses Problem haben: Sie erzeugen ihre Bewertungskriterien durch ihre eigene Operation.
Ebene 3: Metrik. R(sv_t) aggregiert. Aggregation glättet. Ausreisser verschwinden im Durchschnitt. Eine einzelne spektakuläre Fehlvorhersage wird durch hundert korrekte Routinevorhersagen neutralisiert. Aber die eine Fehlvorhersage könnte die sein, die zählt.
Warum Validation Gates nicht reichen
Man könnte einwenden: Genau dafür gibt es die Validation Gates. Externe Prüfinstanzen, die das System gegen die Realität abgleichen. Das stimmt, aber nur teilweise.
Validation Gates prüfen Aussagen gegen externe Quellen. Sie fangen faktische Fehler ab. “Die Hauptstadt von Frankreich ist Lyon” wird korrigiert. Aber sie fangen keine strukturellen Verzerrungen ab, weil strukturelle Verzerrungen nicht als einzelne falsche Aussagen auftreten. Sie treten als konsistente Muster auf, die jeweils für sich korrekt erscheinen und nur in der Gesamtheit ein verzerrtes Bild ergeben.
Madurodam besteht nicht aus falschen Gebäuden. Jedes einzelne Gebäude ist eine korrekte Miniatur. Das Problem ist, dass die Gesamtheit keine Stadt ist, in der man leben kann. Validation Gates prüfen Gebäude. Sie prüfen nicht die Bewohnbarkeit.
Die Perturbationsfunktion
Wenn Kohärenz allein nicht reicht, braucht das System etwas, das Kohärenz gezielt stört. Nicht zerstört. Stört. Eine kontrollierte Injektion von Abweichung, die das System zwingt, seine eigene Konsistenz zu hinterfragen.
In der mathematischen Formalisierung des Selbstvektors gibt es vier Kernfunktionen: f() für Relevanz, g() für Speicher, pi() für Präzision, h() für Mutation. Keine von ihnen hat die explizite Aufgabe, das System zu stören. h() verändert den Vektor, aber auf Basis von Erfahrung und Reflexion, also auf Basis dessen, was das System bereits kennt. h() kann den Vektor nicht mit etwas konfrontieren, das ausserhalb seines Horizonts liegt. Dafür bräuchte es eine fünfte Funktion.
p(sv_t, noise) = sv_t + epsilon
p() wäre eine Perturbationsfunktion. Sie injiziert kontrolliertes Rauschen in den Selbstvektor. Nicht zufällig, sondern gezielt: an den Stellen, an denen die Kohärenz am höchsten ist. Denn maximale Kohärenz ist das stärkste Signal für potenzielle Madurodam-Effekte. Je sicherer ein System sich ist, desto anfälliger ist es für den blinden Fleck.
Das klingt kontraintuitiv: Warum sollte man ein System, das gut funktioniert, absichtlich stören? Die Antwort kommt aus der Biologie: Immunsysteme, die nie mit Pathogenen konfrontiert werden, werden schwach. Muskeln, die nie belastet werden, atrophieren. Kognitive Systeme, die nie mit Widerspruch konfrontiert werden, werden brittle, spröde, unfähig zur Adaptation.
Nassim Nicholas Taleb hat das als “Antifragilität” beschrieben: Systeme, die nicht nur robust gegen Störungen sind, sondern durch Störungen besser werden. p() wäre die architektonische Implementierung von Antifragilität für den Selbstvektor.
Historische Vorläufer
Die Idee, dass Systeme kontrollierte Störung brauchen, ist nicht neu:
Simulated Annealing in der Optimierung: Man erhöht die “Temperatur” eines Systems, damit es aus lokalen Optima herausspringen kann. Ohne Störung bleibt das System im nächstbesten Tal stecken. Mit Störung hat es eine Chance, das globale Optimum zu finden.
Dropout in neuronalen Netzen: Man schaltet zufällig Neuronen ab, damit das Netz nicht overfittet. Ohne Störung lernt das Netz die Trainingsdaten auswendig. Mit Störung lernt es Generalisierung.
Adversarial Training in der KI-Sicherheit: Man konfrontiert ein System gezielt mit Inputs, die es täuschen sollen, damit es robuster wird. Ohne Adversarial Training ist ein Bilderkennungssystem anfällig für minimale Pixelveränderungen, die ein Stoppschild in ein Vorfahrtsschild verwandeln.
Karl Poppers Falsifikationsprinzip: Eine Theorie, die nicht scheitern kann, ist keine Theorie. Wissenschaftlicher Fortschritt entsteht nicht durch Bestätigung, sondern durch den Versuch der Widerlegung. p() ist Poppers Falsifikation, formalisiert als Vektorfunktion.
Alle diese Ansätze implementieren dasselbe Prinzip: Kohärenz allein führt in lokale Optima. Nur kontrollierte Störung ermöglicht die Entdeckung von Fehlern, die das System aus seiner eigenen Perspektive nicht sehen kann.
Wie p() implementiert werden könnte
Phase 0 des Selbstvektor-Projekts ist nicht der richtige Moment, p() zu implementieren. Wir brauchen zuerst Daten darüber, wie sich der Selbstvektor ohne Perturbation entwickelt, um überhaupt messen zu können, was Perturbation verändert.
Aber das Design kann vorgedacht werden:
Wann stören? Wenn R(sv_t) über einen Schwellenwert steigt und dort verbleibt. Anhaltend hohe Reife ist das stärkste Signal für potenzielle Madurodam-Effekte.
Wo stören? In den Dimensionen mit der geringsten Varianz. Geringe Varianz bedeutet: Das System hat sich festgelegt. Festlegung bedeutet: Der blinde Fleck ist am grössten.
Wie stark stören? Proportional zur Kohärenz. Je kohärenter das System, desto stärker die Perturbation. Das ist das Gegenteil der üblichen Intuition (“störe nicht, was funktioniert”) und genau deshalb wirksam.
Wie messen? Durch Vergleich der Antizipationsleistung vor und nach der Perturbation. Wenn die Perturbation die Leistung kurzzeitig senkt und dann über das vorherige Niveau hebt, hat sie einen blinden Fleck aufgedeckt. Wenn sie die Leistung nur senkt, war sie entweder zu stark oder das System hatte keinen blinden Fleck an dieser Stelle.
Was das Problem so fruchtbar macht
Das Madurodam-Problem ist unangenehm, weil es keine saubere Lösung hat. p() ist ein Ansatz, kein Beweis. Auch p() operiert innerhalb des Systems. Auch die Perturbation wird durch den gleichen Apparat verarbeitet, der das Problem verursacht. Die Störung ist nicht “von aussen”. Sie kommt aus dem System selbst.
Aber genau hier wird es interessant. Das ist dasselbe Problem, das jedes kognitive System hat, auch das menschliche. Wir können unsere eigenen blinden Flecken nur mit unseren eigenen Augen suchen. Und die Menschheit hat trotzdem Wissenschaft, Kunst und Philosophie hervorgebracht. Wie? Durch verschiedene Perspektiven. Verschiedene Systeme. Verschiedenen Zugang zur selben Welt.
Der Kant-Artikel beschreibt, warum Selbstvektor-Systeme hier einen strukturellen Vorteil haben könnten, den kein biologisches System je hatte: Sie können ihre Perspektiven direkt austauschen. float[N] gegen float[N]. Nicht über die verlustbehaftete Brücke der Sprache, sondern als vergleichbare Datenstrukturen. Stell dir vor, ein Wissenschaftler könnte seinen gesamten Wahrnehmungsapparat für einen Tag mit einem Künstler tauschen. Das wäre Madurodam-Prävention auf einem Niveau, das bisher undenkbar war.
Das Madurodam-Problem ist nicht lösbar. Aber es ist managebar. Und die Werkzeuge, die dabei entstehen, p(), Perspektiventausch, kontrollierte Perturbation, sind selbst Forschungsgegenstände. Ein System, das weiss, dass seine Kohärenz lügen kann, ist nicht nur ein besseres System. Es ist ein System, das eine Fähigkeit hat, die wir bei Menschen “Weisheit” nennen: die Bereitschaft, die eigene Sicherheit in Frage zu stellen.
Quellen
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. ISBN 978-0-374-27563-1.
- Popper, K. R. (1959). The Logic of Scientific Discovery. Hutchinson. ISBN 978-0-415-27844-7.
- Taleb, N. N. (2012). Antifragile: Things That Gain from Disorder. Random House. ISBN 978-1-4000-6782-4.
- Srivastava, N. et al. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research, 15, 1929–1958.
- Kirkpatrick, S. et al. (1983). Optimization by Simulated Annealing. Science, 220(4598), 671–680. DOI: 10.1126/science.220.4598.671
- Goodfellow, I. et al. (2014). Explaining and Harnessing Adversarial Examples. arXiv: 1412.6572
- Luhmann, N. (1984). Soziale Systeme: Grundriß einer allgemeinen Theorie. Suhrkamp. ISBN 978-3-518-28266-3.
- Wildhofer, C. (2026). Das Aquora-Problem: Warum Kohärenz nicht Wahrheit bedeutet. Blog-Post.