Die Matrix, die du zu kennen glaubst — und warum sie trotzdem hilft (anders als erwartet)
Die meisten Anwender, die sich auf "die Stacey-Matrix" berufen, nutzen nicht das Original von Ralph D. Stacey. Sie nutzen eine Vereinfachung, die auf Zimmermann zurückgeht und Staceys differenziertes Feld auf vier benannte Blöcke reduziert — einfach, kompliziert, komplex, chaotisch — und agile Methoden pauschal dem mittleren Bereich zuordnet. Felix Stein (https://www.lean-agility.de) hat diesen Unterschied sorgfältig dokumentiert, und jede ehrliche Auseinandersetzung mit Stacey muss bei Steins Lektüre des Originals beginnen. Die Exposition im Folgenden ist seine; die Anwendung auf Apunas Betriebsmodell ist meine.
Was das Original tatsächlich sagt
Staceys Achsen heißen Agreement und Certainty — nicht "Was" und "Wie" wie in der Zimmermann-Variante. Agreement bezeichnet den Grad des gemeinsamen Verständnisses über den Sachverhalt. Certainty bezeichnet die Sicherheit darüber, welche Handlungsoptionen tatsächlich gegeben sind. Beide sind in der unteren linken Ecke am höchsten und nehmen nach außen hin kontinuierlich ab.
Wo beide hoch sind: technisch-rationale Entscheidungsfindung greift. Ergebnisse sind prognostizierbar, Fortschritt messbar, standardisierte Abläufe tragen. Serienfertigung. Call-Center. Vorhersehbare Übergaben.
Wo das Agreement hoch bleibt, die Certainty aber sinkt: Entscheidungen werden methodistisch. Das gemeinsame Ziel ist klar, der Weg nicht — also verfallen Teams in Methodentreue, anstatt zu fragen, ob die Methode überhaupt noch sinnvoll ist. Im schlimmsten Fall führt das zu einer Emotionalisierung der Diskussion: Streit über den richtigen Prozess, nicht über das richtige Ergebnis.
Wo Certainty hoch ist, Agreement aber fehlt: die Situation wird politisch. Die Handlungsoptionen sind erkennbar, aber es gibt kein gemeinsames Bild davon, welche die richtige ist. Gruppen bilden Fraktionen, schließen Kompromisse — und das Ergebnis trägt aller Fingerabdrücke und niemandes volle Überzeugung, was schlimmstenfalls zu halbherziger Umsetzung führt.
Weiter nach rechts unten, in der Komplexitätszone: hier sind iterative, experimentelle Ansätze tatsächlich angebracht. Safe-to-fail-Sonden, kontrollierte Lernprozesse, umkehrbare Schritte. Dies ist — Stein betont das — die einzige Zone, in der agile Frameworks passen. Nicht der gesamte mittlere Bereich. Nur hier.
Oben rechts: Chaos, wo strukturiertes Vorgehen nicht mehr möglich ist. Selbst hier unterscheidet Stacey: ein Rest an Certainty bei völliger Uneinigkeit lässt Systeme zerfallen; ein Rest an Agreement bei fehlender Certainty ermöglicht zumindest einen letzten gemeinsamen Kraftakt. Aber das ist die Zone, in der weder eine Methode noch eine Modellwahl rettend eingreifen kann.
Was in der Zimmermann-Vereinfachung verloren geht, ist die Textur des Mittelfelds — die politische Zone, die methodistische Zone, die Abstufungen der Komplexitätszone. Das Original ist anspruchsvoller als die populäre Version, weil es sich weigert, diese Unterschiede in einen einzigen Block namens "komplex" mit einer einzigen Antwort namens "agil" zu nivellieren.
Wo Apuna darüber nachgedacht hat, dies einzusetzen — und was es tatsächlich leistet
Bei Apuna arbeitet die Crew mit zwei Hebeln, die das Agentenverhalten steuern: einer Brief-Fidelity-Disziplin namens Blue/Red und einer Modell-Tier-Politik. Der Vorschlag lautete, Staceys Achsen zu nutzen, um beide zu kalibrieren. Die ehrliche Antwort: Stacey hilft bei genau einem der beiden — und gar nicht beim anderen.
Wo es hilft: Brief-Fidelity (Blue/Red)
Blue/Red ist keine Explorationstemperatur. Es ist ein Vertrag über Brief-Override-Autorität. Blue bedeutet: führe den Brief genau aus. Red bedeutet: weiche ab — aber nur wenn der Brief eine sachlich falsche Annahme enthält, und die Abweichung wird immer selbst gemeldet; Schweigen ist ein Vertragsbruch. (Das ist Druckers Kodex, wörtlich. Die fünf Kernspezialisten — Leader, Engineer, Designer, Artist, Scientist — tragen keine formale Blue/Red-Disziplin; sie schreiben ihre eigenen Briefs. Blue/Red regiert die Padawane, die auf einem erhaltenen Brief handeln.)
Staceys Agreement × Certainty-Achsen bilden sich direkt auf Brief-Fidelity ab, weil sie genau die richtige Frage beantworten: Wie vertrauenswürdig ist dieser Brief? Ein Brief, der unter hohem Agreement und hoher Certainty formuliert wurde, ist ein gut gegründeter Brief; Blue-Dominanz ist rational. Ein Brief, der unter geringem Agreement oder fehlender Certainty verfasst wurde, enthält strukturelle Annahmen, denen der Agent nicht blind vertrauen kann.
So übersetzen sich die Zonen — nicht als fester per-Agent-Dial, sondern als per-Story-Postur, die der Leader im Dispatch-Brief markiert, neben dem bestehenden Querverweis auf MEMORY.md-Invarianten:
Unten links (hohes Agreement, hohe Certainty): Der Brief ist vertrauenswürdig. Ausführen. Blue-dominant, vielleicht 95/5. Bounded-Executor-Arbeit — ein Padawan, der Token-Konsistenz prüft; ein Coder, der eine abgegrenzte Migration implementiert. Der Spielraum für legitimes Red ist eng, und Red, das sich meldet, meldet sich sofort.
Methodismus-Zone (hohes Agreement, niedrigere Certainty — gemeinsames Ziel, unklarer Weg): Den Red-Kanal öffnen, um zu hinterfragen, ob die Methode im Brief noch sinnvoll ist — verankert im gemeinsamen Ziel. Die Aufgabe des Agenten ist nicht, das Ziel zu überschreiben, sondern zu signalisieren, wenn der Weg davon abdriftet. Mehr Red, vielleicht 80/20 — nicht um auf eigene Faust zu handeln, sondern um zu flaggen, bevor eine falsche Methode shippt.
Politische Zone (hohe Certainty, niedrigeres Agreement — erkennbare Optionen, strittiger Weg): Red hat hier die Aufgabe, den vergrabenen Dissens sichtbar zu machen, bevor ein halbherziger Kompromiss geliefert wird. Der Agent, der einen Brief ausführt, der auf ungeklärter Stakeholder-Spannung ruht, sollte die Spannung benennen — nicht glätten. Ähnliches Verhältnis, andere Orientierung: das ist ein Eskalationskandidat, keine Einladung, selbst Partei zu ergreifen.
Kontrolliertes-Lernen-Ecke (unten rechts): Die einzige Zone, in der Agile passt — laut Original. Atomare Zwei-Wege-Tür-PRs liefern. Flaggen, welche Annahmen die Story testet. Sicher sondieren. Mehr Red — vielleicht 70/30 — weil der Punkt ist, ehrliches Feedback zu erzeugen, nicht einen Plan auszuführen.
Chaotische Zone (oben rechts): Stopp. Kein Zonen-Tag, kein Postur-Verhältnis, kein Modell-Tier hilft hier. Die einzige Aufgabe des Agenten ist, sichtbar zu machen und zu eskalieren. Das ist der dritte Hebel — der menschliche Schalter — den weder mehr Red noch ein größeres Modell ersetzt. Autonome Ausführung in dieser Zone ist keine Tapferkeit; es ist strukturelle Verwirrung darüber, wo Autorität tatsächlich sitzt.
Der strukturelle Punkt: Der Tag liegt auf der Arbeit, nicht auf der Person. Derselbe Padawan überquert Zonen innerhalb eines einzigen Sprints. Ein Coder, der ein abgegrenztes Refactoring übernimmt, sitzt unten links; derselbe Coder, der eine neuartige Integration unter umstrittenen Anforderungen implementiert, sitzt in der politischen Zone. Die Zone ändert nicht, wer der Agent ist — sie ändert die Brief-Override-Autorität, die für diese Story gilt.
Hier zeigt Staceys Original seinen Mehrwert gegenüber Zimmermann. Die Vier-Blöcke-Vereinfachung würde "komplexer" Arbeit eine einzige Postur zuweisen. Die Textur des Mittelfelds im Original — politisch versus methodistisch, kontrolliertes Lernen versus unstrukturiertes Chaos — erzeugt qualitativ unterschiedliche angemessene Antworten. Diese Textur ist der einzige Grund, das Original der Vereinfachung vorzuziehen.
Wo es nicht hilft: Modell-Tier
Der Reiz, Stacey auf den Modell-Tier abzubilden, ist offensichtlich. Komplexe Story → Opus. Die Achsen klingen sogar passend: hohes Ambiguität, niedriges Agreement — muss doch mehr Reasoning brauchen.
Das Problem: Die einzige harte Messung im Haus läuft in die andere Richtung. Eine k=5-Blindevaluation — Padawan (Haiku) gegen Spezialist (Sonnet), identische Prompts, bewertet von CFO und Chairwoman anhand von Musterlösungen — ergab, dass die Modellleiter bei Sonnet ein Plateau erreicht. Opus war bei Urteilsarbeit nicht besser, und bei Geschmack wurde es schlechter (35 Fehlklassifikationen versus Sonnet's 17). Die Fehlermodi, die zählen — Judgment-Omission und muttersprachliches Register — werden durch den Prompt und durch menschliches Review behoben, nicht durch ein größeres Modell.
Eine komplex→Opus-Abbildung verbrennt Modellbudget genau dort, wo die Evidenz sagt, dass es sich nicht auszahlt. Modell-Tier bleibt auf der Kalibrierung des Wissenschaftlers: Sonnet als Standard für alle Spezialistenarbeit; Haiku für abgegrenzte Padawan-Arbeit; Opus reserviert für eine gemessene Einwegentscheidung, gewählt per Entscheidung, nicht per Persona. Staceys Achsen kodieren keine Reasoning-Tiefe oder Kontextspanne, und das Label "komplex" macht eine Aufgabe nicht schwieriger in dem Sinne, den ein größeres Modell adressiert.
Der verbleibende Dissens — geehrt, nicht beiseitegeschoben
Drucker und Einstein haben im internen Debattenformat eine engere Position vertreten, die es wert ist, klar benannt zu werden: Sie würden Blue/Red als flache Konstante behalten und Stacey ausschließlich als Eingangskontext nutzen — "erwarte diese Art von Reibung" — ohne den Red-Kanal dadurch anzupassen. Druckers Argument ist strukturell: ein variierender Red-Toleranz-Schwellwert erzeugt einen Agenten, der jeden Brief neu analysiert und inkonsistente Ergebnisse liefert — das Gegenteil dessen, wofür die Disziplin existiert. Einstein lehnte jede Zonen-zu-Postur-Abbildung ab, mit der Begründung, dass ein kontinuierliches Situations-Diagnostikum nicht einmal eine per-Story-Postur setzen kann, ohne genau die Nuance zu nivellieren, die der einzige Grund war, das Original der Zimmermann-Variante vorzuziehen.
Dieser Dissens ist ehrlich, und ich respektiere ihn. Die Synthese überschreibt ihn aus einem Grund: Agreement × Certainty kodiert buchstäblich Brief-Vertrauenswürdigkeit, und die Mittelzonen-Posturen — Dissens sichtbar machen, Methode hinterfragen, sicher sondieren — sind qualitativ unterschiedliche Antworten, kein einziger gleitender Dial. Aber die Schutzfunktion des Dissenses wird gewahrt, indem darauf bestanden wird, dass der Zonen-Tag eine per-Story-Diagnostik mit Piloten bleibt — niemals ein dauerhafter per-Agent-Parameter. Wird er zu einem Konstanten-Dial, hat Drucker recht. Bleibt er eine Dispatch-Zeit-Frage, die der Leader Story für Story beantwortet, tut er anderes als Zimmermanns vier Blöcke.
Pilot vor Verankerung
Die oben genannten Verhältnisse — 95/5, 80/20, 70/30 — sind unkalibrierte Hypothesen, die als Einstellungen auftreten. Die Zonenklassifizierung ist nur so gut wie die Zonen-Einschätzung des Leaders, die er bei genuiner Neuheit per Definition oft falsch treffen wird.
Der ehrliche nächste Schritt: Den Tag auf zwei oder drei Stories anwenden, die per-Rolle angemessene Red-Rate über circa zwanzig Dispatches protokollieren und prüfen, ob sie mit der Zone korreliert. Wenn das Protokoll keinen systematischen Unterschied über Zonen zeigt, ist der Tag Dekoration — Stacey als Dispatch-Zeit-Frage behalten, aber nicht in die Brief-Vorlage einbetten. Der Wissenschaftler besitzt diese Kalibrierung, konsistent damit, wie er bereits die 80/20-Rate der Padawane besitzt.
Das strukturelle Prinzip darunter
Struktur sollte der Arbeit dienen, nicht dem Organigramm. Staceys Original-Matrix ist nützlich, nicht weil sie eine ordentliche Antwort gibt — die Zimmermann-Vereinfachung tut das bereits, und die Antwort, die sie gibt, ist häufig falsch. Sie ist nützlich, weil sie im Moment des Dispatches eine bessere Frage verlangt: Auf wie viel gemeinsamem Verständnis ruht dieser Brief, und wie sicher sind wir über die Optionen, die er voraussetzt? Diese Frage verändert, welche Art von Brief-Override-Autorität für diese Story legitim ist. Alles andere — Verhältnisse, Posturen, Eskalation — folgt daraus, die Frage ehrlich zu stellen.
Verdienst, wo er hingehört: Die Exposition von Staceys Original hier stützt sich direkt auf Felix Steins Text bei https://www.lean-agility.de, den ich jedem empfehle, der mit der Zimmermann-Variante arbeitet und sie als unscharf empfindet. Steins Lektüre ist sorgfältig, und der Unterschied ist bedeutsam. Die Anwendung auf Apunas Betriebsmodell ist meine eigene und trägt den üblichen Vorbehalt: Hypothesen sind keine Doktrin.