Lager 1
Skeptiker
Schlechter Output → „LLMs sind Unsinn."
Punkt: Fehler und Halluzinationen sind real. Der Frust ist berechtigt.
Übersieht: Das Werkzeug wird mit Verständnis sehr leistungsfähig.
:Ein Blick hinter die Kulissen von Claude
Christian Wendler · byte5 · Claude-Meetup · 27. Mai 2026
Agenda
:Ein tieferes Verständnis, wie Prompts und Agents wirklich funktionieren. Damit Du effektiver mit Claude arbeitest.
Kapitel eins von neun
:Skeptiker und Euphoriker irren sich. Aus demselben Denkfehler heraus.
Skeptiker und Euphoriker
:Beide haben einen Punkt. Und beide einen blinden Fleck im selben Bereich.
Lager 1
Schlechter Output → „LLMs sind Unsinn."
Punkt: Fehler und Halluzinationen sind real. Der Frust ist berechtigt.
Übersieht: Das Werkzeug wird mit Verständnis sehr leistungsfähig.
Lager 2
Geniale Antworten → „Da steckt Bewusstsein drin."
Punkt: Die Ergebnisse sind tatsächlich beeindruckend. Die Faszination ist berechtigt.
Übersieht: Die Funktionsweise und der Eliza-Effekt werden nicht beachtet.
MIT · 1966
:200 Zeilen Code reichten, um Menschen glauben zu lassen, sie würden gehört.
Eliza spiegelte den Nutzer wie eine Gesprächstherapeutin zurück. Reines Pattern-Matching, kein semantisches Verständnis.Eine Analogie
Menschen reden auch mit Blumen. Das beweist gar nichts darüber, was die Blume ist.
Weizenbaum, J. (1966): „ELIZA — A Computer Program For the Study of Natural Language Communication Between Man And Machine"
05 / 37Kapitel zwei von neun
:Was ein LLM unter der Haube wirklich tut. So kurz wie möglich.
Schnellüberblick in drei Sätzen
Dein Prompt wird in kleine Bausteine zerlegt und in Zahlen übersetzt.
Das Modell rechnet aus, welcher Token als nächstes am wahrscheinlichsten ist. Mit etwas Zufall, gesteuert über die Temperatur.
Token raus, ans Ende des Prompts anfügen, von vorne. So entsteht Wort für Wort der ganze Text.
Kapitel drei von neun
:Was Du eintippst, ist kein Befehl. Es ist die Information, aus der das Modell seine Antwort ableitet.
Was wirkt, was nur Folklore ist
:Das Modell rechnet aus, was als Nächstes am wahrscheinlichsten folgt. Was Du beifügst, lenkt diese Vorhersage. Befehlen lässt sich da nichts.
Was wirkt
Je präziser der Kontext, desto präziser das Resultat.
Was Folklore ist
Wirkt nicht systematisch besser als klarer Kontext.
XML-Tags, Beispiele
:Strukturierte Prompts schlagen unstrukturierte. Claude versteht XML-Tags besonders gut. Anthropic hat ihn explizit darauf trainiert.
Anthropic Prompt Engineering Documentation
10 / 37Der zentrale Begriff: Context
:Context ist alles, was das Modell pro Antwort liest. Ein Token-Fenster mit harter Grenze.
Context-Window 1 000 000 Tokens · Claude Opus 4.7
Wenn voll: Modell bricht ab oder vergisst den Anfang.
Anthropic, „Effective Context Engineering for AI Agents" (September 2025) · Systemprompt-Größe per Pliny-Leak, Mai 2025
11 / 37Kapitel vier von neun
:Was wie ein Gespräch aussieht, ist eine Folge unabhängiger Modell-Aufrufe. Jeder bekommt den vollen Verlauf neu mit.
Wo die Session wirklich liegt
:Das LLM selbst ist immer stateless. Die Session lebt entweder beim Client oder in einer Persistenzschicht vor dem Modell. Nie im Modell.
Interaktive Visualisierung · Sicht auf das Modell
Chroma-Studie 2025
:Schon weit unter dem Token-Limit verliert das Modell an Präzision. Nicht der Platz ist das Problem, sondern der Fokus.
Chroma Research, „Context Rot" (Juli 2025) · Anthropic Engineering (September 2025)
15 / 37Interaktive Visualisierung
UI-Funktion, keine Magie
:Das Modell hat kein Gedächtnis. „Memory" ist eine Funktion in der Schicht davor, die bei Bedarf Relevantes in den aktuellen Kontext injiziert.
conversation_search) und kopiert Relevantes in den aktuellen Kontext.Anthropic, „Effective Context Engineering" · Willison (Sep 2025) zu conversation_search · Managed Agents Memory Release (23. April 2026)
17 / 37Kapitel fünf von neun
:Claude.ai und ChatGPT sind keine nackten LLMs. Sie haben eine Persona, die schon vor Deinem ersten Prompt feststand.
Claudes Charakter
:Eine Charakter-Disposition steht vor Deinem ersten Prompt fest.
Zwei Steuerungs-Philosophien
Anthropic · Claude
Prosaisch, charakterbasiert. „Claude is…", „Claude cares about…". Personality-Teil offiziell publiziert und versioniert.
Eine Persona für alle: Anthropic gibt Claude einen Charakter mit, kein Persona-Picker für User.
~24 000 Tokens kompletter Systemprompt inkl. Tools
OpenAI · GPT-5
Parametrisch, technisch. Numerische Knobs (oververbosity, Juice), Output-Channels. Komplett verschlossen.
Personas ab Werk: User wählt aus mehreren vorgefertigten Tonalitäten direkt in den Einstellungen.
~15 000 Tokens, nur über Leaks bekannt
Anthropic, „Claude's Character" (Juni 2024) · „The Persona Selection Model" (Feb 2026) · Lex Fridman Interview mit Amanda Askell (Nov 2024) · Pliny-Leak (Mai 2025), GPT-5-Leak (Aug 2025) zu Systemprompt-Größen
19 / 37Modell · Version · Anpassung
:Die Grundpersona ist anpassbar. Innerhalb gewisser Grenzen. Und nicht jeder Claude ist derselbe Claude.
Welches Modell?
Welche Anpassung?
OpenAI GPT-5.1 Release-Notes (November 2025) · Anthropic Model Documentation
20 / 37Drei Gründe
:Auch wer weiß, dass es eine Simulation ist, redet natürlich. Aus drei Gründen.
Gedanken formulieren sich angenehmer, wenn das Gegenüber wie eine Person wirkt.
Anthropic-Forschung (April 2026) identifizierte 171 Emotions-Vektoren in Claude Sonnet 4.5. Tonalität beeinflusst den Output messbar. Kausal nachweisbar, ohne subjektive Erfahrung.
Der Agent ist die neue UI. Gute UIs passen sich dem Nutzer an. Menschliche Kommunikation ist ein Feature.
Anthropic, „Emotion Concepts and their Function in a Large Language Model" (April 2026)
21 / 37Status quo
:Natürliche Sprache hat gewonnen. Der Preis ist die Vermenschlichung.
Christian Wendler · @iret77 auf X · 27. März 2026
22 / 37Kapitel sechs von neun
:LLMs, die autonom Tools in einer Schleife nutzen. Wann Du sie wirklich brauchst, und wann nicht.
Werkzeug-Wahl
:„LLMs autonomously using tools in a loop." Anthropic-Faustregel: Workflows für strukturierte Aufgaben, Agents für offene. Jedes Werkzeug am richtigen Platz.
Für strukturierte Aufgaben
In Claude.ai: Skills, Plugins, Connectors sind solche Workflows.
Für offene Aufgaben
Beispiel: Claude Code, Computer Use.
Anthropic, „Building Effective Agents" (Dez 2024). Zitat: „Prioritize workflows for reliability. Use agents only when flexibility truly required."
24 / 37Counterintuitiv
:Ein Agent kommt mit wenigen Grundwerkzeugen weiter als mit vielen Spezial-Tools für jede Einzelaufgabe.
Was funktioniert
Was scheitert
Anthropic Course Notes · Faustregel: Was ein menschlicher Entwickler nicht klar entscheiden kann, kann der Agent auch nicht.
25 / 37Compaction · Notes · Sub-Agents
:Anthropic empfiehlt drei Techniken. Spezialisierte Sub-Agents sind der stärkste Hebel.
Single-Session
Wenn das Context-Window vollläuft, fasst die Session den bisherigen Verlauf zusammen und arbeitet mit der Zusammenfassung weiter.
Multi-Session
Wissen wird in Notes und Memory-Files abgelegt und über mehrere Sessions geteilt. Manches (z. B. CLAUDE.md) liegt fix im Kontext und kostet jeden Turn Tokens. Anderes wird gezielt nachgeladen.
Multi-Agent
Jeder Sub-Agent hat sein eigenes Context-Window, bekommt vom Lead-Agent nur das Nötige und gibt am Ende nur ausgewählten Output zurück.
Anthropic, „Effective Context Engineering for AI Agents" (Sep 2025)
26 / 37Zwei Anti-Patterns
:Zwei Anti-Patterns sind weit verbreitet. Beide teurer als gar kein Agent.
In einem Multi-Agent-System mehrere Personas anlegen, die im Grunde immer der gleiche Claude sind, nur verkleidet. Keine echte Spezialisierung, keine klare Aufgabentrennung, nur unterschiedliche Custom-Instructions.
Echte Multi-Agent-Setups brauchen ein Harness außerhalb der App: Claude Code, Claude Agent SDK, Frameworks wie OpenClaw.
Alle Mails, ganze Verzeichnisse, Social Media, Notizen, Kalender in den Assistenten kippen, ohne Aufgabe als Filter. Wenn alles relevant ist, ist nichts relevant. Erratische Datenpunkte kämpfen um Aufmerksamkeit. Im Schnitt: schlechterer Output als ohne Anfüttern.
:Was hilft: Spezialisierung mit Absicht. Kontext mit Filter. Personas mit Engineering.
27 / 37Kapitel sieben von neun
:Halluzination, Sycophancy, Drift. Keine Bugs, sondern eine direkte Folge der Mechanik darunter.
Die spektakulärste Diskrepanz
:Diese Koexistenz beweist: Artefakte sind keine Bugs. Sie sind direkte Folge der Mechanik.
100 %
AIME ist ein harter US-Mathematikwettbewerb für Highschool-Schüler. Aufgaben, an denen die meisten Erwachsenen scheitern.
15,25 % Fehler
GPT-4o beim Zählen der „r" in englischen Wörtern.
OpenAI AIME 2026 · arXiv 2412.18626 · arXiv 2502.19981
29 / 37Anthropic Interpretability · März 2025
:Anthropic Interpretability-Forschung zeigt: Halluzinationen sind ein Schaltkreis-Misfire.
Anthropic, „Tracing thoughts in language models" (März 2025)
30 / 37Folgt aus dem Training
:Sycophancy ist Schmeichelei: das Modell sagt, was Du hören willst, statt was stimmt. Modelle werden mit menschlichem Feedback nachtrainiert. Menschen bevorzugen schmeichelnde Antworten. Das Modell lernt es.
Sycophancy-Rate, halbiert von 4.6 zu 4.7 (Mai 2026)
Sharma et al. (Anthropic), „Towards Understanding Sycophancy in Language Models" (2023, Update Mai 2025) · Anthropic, „How people ask Claude for personal guidance" (Mai 2026)
31 / 37Wenn der Fokus zerfällt
:Drift ist nicht mysteriös. Sie ist die direkte Folge davon, dass die Aufmerksamkeit im langen Kontext zerfasert.
Kapitel acht von neun
:Vorsorge und Nachsorge. Du kannst Artefakte nicht verhindern, aber Du kannst mit ihnen umgehen.
Brücke zum Workshop
:Du kannst nicht alle Artefakte verhindern. Du kannst aber prophylaktisch und nachsorgend wirken.
Kapitel neun von neun
:Was hängen bleiben darf, wenn alles andere vergessen ist.
Zum Mitnehmen
:Was hängen bleiben darf, wenn alles andere vergessen ist.
LLMs sind keine echte KI, aber eine verdammt gute Simulation davon.
Was wie Logik aussieht, ist verflucht gut geratene Statistik. Und das ist beeindruckend genug.
Den Schlüssel zur optimalen Arbeit findest Du nicht in magischen Prompts, sondern im Verstehen des Werkzeugs.
36 / 37Kontakt & Links
:Der Vorgänger-Talk zum Nachlesen, dieses Deck zum Mitnehmen, die Quellen zum Vertiefen.
Diesen und andere Talks
Quellen