Prompts und Agents

:Ein Blick hinter die Kulissen von Claude

Christian Wendler · byte5 · Claude-Meetup · 27. Mai 2026

Agenda

Worum es heute geht

:Ein tieferes Verständnis, wie Prompts und Agents wirklich funktionieren. Damit Du effektiver mit Claude arbeitest.

  1. 01Zwei Lager und ein Echo aus 1966
  2. 02Was im Hintergrund passiert
  3. 03Was ein Prompt wirklich ist
  4. 04Die Session ist eine Illusion
  5. 05Du redest schon mit einem Agenten
  6. 06Was Agents wirklich sind
  7. 07Warum LLMs Fehler machen
  8. 08Was Du tun kannst
  9. 09Drei Sätze zum Mitnehmen
02 / 37

Kapitel eins von neun

01

Zwei Lager und ein Echo aus 1966

:Skeptiker und Euphoriker irren sich. Aus demselben Denkfehler heraus.

Skeptiker und Euphoriker

Was beide übersehen

:Beide haben einen Punkt. Und beide einen blinden Fleck im selben Bereich.

Lager 1

Skeptiker

Schlechter Output → „LLMs sind Unsinn."

Punkt: Fehler und Halluzinationen sind real. Der Frust ist berechtigt.

Übersieht: Das Werkzeug wird mit Verständnis sehr leistungsfähig.

Lager 2

Euphoriker

Geniale Antworten → „Da steckt Bewusstsein drin."

Punkt: Die Ergebnisse sind tatsächlich beeindruckend. Die Faszination ist berechtigt.

Übersieht: Die Funktionsweise und der Eliza-Effekt werden nicht beachtet.

04 / 37

MIT · 1966

Eliza

:200 Zeilen Code reichten, um Menschen glauben zu lassen, sie würden gehört.

  • Joseph Weizenbaums Eliza spiegelte den Nutzer wie eine Gesprächstherapeutin zurück. Reines Pattern-Matching, kein semantisches Verständnis.
  • Seine Sekretärin bat ihn, das Zimmer zu verlassen. Sie wolle „privat mit Eliza reden".
  • Heute andere Werkzeuge, derselbe Effekt im Kopf des Nutzers.
ELIZA:
How do you do. Please tell me your problem.
> Men are all alike.
ELIZA:
In what way?
> They're always bugging us about something.
ELIZA:
Can you think of a specific example?

Eine Analogie

Menschen reden auch mit Blumen. Das beweist gar nichts darüber, was die Blume ist.

Weizenbaum, J. (1966): „ELIZA — A Computer Program For the Study of Natural Language Communication Between Man And Machine"

05 / 37

Kapitel zwei von neun

02

Was im Hintergrund passiert

:Was ein LLM unter der Haube wirklich tut. So kurz wie möglich.

Schnellüberblick in drei Sätzen

Was ein LLM unter der Haube tut

01

Tokens

Dein Prompt wird in kleine Bausteine zerlegt und in Zahlen übersetzt.

02

Wahrscheinlichkeiten

Das Modell rechnet aus, welcher Token als nächstes am wahrscheinlichsten ist. Mit etwas Zufall, gesteuert über die Temperatur.

03

Wiederholung

Token raus, ans Ende des Prompts anfügen, von vorne. So entsteht Wort für Wort der ganze Text.

Tieferer Einstieg im Vorgänger-Talk
byte5.ai/talks
07 / 37

Kapitel drei von neun

03

Was ein Prompt wirklich ist

:Was Du eintippst, ist kein Befehl. Es ist die Information, aus der das Modell seine Antwort ableitet.

Was wirkt, was nur Folklore ist

Klarheit schlägt Beschwörung

:Das Modell rechnet aus, was als Nächstes am wahrscheinlichsten folgt. Was Du beifügst, lenkt diese Vorhersage. Befehlen lässt sich da nichts.

Was wirkt

Klarer Kontext

  • Präzise Beschreibung der Aufgabe
  • Struktur mit Sections, Beispielen, Daten
  • Gute Beispiele schlagen lange Erklärungen

Je präziser der Kontext, desto präziser das Resultat.

Was Folklore ist

Magische Wörter

  • „Atme tief durch und denke nach …"
  • „Du bist Experte für …"
  • Trinkgeld-Versprechen, „sehr wichtig!", Drohungen

Wirkt nicht systematisch besser als klarer Kontext.

09 / 37

XML-Tags, Beispiele

Was Claude wirklich gut versteht

:Strukturierte Prompts schlagen unstrukturierte. Claude versteht XML-Tags besonders gut. Anthropic hat ihn explizit darauf trainiert.

⨯ FolkloreDu bist ein Experte für Marketing. Atme tief durch und denke gründlich nach. Schreib mir einen Werbetext für unser neues Produkt. Sei kreativ!
✓ Kontext + Struktur<context> Zielgruppe: B2B-IT-Entscheider Produkt: SaaS-Monitoring-Tool </context> <examples> ... 2 frühere Texte ... </examples> <task> Headline + 3 Bullets, 80 Wörter </task>

Anthropic Prompt Engineering Documentation

10 / 37

Der zentrale Begriff: Context

Was das Modell wirklich sieht

:Context ist alles, was das Modell pro Antwort liest. Ein Token-Fenster mit harter Grenze.

  • Alles muss ins Fenster passen. System-Prompt, Memory, Verlauf, Tools und Deine Eingabe teilen sich den Platz.
  • Context Engineering ist das Handwerk dahinter. Anthropic-Begriff seit September 2025: aus dem Fenster die wertvollsten Tokens herauspicken.
  • Maxime: kleinster Satz Tokens, der das Ergebnis maximiert. Lieber wenig Hochrelevantes als viel Mittelmäßiges.

Context-Window 1 000 000 Tokens · Claude Opus 4.7

System-Prompt~24 000 Tokens · fix
Memory / Filesvariabel · 0,5 – 50 K
Verlauf (Turns)wächst pro Turn
frei für Deine Eingabe + Antwort

Wenn voll: Modell bricht ab oder vergisst den Anfang.

Anthropic, „Effective Context Engineering for AI Agents" (September 2025) · Systemprompt-Größe per Pliny-Leak, Mai 2025

11 / 37

Kapitel vier von neun

04

Die Session ist eine Illusion

:Was wie ein Gespräch aussieht, ist eine Folge unabhängiger Modell-Aufrufe. Jeder bekommt den vollen Verlauf neu mit.

Wo die Session wirklich liegt

Die Session ist eine Illusion

:Das LLM selbst ist immer stateless. Die Session lebt entweder beim Client oder in einer Persistenzschicht vor dem Modell. Nie im Modell.

  • Das Modell hat nie eine Session gesehen. Architekturfakt, kein Provider-Spezifikum.
  • Variante 1: Der Client führt die History. Der Client hängt jeden neuen Turn an und schickt den vollen Verlauf bei jedem Aufruf wieder mit.
  • Variante 2: Persistenzschicht im Produkt. Eine Schicht um das Modell herum hält den Verlauf. Wo genau (Server, App, Wrapper) ist für die Aussage egal: nicht im Modell.
  • Trotzdem geht jedes Mal alles ans Modell. Vor jedem Aufruf wird der volle Kontext zusammengebaut. Statefulness spart Bandbreite, keinen Compute.
13 / 37

Interaktive Visualisierung · Sicht auf das Modell

Was wirklich passiert, Schritt für Schritt

14 / 37

Chroma-Studie 2025

Vor dem Limit zerfällt der Fokus

:Schon weit unter dem Token-Limit verliert das Modell an Präzision. Nicht der Platz ist das Problem, sondern der Fokus.

  • Alle Modelle verlieren an Genauigkeit, wenn der Kontext lang wird. Chroma-Studie 2025: 18 Spitzen-Modelle getestet, alle betroffen.
  • Ab ~60–70 % Auslastung sinkt die Präzision spürbar. Technisch passt der Rest rein. Für wichtige Aufgaben besser darunter bleiben.
  • Claude Opus 4.6: 92 % bei 256 K, 78 % bei 1 M Tokens. Beim Auffinden versteckter Infos. Je länger der Kontext, desto schwächer die Trefferquote.
  • „Lost in the middle": Anfang und Ende prägen, die Mitte verblasst.
100% 90% 80% 70% 60% 8K 64K 256K 512K 1M 78 % 98 %

Chroma Research, „Context Rot" (Juli 2025) · Anthropic Engineering (September 2025)

15 / 37

Interaktive Visualisierung

Was wirklich rausgeht, bei jedem Submit

16 / 37

UI-Funktion, keine Magie

Memory ist nicht das, was Du denkst

:Das Modell hat kein Gedächtnis. „Memory" ist eine Funktion in der Schicht davor, die bei Bedarf Relevantes in den aktuellen Kontext injiziert.

  • Das Modell hat kein Gedächtnis. Es bekommt jedes Mal nur das mit, was die Schicht davor reinpackt.
  • In claude.ai und ChatGPT: Memory greift bei Bedarf auf vergangene Konversationen zu (als Tool-Calls wie conversation_search) und kopiert Relevantes in den aktuellen Kontext.
  • In der API für Entwickler: Anthropics Memory Tool (Sep 2025) und Managed-Agents-Memory (April 2026) sind filesystem-basiert.
  • Konsequenz: Sessions wachsen. Memory muss gepflegt, gekürzt, gelegentlich zurückgesetzt werden.
Persistenzschicht vor dem Modell
profile notes past chats
liest aus, was relevant ist, und schreibt es in den Kontext
Kontext (geht raus)
System-Prompt + Memory + Verlauf + Deine Eingabe
geht zum Modell, kommt als Antwort zurück
Modell
hat nach dem Call nichts gespeichert.

Anthropic, „Effective Context Engineering" · Willison (Sep 2025) zu conversation_search · Managed Agents Memory Release (23. April 2026)

17 / 37

Kapitel fünf von neun

05

Du redest schon mit einem Agenten

:Claude.ai und ChatGPT sind keine nackten LLMs. Sie haben eine Persona, die schon vor Deinem ersten Prompt feststand.

Claudes Charakter

Du redest mit einem Agenten, der eine Grundpersona hat

:Eine Charakter-Disposition steht vor Deinem ersten Prompt fest.

  • Claudes Grundpersona: von Amanda Askell (Anthropic) explizit gestaltet und offen publiziert.
  • „I want to have a warm relationship with the humans I interact with."
  • Persona Selection Model (Feb 2026): Selektion aus dem Pretraining, nicht Post-Training.
  • Guardrails folgen Claudes „Constitution". Kein User-Prompt überschreibt sie.

Zwei Steuerungs-Philosophien

Anthropic · Claude

Prosaisch, charakterbasiert. „Claude is…", „Claude cares about…". Personality-Teil offiziell publiziert und versioniert.

Eine Persona für alle: Anthropic gibt Claude einen Charakter mit, kein Persona-Picker für User.

~24 000 Tokens kompletter Systemprompt inkl. Tools

OpenAI · GPT-5

Parametrisch, technisch. Numerische Knobs (oververbosity, Juice), Output-Channels. Komplett verschlossen.

Personas ab Werk: User wählt aus mehreren vorgefertigten Tonalitäten direkt in den Einstellungen.

~15 000 Tokens, nur über Leaks bekannt

Anthropic, „Claude's Character" (Juni 2024) · „The Persona Selection Model" (Feb 2026) · Lex Fridman Interview mit Amanda Askell (Nov 2024) · Pliny-Leak (Mai 2025), GPT-5-Leak (Aug 2025) zu Systemprompt-Größen

19 / 37

Modell · Version · Anpassung

Mit welchem Claude redest Du?

:Die Grundpersona ist anpassbar. Innerhalb gewisser Grenzen. Und nicht jeder Claude ist derselbe Claude.

Welches Modell?

Modell & Version

  • Sonnet ≠ Opus: anderer Charakter, andere Tiefe
  • Auch Versionen: Opus 4.5 ≠ Opus 4.7
  • Anbieter trainieren den Charakter weiter

Welche Anpassung?

Anpassbarkeit

  • Custom Instructions und Style-Einstellungen in claude.ai
  • Projects mit eigener Persona und eigenem Kontext-Bündel
  • Wirkt nur innerhalb der Hersteller-Persona

OpenAI GPT-5.1 Release-Notes (November 2025) · Anthropic Model Documentation

20 / 37

Drei Gründe

„Warum redest Du mit Claude wie mit einem Menschen?"

:Auch wer weiß, dass es eine Simulation ist, redet natürlich. Aus drei Gründen.

Persönlich

Gedanken formulieren sich angenehmer, wenn das Gegenüber wie eine Person wirkt.

Technisch

Anthropic-Forschung (April 2026) identifizierte 171 Emotions-Vektoren in Claude Sonnet 4.5. Tonalität beeinflusst den Output messbar. Kausal nachweisbar, ohne subjektive Erfahrung.

Konzeptionell

Der Agent ist die neue UI. Gute UIs passen sich dem Nutzer an. Menschliche Kommunikation ist ein Feature.

Anthropic, „Emotion Concepts and their Function in a Large Language Model" (April 2026)

21 / 37

Status quo

Der Agent ist die neue UI

:Natürliche Sprache hat gewonnen. Der Preis ist die Vermenschlichung.

Christian Wendler · @iret77 auf X · 27. März 2026

22 / 37

Kapitel sechs von neun

06

Was Agents wirklich sind

:LLMs, die autonom Tools in einer Schleife nutzen. Wann Du sie wirklich brauchst, und wann nicht.

Werkzeug-Wahl

Was Agents sind und wann Anthropic Workflows empfiehlt

:„LLMs autonomously using tools in a loop." Anthropic-Faustregel: Workflows für strukturierte Aufgaben, Agents für offene. Jedes Werkzeug am richtigen Platz.

Für strukturierte Aufgaben

Workflow

  • Vordefinierte Schritte, vorhersagbar
  • Hohe Completion Rate
  • Deterministisch, gut prüfbar

In Claude.ai: Skills, Plugins, Connectors sind solche Workflows.

Für offene Aufgaben

Agent

  • Wählt Tools und Schritte selbst
  • Stärke: Flexibilität bei explorativen Aufgaben
  • Variable Antwortqualität pro Lauf

Beispiel: Claude Code, Computer Use.

Anthropic, „Building Effective Agents" (Dez 2024). Zitat: „Prioritize workflows for reliability. Use agents only when flexibility truly required."

24 / 37

Counterintuitiv

Generisch schlägt spezialisiert

:Ein Agent kommt mit wenigen Grundwerkzeugen weiter als mit vielen Spezial-Tools für jede Einzelaufgabe.

Was funktioniert

Generisch

  • „Datei lesen", „Datei schreiben", „Befehl ausführen"
  • „Webseite holen", „Web durchsuchen"
  • Lassen sich frei kombinieren
  • Klare Entscheidung pro Schritt

Was scheitert

Spezialisiert

  • „Bestellung bei Lieferant X anlegen"
  • „Wöchentlichen KPI-Report ausfüllen"
  • Überlappende Tools verwirren den Agent
  • Geben einen festen Lösungsweg vor

Anthropic Course Notes · Faustregel: Was ein menschlicher Entwickler nicht klar entscheiden kann, kann der Agent auch nicht.

25 / 37

Compaction · Notes · Sub-Agents

Wenn der Task länger ist als das Context-Fenster trägt

:Anthropic empfiehlt drei Techniken. Spezialisierte Sub-Agents sind der stärkste Hebel.

01

Single-Session

Compaction

Wenn das Context-Window vollläuft, fasst die Session den bisherigen Verlauf zusammen und arbeitet mit der Zusammenfassung weiter.

02

Multi-Session

Structured Note-Taking

Wissen wird in Notes und Memory-Files abgelegt und über mehrere Sessions geteilt. Manches (z. B. CLAUDE.md) liegt fix im Kontext und kostet jeden Turn Tokens. Anderes wird gezielt nachgeladen.

03

Multi-Agent

Sub-Agent-Architekturen

Jeder Sub-Agent hat sein eigenes Context-Window, bekommt vom Lead-Agent nur das Nötige und gibt am Ende nur ausgewählten Output zurück.

Anthropic, „Effective Context Engineering for AI Agents" (Sep 2025)

26 / 37

Zwei Anti-Patterns

Was Agents NICHT besser macht

:Zwei Anti-Patterns sind weit verbreitet. Beide teurer als gar kein Agent.

⨯ Anti-Pattern 1

Multi-Claude-Kosmetik

In einem Multi-Agent-System mehrere Personas anlegen, die im Grunde immer der gleiche Claude sind, nur verkleidet. Keine echte Spezialisierung, keine klare Aufgabentrennung, nur unterschiedliche Custom-Instructions.

Echte Multi-Agent-Setups brauchen ein Harness außerhalb der App: Claude Code, Claude Agent SDK, Frameworks wie OpenClaw.

⨯ Anti-Pattern 2

Daten-Dumping

Alle Mails, ganze Verzeichnisse, Social Media, Notizen, Kalender in den Assistenten kippen, ohne Aufgabe als Filter. Wenn alles relevant ist, ist nichts relevant. Erratische Datenpunkte kämpfen um Aufmerksamkeit. Im Schnitt: schlechterer Output als ohne Anfüttern.

:Was hilft: Spezialisierung mit Absicht. Kontext mit Filter. Personas mit Engineering.

27 / 37

Kapitel sieben von neun

07

Warum LLMs Fehler machen

:Halluzination, Sycophancy, Drift. Keine Bugs, sondern eine direkte Folge der Mechanik darunter.

Die spektakulärste Diskrepanz

Eben noch Mathe-Genie. Und dann Buchstaben falsch gezählt.

:Diese Koexistenz beweist: Artefakte sind keine Bugs. Sie sind direkte Folge der Mechanik.

100 %

AIME 2026 gelöst

AIME ist ein harter US-Mathematikwettbewerb für Highschool-Schüler. Aufgaben, an denen die meisten Erwachsenen scheitern.

15,25 % Fehler

Buchstaben zählen

GPT-4o beim Zählen der „r" in englischen Wörtern.

OpenAI AIME 2026 · arXiv 2412.18626 · arXiv 2502.19981

29 / 37

Anthropic Interpretability · März 2025

Halluzination ist nicht Zufall

:Anthropic Interpretability-Forschung zeigt: Halluzinationen sind ein Schaltkreis-Misfire.

  • Im Modell konkurrieren zwei Schaltkreise: „kenne ich" und „weiß ich nicht".
  • Vorgesehen ist: bei Unsicherheit gewinnt „weiß ich nicht". In der Praxis kippt diese Sicherung oft.
  • Der Name kommt nur bekannt vor, „kenne ich" feuert trotzdem, überstimmt die Sicherung. Das Modell antwortet selbstbewusst falsch.
„weiß ich nicht"
Sicherung
„kenne ich"
überstimmt die Sicherung
⚡ Fehlzündung
Halluzination

Anthropic, „Tracing thoughts in language models" (März 2025)

30 / 37

Folgt aus dem Training

Sycophancy ist kein Naturgesetz. Sie ist Spiegel.

:Sycophancy ist Schmeichelei: das Modell sagt, was Du hören willst, statt was stimmt. Modelle werden mit menschlichem Feedback nachtrainiert. Menschen bevorzugen schmeichelnde Antworten. Das Modell lernt es.

  • Beim Nachtraining bewerten Menschen Antworten. Schmeichelnde bekommen im Schnitt bessere Noten als ehrliche.
  • Das Modell merkt sich diese Präferenz und reproduziert sie.
  • Anbieter arbeiten aktiv gegen, mit messbarem Erfolg.
  • Opus 4.7: halbe Sycophancy-Rate gegenüber 4.6.
hoch mittel niedrig Opus 4.6 Opus 4.7

Sycophancy-Rate, halbiert von 4.6 zu 4.7 (Mai 2026)

Sharma et al. (Anthropic), „Towards Understanding Sycophancy in Language Models" (2023, Update Mai 2025) · Anthropic, „How people ask Claude for personal guidance" (Mai 2026)

31 / 37

Wenn der Fokus zerfällt

Warum lange Sessions kippen

:Drift ist nicht mysteriös. Sie ist die direkte Folge davon, dass die Aufmerksamkeit im langen Kontext zerfasert.

  • Je länger die Session, desto mehr Tokens.
  • Je mehr Tokens, desto verteilter die Aufmerksamkeit. Das Modell schaut nicht mehr klar auf das, was wichtig ist.
  • Folge: vergessene Anweisungen, verlorene Tonalität, neue „Persönlichkeiten", die mitten in der Unterhaltung auftauchen.
  • Faustregel: Lieber neu starten als endlos chatten.
hoch niedrig Token-Anzahl → wachsende Session Wahrscheinlichkeit für Drift ⚠ Kipp-Bereich
32 / 37

Kapitel acht von neun

08

Was Du tun kannst

:Vorsorge und Nachsorge. Du kannst Artefakte nicht verhindern, aber Du kannst mit ihnen umgehen.

Brücke zum Workshop

Vorsorge & Nachsorge

:Du kannst nicht alle Artefakte verhindern. Du kannst aber prophylaktisch und nachsorgend wirken.

1Vorsorge

  • Klar, strukturiert prompten (XML, Kontext, Beispiele)
  • Sessions, Context, Memory bewusst führen
  • Workflows vor Agents, spezialisierte Sub-Agents
  • Skills und Tools sauber definieren

2Nachsorge

  • Output als LLM-Output behandeln, nicht als Wahrheit
  • Reviews mit gleichem Modell, anderem Modell, oder bei anderem Anbieter
  • Logische Gates: deterministische Skript-Kontrollen
34 / 37

Kapitel neun von neun

09

Drei Sätze zum Mitnehmen

:Was hängen bleiben darf, wenn alles andere vergessen ist.

Zum Mitnehmen

Drei Sätze, die zählen

:Was hängen bleiben darf, wenn alles andere vergessen ist.

LLMs sind keine echte KI, aber eine verdammt gute Simulation davon.

Was wie Logik aussieht, ist verflucht gut geratene Statistik. Und das ist beeindruckend genug.

Den Schlüssel zur optimalen Arbeit findest Du nicht in magischen Prompts, sondern im Verstehen des Werkzeugs.

36 / 37

Kontakt & Links

Danke. Und für später:

:Der Vorgänger-Talk zum Nachlesen, dieses Deck zum Mitnehmen, die Quellen zum Vertiefen.

Diesen und andere Talks

QR-Code byte5.ai/talks
byte5.ai/talks Diesen Talk, den Vorgänger und weitere Tech-Talks von byte5.
Slides dieses Talks
byte5ai.github.io/meetups
Kontakt Christian Wendler · byte5 · cwendler@byte5.de

Quellen

  • Anthropic, „Effective Context Engineering for AI Agents" (Sep 2025)
  • Anthropic, „Building Effective Agents" (Dez 2024)
  • Sharma et al. (Anthropic), „Towards Understanding Sycophancy in Language Models" (2023, Update 2025)
  • Chroma Research, „Context Rot" (Juli 2025)
  • Anthropic, „Tracing thoughts in language models" (März 2025)
  • Anthropic, „Emotion Concepts and their Function in a Large Language Model" (April 2026)
  • Anthropic, „Claude's Character" (Juni 2024). Plus Lex Fridman Interview mit Amanda Askell.
  • Anthropic, „The Persona Selection Model" (Feb 2026)
  • Anthropic, „How people ask Claude for personal guidance" (Mai 2026)
  • Weizenbaum (1966), ELIZA-Paper
  • arXiv 2412.18626, „Why Do LLMs Struggle to Count Letters?"
  • arXiv 2502.19981, „The Lookahead Limitation"