# PPO
PPO (Proximal Policy Optimization) ist im Kern eine vereinfachte, robuste Weiterentwicklung von TRPO â€“ mit fast derselben Idee, aber ohne komplizierte Optimierung. Genau deshalb ist PPO heute der Deâ€‘factoâ€‘Standard im Policyâ€‘Gradientâ€‘RL.

## Grundidee von PPO
PPO will Policyâ€‘Updates stabil halten, indem es verhindert, dass die neue Policy zu weit von der alten abweicht â€“ aber ohne die schweren mathematischen Constraints von TRPO.
Der Trick:
PPO begrenzt das Policyâ€‘Update direkt im Lossâ€‘Term durch Clipping.

Damit wird jeder Update-Schritt automatisch â€žvertrÃ¤glichâ€œ.

## Der Kern: Clipped Surrogate Objective
PPO maximiert eine modifizierte Version des Policyâ€‘Gradientâ€‘Ziels:
$$L(\theta )=\mathbb{E}\left[ \min \left( r(\theta )A,\; \mathrm{clip}(r(\theta ),1-\epsilon ,1+\epsilon )A\right) \right] $$
mit
$$r(\theta )=\frac{\pi _{\theta }(a|s)}{\pi _{\theta _{\mathrm{old}}}(a|s)}$$
Was bedeutet das?
r$$(\theta )$$ 
misst, wie stark sich die neue Policy von der alten unterscheidet.
- Wenn 
$$r(\theta )$$
 zu groÃŸ oder zu klein wird, wird es geclippt.
- Dadurch kann der Update nicht explodieren.
Ergebnis:
Die Policy verbessert sich, aber nur in einem â€žsicherenâ€œ Bereich.

## Warum ist das besser als TRPO?
TRPO braucht:
- KLâ€‘Constraint
- Conjugate Gradient
- Line Search
PPO ersetzt das alles durch einfaches Clipping im Loss.
Das ist:
- schneller
- stabiler
- GPUâ€‘freundlich
- leichter zu implementieren
Und liefert trotzdem fast dieselbe StabilitÃ¤t wie TRPO.

ðŸ”§ PPOâ€‘Ablauf (vereinfacht)
- Rollouts sammeln
â€“ mehrere Schritte in der Umgebung ausfÃ¼hren
â€“ ZustÃ¤nde, Aktionen, Rewards speichern
- Advantage schÃ¤tzen
â€“ oft mit GAE (Generalized Advantage Estimation)
- Policyâ€‘Update mit Clipped Loss
â€“ mehrere Epochs Ã¼ber dieselben Daten
â€“ Miniâ€‘Batchâ€‘SGD
- Valueâ€‘Function separat optimieren
â€“ eigener Loss (MSE)
- Optional: KLâ€‘Monitoring
â€“ PPO bricht ab, wenn KL zu groÃŸ wird

## Warum PPO so beliebt ist
- extrem stabil
- sehr sampleâ€‘effizient
- funktioniert in kontinuierlichen AktionsrÃ¤umen
- einfach zu implementieren
- robust gegenÃ¼ber Hyperparametern
- funktioniert in fast allen RLâ€‘Benchmarks
Deshalb nutzen es viele Frameworks (SB3, RLlib, CleanRL) als Standard.

## Kurzfassung
PPO funktioniert so:
- Nutzt denselben Vorteil wie TRPO: begrenzte Policyâ€‘Ã„nderung
- Aber statt komplizierter Constraints nutzt es Clipping im Loss
- Dadurch wird jeder Update automatisch stabil
- Sehr effizient und leicht zu trainieren

# TRPO
TRPO (â€žTrust Region Policy Optimizationâ€œ) ist eine der elegantesten Policyâ€‘Gradientâ€‘Methoden, weil sie ein zentrales Problem klassischer PGâ€‘Verfahren lÃ¶st: zu groÃŸe, instabile Policyâ€‘Updates. Die Idee ist, die Policy nur so weit zu verÃ¤ndern, wie man ihr â€žvertrauenâ€œ kann â€“ daher Trust Region.

TRPO maximiert den erwarteten Vorteil (Advantage), unter der Nebenbedingung, dass sich die neue Policy nicht zu stark von der alten unterscheidet.
Formal:
$$\max _{\theta }\; \mathbb{E_{\mathnormal{\pi _{\theta _{\mathrm{old}}}}}}\left[ \frac{\pi _{\theta }(a|s)}{\pi _{\theta _{\mathrm{old}}}(a|s)}A(s,a)\right] $$
unter der Nebenbedingung:
$$D_{\mathrm{KL}}(\pi _{\theta _{\mathrm{old}}}\, \| \, \pi _{\theta })\leq \delta $$
Das heiÃŸt:
- Ziel: verbessere die Policy proportional zum Advantage
- Constraint: KLâ€‘Divergenz darf nur klein sein (kleiner als Î´)
Damit verhindert TRPO â€žPolicyâ€‘Explosionenâ€œ.

## Warum braucht man so etwas?
Normale Policyâ€‘Gradients machen:
- einen Schritt in Richtung des Gradienten
- mit einer festen Lernrate
Das Problem:
Ein zu groÃŸer Schritt kann die Policy komplett ruinieren â†’ Training kollabiert.
TRPO lÃ¶st das, indem es mathematisch garantiert, dass jeder Schritt die Policy nur kontrolliert verÃ¤ndert.

## Wie TRPO das technisch lÃ¶st
TRPO nutzt drei zentrale Bausteine:

1. Surrogate Objective
Statt den echten Return zu maximieren, verwendet TRPO eine â€žErsatzfunktionâ€œ:
$$L(\theta )=\mathbb{E}\left[ r(\theta )A\right] $$
mit dem WahrscheinlichkeitsverhÃ¤ltnis:
$$r(\theta )=\frac{\pi _{\theta }(a|s)}{\pi _{\theta _{\mathrm{old}}}(a|s)}$$
Das ist derselbe Kern wie spÃ¤ter bei PPO.

2. Trustâ€‘Regionâ€‘Constraint (KLâ€‘Bound)
Die Policy darf sich nur wenig Ã¤ndern:
$$D_{\mathrm{KL}}(\pi _{\mathrm{old}}\, \| \, \pi _{\theta })\leq \delta $$
Das ist ein harte Nebenbedingung (Constraint Optimization).

3. Conjugate Gradient + Line Search
Weil neuronale Netze viele Parameter haben, kann man die Optimierung nicht direkt lÃ¶sen.
TRPO nutzt:
- Conjugate Gradient, um die natÃ¼rliche Gradientenrichtung zu approximieren
- Backtracking Line Search, um sicherzustellen, dass der KLâ€‘Constraint eingehalten wird
Das Ergebnis ist ein sicherer, monotonic improving Policyâ€‘Update.

## Warum ist TRPO wichtig?
TRPO war der erste groÃŸe Durchbruch, der gezeigt hat:
Man kann Policyâ€‘Gradients stabilisieren, indem man die Policyâ€‘Ã„nderung begrenzt.

Das fÃ¼hrte direkt zu:
- PPO (vereinfachte Version, heute Standard)
- Soft Actorâ€‘Critic (Ã¤hnliche StabilitÃ¤tsideen)
- Natural Policy Gradientâ€‘Varianten

## Kurzfassung
TRPO funktioniert so:
- Berechne Advantageâ€‘SchÃ¤tzungen
- Formuliere ein Surrogate Objective
- Finde einen Policyâ€‘Update, der dieses Objective verbessert
- Aber: Erlaube nur kleine KLâ€‘Ã„nderungen
- Nutze Conjugate Gradient + Line Search, um den Constraint einzuhalten
Ergebnis: stabile, monotone Policyâ€‘Verbesserung.
