asdf

# Policy Gradient Methoden

Struktur:

- Was optimiert die Methode?
- Wie stabilisiert sie das Lernen?
- Welche Zusatztricks nutzt sie?

### 1. VPG – Vanilla Policy Gradient
„Der einfachste, direkteste Policy‑Gradient.“

Kernidee
- Wir schätzen den Gradienten der erwarteten Return‑Funktion und gehen direkt in diese Richtung.
- Keine Normalisierung, keine Constraints, keine Tricks.

Wesentliche Eigenschaften
- Einfach, aber instabil: hohe Varianz, empfindlich gegenüber Lernrate.
- Policy wird direkt aktualisiert: keine Rücksicht auf die Geometrie des Parameterraums.
- Baseline/Advantage kann Varianz reduzieren, ist aber optional.

Merksatz
- VPG ist der rohe Policy‑Gradient: funktioniert, aber schwankt stark.


### 2. NPG – Natural Policy Gradient
„Wie VPG, aber mit besserem Schritt – wir gehen nicht blind, sondern entlang der wahren Geometrie.“

Kernidee
- Statt eines normalen Gradienten nutzt NPG den Natural Gradient, der die Krümmung des Policy‑Raums berücksichtigt.
- Das entspricht einem Fisher‑Information‑gewichteten Schritt.

Wesentliche Eigenschaften
- Stabilere Updates als VPG.
- Richtungswahl ist ‚natürlicher‘: gleiche KL‑Änderung bedeutet gleiche „Distanz“ im Policy‑Raum.

- Teurer als VPG, weil Fisher‑Matrix geschätzt werden muss.
Merksatz
- NPG ist VPG mit einem intelligenteren Schritt – weniger Varianz, bessere Richtung.


### 3. A2C – Advantage Actor‑Critic
„Wir kombinieren Policy‑Gradient mit einem Wertschätzer, um die Varianz zu reduzieren.“

Kernidee
- Zwei Netze:
- Actor: die Policy
- Critic: schätzt den Value oder Advantage
- Der Critic liefert eine bessere Schätzung des Gradienten → weniger Varianz.

Wesentliche Eigenschaften
- Synchronisierte Updates (im Gegensatz zu A3C).
- Stabiler als VPG, aber immer noch on‑policy.
- Advantage sorgt für zielgerichtete Updates.

Merksatz
- A2C ist VPG mit eingebautem Berater (Critic), der sagt, wie gut eine Aktion wirklich war.


### 4. SAC – Soft Actor‑Critic
„Moderne Off‑Policy‑Methode mit Entropiebonus – lernt stabil, explorativ und effizient.“

Kernidee
- Maximiert nicht nur den Return, sondern auch die Entropie der Policy.
- Off‑policy mit Replay Buffer → hohe Sample‑Effizienz.
- Zwei Q‑Funktionen zur Stabilisierung (Double‑Q‑Trick).

Wesentliche Eigenschaften
- Sehr stabil, auch in kontinuierlichen Räumen.
- Exploration eingebaut durch Entropieterm.
- Off‑policy → Daten werden wiederverwendet.
- State of the art für viele kontinuierliche Steuerungsaufgaben.

Merksatz
- SAC ist der moderne Allrounder: stabil, explorativ, sample‑effizient.


### 5. TRPO – Trust Region Policy Optimization
„Wir machen große Fortschritte, aber nur wenn wir sicher sind, dass die Policy nicht zu weit springt.“

Kernidee
- TRPO maximiert den Return unter einer harten Nebenbedingung:
Die neue Policy darf sich nur begrenzt von der alten unterscheiden (KL‑Constraint).
- Dadurch werden zu große, destruktive Updates verhindert.

Wesentliche Eigenschaften
- Sehr stabil, da Updates garantiert „sicher“ sind.
- Nutzt den Natural Gradient und löst ein constrained optimization problem.
- Teuer: benötigt Conjugate Gradient und line search.
- Liefert oft monotone Policy‑Verbesserung.

Merksatz
- TRPO ist NPG mit Sicherheitsgurt: große Schritte sind erlaubt, aber nur innerhalb einer vertrauenswürdigen Region.


### 6. PPO – Proximal Policy Optimization
„Fast so stabil wie TRPO, aber viel einfacher und schneller.“

Kernidee
- PPO approximiert die TRPO‑Idee, aber ohne komplizierte Constraints.
- Stattdessen nutzt PPO eine Clipping‑Funktion, die Updates begrenzt, wenn die Policy zu stark abweicht.

Wesentliche Eigenschaften
- Einfach zu implementieren, sehr robust.
- Clipped Objective verhindert destruktive Updates.
- Funktioniert hervorragend in der Praxis, Standard‑Baseline für viele RL‑Tasks.
- On‑policy, aber mit Mini‑Batch‑SGD → effizienter als klassische PG‑Methoden.

Merksatz
- PPO ist TRPO ohne Kopfschmerzen: stabil, performant und leicht zu trainieren.

| Methode | On/Off‑Policy | Stabilität | Varianz | Besonderheit | Kurzbeschreibung |
|--------|---------------|------------|---------|--------------|------------------|
| **VPG** | On‑policy | Niedrig | Hoch | Einfachster Policy‑Gradient | Roher Gradient ohne Stabilisierung |
| **NPG** | On‑policy | Mittel | Niedriger | Natural Gradient | Berücksichtigt die Geometrie des Policy‑Raums |
| **A2C** | On‑policy | Mittel | Niedrig | Actor‑Critic | Critic reduziert Varianz der Gradienten |
| **TRPO** | On‑policy | Hoch | Niedrig | KL‑Constraint, Trust Region | Sichere Updates durch begrenzte Policy‑Änderung |
| **PPO** | On‑policy | Hoch | Niedrig | Clipped Objective | TRPO‑Idee, aber einfach und effizient |
| **SAC** | Off‑policy | Sehr hoch | Sehr niedrig | Entropiebonus, Replay Buffer, Double‑Q | Moderne, stabile, explorative Continuous‑Control‑Methode |


## Entwicklungslinie (Evolution):
Diese Reihenfolge zeigt, wie sich die Methoden logisch aus Problemen und Verbesserungen der Vorgänger ergeben.

- VPG – Wir machen rohe Gradientenupdates.
- NPG – Wir berücksichtigen die Geometrie.
- A2C – Wir reduzieren Varianz durch einen Critic.
- TRPO – Wir machen sichere Updates mit KL‑Constraint.
- PPO – Wir vereinfachen TRPO und machen es praktisch.
- SAC – Wir gehen Off‑Policy, nutzen Entropie und Replay Buffer.







