# Policy‑Gradient‑Learning
- lässt sich am besten verstehen, wenn man sich klar macht, was ein Agent eigentlich lernt: nicht eine Wertfunktion, sondern direkt eine Strategie.

## Grundidee
Beim Policy‑Gradient‑Verfahren wird die Policy selbst optimiert, also eine Funktion
\pi _{\theta }(a\mid s), die für jeden Zustand s eine Wahrscheinlichkeitsverteilung über Aktionen a liefert.
Die Parameter \theta  (z. B. Gewichte eines neuronalen Netzes) werden so angepasst, dass Aktionen, die langfristig zu hohen Rewards führen, wahrscheinlicher werden.
Das ist der Kern:
Erhöhe die Wahrscheinlichkeit guter Aktionen, senke die Wahrscheinlichkeit schlechter Aktionen.

## Warum überhaupt Policy Gradients?
Viele RL‑Methoden (z. B. Q‑Learning) lernen eine Wertfunktion und leiten daraus eine Policy ab.
Das funktioniert gut, aber:
- Stochastische Policies sind schwer über Q‑Funktionen zu optimieren.
- In kontinuierlichen Aktionsräumen ist Q‑Learning oft unpraktisch.
- Policy‑Gradient‑Methoden sind direkt differenzierbar und elegant.

## Mathematische Form
Das Ziel ist, den erwarteten Return zu maximieren:
$$J(\theta )=\mathbb{E_{\mathnormal{\pi _{\theta }}}}[R]$$
Der Policy‑Gradient‑Satz liefert:

Das ist der berühmte REINFORCE‑Gradient.
Interpretation:

$$\log \pi _{\theta }(a\mid s)$$

- sagt, wie stark die Parameter die Aktion beeinflussen.
- R verstärkt oder schwächt diese Richtung.

## Intuition
Stell dir vor, der Agent probiert Aktionen aus.
Wenn eine Aktion zu hohem Reward führt:
- Der Term R ist groß
- Der Gradient zeigt in Richtung „mach diese Aktion häufiger“
Wenn der Reward schlecht ist:
- Der Term R ist klein oder negativ
- Die Policy wird von dieser Aktion wegbewegt
Das ist stochastischer Gradientenaufstieg auf der Policy.

## Praktische Varianten
Policy‑Gradient‑Methoden sind die Basis vieler moderner RL‑Algorithmen:
| Methode      | Idee                                           |
|--------------|------------------------------------------------|
| REINFORCE    | Einfacher Monte‑Carlo‑Policy‑Gradient          |
| Actor‑Critic | Policy‑Gradient + Wertfunktion als Baseline    |
| A2C / A3C    | Parallelisierte Actor‑Critic‑Varianten         |
| PPO          | Stabilisiert Updates durch Clipping            |
| TRPO         | Optimiert Policy unter KL‑Constraint           |

## Warum Baselines wichtig sind
REINFORCE hat hohe Varianz.
Deshalb nutzt man oft eine Baseline b(s), typischerweise eine Wertfunktion V(s):

Das ändert den Erwartungswert nicht, reduziert aber die Varianz massiv.

## Kurzfassung
Policy‑Gradient‑Learning bedeutet:
- Direkte Optimierung der Policy
- Gradientenaufstieg auf den erwarteten Return
- Stochastische Policies werden natürlich unterstützt
- Sehr gut für kontinuierliche Aktionsräume
- Grundlage moderner RL‑Algorithmen wie PPO, TRPO, A2C

