# 06 — Projekt pod blok 2 (policy-based) — bez pełnych implementacji

Ten notebook to **most organizacyjny**: po bloku 1 (MC/TD/TD(λ) + aproksymacja) można płynnie wejść w:
- Policy Gradient (REINFORCE),
- Actor-Critic,
- PPO,
- i na końcu projekt MuJoCo.

Nie implementujemy tu jeszcze algorytmów w całości — to jest „notatnik prowadzącego + TODO”.

---

## 0) Dlaczego przechodzimy do policy-based?

**Problem z value-based w akcjach ciągłych**:  
w Q-learning potrzebujesz $\arg\max_a Q(s,a)$.  
Jeśli $a$ jest ciągłe (wektor float), to:
- nie da się po prostu przeszukać wszystkich akcji,
- potrzebujesz osobnej optymalizacji / aktora, który maksymalizuje Q,
- co praktycznie prowadzi do metod typu Actor-Critic (DDPG/TD3/SAC) albo PPO (policy-based).

**Wniosek dydaktyczny:**  
Tablice → aproksymacja → ciągłe akcje → uczymy **politykę**.

---

## 1) Policy Gradient (REINFORCE) — idea

Cel:
$
J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_t \gamma^t r_t\right]
$

Wersja intuicyjna:
- generujesz epizody z \(\pi_\theta\),
- wzmacniasz log-prob akcji, które prowadziły do dużego zwrotu.

Warto zwrócić uwagę:
- to jest MC-style (czeka na zwrot),
- dlatego dodaje się baseline → mniejsza wariancja.

---

## 2) Actor-Critic — to co już znasz + aktor

- **Critic**: TD (jak w bloku 1), ale dla \(\hat V(s;w)\) lub \(\hat Q(s,a;w)\)
- **Actor**: aktualizuje \(\theta\) w kierunku, który zwiększa prawdopodobieństwo dobrych akcji

Kluczowe spoiwo: **advantage**
$
A(s,a) \approx r + \gamma V(s') - V(s)
$
To jest dokładnie TD error.

---

## 3) PPO — praktyczny standard

PPO stabilizuje policy gradient przez ograniczenie, jak bardzo polityka może się zmienić w jednym kroku.
Najczęściej spotkasz „clipped objective”.

W bloku 2:
- pokażemy najpierw czemu czyste REINFORCE bywa niestabilne,
- potem Actor-Critic,
- a na końcu PPO jako „ładnie działającą” wersję.

---

## 4) (Opcjonalnie) GRPO?

Skrót „GRPO” spotyka się w kontekście RLHF dla modeli językowych (inne realia niż MuJoCo).
Dla klasycznego continuous-control w RL najczęściej pojawiają się:
- PPO,
- SAC,
- TD3.
W tym kursie naturalnie: PPO (bo proste do wdrożenia i stabilne).

---

## 5) Projekt MuJoCo — checklista

**Minimalny projekt, który wygląda profesjonalnie:**
- wybór zadania (np. Hopper / HalfCheetah / Walker2d),
- metryki: average return + success rate (jeśli ma sens),
- seedowanie i powtarzalność,
- logowanie krzywych uczenia,
- 2–3 ablation studies (np. różne γ, różne clip range, różne entropy bonus),
- porównanie z baseline (np. random / prosty heurystyczny).

**Sanity checks** (zwykle ratują życie):
- czy reward rośnie w ogóle?
- czy gradients nie są NaN?
- czy akcje są w sensownym zakresie?
- czy normalizacja obserwacji pomaga?

---

## TODO na blok 2

1) Ustalić wspólny szkielet:
- `collect_trajectories()`
- `compute_returns_and_advantages()`
- `update_policy()`
- `update_value()`

2) Zrobić REINFORCE (najpierw bez baseline, potem z baseline)

3) Przerobić na Actor-Critic (TD(0) jako critic)

4) Zrobić PPO (clip + minibatches)

5) Przełączyć środowisko na MuJoCo


In [1]:
import os, sys
# dodaj katalog główny repo do ścieżki importów
REPO_ROOT = os.path.abspath(os.path.join(os.getcwd(), ".."))
if REPO_ROOT not in sys.path:
    sys.path.insert(0, REPO_ROOT)

import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Placeholdery (nie odpalamy jeszcze algorytmów policy-based)
# W bloku 2 wstawimy tu implementację na bazie np. PyTorch.
# Na razie: tylko struktura, żeby przejście było płynne.

from dataclasses import dataclass

@dataclass
class Block2Config:
    env_id: str = "Hopper-v4"
    gamma: float = 0.99
    seed: int = 0

cfg = Block2Config()
cfg

Block2Config(env_id='Hopper-v4', gamma=0.99, seed=0)