![Logo](https://github.com/BartaZoltan/deep-reinforcement-learning-course/blob/main/website/assets/logo.png?raw=1)

Made by **Zoltán Barta**

[<img src="https://colab.research.google.com/assets/colab-badge.svg">](https://colab.research.google.com/github/BartaZoltan/deep-reinforcement-learning-course/blob/main/notebooks/sessions/session_02_mdp_dynamic_programming/session_02_mdp_dynamic_programming_empty.ipynb)


# 2. alkalom – Markov döntési folyamatok és dinamikus programozás

Ebben a gyakorlati foglalkozásban megismerkedünk a **Markov döntési folyamatokkal (MDP)**, a dinamikus programozásban használt **értékfüggvényekkel és Bellman-egyenletekkel**, valamint két klasszikus algoritmussal: az **értékiterációval** és a **policy–iterációval**. A célunk, hogy a diákok kézzel is implementálják ezeket az eljárásokat és kísérletezzenek a hiperparaméterekkel (γ, θ), hogy érzékeljék a konvergencia sebességére és az eredő politikára gyakorolt hatásukat.


## Markov döntési folyamat (MDP) definíció

Egy **Markov döntési folyamatot** az alábbi összetevők határoznak meg:

* **Állapotok halmaza**: \(S\). Az MDP-ben az állapotok ugyanúgy reprezentálhatók, mint a keresési problémákban.
* **Akciók halmaza**: \(A\). Minden állapotból elérhető akciók halmaza.
* **Kezdő állapot** és **terminális állapotok** (ha léteznek).
* **Diszkontráta** \(\gamma\). Ez 0 és 1 közé eső szám, amely meghatározza, mennyire értékeljük a jövőbeli jutalmakat.
* **Átmeneti függvény** \(T(s,a,s')\), amely megadja annak valószínűségét, hogy az **s** állapotból **a** akció hatására az **s'** állapotba jutunk【448643135645475†L95-L115】.
* **Jutalom függvény** \(R(s,a,s')\), ami általában kismértékű, "életben maradást jutalmazó" jutalmat ad minden lépésért, illetve nagy jutalmat a terminális állapot eléréséért【448643135645475†L109-L115】.

Az MDP célja, hogy olyan **politika** \(\pi: S \to A\) függvényt találjunk, amely maximalizálja a hosszú távú jutalmat (az úgynevezett visszatérő értéket).


## Értékfüggvények és Bellman-egyenlet

Az MDP optimalitásának vizsgálatához bevezetjük az **állapotérték-függvényt** \(V(s)\), amely megadja az **s** állapotban várható visszatérő jutalmat, ha az optimális politikát követjük. A Bellman-optimalitási egyenlet szerint az optimális értékfüggvény az aktuális jutalom és a diszkontált jövőbeli érték összege:

$$\displaystyle V^{\*}(s)=\max_{a} \Bigl[R(s,a)+\gamma \sum_{s'} T(s,a,s') V^{\*}(s')\Bigr].$$

Ez a formula kifejezi, hogy a legjobb cselekvést úgy választjuk, hogy maximalizáljuk az azonnali jutalom és a jövőbeli (diszkontált) jutalmak összegét【586787408302835†L34-L49】.

A későbbi algoritmusok ezen egyenlet numerikus megoldására épülnek.


## Policy értékelés és policy iteráció

Egy adott \(\pi\) politika **értékfüggvénye** \(V^{\pi}(s)\) kiszámítható a Bellman várható érték egyenlettel:

$$V^{\pi}(s)=R(s,\pi(s))+\gamma \sum_{s'} T(s,\pi(s),s') V^{\pi}(s').$$

Ezt az egyenletet iteratív módon közelítjük: kezdetben \(V_0(s)=0\), majd folyamatosan frissítjük a \(V\) értékeket a fenti formula alapján, amíg a változás egy **θ** határ alá nem esik. Ez az eljárás a **policy értékelés** része.

A **policy iteráció** két lépésből áll: először a jelenlegi politikához tartozó értékfüggvény meghatározása (**policy értékelés**), majd **policy javítás**, ahol minden állapotban azt az akciót választjuk, amely maximális értéket eredményez:

$$\pi'(s) = \underset{a}{\arg\max}\, \Bigl[R(s,a) + \gamma \sum_{s'} T(s,a,s') V^{\pi}(s')\Bigr].$$

A folyamat addig ismétlődik, amíg a politika már nem változik【586787408302835†L60-L74】.

### Értékiteráció

Az **értékiteráció** közvetlenül az optimális értékfüggvényre konvergál: minden iterációban az összes állapot értékét frissítjük a Bellman-optimalitási egyenlet alapján:

$$V_{k+1}(s) \leftarrow \max_{a} \sum_{s'} T(s,a,s') [ R(s,a,s') + \gamma V_k(s') ].$$

Amikor az értékfüggvény már nem változik (\(V_{k+1}\approx V_k\)), az így kapott értékek kielégítik a Bellman-egyenletet【584237640575333†L107-L125】. A politika ezután a fenti \(V\) függvényből származtatható.


## Értékiteráció és policy iteráció összehasonlítása

Az értékiteráció minden iterációban az összes állapothoz tartozó értéket frissíti, majd a politika csak a végén származtatható. Ez több iterációt igényelhet, különösen, ha nagy az állapottér. A **policy iteráció** ezzel szemben váltakozva végzi az értékelést és javítást, ami gyakran kevesebb iterációt eredményez, bár az értékelő lépés során lineáris egyenletrendszert kell megoldanunk vagy iteratív becslést használnunk【103220485399117†L92-L121】. A gyakorlatban a választás a probléma méretétől és a rendelkezésre álló számítási kapacitástól függ.


## Felépítés és feladatok

Az alábbiakban részletesen végigmegyünk a dinamikus programozási megközelítések gyakorlati megvalósításán:

1. **Gridworld környezet definiálása**: létrehozunk egy egyszerű rácsos világot, amely determinisztikus vagy stochasztikus átmenetekkel rendelkezhet.
2. **Policy értékelés implementálása**: iteratív módszer a \(V^\pi(s)\) kiszámítására.
3. **Policy iteráció implementálása**: kombináljuk a politika értékelést és javítást.
4. **Értékiteráció implementálása**: közvetlenül approximáljuk az optimális értékfüggvényt.
5. **Kísérletek γ és θ paraméterekkel**: vizsgáljuk meg, hogyan hat a diszkontráta és a konvergencia-küszöb a sebességre és az eredményre.
6. **FrozenLake-szerű környezet**: opcionálisan létrehozzuk a jeges tó problémát, ahol az átmenetek bizonytalanok (csúszós felület).
7. **Kiegészítő feladatok**: változtassunk a jutalmakon, bővítsük a rács méretét, és értékeljük a két algoritmus hatékonyságát.


In [None]:
import numpy as np
import random
from typing import Dict, Tuple, List

# Általános hasznossági függvény a politika kiírására
def print_policy(policy: Dict[Tuple[int, int], str], grid_size: Tuple[int, int]):
    """Politika szép kiírása rácsos környezethez.

    Args:
        policy: szótár, amely az (s) állapotokat betűk (U/D/L/R) alapján rendezi.
        grid_size: a rács (sorok, oszlopok) mérete.
    """
    rows, cols = grid_size
    for r in range(rows):
        line = ''
        for c in range(cols):
            if (r, c) in policy:
                line += policy[(r, c)] + ' '
            else:
                line += 'T '  # Terminális vagy fal
        print(line)


### Gridworld környezet implementációja

A következő Python osztály egy **determinista** Gridworld környezetet valósít meg. A rács kockái között mozoghatunk fel (U), le (D), balra (L) vagy jobbra (R). A szegélyek falak, a terminális állapot elérése után a jutalom 0 és további átmenetek nem történnek. A standard beállításban minden nem terminális átmenet –1 jutalmat ad, a célállapot viszont 0 jutalmat. Ez hasonló a Sutton-könyv 4×4-es gridworld példájához, de paraméterezhető.


In [None]:
class Gridworld:
    def __init__(self, rows: int, cols: int, terminals: List[Tuple[int, int]],
                 slip_prob: float = 0.0, default_reward: float = -1.0):
        """Egyszerű gridworld rács.

        Args:
            rows: sorok száma.
            cols: oszlopok száma.
            terminals: terminális állapotok listája (sor, oszlop) formában.
            slip_prob: csúszás valószínűsége (0: determinista, >0: stochasztikus átmenet).
            default_reward: jutalom minden lépésnél.
        """
        self.rows = rows
        self.cols = cols
        self.terminals = terminals
        self.slip_prob = slip_prob
        self.default_reward = default_reward
        self.actions = ['U', 'D', 'L', 'R']

    def in_bounds(self, state: Tuple[int, int]) -> bool:
        r, c = state
        return 0 <= r < self.rows and 0 <= c < self.cols

    def step(self, state: Tuple[int, int], action: str) -> Tuple[Tuple[int, int], float]:
        """Egy lépés végrehajtása. Ha slip_prob > 0, akkor a kívánt akció mellett random
        másik akció is előfordulhat. A terminális állapotban maradunk.
        """
        if state in self.terminals:
            return state, 0.0
        actual_action = action
        if self.slip_prob > 0 and random.random() < self.slip_prob:
            actual_action = random.choice([a for a in self.actions if a != action])
        r, c = state
        if actual_action == 'U':
            new_state = (max(r - 1, 0), c)
        elif actual_action == 'D':
            new_state = (min(r + 1, self.rows - 1), c)
        elif actual_action == 'L':
            new_state = (r, max(c - 1, 0))
        elif actual_action == 'R':
            new_state = (r, min(c + 1, self.cols - 1))
        else:
            new_state = state
        reward = 0.0 if new_state in self.terminals else self.default_reward
        return new_state, reward


### Policy értékelés implementációja

A policy értékelés az aktuális politika értékfüggvényének közelítése. Paraméterezhető a diszkontráta (γ) és a konvergencia küszöb (θ). Az iteráció addig fut, amíg a változások mértéke minden állapotban kisebb, mint θ.


In [None]:
def policy_evaluation(policy: Dict[Tuple[int, int], str], env: Gridworld, gamma: float = 1.0, theta: float = 1e-4) -> Dict[Tuple[int, int], float]:
    """Iteratív policy értékelés.
    Args:
        policy: dikt, amely az állapotokat akcióhoz rendeli.
        env: Gridworld környezet.
        gamma: diszkontráta.
        theta: konvergencia küszöb.
    Returns:
        V: dict, minden állapot értéke.
    """
    V = { (r, c): 0.0 for r in range(env.rows) for c in range(env.cols) }
    for t in env.terminals:
        V[t] = 0.0
    while True:
        delta = 0
        for r in range(env.rows):
            for c in range(env.cols):
                state = (r, c)
                if state in env.terminals:
                    continue
                a = policy[state]
                next_state, reward = env.step(state, a)
                v_new = reward + gamma * V[next_state]
                delta = max(delta, abs(v_new - V[state]))
                V[state] = v_new
        if delta < theta:
            break
    return V


### Policy iteráció implementációja

A következő függvény a determinisztikus policy iteráció algoritmust valósítja meg. Kezdetben minden állapotban véletlen akciót választunk, majd felváltva végzünk policy értékelést és javítást, amíg a politika nem stabil.


In [None]:
def policy_iteration(env: Gridworld, gamma: float = 1.0, theta: float = 1e-4) -> Tuple[Dict[Tuple[int, int], float], Dict[Tuple[int, int], str], int]:
    policy = {}
    for r in range(env.rows):
        for c in range(env.cols):
            if (r, c) not in env.terminals:
                policy[(r, c)] = random.choice(env.actions)
    iteration = 0
    while True:
        iteration += 1
        V = policy_evaluation(policy, env, gamma, theta)
        stable = True
        for r in range(env.rows):
            for c in range(env.cols):
                state = (r, c)
                if state in env.terminals:
                    continue
                old_action = policy[state]
                action_values = {}
                for a in env.actions:
                    next_state, reward = env.step(state, a)
                    action_values[a] = reward + gamma * V[next_state]
                best_action = max(action_values, key=action_values.get)
                policy[state] = best_action
                if best_action != old_action:
                    stable = False
        if stable:
            break
    return V, policy, iteration


### Értékiteráció implementációja

Az értékiteráció minden iterációban frissíti az összes állapot értékét a Bellman-optimalitási operátorral, majd származtatja a politikát. Megfigyelhetjük, hogy a konvergencia gyakran lassabb, de egyszerűbb implementációról van szó.


In [None]:
def value_iteration(env: Gridworld, gamma: float = 1.0, theta: float = 1e-4) -> Tuple[Dict[Tuple[int, int], float], Dict[Tuple[int, int], str], int]:
    V = { (r, c): 0.0 for r in range(env.rows) for c in range(env.cols) }
    for t in env.terminals:
        V[t] = 0.0
    iteration = 0
    while True:
        iteration += 1
        delta = 0
        for r in range(env.rows):
            for c in range(env.cols):
                state = (r, c)
                if state in env.terminals:
                    continue
                action_values = []
                for a in env.actions:
                    next_state, reward = env.step(state, a)
                    action_values.append(reward + gamma * V[next_state])
                v_new = max(action_values)
                delta = max(delta, abs(v_new - V[state]))
                V[state] = v_new
        if delta < theta:
            break
    policy = {}
    for r in range(env.rows):
        for c in range(env.cols):
            state = (r, c)
            if state in env.terminals:
                continue
            action_values = {}
            for a in env.actions:
                next_state, reward = env.step(state, a)
                action_values[a] = reward + gamma * V[next_state]
            policy[state] = max(action_values, key=action_values.get)
    return V, policy, iteration


## Példa futtatások a Gridworld környezeten

Most futtassuk le mindkét algoritmust egy 4×4-es rácson (terminális állapot a jobb alsó sarokban).


In [None]:
# Rács paraméterei
rows, cols = 4, 4
terminal_states = [(rows - 1, cols - 1)]  # cél a jobb alsó sarok
env = Gridworld(rows, cols, terminal_states)

# Policy iteráció futtatása
V_pi, policy_pi, it_pi = policy_iteration(env, gamma=1.0, theta=1e-4)
print(f'Policy iteráció konvergált {it_pi} iteráció után.')
print('Kapott politika:')
print_policy(policy_pi, (rows, cols))

# Értékiteráció futtatása
V_vi, policy_vi, it_vi = value_iteration(env, gamma=1.0, theta=1e-4)
print(f'
Értékiteráció konvergált {it_vi} iteráció után.')
print('Kapott politika:')
print_policy(policy_vi, (rows, cols))


## Kísérletek: a diszkontráta (γ) és a konvergencia-küszöb (θ) hatása

A következő kódrész futtatja a policy iterációt és az értékiterációt különböző γ és θ paraméterek mellett, és visszatérési értékeik alapján összehasonlítja a konvergencia sebességét. Állítsuk be a paramétereket többféle módon, és nézzük meg, hány iteráció szükséges a konvergenciához.


In [None]:
def experiment_parameters(gammas: List[float], thetas: List[float]):
    rows, cols = 4, 4
    terminal_states = [(rows - 1, cols - 1)]
    for gamma in gammas:
        for theta in thetas:
            env = Gridworld(rows, cols, terminal_states)
            _, _, it_pi = policy_iteration(env, gamma=gamma, theta=theta)
            _, _, it_vi = value_iteration(env, gamma=gamma, theta=theta)
            print(f'γ={gamma}, θ={theta}: Policy iteráció {it_pi} iteráció, Értékiteráció {it_vi} iteráció')

# Példa hívás
gammas = [0.5, 0.8, 0.9, 1.0]
thetas = [1e-2, 1e-3, 1e-4]
experiment_parameters(gammas, thetas)


## FrozenLake-szerű környezet (opcionális)

A FrozenLake probléma egy jeges tó, ahol a mezők csúszósak. Mozgáskor csúszhatunk a szándékolt irányból egy másik irányba is. A cél az, hogy elérjük a célmezőt anélkül, hogy beleesnénk a lyukakba. A következő osztályban a `slip_prob` paraméterrel állíthatjuk be a csúszás valószínűségét, a terminális mezők pedig a lyukak és a cél.


### Feladatok a hallgatóknak

1. **Jutalom módosítása:** Állítsák be a `default_reward` értékét −0.1-re, 0-ra vagy más értékre, és figyeljék meg, hogyan változik az optimális politika.
2. **Nagyobb rács:** Bővítsék a rács méretét 5×5-re vagy 6×6-ra, és mérjék meg, hányszor több iterációra van szükség a konvergenciához.
3. **Stochasztikus környezet:** Állítsák be a `slip_prob` paramétert 0.1 vagy 0.2 értékre, és figyeljék meg, hogyan változik a politika. Figyeljenek arra, hogy ilyenkor a `step` függvény többféle kimenetet adhat, ezért az `action_values` kiszámításakor a várható értékeket kell felhasználni.
4. **FrozenLake-szerű környezet:** Hozzanak létre egy olyan rácsot, ahol bizonyos mezők lyukként (terminális állapotok negatív jutalommal) viselkednek, és a célállapot pozitív jutalmat ad. Implementálják az értékiterációt erre az MDP-re.
5. **Paraméterérzékenység:** Változtassák a γ értékét 0,9-ről 0,5-re, majd 0,99-re, és magyarázzák el, hogyan módosul a politika.
6. **Kreatív feladat:** Kísérletezzenek saját jutalomstruktúrákkal vagy akadályokkal (falak), és keressék meg az optimális politikát.


## Összefoglalás

Ebben a foglalkozásban részletesen megismertük a Markov döntési folyamatokat, a Bellman-egyenleteket, valamint két fontos dinamikus programozási algoritmust: az értékiterációt és a policy iterációt. Implementáltuk őket egy egyszerű Gridworld környezetben, és kísérleteket végeztünk különböző diszkontrátákkal és konvergencia-küszöbökkel. A hallgatói feladatok célja, hogy ezeknek az algoritmusoknak a működését mélyebben megértsék és tovább bővítsék saját környezeteikben.
