### Programowanie dynamiczne

- Programowanie dynamiczne zakłada pełną wiedzę o MDP (wewnętrznych procesach środowiska)
- Daje optymalne rozwiązanie MDP
- PD jest wykorzystane do *planowania* w MDP

Dwa podstawowe problemy, które możemy rozwiązać przy pomocy planowania:
- Prediction problem (policy evaluation)
    - Input: MDP + policy
    - Output: value function v
- Control problem
    - Input: MDP
    - Output: optymalne value function oraz optymalne policy

### Ewaluacja strategii (policy evaluation)

Mamy dany MDP, strategię i zadajemy pytanie: jak dobra jest ta strategia?
Aby wyznaczyć funkcję wartości V, użyjemy równania Bellman'a:

| ![](img/bellman_expectation_v.png) |
|:-:|
| *Sutton, Barto, "Reinforcement Learning an Introduction", 2nd Edition, p. 74* |

Algorytm:
- Dla każdej k+1 iteracji,
- Dla wszystkich stanów $s∈S$,
- Zaktualizuj $v_{k+1}(s)$ z wartości $v_{k}(s')$, gdzie $s'$ jest następnikiem stanu $s$.

| ![](img/it_policy_eval.png) |
|:-:|
| *Sutton, Barto, "Reinforcement Learning an Introduction", 2nd Edition, p. 75* |

Wniosek: możemy użyć dowolnej wartości funkcji, aby znaleźć lepszą funkcję wartości jedynie dzięki lookup'om jeden krok w przód!


### Iteracja strategii (policy iteration)

Jak znaleźć najlepszą strategię? W dwóch krokach:

1. Dokonaj ewaluacji strategii początkowej, aby wyznaczyć wartości funkcji,
2. Ulepsz strategię poprzez wybór w każdym stanie akcji, która doprowadzi do stanu o największej wartości funkcji: $π'=greedy(v_{π})$
3. Wróć do punktu 1., tym razem dla nowej strategii $π'$

| ![](img/v_pi_relationship.png) |
|:-:|
| *Proces ten **zawsze** zbiega się do optymalnej strategii $π*$.* |

| ![](img/policy_iteration.png) |
|:-:|
| *Sutton, Barto, "Reinforcement Learning an Introduction", 2nd Edition, p. 80* |

### Value iteration

The policy evaluation step of policy iteration can be truncated in several ways
without losing the convergence guarantees of policy iteration.
This algorithm is called value iteration. It can be written as a particularly simple update
operation that combines the policy improvement and truncated policy evaluation steps:
![](img/value_iteration.png)

Notice the difference between a policy evaluation update and a value iteration
update. The former selects the actions from a given policy, hence the
$\[ \sum_{a}^{} π(a|s)\]$ term in front of the expected update. The latter, on the other hand, does not follow a policy but actively searches for the best actions through the
$\[ max \sum_{a}^{} ...\]$ operator.

Note that value iteration is obtained simply by turning the Bellman optimality equation into an update rule.

Finally, let us consider how value iteration terminates. Like policy evaluation, value
iteration formally requires an infinite number of iterations to converge exactly to $v_{*}$. In
practice, we stop once the value function changes by only a small amount in a sweep.

![](img/value_iteration_alg.png)

Value iteration effectively combines, in each of its sweeps, **one sweep of policy evaluation and one sweep of policy improvement**.

### Materiały

- Sutton, Barto, "Reinforcement Learning an Introduction", 2nd Edition, Chapter 4.
- [RL Course by David Silver - Lecture 3: Planning by Dynamic Programming](https://www.youtube.com/watch?v=Nd1-UUMVfz4&list=PLzuuYNsE1EZAXYR4FJ75jcJseBmo4KQ9-&index=4)
- Mastering Reinforcement Learning with Python, p. 132-151