### Value iteration convervence proof (1 pts)
**Note:** Assume that $\mathcal{S}, \mathcal{A}$ are finite.

Update of value function in value iteration can be rewritten in a form of Bellman operator:

$$(TV)(s) = \max_{a \in \mathcal{A}}\mathbb{E}\left[ r_{t+1} + \gamma V(s_{t+1}) | s_t = s, a_t = a\right]$$

Value iteration algorithm with Bellman operator:

---
&nbsp;&nbsp; Initialize $V_0$

&nbsp;&nbsp; **for** $k = 0,1,2,...$ **do**

&nbsp;&nbsp;&nbsp;&nbsp; $V_{k+1} \leftarrow TV_k$

&nbsp;&nbsp;**end for**

---

In [lecture](https://docs.google.com/presentation/d/1lz2oIUTvd2MHWKEQSH8hquS66oe4MZ_eRvVViZs2uuE/edit#slide=id.g4fd6bae29e_2_4) we established contraction property of bellman operator:

$$
||TV - TU||_{\infty} \le \gamma ||V - U||_{\infty}
$$

For all $V, U$

Using contraction property of Bellman operator, Banach fixed-point theorem and Bellman equations prove that value function converges to $V^*$ in value iterateion$

*Доказательство*

$V^*$ - неподвижная точка оператора Беллмана $T$ (согласно уравнению Беллмана для оптимальной стратегии), причём $T$ - сжимающее отображение. По теореме о неподвижной точке сжимающего отображения $T^n(V) \rightarrow V^*$ при $n \rightarrow \infty$, Ч.Т.Д.

### Asynchronious value iteration (2 pts)

Consider the following algorithm:

---

Initialize $V_0$

**for** $k = 0,1,2,...$ **do**

&nbsp;&nbsp;&nbsp;&nbsp; Select some state $s_k \in \mathcal{S}$    

&nbsp;&nbsp;&nbsp;&nbsp; $V(s_k) := (TV)(s_k)$

**end for**

---


Note that unlike common value iteration, here we update only a single state at a time.

**Homework.** Prove the following proposition:

If for all $s \in \mathcal{S}$, $s$ appears in the sequence $(s_0, s_1, ...)$ infinitely often, then $V$ converges to $V*$

*Доказательство*

Пусть $V_t$ - вектор полезностей всех состояний на шаге t, после этого шага изменится только одна его координата - $V(s_t)$. 

Оператор Беллмана сжимающий: $||TV - TU||_{\infty} \le \gamma ||V - U||_{\infty}$, 
поэтому $|V_{t+1}(s_t) - V^*(s_t)| \le \gamma ||V_t - V^*||$. 

Заметим, что $||V_{t+1} - V^*||_{\infty} \le ||V_t - V^*||_{\infty}$. Это верно, так как векторы слева и справа под знаком нормы имеют все одинаковые координаты, кроме $s_t$, а для неё как мы поняли выше требуемое неравенство выполнено. 

Пусть $\tau$ - номер итерации, для которого в наборе $(s_0, s_1, ... , s_{\tau})$ каждое состояние встречается хотя бы один раз (такое $\tau$ найдётся, так как каждое состояние встречается во всей последовательности бесконечное число раз). 

Рассмотрим любое состояние $s$. Пусть координата $V(s)$ в последний раз менялась в момент времени $t$.

Тогда $|V_{\tau}(s) - V^*(s)| = |V_{t+1}(s) - V^*(s)| \le \gamma ||V_t - V^*|| \le \gamma ||V_0 - V^*||$, а значит 
$||V_{\tau} - V^*|| \le \gamma ||V_0 - V^*||$.

Далее аналогично находим ${\tau}_1$, для которого $||V_{{\tau}_1} - V^*|| \le \gamma ||V_\tau - V^*|| \le \gamma^2 ||V_0 - V^*||$, 
и таким образом продолжая дальше получаем, что $||V_t - V^*|| \rightarrow 0$, что и требовалось.




## Policy iteration convergence (3 pts)

**Note:** Assume that $\mathcal{S}, \mathcal{A}$ are finite.

We can define another Bellman operator:

$$(T_{\pi}V)(s) = \mathbb{E}_{r, s'|s, a = \pi(s)}\left[r + \gamma V(s')\right]$$

And rewrite policy iteration algorithm in operator form:


---

Initialize $\pi_0$

**for** $k = 0,1,2,...$ **do**

&nbsp;&nbsp;&nbsp;&nbsp; Solve $V_k = T_{\pi_k}V_k$   

&nbsp;&nbsp;&nbsp;&nbsp; Select $\pi_{k+1}$ s.t. $T_{\pi_{k+1}}V_k = TV_k$ 

**end for**

---

To prove convergence of the algorithm we need to prove two properties: contraction an monotonicity.

#### Monotonicity (0.5 pts)

For all $V, U$ if $V(s) \le U(s)$   $\forall s \in \mathcal{S}$ then $(T_\pi V)(s) \le (T_\pi U)(s)$   $\forall s \in  \mathcal{S}$

*Доказательство*

$(T_\pi U)(s) - (T_\pi V)(s) = 
\mathbb{E}_{r, s'|s, a = \pi(s)}(r + \gamma U(s')) - \mathbb{E}_{r, s'|s, a = \pi(s)}(r + \gamma V(s')) = 
\mathbb{E}_{s'|s, a = \pi(s)}\gamma (U(s') - V(s')) \ge 0$

#### Contraction (1 pts)

$$
||T_\pi V - T_\pi U||_{\infty} \le \gamma ||V - U||_{\infty}
$$

For all $V, U$

*Доказательство*

Для любого состояния $s$: 
$$|T_\pi V(s) - T_\pi U(s)| = 
|\gamma \mathbb{E}_{s'|s, a = \pi(s)}(U(s') - V(s'))| \le
\gamma \mathbb{E}_{s'|s, a = \pi(s)}|U(s') - V(s')| \le
\gamma \max\limits_{s'} |U(s') - V(s')| =
\gamma||V - U||_{\infty}
$$

Поэтому и $||T_\pi V - T_\pi U||_{\infty} = \max\limits_{s} |T_\pi V(s) - T_\pi U(s)| \le \gamma ||V - U||_{\infty}$.

#### Convergence (1.5 pts)

Prove that there exists iteration $k_0$ such that $\pi_k = \pi^*$ for all $k \ge k_0$


*Доказательство*

Введём отношение частичного порядка на векторах: будем говорить, что $V \ge U$, если $\forall s: V(s) \ge U(s)$.

Из определений операторов $T$ и $T_{\pi_k}$ видно, что $\forall V: TV \ge T_{\pi_k}V$, в частности $TV_k \ge T_{\pi_k}V_k = V_k$. 
Пользуясь этим фактом, докажем, что $V_{k+1} \ge V_k$.

Отображение $T_{\pi_{k+1}}$ сжимающее и $V_{k+1}$ - его неподвижная точка, а потому $T_{\pi_{k+1}}^n V_k \to V_{k+1}$ при $n \to \infty$.
Последовательность векторов $T_{\pi_{k+1}}^n V_k$ нестрого возрастает. 
Действительно, $ T_{\pi_{k+1}}^{n+1} V_k = T_{\pi_{k+1}}^n (T V_k) \ge T_{\pi_{k+1}}^n V_k $, 
так как $T_{\pi_{k+1}}$ (а значит и $T_{\pi_{k+1}}^n$) монотонно.

Значит $V_k = T_{\pi_{k+1}}^{0} V_k \le T_{\pi_{k+1}}^{1} V_k \le ... \le V_{k+1}$.


Таким образом, последовательность политик $\pi_k$ также неубывает. Заметим, что все эти политики - детерминированные, и поскольку множества состояний и действий конечны, множество детерминированных политик тоже. Раз так, последовательность $\pi_k$ стабилизируется на некоторой политике $\pi$ начиная с какого-то момента, полезности состояний также стабилизируются на $V$.


Из равенства $V_{k+1} = V_k = V$ следует, что
 $V = T_{\pi_{k+1}}^{0} V = T_{\pi_{k+1}}^{1} V = ... = V$, 
 а значит $T V = V$.

 На лекции мы доказывали, что в таком случае политика $\pi$ является оптимальной.
