# 03 Algorithms

## 3.1 Value Iteration

### The Matrix-Vector form of Value Iteration
**Value Policy** 算法是强化学习一个很重要的基础算法，其在每一次迭代过程有两个重要的步骤：
- **Plolicy Update(PU)：** 目标是寻找一个策略能够解决如下最优化问题$$
\pi_{k+1} = \arg \max (r_{\pi} + \gamma P_{\pi}v_k)$$，其中$v_k$是当前已迭代的状态价值；
- **Value Update(VU)：** 计算新的状态价值$v_{k+1}$通过价值迭代公式$$v_{k+1}=r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$$

### The Elementwise form of Value Iteration
#### **Policy Update**
在某状态$s$下的时间步$k$，Policy Update(PU) $
\pi_{k+1} = \arg \max (r_{\pi} + \gamma P_{\pi}v_k)$的元素形式可以表示为：
$$
\pi_{k+1}(s) = \arg \max_{\pi} \sum_{a \in \cal A(s)} \pi(a|s) \Big( \sum_{r \in R(s, a)} p(r|s, a)r + \gamma \sum_{s' \in S} p(s'|s, a) v_{k} (s') \Big)
$$

由之前的介绍可知，上式的的最优解如下：
$$
\begin{cases}
\pi_{k+1}(a|s) = 1, & a=a_{k}^*(s) \\
0, & a\neq a_{k}^*(s)
\end{cases}
$$
其中，$a_{k}^*(s)=\arg \max_{a \in \cal A(s)} q_k (s, a)$, $$\sum_{r \in R(s, a)} p(r|s, a)r + \gamma \sum_{s' \in S} p(s'|s, a) v_{k} (s')$$

#### Value Update
在某状态$s$下的时间步$k$，Value Update $v_{k+1}=r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$的元素形式可以表示为：
$$
v_{k+1}(s) = \arg \max_{\pi} \sum_{a \in \cal A(s)} \pi(a|s) \Big( \sum_{r \in R(s, a)} p(r|s, a)r + \gamma \sum_{s' \in S} p(s'|s, a) v_{k} (s') \Big)
$$

由Policy Update的最优解可知：
$$
v_{k+1}(s) = \max_{a \in \cal A(s)} q_k (s, a)
$$

至此，值迭代算法可以被下面的链描述：
$$v_k (s) \rightarrow q_k (s, a) \rightarrow \pi_{k+1} (s) \rightarrow v_{k+1} (s) = \max_{a \in \cal A(s)} q_k (s, a)$$

Value Iteration Algorithm：
* Value Update：
  * 随机初始化$V(s)$
  * $while \ \delta > \epsilon$ do:
  * $\qquad$ $\delta \leftarrow 0$
  * $\qquad$ for each $s$ in $S$ do:
  * $\qquad\qquad$ $v \leftarrow V(s)$
  * $\qquad\qquad$ $V(s) \leftarrow \max_{a} \{r(s, a) + \gamma \sum_{s'} P(s'|s,a) V(s')\}$
  * $\qquad\qquad$ $\delta \leftarrow \max(\delta, |v - V(s)|)$
  * end while

* Policy Update：
  * $\pi(s) = \arg\max_{a} \{r(s, a) + \gamma \sum_{s'} P(s'|s,a) V(s')\}$

### Example

In [1]:
import sys
sys.path.append('..')

import numpy as np

from Utils.gridworld.examples.arguments import args
from Utils.gridworld.src.grid_world import GridWorld


In [None]:
class ValueIteration:
    """ Value Iteration Algorithm """

    def __init__(self, env, gamma=0.95, delta=0.001):

        self.env = env
        self.gamma = gamma
        self.delta = delta

        self.state_values = [0] * env.num_states
        self.state_policy = [None] * env.num_states

    def value_update(self):
        """ Value Update """

        pass

    def policy_update(self):
        """ Policy Update """

        pass

    def train(self):
        """ Value Iteration Core """

        steps = 0
        while True:
            error = 0
            values = [0] * self.env.num_states
            for state in range(self.env.num_states):
                action_values = []
                for action in range(self.env.action_space):