### Reinforcement Learning: Theory and Algorithms
第１章内のいくつかの事柄をpythonを使って実装します。
* ベルマン方程式のベクトル化
* 動的計画法
の実装をメインで行っていきます。


### ベクトル形式でベルマン方程式を書こう

$$Q^\pi=r+\gamma P V^\pi$$


In [85]:
import numpy as np 

S = 2
A = 2


r = np.zeros(S*A)
P = np.zeros((S*A, S))
gamma = 0.9
pi = np.zeros(S*A)
V_pi = np.zeros(S)


r = np.random.rand(S*A)
P = np.random.rand(S*A, S)
P = P / P.sum(axis=1)[:, None]

#ベルマン方程式
Q_pi = r + gamma * np.dot(P, V_pi)

print(Q_pi)

[0.6877044  0.27560066 0.74823054 0.28040994]


$$
\begin{aligned}
Q^\pi=r+\gamma P^\pi Q^\pi .
\end{aligned}
$$

$$
P_{(s, a),\left(s^{\prime}, a^{\prime}\right)}^\pi:=P\left(s^{\prime} \mid s, a\right) \pi\left(a^{\prime} \mid s^{\prime}\right) .
$$

In [86]:
P_pi = np.dot(pi,P)
Q_pi = Q_pi.reshape(-1,1)
P_pi = P_pi.reshape(-1,1)
Q_pi = P_pi.T
Q_pi2 = r + gamma * np.dot(Q_pi,P_pi)

print(Q_pi2)

[[0.6877044  0.27560066 0.74823054 0.28040994]]



**価値関数・行動価値関数関連**

* **$Q^\pi$の解析解 (Analytical Solution for Q):** $Q^\pi=\left(I-\gamma P^\pi\right)^{-1} r$
* 最適価値 (Optimal Value):
    * $V^{\star}(s)  :=\sup _{\pi \in \Pi} V^\pi(s)$
    * $Q^{\star}(s, a)  :=\sup _{\pi \in \Pi} Q^\pi(s, a)$
* グリーディ方策 (Greedy Policy): $\pi_Q(s):=\operatorname{argmax}_{a \in \mathcal{A}} Q(s, a)$
* **ベルマン最適作用素 (Bellman Optimality Operator):** $\mathcal{T} Q:=r+\gamma P V_Q$
* アドバンテージ関数 (Advantage Function): $A^\pi(s, a):=Q^\pi(s, a)-V^\pi(s)$
* 状態訪問分布 (State Visitation Distribution): $d_{s_0}^\pi(s)=(1-\gamma) \sum_{t=0}^{\infty} \gamma^t \operatorname{Pr}^\pi\left(s_t=s \mid s_0\right)$ 

**動的計画法**

* **価値反復法 (Value Iteration):** $Q \leftarrow \mathcal{T} Q$
* **方策反復法 (Policy Iteration):**
    * 1. **方策評価 (Policy Evaluation):**  $Q^{\pi_k}$ を計算
    * 2. **方策改善 (Policy Improvement):** $\pi_{k+1}=\pi_{Q^{\pi_k}}$ 


### 解析解、動的計画法を実装してみましょう

