## 4.3 方策反復法



**最終的な目標**: 最適方策 $\mu_*(s)$ を求めること  


---

$\hspace{10mm} v_*(s) \hspace{4mm}$    ：最適状態価値関数 [^1🔖]()  
$\hspace{10mm} q_*(s, a)$ ： 最適行動価値関数 [^2🔖]()

を用いると、最適方策 $\mu_*(s)$ は次のように表せる。  

$ \displaystyle \hspace{10mm} \begin{alignedat}{2} 
\mu_*(s) &= \underset{a}{\rm{argmax}} \hspace{1mm} q_*(s,a) \hspace{10mm}&(4.4) \\
         &= \underset{a}{\rm{argmax}} \sum_{s'} p(s'|s, a) \{r(s,a,s')+\gamma \hspace{0.5mm} v_*(s')\} \hspace{10mm} &(4.5)  \end{alignedat} $

(4.4)式の通り、最適方策は行動価値関数が最大となる行動 $a$ を選ぶものになっている。  
（最も収益の期待値が高くなる行動を選んでいる。）

$\underset{a}{\rm{argmax}}$ の演算は取れる候補の中から最善の行動を決めている。  
このことから 式(4.4), (4.5) から得られる方策は「<span style="color:red">**greedyな方策**</span>」(貪欲な方策)とも呼ばれる。

---

式(4.4) は最適方策 $\mu_*(s)$ についての式だった。  
この式の右辺をある方策 $\mu$ に適用してみる。

$ \hspace{10mm} \begin{alignedat}{2} 
\mu'(s) &= \underset{a}{\rm{argmax}} \hspace{1mm} q_{\mu}(s,a) \hspace{10mm}&(4.6) \\
         &= \underset{a}{\rm{argmax}} \sum_{s'} p(s'|s, a) \{r(s,a,s')+\gamma \hspace{0.5mm} v_{\mu}(s')\} \hspace{10mm} &(4.7) \end{alignedat} $
$ \displaystyle \hspace{20mm} \left( \begin{alignedat}{2} 
q_{\mu}(s,a) \text{：方策} \mu \text{における行動価値関数} \\
v_{\mu}(s) \text{：方策} \mu \text{における状態価値関数}\end{alignedat}\right)$

**ある方策 $\mu(s)$ から新たな別の方策 $\mu'(s)$ を求める式**が得られた。  
式(4.6), (4.7) で方策を更新することを「<span style="color:red">**greedy化**</span>」と呼ぶことにしよう。  

<div style="border: 2px solid #002b47ff; background-color: #002b47ff; padding: 10px; border-radius: 5px;">
<strong>🤔 Q. </strong>
<span style="color:#ff0400ff"><strong>greedy化</strong></span>で更新すると方策はどう変化するだろうか？
</div>

1. **$\mu$ が最適方策のとき**  \
    $\mu$ が最適方策のときを考える。このとき、更新式(4.6) の両辺は等しくなる。( ∵式(4.4) )  
    ここから最適方策に対してgreedy化を行っても変化しないということがわかる。  
    なので**greedy化を行っても変化が小さければ、方策$\mu$はすでに最適方策に近い**ということになる。

2. **greedy化によって方策が大きく更新されるとき**  
   greedy化によって大きく更新される場合（更新式(4.6)の$\mu$と$\mu'$が異なるとき）はどうなるのだろうか。  
   実は常に方策は改善される（最適方策に近づく）ことが証明されている。  
   （**方策改善定理**については文献[5]などを参照）


<div style="border: 2px solid #002b47ff; background-color: #002b47ff; padding: 10px; border-radius: 5px;">
<span style="font-size: 14pt"><u> ✏️ まとめ</u></span>
<ul>
  <li>方策を<strong>greedy化</strong>することで、<strong>方策は常に改善される</strong></li>
  <li>もし方策の改善（更新）がなければ、それが最適方策である</li>
</ul>
</div>

--- 

### 4.3.2 評価と改善を繰り返す
greedy化する（式(4.7)で更新する）ことで方策は改善できることがわかった。  
前回のゼミ、4.2章で価値関数を求める関数を実装した。

ここまでで**反復方策法** (Policy Iteration) のキーとなるアイデアが出揃った。**反復方策法**では以下のような流れで処理を行う。

1. $\pi_0$ という方策からスタートする。  
   （方策 $\pi_0$ は確率的方策も考えられるので $\mu_0(s)$ ではなく $\pi_0(s|a)$ と表記する）  

2. 反復方策評価アルゴリズムで方策 $\pi_0$ における価値関数 $V_0$ を求める。  

3. 価値関数 $v_0$ を使ってgreedy化を行う。（式(4.7)で方策を更新する）  
   greedy化された方策は常に一つの行動を選ぶので決定論的な方策 $\mu_1$ が得られる。

4. 2.〜3.を繰り返す。

<img src="img/fig4_14.jpg" width=700>

最終的にはgreedy化しても方策が更新されなくなり、**最適方策に行き着く**。 
  
> <span style="font-size: 13pt">✅ 補足</span>  
> 
> 環境は状態遷移確率 $p(s'|s,a)$ と報酬関数 $r(s,a,s')$ によって表される。  
> 強化学習の分野では2つをまとめて「環境のモデル」や「モデル」と呼ぶことがある。
>
> 環境が既知であればエージェントを行動させなくても価値観数を評価できる。  
> エージェントを実際に行動させずに最適方策を見つける問題は**プランニング問題**と呼ばれ、この章で扱っているのもプランニング問題。  
>  
> 実際の強化学習では環境のモデルが既知でない場合が多く、そのときにはエージェントが行動し経験を積みながら最適方策を見つける必要がある。

--- 

## 4.4 方策反復法の実装
4.2 章と同様に「3x4のグリッドワールド問題」を解く。  
（4.2.1の前半で `GridWorld` クラスに実装した）

<img src="img/fig4_15.jpg" width=700>

方策を評価する（価値観数を求める）関数は4.2.3でもうすでに実装した。  
あとはgreedy化で方策を改善する関数を実装すれば方策反復法を使う準備は整う。

### 4.4.1 方策の改善
方策を改善するには、以下の式を用いて現状の価値関数に対してgreedyな方策を求めればよい。

$ \hspace{10mm} \displaystyle\mu'(s) = \underset{a}{\rm{argmax}}\sum_{s'} p(s'|s,a)\{r(s',s,a) + \gamma v{_\mu}(s')\} \hspace{10mm} (4.7) $

今回の問題では次の状態は一意に決まる。（ある状態である行動を取ると次の状態 $s'$ は1つに定まる。）  
なのでgreedy化の式 (4.7)は次のように簡略化できる。

$ \hspace{10mm} \displaystyle \begin{alignedat}{2} & s' = f(s,a) \text{として} \\
& \mu'(s) = \underset{a}{\rm{argmax}}\{r(s',s,a) + \gamma v_{\mu}(s')\} \hspace{15mm} (4.8)
\end{alignedat} $

式(4.8) をもとに **greedyな方策を得る関数** を実装する。  

---

まずは `argmax` 関数を実装する。  
ディクショナリを引数として受け取り、ディクショナリの値が最大となるキーを返す関数になっている。
以下のように使えるものを作る。

In [6]:
action_values = {0: 0.1, 1: -0.3, 2: 9.9, 3: -1.3}  # 9.9が最大値（キーは2）
max_action = argmax(action_values)
print(max_action)   # 出力は2

2


以下が `argmax` 関数の実装である。

In [5]:
def argmax(d):
    max_value = max(d.values())     # ディクショナリ d の最大値を取得
    max_key = 0 
    for key, value in d.items():
        if value == max_value:      
            max_key = key           # 値が最大値に等しいとき、keyの値を返す
    return max_key

---

では `argmax` 関数を使って価値観数を greedy化 する関数を実装する。
コードは以下の通り

In [None]:
def greedy_policy(V, env, gamma):
    pi = {}

    # 全ての状態 s について 方策μ(s) を更新する
    for state in env.states():
        action_values = {}      # key:行動, value:(r+γv) が入るディクショナリ

        # 全ての行動の候補について (r+γv) を計算
        for action in env.actions():    
            next_state = env.next_state(state, action)     # s' = f(s,a) に対応
            r = env.reward(state, action, next_state)      # r(s,a,s') に対応
            value = r + gamma * V[next_state]               # r+γv を計算
            action_values[action] = value

        max_action = argmax(action_values)          # (r+γv) が最大となる行動を見つける
        action_probes = {0: 0, 1: 0, 2: 0, 3: 0}    # 行動確率
        action_probes[max_action] = 1.0             # max_action が必ず選ばれるよう確率を設定
        pi[state] = action_probes                   # 方策μ(s)の更新 （状態sでの行動を更新）

    return pi   # 更新した方策 μ' を返す

---

### 4.4.2 評価と改善を繰り返す
4.2で方策を評価する（価値観数を求める）関数を、4.4.1 で方策を改善する関数を実装した。
これで評価と改善を繰り返す「**方策反復法**」を実装する準備が整った。

**方策反復法を `policy_iter(env, gamma, threshold=0.001, is_render=False)` という関数に実装する。**  

引数はそれぞれ以下の通り。
- `env` (Environment)： 環境
- `gamma` (`float`)： 割引率
- `threshold` (`float`)：方策評価を行うとき（価値観数を求めるとき）に更新をストップするしきい値
- `is_render` (`bool`)：方策の評価・改善を行う過程を描画するかどうかのフラグ

In [None]:
import numpy as np

def policy_iter(env, gamma, threshold=0.001, is_render=False): 
    pi = defaultdict(lambda: {0: 0.25, 1: 0.25, 2: 0.25, 3: 0.25})  # 方策
    V = defaultdict(lambda: 0)                                      # 状態価値関数

    while True:
        V = policy_eval(pi, V, env, gamma, threshold)   # 方策の評価（方策πから価値観数を求める）
        new_pi = greedy_policy(V, env, gamma)             # 方策の改善

        if is_render:
            env.render_v(V, pi)

        if new_pi == pi:    # 方策が更新されなくなったら終了
            break

        pi = new_pi

    return new_pi

`policy_iter` 関数では新旧の方策 $\pi$ が一致するまで続けているので、最適方策 $\mu_*(s)$ が得られる。

では `policy_iter()` 関数を使って、方策反復法で問題を解いてみよう。

In [None]:
env = Gridworld()
gamma = 0.9
pi = policy_iter(env, gamma)

結果は以下の図のようになる。

- 最初はランダムな方策からスタートしており、各マスでの価値関数の値はマイナスになっている。  

- 更新を続けると4回目の更新後にはゴール地点以外の全マスでプラスになっている。  

- 右図の矢印に注目すると、爆弾を避けてゴールに向かう行動を取っていることがわかる。 

<img src="img/fig4_16.jpg" width="700">

**方策反復法を使ってこのゲームにおける最適方策が求まった！🎉**

> <span style="font-size: 13pt">✅ 補足</span>  
> 
> 3x4のグリッドワールド問題では、最適方策が2種類ある。（左下のマスが↑か➔で2種類）  
> 左下のマスからスタートした場合、↑, ➔どちらを選んでも最短でゴールにたどり着ける。

---

## 4.5 価値反復法
4.4章では **方策反復法** を使って **最適方策** を求めた。  
**方策反復法** では以下の図のように方策の **評価** と **改善** を繰り返していた。  

<img src="img/fig4_17.jpg" width=550>

2つのプロセスを交互に繰り返すことで最適方策 $\mu_*$, 最適状態価値関数 $v_*$ へと近づいていった。  
その様子は以下のような図にできる。

<img src="img/fig4_18.jpg" width=700>

**図4-18** では価値関数と方策が取りうる空間を2次元城に図示している。（本当はもっと多次元）  
**図4-18** には以下の２つの直線が書き込まれている。  

- 直線 $V = v_{\mu}$ 。任意の価値関数 $V$ と方策 $\mu$ の真の価値関数 $v_\mu$ が一致する場所である。  

- 直線 $\mu = \rm{greedy}(V)$。任意の方策 $\mu$ と 価値関数 $V$ で greedy化して得られる方策が一致する場所である。

評価フェーズ（方策から価値観数を求める過程）は **図4-18 の青矢印** に相当し、  
改善フェーズ（greedy化で価値観数から方策を求める過程）は **図4-18 のオレンジ矢印** に相当する。

方策評価と方策改善を繰り返して最適解に収束していく過程のことを <u>**一般化方策反復** (Generalized Policy Iteration)</u> を呼ぶ。  
多くの強化学習手法はこの一般化方策反復で解釈できる[(1)](https://yagami12.hatenablog.com/entry/2019/02/22/210608#%E4%B8%80%E8%88%AC%E5%8C%96%E6%96%B9%E7%AD%96%E5%8F%8D%E5%BE%A9%EF%BC%88GPI%EF%BC%89)。

--- 

方策反復法ではゴールにたどり着くまでにジグザグの経路を描く。  
ゴールにたどり着くまでの道筋はバリエーションがある。例えば以下の図のような軌道も考えられる。

<img src="img/fig4_19.jpg" width=700>

**図4-19** では直線に辿り着く前に折り返している。  
実は評価を完全に終える前に改善フェーズに、改善を完全に終える前に評価フェーズに移ることで **図4-19** のような軌道を得ることができる。  

> <span style="font-size: 13pt">✅ 補足</span>  
> 
> 方策評価と方策改善を交互に繰り返すアルゴリズムでは、評価と改善の粒度（どのくらい正確に評価、改善を行うか）について自由度がある。  
> 
> 一度の評価, 改善で完全に $\mu$, $V$ を更新する必要はない。直線に近づいていくだけで良い。

4.4章の方策反復法は一般化方策反復のひとつであり、「評価」と「改善」をほぼ完全に行っていた。  


<div style="border: 2px solid #002b47ff; background-color: #002b47ff; padding: 10px; border-radius: 5px;">
<strong>🤔 Q. </strong>
「評価」と「改善」を"最大限"行うのではなく、<span style="color:#ff0400ff"><strong>"最小限"に</strong></span> 行うとどうなるだろうか？
</div>

それが <u>**価値反復法** (Value Iteration)</u> のコアにあるアイデアである。

---

### 4.5.1 価値反復法の導出

**復習**：方策反復法の評価フェーズでは以下の図のように繰り返し価値観数を更新していた。  
    （一回の評価フェーズでn回全マスの価値関数を更新していた。）

<img src="img/fig4_20.jpg" width=550>

<u>**価値反復法**</u>では評価フェーズで**最小限の更新**しか行わない。  

ある1つの状態（1マス）の価値関数を1回更新したらすぐに改善フェーズに移る。  
改善フェーズにおいても、1つの状態に対して方策を更新したらすぐ評価フェーズに移る。

<img src="img/fig4_21.jpg" width=550>  
  
$ $

> <span style="font-size: 13pt">✅ 補足</span>  
> 
> **図4-21** では改善フェーズから始めているが、別にどちらから始めても構わない

---

では価値反復法を定式化してみよう。

#### (1) 改善フェーズの定式化
改善フェーズで行う **greedy化** は次のように定式化できた。（式(4.7)と同じ）  

$$  $$

$ \displaystyle \hspace{10mm} \mu(s) = \underset{a}{\rm{argmax}} \sum_{s'} p(s'|s,a) \{r(s,a,s')+\gamma V(s')\} \hspace{15mm} (4.8)$  

$ \hspace{20mm} \left( \hspace{1mm} V(s) ：現状の価値関数 \hspace{1mm} \right)$  

改善フェーズでは 式(4.8) のように現在の状態、報酬、次の状態を使い、$\rm{argmax}$ によって計算する。  

$\rm{argmax}$ によって次の行動は一つに決まるので $mu(s)$ は決定論的方策になっている。

<br>

#### (2) 評価フェーズの定式化

更新前の価値関数を $V(s)$, 更新後の価値観数を $V'(s)$ と表す。  
動的計画法(DP)の反復方策評価アルゴリズムでは、以下のように価値関数を更新していたのだった。

$ \displaystyle \hspace{10mm} V'(s) = \sum_{a, s'} \pi(a|s) p(s'|s,a) \{r(s,a,s')+\gamma V(s')\} \hspace{15mm} (4.9)$   [^5🔖]()

式(4.9)では確率論的方策 $\pi(a|s)$ を使っている。  

だが今回はgreedy化によって方策は決定論的（$\mu(s)$）になっているので、次のように簡略化できる。

$ \displaystyle \begin{alignedat}{3} \hspace{10mm} 
&a = \mu(s) \text{として} \\
&V'(s) = \sum_{s'} p(s'|s,a) \{r(s,a,s')+\gamma V(s')\} \hspace{15mm} (4.10) \end{alignedat}$ 

評価フェーズではこの更新式(4.10)を使う。

---

2つの更新式 (4.8) と (4.10) を並べてみる。

<img src="img/fig4_22.jpg" width = 650>

実は改善フェーズと評価フェーズで同じ計算を行っていることがわかる。
2つの式は以下のようにまとめることができる。

$ \displaystyle \hspace{10mm} V'(s) = \underset{a}{\rm{max}}\sum_{s'} p(s'|s,a) \{r(s,a,s')+\gamma V(s')\} \hspace{15mm} (4.11)$ 

最大値を取る $\rm{max}$ 演算を行って直接価値観数を更新している。**図4-22**の重複していた計算が省かれている。  

式 (4.11) で注目するべきなのは、方策 $\mu$ が登場しないこと。  
一切方策を使わず、価値関数のみを更新する。  
これが <u>**価値反復法**</u> の名前の由来にもなっている。  

価値反復法では一つの更新式 (4.11) のみで「評価」と「改善」を同時に行っている。

> <span style="font-size: 13pt">✅ 補足</span>  
> 
> 更新式 (4.11) は ベルマン最適方程式  
> 
>  $ \displaystyle \hspace{10mm} v_*(s) = \underset{a}{\rm{max}} \sum_{s'} p(s'|s,a) \{r(s,a,s')+\gamma v_*(s')\} $  
> と同じ形である。ベルマン最適方程式を更新式にしたものだとわかる。

> <span style="font-size: 13pt">✅ 補足 価値反復法はDPの一種</span>  
> 
> 更新式 (4.11) は次のようにも表せる。  
>
> $ \displaystyle \hspace{10mm} V_{k+1}(s) = \underset{a}{\rm{max}}\sum_{s'} p(s'|s,a) \{r(s,a,s')+\gamma V_k(s')\} $   
>
> ここでの $V_k(s)$  は $k$ 回更新された価値関数、$V_{k+1}(s)$  は $k+1$ 回更新された価値関数である。
> 
> 価値反復法は $k=0$ から始めて $k=1,2,3\cdots$ と順に価値関数を更新していくアルゴリズムになっている。  
> 動的計画法(DP)の「同じ計算を2度しない」という特徴を満たしているので、DPに属するアルゴリズムである。<p>

<br>


価値反復法で無限回更新すると最適価値関数が得られるが、現実にはどこかで更新を止める必要がある。  
更新を止める方法の一つに閾値を使った方法がある。  
**閾値をあらかじめ決めておき、全ての状態の更新量が閾値を下回ったときに更新をやめる。  

なお更新を繰り返して **最適価値関数 $V_*(s)$** が得られれば、**最適方策** は次のように求まる。（式(4.5)と同じ）

$ \displaystyle \hspace{10mm} \mu_*(s) = \underset{a}{\rm{argmax}} \sum_{s'} p(s'|s,a) {r(s,a,s') + \gamma V_*(s')} \hspace{15mm} (4.12) $

ただ **最適価値関数** から greedy な **方策** を求めているだけである。

---

### 4.5.2 価値反復法の実装

「3x4のグリッドワールド問題」の最適方策を価値反復法で求めるプログラムを実装する。
この問題では状態遷移は決定論的なので、価値観数の更新式は以下の図のように簡略化できる。

<img src="img/fig4_23.jpg" width=600>

#### (1) 一回の更新を行う関数 `value_iter_onestep()` 関数の実装

まずは式(4.13)で（すべての状態について1度だけ）更新を行う関数 `value_iter_onestep()` を実装する。  
引数は 価値関数 `V`、 環境 `env`、 割引率 `gamma` 。 

In [1]:
def value_iter_onestep(V, env, gamma):
    for state in env.states():          # ① 全ての状態についてループ
        if state == env.goal_state:     # ゴールの価値関数は常にゼロ
            V[state] = 0
            continue    # 残りのループ処理はスキップ

        action_values = []
        for action in env.actions():    # ② 全ての行動について新しい価値関数を計算
            next_state = env.next_state(state, action)
            r = env.reward(state, action, next_state)
            value = r + gamma * V[next_state]   # 新しい価値関数
            action_values.append(value)

        V[state] = max(action_values)   # 計算した価値関数のうち最大のものを次の価値関数にする
    return V

---

#### (2) 最適価値関数を計算する `value_iter()` 関数の実装

`value_iter_onestep()`関数 で繰り返し更新し、最適価値関数 $V_*(s)$ を求める `value_iter()` 関数を実装する。  
更新が収束するまで `value_iter_onestep()`関数を呼び続けている。

In [2]:
def value_iter(V, env, gamma, threshold=0.0001, is_render=True):
    while True:
        if is_render:
            env.render_v(V)     # 状態価値関数の値をヒートマップにプロット
        
        old_V = V.copy()        # 更新前の価値関数
        V = value_iter_onestep(old_V, env, gamma)   # 価値関数の更新

        # 更新された量の最大値を求める
        delta = 0   # 最大値を記録する変数
        for state in V.keys():
            t = abs(V[state] - old_V[state])    # 更新量
            if delta < t:
                delta = t
        
        # 閾値との比較 （更新量の最大値が閾値を下回ったらやめる）
        if delta < threshold:
            break
    
    return V

---

#### (3) `value_iter()` 関数を使って最適方策を求めるプログラム

以下の手順で求める

1.  `value_iter()` 関数を使って最適価値関数を求める  
   
2. 最適価値関数からgreedy法で最適方策を求める（以前実装した `greedy_policy()` 関数を使う）

In [None]:
from common.gridworld import GridWorld
from ch04.policy_iter import greedy_policy

V = defaultdict(lambda: 0)  # 初期の価値関数 V_0 (要素は全て0で初期化)
env = GridWorld()
gamma = 0.9         # 割引率の設定

V = value_iter(V, env, gamma)       # 価値反復法で最適価値関数を計算

pi = greedy_policy(V, env, gamma)   # 最適方策を greedy 法で求める
env.render_v(V, pi)                 # 価値関数と方策をヒートマップ上に描画

---

#### (4) 価値反復法の実行結果

(3)のプログラムを実行すると以下の **図4-24* *のような結果が得られる。  

価値関数はすべての要素が0の状態から始まり、3回の更新で価値関数が収束していることがわかる。

<img src="img/fig4_24.jpg" width=700>

また、greedy法で求めた最適方策も合わせてプロットしたのが以下の **図4-25** である。

方策反復法(P116)のときと同じ最適価値関数と最適方策が求まっている！🎉 

方策反復法では4回の更新を行っていたので、より効率的に最適方策を求められた👍

<img src="img/fig4_25.jpg" width=600>

---

## 4.6 まとめ

この章では動的計画法 (DP) を使って **最適方策*** を求める方法を学んだ。
具体的には以下の2つのアルゴリズムで求めた。

| アルゴリズム | 内容 | 
| :-- | :-- |
| **方策反復法** | 方策の「評価」と「改善」を繰り返す。評価では価値関数をDPを評価し、改善では価値関数からgreedy法で方策を求める。|
| **価値反復法** | 評価と改善を融合している。価値関数を繰り返し更新し最適価値関数を求める。最適方策は最適価値関数からgreedy法で求める。 | 

実際に2つのアルゴリズムを「グリッドワールド問題」に適用し、**最適方策** を得ることができた！🎉