# 『強化学習』第4章 動的計画法

（参考資料（DeepMindレクチャー）: [video](https://www.youtube.com/watch?v=Nd1-UUMVfz4) [slides](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/DP.pdf)）

- Dynamic Programming（動的計画法）とは？
 - Dynamic: 問題における直列的あるいは時系列的な要素
 - Programming: 最適な方策を得ること



- DPは以下の2つの要素をもつ問題に適用できる
 - 部分構造最適性（optimal substructure）がある
 - 部分問題重複性（overlapping subproblems）がある
   - 解決法が再利用できる（value functionを適用できる）



- 完全なモデルを前提とする点、計算量が膨大である点などから、強化学習では実用的ではないが、理論的には重要。

## 4.1 方策評価（Policy Evaluation）

- 方策評価（Policy Evaluation）: 任意の方策 ${\pi}$ に対する状態価値関数 $V^{\pi}$ を計算する
- 反復方策評価（Iterative Policy Evaluation）: 完全バックアップ（現在評価している方策で実行可能なすべての1ステップ遷移に対して、現在のsの価値と1ステップ先の即時報酬の期待値を使って新たなsの価値を計算）により元の価値 $V_{k}$ に対して新しい近似価値関数 $V_{k+1}$ を得て、これを繰り返す
- スイープ操作（sweep）: 元の価値 $V_{k}$ を保存しながら新しい価値 $V_{k+1}$ を計算するのではなく、バックアップを行って得た新しい価値 $V_{k+1}(s)$ で元の価値 $V_{k}(s)$ を直接上書きしていく。

### 例4.1「格子世界」（図4.2）

実装コード: [RL_chapter4_ex4.1_tokada.ipynb](RL_chapter4_ex4.1_tokada.ipynb) を参照

- 4×4の格子世界の例で、図4.2の反復方策評価を出力する。
- 評価結果に対してGreedy戦略をとることで、最適方策を得られている。

## 4.2 方策改善（Policy Improvement）

- 方策改善: 元の方策の価値関数に従ってgreedyな行動を選択することで、その方策を改善するような新しい方策を作り出す過程（p.101）

## 4.3 方策反復（Policy Iteration）

例4.1「格子世界」では方策評価した結果に対してgreedy戦略を1回とることで最適方策を得られた。

実際には、1回で最適方策を得られるケースは少なく、以下のように方策評価と方策改善を繰り返して方策を改善させていく必要がある。

- 方策 $\pi_0$ からスタートする
- 方策 $\pi_k$ を入力として、
  - 方策評価（E）し、 $V^{\pi_k}$ を得る
  - 方策改善（I）し、 $\pi_{k+1}$ を得る
  - 得た $\pi_{k+1}$ を入力として、方策が最適化するまで上記を繰り返す

### 例4.2「Jackのレンタカー会社」（図4.4）

実装コード: [RL_chapter4_ex4.2_adliska.ipynb](RL_chapter4_ex4.2_adliska.ipynb) を参照

- 図4.4
  - 方策改善するごとに、方策 $\pi$ が変化し $\pi_4$ で収束することが分かる。
  - また、第1営業所と第2営業所の車両台数に応じて、得られる収益（ドル建て）が状態価値関数として示されている。

## 4.4 価値反復（Value Iteration）

- 価値反復: 方策評価を繰り返し行わないように、1回のスイープ操作で方策評価を打ち切る。
- スイープ操作でのバックアップ時に、すべての行動に対する最大値を用いる。

### 例4.3「ギャンブラーの問題」（図4.6）

実装コード: [RL_chapter4_ex4.3_bikestra.ipynb](RL_chapter4_ex4.3_bikestra.ipynb) を参照

練習問題4.8: [zyxue/gambler.ipynb](zyxue/gambler.ipynb) を参照

## 4.5 非同期動的計画法

- これまで述べてきたDP手法は同期的、すなわちMDPの状態集合全体に対してバックアップを行う必要があった。
- 非同期DP手法は、状態集合全体ではなく、状態を任意の順序で選んで価値のバックアップを行う。
- In-Place DP、Prioritized DP, Real-time DPであることが基本的なアイディアである。（[DeepMindレクチャー](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/DP.pdf#page=28)より）

## 4.6 一般化方策反復（Generalized Policy Iteration; GPI）

- 方策評価と方策改善の2つの過程の相互作用は、必ずしも交互に行う必要はなく、様々な手法がある。
- この相互作用の考え方を一般的概念として一般化方策反復（Generalized Policy Iteration; GPI）と呼ぶ。
- 評価と改善はそれぞれ競争関係にある（互いに反対方向へ引き合っている）
  - ＃このあたり、GANの考え方と似ている。。

## 参考資料

- 例題の実装
  - https://github.com/zyxue/sutton-barto-rl-exercises
  - https://github.com/dennybritz/reinforcement-learning
  - https://github.com/vinayh/rl-sutton-barto
  - https://github.com/OsamaElHariri/Reinforcment-Learning-Sutton-and-Barto-Solution
  - https://github.com/adliska/reinforcement_learning
  - https://github.com/bikestra/suttonbarto
- David Silver @ DeepMind によるUCLでのレクチャー
  - 資料 http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/DP.pdf
  - 動画 https://www.youtube.com/watch?v=Nd1-UUMVfz4
- ブログ
  - [強化学習： ノート9 - クッキーの日記](http://cookie-box.hatenablog.com/entry/2016/04/04/235825) 93～98ページ
  - [強化学習： ノート10 - クッキーの日記](http://cookie-box.hatenablog.com/entry/2016/04/10/223239) 98～118ページ
- その他資料
  - http://jnns.org/pastpage/niss/2000/lecturenote/lecturenote_koike.pdf