# イントロダクション

## 目標
ChainerRLを用いて、強化学習においてどのようにディープラーニングが利用できるのかを理解する。

[Chainer](http://chainer.org/)は、ニューラルネットワークを柔軟かつ直観的にモデリングするための、Pythonベースのフレームワークです。
ChainerRLはChainerを土台とした、強化学習の包括的なライブラリです。

## 学習内容
このハンズオンのノートブックでは、以下について学びます。

- 強化学習の基礎的な概念
- 強化学習におけるディープラーニングのはたらき
- 強化学習タスクにおけるChainerRLの使い方

## アジェンダ
- Chainerの基礎
- 強化学習（Reinforcement Learning）
- 従来の強化学習: Q学習（Q-Learning）
- ChainerRLの使い方
- ChainerRLエージェントを改良する
- まとめ

## 必要な環境
* ChainerRL 0.3.0
* Chainer 3.1.0
* CuPy 2.1.0.1
* OpenAI Gym[classic_control] 0.7.4 
* Python 3.5 以降
* CUDA8.0 対応の GPU

このノートブックは自習またはハンズオンセッションを意図して作られています。

# 1. Chainerの基礎

## 準備: Chainerのインポート

初めに、Chainerと関連モジュールをインポートします。CuPyについては後ほど触れます。

In [None]:
# Import Chainer 
from chainer import Chain, Variable, optimizers, serializers, datasets, training
from chainer.training import extensions
import chainer.functions as F
import chainer.links as L
import chainer

# Import CuPy - A Numpy equivalent on GPU
import cupy as cp
import numpy as np

# Utilities
import time
import math

## 準備: - CuPyでGPUを計算に使う 

Chainerの関連モジュールであるCuPyはNumPy互換インタフェースのGPUの為の数値計算ライブラリです。
CuPyを用いるとユーザーはハードウェアがCPUかGPUか意識する事なく、共通のコードを動かす事が出来るというメリットがあります。
CuPyの効果を実感する為の簡単な実験をしてみましょう。

はじめに、処理時間を比較するための関数を定義します。具体的には、1000x1000の大きさの行列を作り、転置し、各要素を2倍にする操作を10000回繰り返す関数です。

In [None]:
def test_xp_performance(xp):
    a = xp.arange(1000000).reshape(1000, -1)

    t1 = time.perf_counter()
    for i in range(10000):
        a = xp.arange(1000000).reshape(1000, -1)
        b = a.T * 2
    t2 = time.perf_counter()
    print(t2 -t1)

この関数の引数には、NumPyとCuPyのどちらを渡すこともできます。これはCuPyがNumPy互換のインタフェースを提供しているからこそ、可能になることです。それでは、NumPyとCuPyそれぞれの処理時間を計測してみましょう。

### 実験: NumPy(CPUを用いた計算)で実行

基準となる処理時間を計測するため、NumPyを用いて実験します。

In [None]:
test_xp_performance(np)

### 実験: CuPy(GPUを用いた計算)を試す

次に同じ処理をCuPyで試してみましょう。実行の最初にCUDA関連の初期化処理が走る為立ち上がりに時間がかかりますが、10000回のループ処理全体はNumPyと比べて10倍かそれ以上高速になる事が確認できます。

In [None]:
test_xp_performance(cp)

ディープラーニングの学習時には、上記の行列操作のようにGPUを用いる事で高速化可能な処理が多く登場します。ディープラーニングを行う際にCuPyは大変強力なライブラリです。
特にレイヤーサイズ(中間層のノード数)やレイヤー数が大きい場合は、GPUを用いる事で大幅な高速化が可能になります。

以降のタスクでは、CuPyを用いてディープラーニングの学習を行っていく事にしましょう。

## Section 1.1. パーセプトロンによるMNISTの分類

MNISTは、機械学習における分類タスクのベンチマークとなるデータセットです。70000枚の手書き数字画像が含まれており、それぞれに0から9までのラベルが付与されています。与えられた画像が10クラスのどれにあたるかを予測することが、このデータセットにおけるタスクとなります。

<img src="image/mnist.png">

それぞれのサンプルは28×28のグレースケール画像（784次元のベクトル）で表されます。

### 多層パーセプトロン（2-layer） の記述

最もシンプルなニューラルネットワークとして、サイズ2の多層パーセプトロン（MLP2）を使用します。
これは入力と出力、そしてその間にある隠れユニットで構成されます。
それらは重み行列とバイアス項を含んだLinear層（全結合層）に接続されています。
隠れユニットの活性化関数は双曲線正接関数（tanh）です。

<img src="image/mlp_tanh.png" width="600" >

以下でMLP2のクラスを実装します。
それぞれの層の形式やサイズは``__init__``メソッドの中で定義していることに注意してください。
実際の順伝播計算は``__call__``メソッドの方に記述します。
ただし、逆伝播計算の定義は陽に行う必要がありません。Chainerが順伝播計算の計算グラフを記憶しているため、それによって逆伝播計算を行うことができます。

In [None]:
# 2-layer Multi-Layer Perceptron (MLP)
class MLP2(Chain):

    # Initialization of layers
    def __init__(self):
        super(MLP2, self).__init__()
        with self.init_scope():
            # From 784-dimensional input to hidden unit with 100 nodes
            self.l1 = L.Linear(784, 100)
            # From hidden unit with 100 nodes to output unit with 10 nodes  (10 classes)
            self.l2 = L.Linear(100, 10)

    # Forward computation by __call__
    def __call__(self, x):
        # Forward from x to h1 through activation with tanh function
        h1 = F.tanh(self.l1(x))
        y = self.l2(h1)                 # Forward from h1to y
        return y

### MNIST データセットの読み込みと前処理

chainer.datasets.get_mnist()を用いることで、MNISTデータセットをメインメモリに読み込むことができます。

MNISTの標準的な問題設定に従い、70000ペアあるデータを学習用の60000ペアとテスト用の10000ペアに分割します。

In [None]:
train, test = chainer.datasets.get_mnist()
print('Train:', len(train))
print('Test:', len(test))

### 実験の設定

これらの変数は、実験の間は不変となります。

In [None]:
batchsize = 100

## 実験 1.1 - CuPyを用いてシンプルなMLP2を学習する

### 学習の準備
学習とテストには、Chainer v1.11.0から導入された[Trainer](http://docs.chainer.org/en/stable/tutorial/basic.html#trainer)が使われています。
それには、以下に示す標準的な機械学習ワークフローの後ろの３パートが含まれています。

<img src="image/ml_flow.png" width="600">
Optimizerはモデルの学習で、誤差逆伝播法によってパラメータ（全結合層における重み行列とバイアス項）の更新をする際に使用されます。
Chainerは広く使われている[最適化手法](http://docs.chainer.org/en/stable/reference/optimizers.html#optimizers)（SGD, AdaGrad, RMSProp, Adam, etc...）のほとんどをサポートしています。
ここでは、SGDを使うことにします。
[L.Classifier](https://github.com/pfnet/chainer/blob/master/chainer/links/model/classifier.py) はニューラルネットワーク（ここではMLP2）を用いた分類モデルを作成するためのラッパーです。
L.Classifierでは、デフォルトの誤差関数がsoftmax cross entropyとなっています。

まずは、Trainerの初期化の為の関数 prepare_classifierを定義します。

In [None]:
def prepare_classifier(train,test,batchsize,n_epoch,model,enable_cupy):
    log_trigger = 600, 'iteration'
    classifier_model = L.Classifier(model)
    device = -1
    if enable_cupy:
        print('(CuPy):True','(n_epoch):',n_epoch,'(batchsize):',batchsize)
        model.to_gpu()
        chainer.cuda.get_device(0).use()
        device = 0
    else:
        print('(CuPy):False','(n_epoch):',n_epoch,'(batchsize):',batchsize)
    optimizer = optimizers.SGD()
    optimizer.setup(classifier_model)
    train_iter = chainer.iterators.SerialIterator(train, batchsize)
    test_iter = chainer.iterators.SerialIterator(test, batchsize, repeat=False, shuffle=False)    
    updater = training.StandardUpdater(train_iter, optimizer, device=device)
    trainer = training.Trainer(updater, (n_epoch, 'epoch'), out='out')
    trainer.extend(extensions.dump_graph('main/loss'))
    trainer.extend(extensions.Evaluator(test_iter, classifier_model, device=device))
    trainer.extend(extensions.LogReport(trigger=log_trigger))
    trainer.extend(extensions.PrintReport(
        ['epoch', 'iteration', 'main/loss', 'validation/main/loss',
         'main/accuracy', 'validation/main/accuracy']), trigger=log_trigger)    
    return trainer

GPUベースで実行するためにCuPyを使用します。 CuPyを用いる為に、enable_cupyはTrueに設定します。
epoch数（全てのデータを使って学習する回数）は2に設定します。
prepare_classifier関数を使い、trainerを生成します。

In [None]:
n_epoch=2 # Only 2 epochs
enable_cupy = True # Use CuPy
model = MLP2() # MLP2 model

trainer = prepare_classifier(train,test,batchsize,n_epoch,model,enable_cupy) # prepare trainer

### 学習とテストの方法
次に学習とテストの為の関数 train_and_testを定義します。

In [None]:
def train_and_test(trainer):
    training_start = time.perf_counter()    
    trainer.run()
    elapsed_time = time.perf_counter() - training_start
    print('Elapsed time: %3.3f' % elapsed_time)

### テストが終わるまで待機

実験を行い、最初の結果を得ましょう。実行が終わったら、各エポック毎のaccuracy値とloss値を確認します。

In [None]:
train_and_test(trainer)  # Please check accuracy and loss of every epoch

### 最初の結果を確認する

validation/main/accuracy は0.90以下になっているはずです。
悪くはありませんが、改善の余地があります。
後で別の設定を試してみましょう。

### 可視化ツールをインポートする

matplotlibを用いて、計算グラフやMNIST画像を表示します。

In [None]:
# Import utility and visualization tools
import pydot
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from IPython.display import Image, display
import chainer.computational_graph as cg

### 計算グラフを可視化する方法

Chainerは入力から誤差関数までの計算グラフを出力することができます。

In [None]:
def display_graph():
    graph = pydot.graph_from_dot_file('out/cg.dot') # load from .dot file
    graph[0].write_png('graph.png')

    img = Image('graph.png', width=600, height=600)
    display(img)

### MLP2の計算グラフを可視化する

display_graph()を実行することで、有向グラフが表示されます。
一番上の３つの楕円は、100枚の画像（784次元のベクトル）、100x784の重み行列、Linear層における長さ100のバイアス項ベクトルに対応しています。

100個のノード（ユニット）を有する中間の隠れ層は、tanh活性化関数を介して次のLinear層へと繋がっています。最後の100ベクトルは、SoftmaxCrossEntropy誤差関数により、10クラスに対応する正解ラベル(int32)と比較されます。誤差の値はfloat32で与えられます。

このグラフを作成したのち、誤差逆伝播法によって誤差を入力へと伝播させ、モデルパラメータ（Linear層の重み行列とバイアス項）を更新することができます。

In [None]:
display_graph()

### 画像をプロットして予測値を表示する

"Answer"は正解ラベルを、"Predict"はモデルが予測したクラスを意味します。

In [None]:
def plot_examples():
    %matplotlib inline
    plt.figure(figsize=(12,50))
    if enable_cupy:
        model.to_cpu()
    for i in range(45, 105): 
        x = Variable(np.asarray([test[i][0]]))  # test data
        t = Variable(np.asarray([test[i][1]]))  # labels
        y = model(x)
        prediction = y.data.argmax(axis=1)
        example = (test[i][0] * 255).astype(np.int32).reshape(28, 28)
        plt.subplot(20, 5, i - 44)
        plt.imshow(example, cmap='gray')
        plt.title("No.{0} / Answer:{1}, Predict:{2}".format(i, t.data[0], prediction[0]))
        plt.axis("off")
    plt.tight_layout()

### 誤分類の例を確認する

ほとんどのサンプルは正しく分類されていますが、間違いもいくつかあります。
たとえば、最初の行のNo.46の例は、我々からすれば'1'のようですが、モデルは'3'と分類してしまっているようです。
2行目のNo.54の例でも、くずれた形の'6'を'2'に誤分類してしいます。

In [None]:
plot_examples()

## 実験 1.2 - エポック数を増やす

テストデータに対する精度を向上せるため、エポック数を増やしてみましょう。他の条件はそのままです。

In [None]:
enable_cupy = True
n_epoch=5                 # Increased from 2 to 5
model = MLP2()
trainer = prepare_classifier(train,test,batchsize,n_epoch,model,enable_cupy)

### 5エポックでの実験

先ほどよりも、学習が終わるまでの時間がかかります。

In [None]:
train_and_test(trainer)

### 精度の向上を確認

前の実験結果よりも誤差（loss）は小さく、validation/main/accuracyは大きく（0.90以上）なっています。

### 誤分類が解消されたかどうか確認

前の実験で誤分類がみられたNo.46 と No.54について、今回は正しく分類されたことでしょう。

In [None]:
plot_examples()

## Chainerの特徴 - 容易なデバッグ

他のフレームワークでは、モデルのどの部分の定義が間違っているのかを教えてくれないため、複雑なニューラルネットワークのデバッグを行うことが困難です。
しかし、Chainerでは順伝播計算での型チェックをサポートしているため、プログラムのデバッグをするかのようにニューラルネットワークのデバッグが行なえます。

### Definition: an enbugged version of MLP

MLP2Wrongクラスには、3つのバグが埋め込んであります。実行しながら、1つずつ修正していきましょう。

In [None]:
# Find four bugs in this model definition
class MLP2Wrong(Chain):
    
    def __init__(self):
        super(MLP2Wrong, self).__init__()
        with self.init_scope():
            l1 = L.Linear(748, 100)
            l2 = L.Linear(100, 10) 

    def __call__(self, x):
        h1 = F.tahn(self.l1(x))
        y = self.l2(x)
        return y
    
enable_cupy = True
n_epoch=5

model = MLP2Wrong() # MLP2Wrong
trainer = prepare_classifier(train,test,batchsize,n_epoch,model,enable_cupy)

### スタックトレースを読んでエラーを見つける

順伝播計算の過程で、スタックトレースがエラー箇所を指摘してくれます。これは、ChainerのDefine-by-Runアプローチによるものです。Define-by-Runアプローチでは、順伝播計算を行うことにより計算グラフを構築します。

4つのバグが修正できたら、MLP2Wrongは前に記述したMLP2の定義と同じになるはずです。

In [None]:
train_and_test(trainer)

## 実験 1.3 - 自分のモデルを作る

次はあなたの番です。より高い精度を達成するために、自分でモデルを修正してみましょう。

ただエポックを増やすだけでは簡単すぎるので、学習にかける時間として10エポック以内かつ100秒以内に、0.95以上の精度を達成してみましょう。

### 複数のオプションによるモデルの定義

より良い精度を目指して、モデルのチューニングを行います。オプションは以下のようにたくさんあります。

* epoch数を増やす
* ネットワークのノード（ユニット）数を増やす
* 層の数を増やす
* 様々な活性化関数を用いる

In [None]:
# Let's create new Multi-Layer Perceptron (MLP)
class MLPNew(Chain):
    
    def __init__(self):
        # Add more layers?
        super(MLPNew, self).__init__()
        with self.init_scope():
            self.l1 = L.Linear(784, 100)  # Increase output node as (784, 200)?
            self.l2 = L.Linear(100, 10)  # Add one more layer?

    def __call__(self, x):
        h1 = F.tanh(self.l1(x))  # Replace F.tanh with F.sigmoid  or F.relu ?
        y = self.l2(h1)  # Add one more layer?
        return y

enable_cupy = True #  Use CuPy for faster training
n_epoch = 5 # Add more epochs?
model = MLPNew()
trainer = prepare_classifier(train,test,batchsize,n_epoch,model,enable_cupy)

### 0.95以上の精度を持つモデルを作成

In [None]:
train_and_test(trainer)

### これで完璧?

0.95を超える精度のもとでは、これら60サンプルの例での誤分類は見当たらないでしょう。

In [None]:
plot_examples()

### 最良モデルの見た目を確認

In [None]:
display_graph()

これであなたは、Chainerでニューラルネットワークを記述し学習する方法を学びました。

引き続き、強化学習の基礎について学びます。その後ChainerRLを用いて、強化学習におけるディープラーニングの利用方法についても学びます。

# 2. 強化学習（Reinforcement Learning）

## Section 2.1: 問題設定

上のMNISTのように、各入力に対し正解となる出力があらかじめ訓練データとして与えられており、それを元に入力から出力へのマッピングを学習するような問題を、教師あり学習と呼びます。

強化学習では、教師あり学習とは異なり、正解となる出力は与えられず、代わりにモデルが何らかの出力を行うとそれに対してその良さを表す報酬という数値が与えられます。与えられた報酬を元に、報酬を最大化する出力を推定することが強化学習のゴールとなります。

状態（state）を持った環境（environment）と、行動する主体であるエージェントの間の相互作用として記述されます。
エージェントは環境の現在の状態$s_t$を観測（observation）することができ、それに応じて行動（action）$a_t$を選択します。環境は、$s_t$と$a_t$に応じて、状態を$s_{t+1}$に変化させるとともに、報酬$r_{t+1}$をエージェントに与えます。

<img src="image/rl.png" width="200">

エージェントの目標は、将来もらえる報酬の和を最大化するような、状態の観測から行動へのマッピングを獲得することです。

以下では簡単のため、行動は離散値、多次元の状態$s_t$は離散値または連続値とします。

### メインアプローチ :  行動価値関数の近似

強化学習においては、方策（policy）の表現方法やエージェント内部の動作メカニズム、最適化手法などについて、複数の戦略が存在します。

このハンズオンの大部分では、行動価値関数と呼ばれる関数を近似することを考えます。行動価値関数は、将来のすべてのステップにおける累積報酬の期待値を、状態 $s$ と次の行動 $a$ についての関数 $Q(s, a)$で表したものです。

最適な行動価値関数 $Q(s, a)$ の良い近似を学習し、各ステップ $t$で与えられる $s_t$に対してQ値 $Q(s_t, a_t)$ を最大にするような行動 $a_t$ をとることによって、最適な方策が実現します。

## Section 2.2: Example - CartPole

このセクションでは、CartPoleと呼ばれる制御問題を取り上げ、これをどのように強化学習の問題として扱うかを述べていきます。

### 準備: パッケージのインポート

In [None]:
# The typical imports
import gym
gym.undo_logger_setup()  # Turn off gym's default logger settings
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# Set logger level
import logging
import JSAnimation
logging.basicConfig(level=logging.INFO)

# Imports specifically so we can render outputs in Jupyter.
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display

### 描画方法の設定

In [None]:
# Display frames as a gif
def display_frames_as_gif(frames):
    print('Generating a gif animation...')
    plt.figure(figsize=(frames[0].shape[1] / 72.0, frames[0].shape[0] / 72.0), dpi = 72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames = len(frames), interval=50)
    display(display_animation(anim, default_mode='loop'))

### 環境の設定 : CartPole

古典的な強化学習の事例として、[OpenAI Gym](https://gym.openai.com/)のCartPole-v0を取り上げます。これは、黒い台車と黄色い棒の物理シミュレータで、倒立振子の一種です。

<img src="image/cartpole.png?" width="450">

以下のCartPole-v0の概要は、[Gym's Wiki page](https://github.com/openai/gym/wiki/CartPole-v0)から引用しています。

#### 説明
摩擦のない軌道上を動く台車に、棒が取り付けられています。
棒が直立した状態からスタートし、台車の速度を上げたり下げたりすることによって、棒が倒れることを防ぐのが目的です。

#### 観測 (observation) 可能な状態
Type: Box(4)

Num | Observation | Min | Max
---|---|---|---
0 | 台車の位置 | -2.4 | 2.4
1 | 台車の速度 | -Inf | Inf
2 | 棒の角度 | ~ -41.8&deg; | ~ 41.8&deg;
3 | 棒の先端の速度 | -Inf | Inf

#### 行動（Actions）
Type: Discrete(2)

Num | Action
--- | ---
0 | 台車を左に押す
1 | 台車を右に押す

注: 速度の増加量および減少量は、棒の角度に依存するため固定されていません。これは、台車を動かすのに必要なエネルギーを、棒の重心が増加させるためです。

#### エピソードの終了条件 
1. 棒の角度の絶対値が20.9より大きい
2. 台車の位置の絶対値が2.4より大きい（台車の中心がディスプレイの縁に達する）
3. エピソードの長さが200ステップを超える。

#### 報酬
終了時のステップを含め、1ステップごとに１の報酬が与えられます。

#### 初期状態
全ての状態は、-0.05から+0.05までの一様乱数で与えられます。

### Gymの環境について

Gymの環境は、以下の3つのステップで統一されたインターフェースを有しています。

#### 1. 名前を指定して環境を作成
```python
env = gym.make('ENV_NAME')
```
#### 2. 環境を初期化

```python
env.reset()
```
#### 3. actionを実行し、報酬と次状態を観測
```python
observation, reward, is_finished, info = env.step(action)
```

  - observation: 次状態の観測値
  - reward: 報酬のスカラー値
  - is_finished: 現在の状態が最終状態であるかどうかを示すブール値
  - info: 追加的な情報

環境との相互作用により、強化学習エージェントは累積報酬を最大化する方策をいかに最適化するかを学習します。


### 環境のはたらき

CartPoleの環境を作成し、初期状態や行動の結果を観測してみましょう。

In [None]:
# Create  environment of CartPole-v0
env = gym.make('CartPole-v0')
print('observation space:', env.observation_space)
print('action space:', env.action_space)

observation = env.reset()
#env.render(mode='rgb_array', close=True)
print('initial observation:', observation)

action = env.action_space.sample() # Select random action
print('random action:', action)
observation, reward, is_finished, info = env.step(action)
print('next observation:', observation)
print('reward:', reward)
print('is_finished:', is_finished)
print('info:', info)

### ランダム行動による実験

強化学習エージェントを導入する前に、ランダム行動を繰り返して環境がどのように変化するか確認してみましょう。
ここではエピソードを10回繰り返し、観測した状態を画面に記録します。

In [None]:
num_episodes= 10
max_length = 200
frames = []
for i in range(num_episodes):
    observation = env.reset() # Initialize environment with random angle of pole between (±0.05)
    for t in range(max_length):
        frames.append(env.render(mode = 'rgb_array'))
        action = env.action_space.sample() # Select random action = push left or right
        observation, reward, is_finished, _ = env.step(action) # Take action and get reward and updated observation
        if is_finished:
            break
env.render(close=True)

### エピソードの可視化

フレームはgifアニメーションで表示できます。
アニメーションが作成されるまで数分かかることがあります。
playボタンをクリックしてください。 ランダム行動では20ステップほどで簡単に棒が倒れてしまうのが確認できます。

In [None]:
display_frames_as_gif(frames)

## Section 2.3: 従来の強化学習 = Q学習（Q-learning）

Q学習は最もポピュラーな強化学習手法のうちの１つで、各状態における最適な行動を決定します。

各ステップ $t$ では、行動 $a_t$ をとり報酬 $r_{t+1}$ と次状態 $s_{t+1}$を受け取り、Q値 $Q(s_t, a_t)$ を以下の式で更新します。

<img src="image/q-learning.svg" width="800">

数式の詳細な解説はしませんが、直観的には、”更新前のQ値”と”時間割引を考慮した報酬の総和”の差分に学習率 $\alpha_t$ をかけてQ値を更新していることになります。

Q値はその状態・行動のペアが選ばれるたびに更新され、学習率を適切に減衰させると、将来に渡って常に最適な行動を選択した場合の累積報酬の期待値に収束します。このとき$Q(s,a)$を最大にするような行動$a$が$s$における最適な行動となります。

強化学習では、まだよく知らない状態や行動を調べるための「探索」と、すでによさそうだとわかっている状態や行動をより深くに調べるための「利用」のバランスを採る必要があります。このために$\epsilon$-greedy法がよく使われます。これは、エージェントがランダム行動をとるか、現時点で推定される最良行動をとるかを確率的に決める方法です。

Q学習を実行する際の最もシンプルな方法は、ある離散状態と行動の組に対するQ値を、Q-tableという表に保存しておくことです。


### Q学習エージェントの定義

ここでは、観測空間をサイズ20000（10^観測数(4) * アクションの種類(2)）のQ-tableに離散化するQLearningAgentクラスを定義します。Q-tableの各セルは、離散化された状態と可能な動作の組に対する現在のQ値を表します。

観測された現在の状態と報酬のもとでact()メソッドを呼び出すことで、エージェントはQ-tableを更新し、次の行動を返します。

In [None]:
class QLearningAgent:
    def __init__(self):
        self.learning_rate = 0.2
        self.discount_factor = 0.95
        self.exploration_rate = 0.5
        self.state = None
        self.action = None

        self.n_bins = 9
        self.splits = [
            # Position
            np.linspace(-2.4, 2.4, self.n_bins),
            # Velocity
            np.linspace(-3.5, 3.5, self.n_bins),
            # Angle.
            np.linspace(-0.5, 0.5, self.n_bins),
            # Tip velocity
            np.linspace(-2.0, 2.0, self.n_bins)
        ]

        # Create Q-Table
        self.n_actions = 2
        num_states = (self.n_bins+1) ** len(self.splits)
        self.q_table = np.zeros(shape=(num_states, self.n_actions))

    # Turn the observation into integer state
    def set_state(self, observation):
        state = 0
        for i, column in enumerate(observation):
            state += np.digitize(x=column, bins=self.splits[i]) * ((self.n_bins + 1) ** i)
        return state

    # Select action and update
    def act(self, observation, reward=None):
        next_state = self.set_state(observation)
        
        if reward is not None:
            # Train mode
            if self.state is not None:
                # Train by updating Q-Table based on current reward and 'last' action.
                self.q_table[self.state, self.action] += self.learning_rate * \
                    (reward + self.discount_factor * max(self.q_table[next_state, :]) - self.q_table[self.state, self.action])
            # Exploration or exploitation
            do_exploration = (1 - self.exploration_rate) < np.random.uniform(0, 1)
            if do_exploration:
                #  Exploration
                next_action = np.random.randint(0, self.n_actions)
            else:
                # Exploitation
                next_action = np.argmax(self.q_table[next_state])
        else:
            # Test mode 
            next_action = np.argmax(self.q_table[next_state])

        self.state = next_state
        self.action = next_action
        return next_action
    
    # Observe terminal state
    def stop_episode(self, observation, reward=None):
        if reward is not None:
            # Train mode
            # Train by updating Q-Table based on current reward and 'last' action.
            self.q_table[self.state, self.action] += self.learning_rate * \
                (reward - self.q_table[self.state, self.action])
        self.state = None
        self.action = None

### エージェントの学習

空のQ-tableからスタートし、200エピソードをかけ、エージェントは$\epsilon$-greedy戦略を用いたQ学習によって$Q(s_t, a_t)$を学習しようとします。結果のGIF画像から、エージェントが試行錯誤によって徐々に学習しているのがわかります。

In [None]:
# Create agent
q_agent = QLearningAgent()

num_episodes = 200
max_length = 200
frames = []
n_steps = np.zeros((num_episodes,))
for i in range(num_episodes):
    observation = env.reset() # Initialize environment with random angle of pole between (±0.05)
    reward = 0
    n_steps[i] = max_length
    for t in range(max_length):
        if i % 10 == 0:
            frames.append(env.render(mode = 'rgb_array'))
        action = q_agent.act(observation, reward) # Select random action = push left or right
        observation, reward, is_finished, _ = env.step(action) # Take action and get reward and updated observation
        if is_finished:
            q_agent.stop_episode(observation, reward)
            n_steps[i] = t
            break
env.render(close=True)
print("Average step in {} episodes: {}".format(num_episodes, np.mean(n_steps)))
display_frames_as_gif(frames)

### Q-tableの確認

In [None]:
print("Q-table size: ", q_agent.q_table.size)
print("Q-table nonzero count: ", np.count_nonzero(q_agent.q_table))

### 学習済みエージェントのテスト

学習中は探索のために$\epsilon$-greedy法により一定確率でランダムに行動を選んでいるため、学習中のパフォーマンスはエージェントが発揮できる最高のパフォーマンスとは言えません。強化学習アルゴリズムの評価では、学習中のパフォーマンスとは別に探索をせずにこれまでの経験から最善の行動（Q学習では$Q(s,a)$を最大にする$a$）を選んだ場合のパフォーマンスが評価指標としてしばしば使われます。この方法でエージェントを10エピソード分評価してみましょう。

In [None]:
num_episodes = 10
max_length = 200
frames = []
n_steps = np.zeros((num_episodes,))
for i in range(num_episodes):
    observation = env.reset() # Initialize environment with random angle of pole between (±0.05)
    n_steps[i] = max_length
    for t in range(max_length):
        frames.append(env.render(mode = 'rgb_array'))
        action = q_agent.act(observation) # Select random action = push left or right
        observation, _, is_finished, _ = env.step(action) # Take action and get reward and updated observation
        if is_finished:
            n_steps[i] = t
            break
print("Average step in {} episodes: {}".format(num_episodes, np.mean(n_steps)))
env.render(close=True)
display_frames_as_gif(frames)

おそらく棒を200ステップ維持することはできてないのではないかと思います。学習時のエピソード数（`num_episodes`）を増やす、状態の離散化の粒度（`n_bins`）を変える、などの方法でこれは改善できるので、どこまで改善できるかぜひ試してみてください。

CartPoleは強化学習のタスクとしてはかなり単純なものなので、Q-table使ったアルゴリズムも検討の余地があります。しかし、例えば状態の次元数が4から100に増えたとすると、同じ粒度で離散化するとテーブルの大きさは$10^{100}*2$となり現実的ではなくなります。そのような場合には、Q関数をパラメータで表された関数で近似するといった方法が採られます。

近年特に高次元の場合に成功を収めているのが、その関数近似にニューラルネットを用いる、深層強化学習と呼ばれる手法です。次の章では、ChainerRLを使って深層強化学習をCartPole、そしてAtari 2600のゲームに適用してみます。

# 3. ChainerRL クイックスタート

ChainerRLには、深層強化学習（Deep Reinforcement Learning）アルゴリズムのChainer実装が含まれています。
このチャプターでは、深層強化学習の中でもポピュラーな、以下の２つを使用します。

* Deep Q-Network [(Mnih et al., 2015)](http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html)
* Double DQN [(Hasselt et al., 2016)](https://arxiv.org/abs/1509.06461)

## Deep Q-Network (DQN)

### 準備: ChainerRLのインポート

In [None]:
import chainerrl

### ChainerRLにおける環境

ChainerRLは、深層強化学習を行う様々なアルゴリズムをエージェントとして提供しています。

ChainerRLに実装されたエージェントは、先程のCartPoleのように、現在の状態を観測でき、また行動を選択したら次の状態と報酬を観測できるような環境であれば適用することができます。OpenAI Gymの環境だけでなく、似たようなインタフェースを用意すれば独自の環境に適用することも可能です。

学習時には、状態と報酬を観測し行動を選択する`act_and_train(observation, reward)`と、エピソード最後の状態と報酬を観測して現在のエピソードを終える`stop_episode_and_train(observation, reward)`の2つのメソッドを用います。どちらのメソッドも適切なタイミングでこれまでの経験を元に内部のモデルを更新します。
```python
# In training episode
while not is_finished:
    action = agent.act_and_train(observation, reward)  # Observe both observation and reward
    observation, reward, is_finished, info = env.step(action)
agent.stop_episode_and_train(observation, reward)  # Observe both observation and reward
```

テスト中には、状態と観測し今のエージェントから見て最適な行動を選択する`act(observation)`と、現在のエピソードを終える`stop_episode()`の2つのメソッドを用います。モデルを更新することも、学習に影響を与えることもありません。
```python
# In evaluation episode
while not is_finished:
    action = agent.act(observation)  # Observe observation only
    observation, reward, is_finished, info = env.step(action)
agent.stop_episode()  # No observation
```

これらを用いて、学習用のコードとテスト用のコードをそれぞれ次のように書けます。

In [None]:
# Train agent 
def train_agent(train_agent, num_episodes=10, max_length=200, render=False):
    frames = []
    for i in range(num_episodes):
        obs = env.reset()
        reward = 0
        is_finished = False
        R = 0  # return (sum of rewards)
        t = 0  # time step
        while not is_finished and t < max_episode_len:
            if render and i % 10 == 0:
                frames.append(env.render(mode = 'rgb_array'))
            action = train_agent.act_and_train(obs, reward)
            obs, reward, is_finished, _ = env.step(action)
            R += reward
            t += 1
        if i % 10 == 0:
            print('episode:', i,
                  'R:', R,
                  'statistics:', train_agent.get_statistics())
        train_agent.stop_episode_and_train(obs, reward, is_finished)  
        
    env.render(close=True)
    return frames

# Test agent 
def test_agent(test_agent, num_episodes=10, max_length=200, render=True):
    frames = []
    n_steps = np.zeros((num_episodes,))
    for i in range(num_episodes):
        observation = env.reset() # Initialize environment with random angle of pole between (±0.05)
        n_steps[i] = max_length
        for t in range(max_length):
            if render:
                frames.append(env.render(mode = 'rgb_array'))
            action = test_agent.act(observation) # Select random action = push left or right
            observation, _, is_finished, _ = env.step(action) # Take action and get reward and updated observation
            if is_finished:
                n_steps[i] = t
                break
        test_agent.stop_episode()  
    env.render(close=True)
    return frames, np.mean(n_steps)

### DQN

ここでは、深層強化学習の先駆けとなった[DQN (Deep Q-Network)](http://dx.doi.org/10.1038/nature14236)を使用します。

DQNを使うためには、Q関数を表現するモデルをニューラルネットとして定義する必要があります。このモデルは、環境からの状態観測を入力とし、各行動に対する累積報酬の期待値の予測値を返すようなモデルです。
ChainerRLでは下記のように、`chainer.Chain`としてこのモデルを定義することができます。
出力は`chainerrl.action_value.ActionValue`を実装した`chainerrl.action_value.DiscreteActionValue`にラップされることに注意してください。
ChainerRLはQ関数の出力をラップすることによって、このような離散行動Q関数と、連続行動に対するQ関数である[NAFs (Normalized Advantage Functions)](https://arxiv.org/abs/1603.00748)を同様に扱うことができます。

In [None]:
class QFunction(chainer.Chain):

    def __init__(self, obs_size, n_actions, n_hidden_channels=30):
        super().__init__(
            l0=L.Linear(obs_size, n_hidden_channels),
            l1=L.Linear(n_hidden_channels, n_hidden_channels),
            l2=L.Linear(n_hidden_channels, n_actions))

    def __call__(self, x):
        h = F.tanh(self.l0(x))
        h = F.tanh(self.l1(h))
        return chainerrl.action_value.DiscreteActionValue(self.l2(h))

obs_size = env.observation_space.low.size
n_actions = env.action_space.n

Chainerと同様、`chainer.Optimizer`を使ってモデルのパラメータを更新します。

In [None]:
# Use Adam to optimize q_func. eps=1e-2 is for stability.
optimizer = chainer.optimizers.Adam(eps=1e-2)

DQNエージェントを作成するには、パラメータ等をもう少しだけ設定する必要があります。

In [None]:
# Set the discount factor that discounts future rewards.
gamma = 0.95

# Use epsilon-greedy for exploration
explorer = chainerrl.explorers.ConstantEpsilonGreedy(
    epsilon=0.5, random_action_func=env.action_space.sample)

# DQN uses Experience Replay.
# Specify a replay buffer and its capacity.
replay_buffer = chainerrl.replay_buffer.ReplayBuffer(capacity=10 ** 6) # 経験をためておくバッファー

# Since observations from CartPole-v0 is numpy.float64 while
# Chainer only accepts numpy.float32 by default, specify
# a converter as a feature extractor function phi.
phi = lambda x: x.astype(np.float32, copy=False)

では、環境と相互作用するDQNエージェントを作成しましょう。

In [None]:
q_func = QFunction(obs_size, n_actions)
optimizer.setup(q_func)
dqn_agent = chainerrl.agents.DQN(
    q_func, optimizer, replay_buffer, gamma, explorer,
    replay_start_size=500, update_interval=1,
    target_update_interval=100, phi=phi)

これでエージェントと環境の準備が整いました。
強化学習を始めるときです！

学習では、`agent.act_and_train`を使って探索行動を選択します。
`agent.stop_episode_and_train`はエピソードの終了後に呼び出さなければなりません。
学習の統計情報は`agent.get_statistics`で確認することができます。

In [None]:
num_train_episodes = 200
max_episode_len = 200
train_agent(dqn_agent, num_train_episodes, max_episode_len)
print('Finished.')

注: 学習がうまく進まないまま終了してしまう場合があります。その際はQ関数の作成からやり直してください。

さて、学習が終わりました。
エージェントはどのくらい成長したでしょうか？
`agent.act`と`agent.stop_episode`を用いてテストができます。

In [None]:
num_test_episodes=10
frames, average_step = test_agent(dqn_agent, num_test_episodes, max_episode_len)
print("Average step in {} episodes: {}".format(num_test_episodes, average_step))
display_frames_as_gif(frames)

テストのスコアが十分なら、エージェントを保存して再利用できるようにしておきましょう。エージェントの保存とロードはそれぞれ`agent.save`と`agent.load`を呼び出すだけで行なえます。

In [None]:
# Save an agent to the 'agent' directory
dqn_agent.save('agent')

# Uncomment to load an agent from the 'agent' directory
# dqn_agent.load('agent')

初めての深層強化学習ミッションはこれで完了です！

## 実験: ChainerRLエージェントの改良

ChainerのMLPの例と同様、Q関数のネットワークを修正して、オリジナルのQ関数を作ることが出来ます。

In [None]:
class QFunctionNew(chainer.Chain):

    def __init__(self, obs_size, n_actions, n_hidden_channels=30): # Add more hidden channels?
        super().__init__(
            l0=L.Linear(obs_size, n_hidden_channels), # Add more layers?
            l1=L.Linear(n_hidden_channels, n_hidden_channels),
            l2=L.Linear(n_hidden_channels, n_actions))

    def __call__(self, x, test=False):
        h = F.tanh(self.l0(x)) # User F.sigmoid or F.relu?
        h = F.tanh(self.l1(h)) # User F.sigmoid or F.relu?
        return chainerrl.action_value.DiscreteActionValue(self.l2(h))

new_q_func = QFunctionNew(obs_size, n_actions)
optimizer.setup(new_q_func)
new_dqn_agent = chainerrl.agents.DQN(
    new_q_func, optimizer, replay_buffer, gamma, explorer,
    replay_start_size=500, update_interval=1,
    target_update_interval=100, phi=phi)

では、新しいQ-関数を学習しましょう。

In [None]:
num_train_episodes = 200
max_episode_len = 200
train_agent(new_dqn_agent, num_train_episodes, max_episode_len)
print('Finished.')

続いて、テストも行います。

In [None]:
num_test_episodes=10
frames, average_step = test_agent(new_dqn_agent, num_test_episodes, max_episode_len)
print("Average step in {} episodes: {}".format(num_test_episodes, average_step))
display_frames_as_gif(frames)

次は、DQNの亜種であるDoubleDQNを使用します。通常のDQNと異なるのは、エージェントの作り方だけです。

In [None]:
q_func_double = QFunctionNew(obs_size, n_actions)
optimizer.setup(q_func_double)
# Double DQN instead of DQN
double_dqn_agent = chainerrl.agents.DoubleDQN(
    q_func_double, optimizer, replay_buffer, gamma, explorer,
    replay_start_size=500, update_interval=1,
    target_update_interval=100, phi=phi)

num_train_episodes = 200
max_episode_len = 200
train_agent(double_dqn_agent, num_train_episodes, max_episode_len)

num_test_episodes=10
frames, average_step = test_agent(double_dqn_agent, num_test_episodes, max_episode_len)
print("Average step in {} episodes: {}".format(num_test_episodes, average_step))
display_frames_as_gif(frames)