## 5.モンテカルロ法

４章では、動的計画法（DP）を使って、最適価値関数と最適方策を得たが、この手法は<br>
**「環境のモデル（状態価値確率と報酬関数）」が既知**である必要がある。

環境が未知でより良い方策を見つける<br>
→エージェントが実際に行動を起こし、その経験から学ぶ<br>
→「状態、行動、報酬」のデータから学ぶ


### サイコロの目の和

![](./picture/pict1.png)

![](./picture/pict2.png)

確率分布から期待値を求めることができて、期待値は７

この期待値をサンプリングから求めたい→モンテカルロ法

In [2]:
import numpy as np

def sample(dices=2):
    x = 0
    for _ in range(dices):
        x += np.random.choice([1, 2, 3, 4, 5, 6])
    return x

In [3]:
print(sample())
print(sample())
print(sample())

3
7
6


「数を売って、平均を取る」かんたんな方法だが、サンプル数を無限大にしたとき、大数の法則より、平均値は期待値に収束する

### モンテカルロ法の実装

In [5]:
trial = 100000

samples = []
for _ in range(trial):
    s = sample()
    samples.append(s)

V = sum(samples) / len(samples)
print(V)

7.00069


データを得るたびに平均値を求めたいときな「インクリメンタル」な実装が良い

![](./picture/pict3.png)


In [6]:
trial = 1000
V, n = 0, 0

for _ in range(trial):
    s = sample()
    n += 1
    V += (s - V) / n
    print(V)

5.0
7.5
6.333333333333333
6.75
7.8
7.5
7.142857142857143
7.125
7.111111111111111
6.699999999999999
6.545454545454545
6.25
6.3076923076923075
6.357142857142857
6.3999999999999995
6.562499999999999
6.529411764705881
6.3888888888888875
6.368421052631578
6.349999999999999
6.333333333333332
6.409090909090908
6.478260869565217
6.583333333333333
6.8
6.769230769230769
6.851851851851852
6.821428571428572
6.793103448275863
6.900000000000001
6.838709677419356
6.812500000000001
6.818181818181819
6.794117647058824
6.6571428571428575
6.611111111111112
6.567567567567568
6.552631578947369
6.666666666666667
6.775
6.658536585365854
6.690476190476191
6.627906976744186
6.636363636363637
6.711111111111111
6.782608695652174
6.829787234042553
6.791666666666666
6.775510204081632
6.76
6.784313725490196
6.75
6.735849056603773
6.703703703703703
6.709090909090909
6.75
6.7368421052631575
6.758620689655172
6.694915254237287
6.716666666666666
6.754098360655737
6.758064516129032
6.746031746031746
6.71875
6.7692307692

### モンテカルロ法による方策評価

エージェントが実際に行動して得た経験（サンプルデータ）から価値関数を推定する
ここでは、方策πが得られたときに、その方策の価値関数をモンテカルロ法を使って計算する。

価値関数は以下の式だった。

$$v_\pi(s) = \mathbb{E}_\pi [G | s]$$

方策πに従ってエージェントに実際に行動させます。<br>
そうして得られた実際の収益がサンプルデータになります。<br>
これの平均は、

$$V_\pi(s) = \frac{G^{(1)} + G^{(2)} + \cdots + G^{(n)}}{n}$$

（モンテカルロ法はエピソードタスク、終わりがあるタスクにのみ適用できる）

