<b>
<div style="text-align: center;">
    <span style="font-size: 200%;">Sarsa</span>
</div>
</b>

<br>

<b>
<div style="text-align: right;">
    <span style="font-size: 150%;">
        2020/3/19
    </span><br>
    <span style="font-size: 150%;">
        Masaya Mori
    </span>
</div>
</b>

## 目的

<span style="font-size: 120%;"> Sarsaの理論・仕組みを知る．</span> <br>
<span style="font-size: 120%;"> SarsaによるMountainCarの実装を行う．</span>

## Sarsaとは

<span style="font-size: 120%;"> Sarsaとは，[時間的差分学習(Temporal Difference Learning; TD学習)]()を用いた<b>最適方策決定</b>を行うための手法の1つである．</span> <br>

<span style="font-size: 120%;"> TD学習を軽く説明すると，シミュレーションを行うことで状態・行動価値を求めるため，確率遷移がわからない問題に対して適用することができる点(モンテカルロ法の利点)と，ブートストラップを使うことができるため，エピソードの終点まで待たなくても状態・行動価値を更新することができる点(動的計画法の利点)の2つの利点を持つ<u>状態・行動価値関数更新手法</u>である．式で表すと，</span> <br>

<span style="font-size: 120%;">
$$
V(s_t) \leftarrow V(s_t) + \alpha\bigl[r_{t+1} + \gamma \cdot V(s_{t+1}) - V(s_t)\bigr]，\tag{1}
$$
<span><br>

<span style="font-size: 120%;"> と表される．行動価値は式(1)を，</span> <br>

<span style="font-size: 120%;">
\begin{eqnarray}
    Q(s_t,a_t) &\leftarrow& Q(s_t,a_t) + \alpha\bigl[r_{t+1} + \gamma \cdot Q(s_{t+1},a_{t+1}) - Q(s_t,a_t)\bigr]，\tag{2} \\
    Q(s,a) &\leftarrow& Q(s,a) + \alpha\bigl[r' + \gamma \cdot Q(s',a') - Q(s,a)\bigr]，\tag{3}
\end{eqnarray}
<span><br>

<span style="font-size: 120%;"> のように書き換えることで導出することが可能となる．</span> <br>

<span style="font-size: 120%;"> 
Sarsaでは，状態価値より行動価値を求めたほうが都合が良いため，式(3)と[$\epsilon$-greedy法]()を用いることでエピソード(方策)の更新を行う．
具体的には，方策を決定した後にシミュレーション(行動)を行い，式(3)を用いることで行動価値を更新し，最後に<font color="red">$\epsilon$-greedy法</font>によって方策を更新する．
ここで注意すべき点は，<b>方策更新に用いるエピソードは，その時に行ったエピソードである</b>．
</span> <br>

<img src="figure1.jpg" width="900">

<span style="font-size: 120%;"> 上の画像を用いて説明すると，</span> <br>

<span style="font-size: 120%;"> 1. 初めに$\epsilon$-greedy法で方策を決定する．今回は仮に赤線のルートになったとする．</span> <br>
<span style="font-size: 120%;"> 2. 次に行動$a''$で失敗し，状態$S'''$で止まったとする．</span> <br>
<span style="font-size: 120%;"> 3. その時の行動価値の更新は，赤線の行動が保有する行動価値を用いて，赤線の行動が保有する行動価値の更新を行う．</span> <br>
<span style="font-size: 120%;"> 4. 最後に，行動価値が更新されたので再度$\epsilon$-greedy法を用いて方策を決定する．</span> <br>

<span style="font-size: 120%;"> よくわからなかった人は，[Q-Learning]()とSarsaを比較してもらうとわかりやすいかもしれないです．</span> <br>

## MountainCarの実装における注意点

<span style="font-size: 120%;"> 試しに動かしてみる． </span> <br>

In [25]:
# -*- coding:utf-8 -*-
import gym
import time

# 環境の生成（車の山登り）
env = gym.make('MountainCar-v0')
env.reset()

# 環境の描画
for _ in range(100):
    env.render()
    env.step(env.action_space.sample())
    observation, reward, done, info = env.step(env.action_space.sample())
    time.sleep(0.02)
env.close()

<span style="font-size: 120%;"> この時， </span> <br>
<span style="font-size: 120%;"> "observation(object)"は，その時の状態の値を保持しており，  </span> <br>
<span style="font-size: 120%;"> "reward(float)"は，前の行動によって得られた報酬を保持しており，  </span> <br>
<span style="font-size: 120%;"> "done(boolean)"は，  </span> <br>
<span style="font-size: 120%;"> "info"は，  </span> <br>
<span style="font-size: 120%;"> を表している．</span> <br>

<span style="font-size: 120%;"> 詳しい使い方は[こちら]()を参照してください． </span> <br>

## Pythonによる実装

## 結果

## 参考資料

[今さら聞けない強化学習（10）: SarsaとQ学習の違い](https://qiita.com/triwave33/items/cae48e492769852aa9f1) <br>
[深層強化学習アルゴリズムまとめ](https://qiita.com/shionhonda/items/ec05aade07b5bea78081) <br>

## メモ

<span style="font-size: 120%;"> Q-learningの更新式はそのルート(行動)での最大の期待値を計算している．</span> <br>
<span style="font-size: 120%;"> つまり，イプシロン・グリーディによって方策を決定した場合，その方策(つまり行動)の現在取りうる最大の価値を計算している．したがって，行動価値を更新するときは方策を使用しない(つまり，イプシロン・グリーディを用いない)が，方策を決めるときは全てのパターンに対してシミュレーションを行わなければならないので，イプシロン・グリーディを用いて方策を決定する．方策オフというのは，更新式に方策(イプシロン・グリーディ)を用いてないからである．</span> <br>
<span style="font-size: 120%;"> Sarsaの更新式は，そのルート(行動)の最大の期待値ではなく，仮定の状態も含まれている．</span> <br>
<span style="font-size: 120%;"> 例えば，釣りで魚を釣り上げることを考えた場合に，Q-learningの場合は，リールを力いっぱい巻けば魚は釣れるので行動価値も高くなるが，Sarsaの場合は，糸が切れることなども考慮されるので，力いっぱい引くのではなく，強弱をつけたりなどの保険要素が付け加えられる．</span> <br>