# OpenAI Gym

- [OpenAI Gym](https://gym.openai.com/envs/#classic_control)

## インストール

- [GitHub: OpenAI Gym](https://github.com/openai/gym)

```
pip install gym
```

## FrozenLake

凍った湖の上をあるき、スタートからゴールまでホールに落ちないように最後まで到達すると成功するゲーム

- マス目：ここでは4x4とする
- 各マス目

 - S:Start 開始位置
 - F: Frozren Staff 落ちない
 - H: Hole 落ちる
 - G: Goal 目的地点 報酬1

氷の上は滑ったり、風が吹いたりするので、必ずしもアクションで指定した方向に着地するとは限らない、という前提でデータが作成されている

# Qテーブル

- 方策（上下左右）×位置（０から１５）
- それぞれのQ値（価値）を格納
 - 価値：報酬の累積和、最初はゼロで初期化
 

 

# ベルマン方程式

\begin{equation*}
Q(s,a) = r + γ(max(Q(s', a'))
\end{equation*}

r: 報酬
s:state
a:action

s':次のstate
a':次のaction

Q(s,a): 行動価値観数
γ：割引率

max..最大値を与える組み合わせを求める手法は様々

- グリーディー法:今までうまく言った方法をひたすらうつ
- ランダム法
- ε-グリーディー法：時々ランダムにうつが、良いスコアを出るほうを採用する

# Q値の更新方法

- TD-Q学習 (Temporal Difference)
その状態と次の状態を求めて次々と更新する方法

In [2]:
import gym

In [3]:
import numpy as np

In [5]:
env = gym.make('FrozenLake-v0')

In [6]:
Q = np.zeros([env.observation_space.n, env.action_space.n])

In [8]:
# 学習レート
lr = 0.8
# 割引率
y = 0.95
# 何回試行するか
num_episodes = 2000
# 報酬一覧を格納する配列
rList = []

In [14]:
# num_episodes 回まわす
for i in range(num_episodes):
    # 状態の初期化
    s = env.reset()
    # 報酬の累積和
    rAll = 0
    # Holeに落ちたらdieのd
    d = False
    # 1試行内のカウンタ
    j = 0
    # 
    while j < 99:
        j += 1
        # グリーディー法
        # Q[s,:] あるstateの時のactionごとのQ値を格納する配列
        # np.random.randn(1, env.action_space.n) * ( 1.0 / (i + 1) ) ノイズ
        a = np.argmax(Q[s,:] + np.random.randn(1, env.action_space.n) * ( 1.0 / (i + 1) ) ) 
        # アクションの実行結果を取得する
        s1, r, d, _ = env.step(a)
        # ベルマン方程式を更新する、その際学習率をかけてちょっとだけ学習させる
        Q[s,a] = Q[s,a] + lr * (r + y*np.max(Q[s1,:]) - Q[s, a])
        # 報酬の総和：今回の報酬rを足す
        rAll += r
        # 状態を更新
        s = s1
        # Hole に落ちていないなら次のstep()を実行する
        if d == True:
            break
    # 報酬一覧に今回の結果を追加する
    rList.append(rAll)


In [18]:
print("回数ごとの結果:", str( sum(rList)/num_episodes) )

回数ごとの結果: 0.6695


In [19]:
print("最終的なQテーブルの値")
print(Q)

最終的なQテーブルの値
[[  2.48293691e-01   8.23027540e-03   9.99690364e-03   1.03237589e-02]
 [  4.42217040e-04   2.48921589e-03   2.25388633e-03   1.52061875e-01]
 [  4.57943510e-03   1.38529495e-01   3.01624101e-03   5.31811925e-03]
 [  2.84005368e-03   1.29686283e-03   2.99853322e-04   7.47721621e-02]
 [  3.72997747e-01   2.58546603e-03   5.59605533e-04   9.74355882e-05]
 [  0.00000000e+00   0.00000000e+00   0.00000000e+00   0.00000000e+00]
 [  1.32062627e-04   1.86793485e-04   2.27938152e-03   3.25088509e-05]
 [  0.00000000e+00   0.00000000e+00   0.00000000e+00   0.00000000e+00]
 [  0.00000000e+00   0.00000000e+00   8.11013929e-03   3.77990628e-01]
 [  6.07385150e-03   2.27305254e-01   0.00000000e+00   0.00000000e+00]
 [  4.76323205e-02   0.00000000e+00   1.05688196e-03   1.15378573e-03]
 [  0.00000000e+00   0.00000000e+00   0.00000000e+00   0.00000000e+00]
 [  0.00000000e+00   0.00000000e+00   0.00000000e+00   0.00000000e+00]
 [  0.00000000e+00   0.00000000e+00   3.74654272e-01   0.00000000