# 宿題シート: FrozenLake

- このシートにはレポート課題に関する説明と，レポート課題の準備のための問題，そしてレポート課題の説明があります。
- このシート自体を提出する必要はありません。レポート課題については別のシートを見てください。

## 環境設定
以下は，利用する環境の各種設定。内容は気にせずに実行してください。
```
from gym.envs.registration import register
register(
    id='FrozenLakeNotSlippery-v0',
    entry_point='gym.envs.toy_text:FrozenLakeEnv',
    kwargs={'map_name' : '4x4', 'is_slippery': False},
    max_episode_steps=100,
    reward_threshold=0.78,
)
register(
    id='FrozenLakeNotSlippery8x8-v0',
    entry_point='gym.envs.toy_text:FrozenLakeEnv',
    kwargs={'map_name' : '8x8', 'is_slippery': False},
    max_episode_steps=200,
    reward_threshold=0.99, # optimum = 1
)
```

# FrozenLake

- [openAI Gym](https://gym.openai.com/)のモジュール

## FrozenLakeモジュールの読み込みとクラス定義

```
import gym
env = gym.make('FrozenLake-v0') 
```

## **Actions and states**

- see [FrozenLake-v0](https://github.com/openai/gym/blob/master/gym/envs/toy_text/frozen_lake.py)


ソースコードにある説明文
```
    Winter is here. You and your friends were tossing around a frisbee at the park
    when you made a wild throw that left the frisbee out in the middle of the lake.
    The water is mostly frozen, but there are a few holes where the ice has melted.
    If you step into one of those holes, you'll fall into the freezing water.
    At this time, there's an international frisbee shortage, so it's absolutely imperative that
    you navigate across the lake and retrieve the disc.
    However, the ice is slippery, so you won't always move in the direction you intend.
    The surface is described using a grid like the following
        SFFF
        FHFH
        FFFH
        HFFG
    S : starting point, safe
    F : frozen surface, safe
    H : hole, fall to your doom
    G : goal, where the frisbee is located
    The episode ends when you reach the goal or fall in a hole.
    You receive a reward of 1 if you reach the goal, and zero otherwise.
```

各状態は以下のように0から15の数値で表されている。
```
 0  1  2  3
 4  5  6  7
 8  9 10 11
12 13 14 15
```
行動は以下の通り
```
LEFT = 0
DOWN = 1
RIGHT = 2
UP = 3
```

## openAI gymのインタンス変数・関数
### 状態に関する情報を格納するインスタンス変数
- `gym.observation_space` : 状態に関する情報
- `gym.observation_space.n`: 状態数

表示例
```python
print(env.observation_space) 
print(env.observation_space.n)
```

**Q.** 上記表示例を実行して，その内容を確認しなさい。

### 行動に関するインスタンス変数
- `gym.action_space`: 行動に関する情報
- `gym.action_space.n`: 行動数

**Q.** 上記の各インスタンス変数の値を表示し，その意味を確認しなさい。

**Q.** 状態と行動の組み合わせは全部何通りあるか?

### その他の情報

- `gym.spec.max_episode_steps`: 1エピソード内の最大ステップ数

### 環境のインスタンス・メソッド

- `env.reset()`: 初期化。エージェントの位置はSになる。
- `env.step(action)`: 
    - 引数:
        - `action` : エージェントのとる行動
    - 返り値:
        - `next_state` : actionによる状態遷移後の状態
        - `reward` : actionにより得た報酬
        - `terminal` : エピソード終了時にTrue, それ以外はFalse
        - `info` : 行動actionによって，状態sから次の状態next_stateに遷移する確率(この演習では使わない)

**Q.** `env.reset()`を実行しなさい。その後，適当な`action`を用いて`env.step()`による状態遷移を行い，`action`に応じた適切な状態，報酬値，終了状態が得られることを確認しなさい。

## FrozenLakeNotSlippery

### ランダムアクション

**Q.** 以下は，ランダム選択エージェントが，`FronzenLake-v0`の環境を動き回るプログラム例である。
このプログラムを完成し，エージェントの行動遷移が適切に表示されることを確認しなさい。

注) openAI Gym標準の`FrozenLake-v0`では足元が滑りやすい(選択した行動は確率的にしか実行されない)ので，まずは，選択した行動が確実が実行されるように修正した`FrozenLakeNonslippy-v0`を使う。

```python
import numpy as np
import random as ra
import matplotlib.pyplot as plt
%matplotlib inline

import gym

class Fool:
    # 前回の宿題(6-class)で定義したものを使う

def play_env(env, agent, max_episode=100, learning=True, render_step=20, verbose=False):
"""    
    前回の宿題(6-class)で作ったものを，必要に応じて修正して使いなさい。(修正すべき点は少ないはず)
    ただし，1episode内の最大ステップ数(max_step)は引数とせず，env.spec.max_episode_steps を用いる。
"""

env16_nonSlip=gym.make('FrozenLakeNotSlippery-v0')
action_list=list(range(env16_nonSlip.action_space.n))
step,score=play_env(env=env16_nonSlip, 
                    agent=Fool(action_list), 
                    learning=False, 
                    max_episode=1, 
                    render_step=1, 
                    verbose=True)
```

**Q.** 以前の課題(6-class)で作った関数`plot_history()`を，必要に応じて修正して使えば，エピソードごとのステップ数や総得点の履歴のグラフ表示もできるはずである。実際にプログラムを作り，グラフ表示をしてみなさい。

```python
def plot_history # ここから自分で作る

# 実行
step,score=play_env(env=env16_nonSlip, 
                    agent=Fool(action_list), 
                    learning=False, 
                    max_episode=100, 
                    verbose=False)
plot_history(step,score)
```

### Q学習
**Q.** 以前の課題(6-class)で作ったクラス`Qlearner`, 学習プログラム`learn_env()`を使えば，FrozenLake環境に対する学習もできるはずである。必要に応じて修正をして，実際に学習を行い，学習曲線のグラフを描きなさい。
```python
import random as ra
index_list = lambda L, value: [i for i,x in enumerate(L) if x==value]

class Qlearner:
    # 自分で作る
    
def learn_env(env, agent, max_episode=100, render_step=20, verbose=False):
    # 自分で作る

```

以上の定義をした後，以下を実行すれば学習曲線のグラフが表示されるはず。
```
# 環境，エージェント等の定義
env16_nonSlip=gym.make('FrozenLakeNotSlippery-v0')
action_list=list(range(env16_nonSlip.action_space.n))
q_agent=Qlearner(action_list)

# 実行
step,score=play_env(env=env16_nonSlip, agent=q_agent, max_episode=100, verbose=False)
plot_history(step,score)
```

## 学習の継続
`q_agent`の学習結果(Q値)は，`play_env()`を終了しても保持される。したがって，以下のように`play_env()`を再度実行すれば，上記の学習の続きを行うことができる。
```
step,score=play_env(env=env16, agent=q_agent, max_episode=100, verbose=False)
plot_history(step,score)
```
**学習結果(Q値)を未学習な状態に戻したいとき**は，`q_agent`を再定義するか，`q_agent.reset()`を実行する。

**Q.** 実際に何度か実行してみて，未学習の状態よりも，パフォーマンスが良くなっていくことを確認しなさい。

**Q.** 学習エージェント`q_agent`は学習により，どのようなQ値を獲得しただろうか。可視化を試みよ。例えば，`q_agent.Q`の内容を見ると，獲得したQ値の一覧を確認できる。また，以下は，可視化の例のヒントになるかもしれないサンプルプログラムだが，このサンプルプログラムをレポート等に利用したい場合には，座標軸の値やタイトル，表示に内容に関する十分な解説を加えて使うこと。内容を理解しないまま，図だけ見て意味を判断して使うと，大きな勘違いをすることがあるので要注意。

```python
Qarray=[]
Qrow=[]

print("+----+")
print("|",end='')
for s in range(env.observation_space.n):
    q = [q_agent.get_q(s, a) for a in range(env.action_space.n)]
    Qrow.append(max(q))
    argmaxQ=q.index(max(q))
    print("{}".format(["<","v",">","^"][argmaxQ]), end='')
    if (s+1) % 4 == 0:
        print("|")
        if s!= env.observation_space.n - 1:
            print("|",end='')
        Qarray.append(Qrow)
        Qrow=[]
print("+----+")

plt.imshow(Qarray,aspect="auto")
plt.colorbar()
plt.show()
```

## FrozenLake

**Q**. 今度は，滑りやすいFrozenLake環境(`FrozenLake-v0`)で，選択した行動が実現される確率はどの程度を確認しなさい。正解は，このシート冒頭のリンクから見れる`FrozenLake`のソースコードを見ればわかる。
```
env16 = gym.make('FrozenLake-v0')
action_list=list(range(env16.action_space.n))
q_agent=Qlearner(action_list)

step,score=play_env(env=env16, agent=q_agent, learning=False, max_episode=1, render_step=1, verbose=True)
```


**Q**. 滑りやすいFrozenLake環境での学習パフォーマンスをグラフにして確認しなさい。
```
step,score=play_env(env=env16_slippery, agent=q_agent, max_episode=200, verbose=False)
plot_history(step,score)
```

# FrozenLake8x8

8x8のFrozenLake環境もある。
```python
MAPS = {
    "8x8": [
        "SFFFFFFF",
        "FFFFFFFF",
        "FFFHFFFF",
        "FFFFFHFF",
        "FFFHFFFF",
        "FHHFFFHF",
        "FHFFHFHF",
        "FFFHFFFG"
    ],
}
```
**Q.** 上記の例では，Hが何個あるか確認しなさい。また，状態と行動の組み合わせはいくつあるか答えなさい。

## FrozenLakeNotSlippery-8x8
決定論的な状態遷移をする環境は以下で定義できる。
```
env64_nonSlip = gym.make('FrozenLakeNotSlippery8x8-v0')
```
**Q.** Qエージェントによる学習シミュレーションを行い，結果をグラフ表示しなさい。果たして，学習は成功しているだろうか?

## 学習の改善

1. **Q値の初期値**(`q0`)を変えると，学習にはどのような影響があるだろうか? その理由はなんだろうか?
2. **報酬設定**を工夫すると，学習速度を速くできるだろうか。報酬設定を変えるときには，エージェントのクラス`Qlearner`を修正し，インスタンス・メソッド`learning()`において，引数で与えられる状態遷移や報酬情報をもとに再設定すると良い。つまり，環境から得られる報酬は変わらないが，エージェント自身が感じる評価値は別に用意する。(千円もらっても，人によって嬉しさが違うのと同じ様な状況設定)
3. 学習の速度を速くする工夫をするには，どんな方法がありえるだろうか? いくつか考えて試しなさい。

なお，クラス`Qlearner`のインスタンス・メソッド`learning()`のみを変えたクラス`Qlearner2`を作るときには，以下のようにクラス継承を利用すると良い。修正点のみの記述ですむ。(テキストp.288)

```
class Qlearner2(Qlearner): # Qlearner を継承した Qlearner2 を宣言
    def learning(self, s1, a1, r, s2, terminal=False):  # 修正したい関数のみを定義し直す
        # 以下には命令文

```

## FrozenLakeNotSlippery-8x8

次は，すべりやすい(非決定論的)状態遷移をする環境`FrozenLake8x8-v0`で試そう。環境定義は以下のように行う。
```
env64 = gym.make('FrozenLake8x8-v0')
```
**Q.** Qエージェントによる学習シミュレーションを行い，結果をグラフ表示しなさい。

### 学習効果の検討

**Q8.** 以下を検討しなさい。いずれも，レポートを書く際に重要な検討事項になる点である。

1. 作成した学習プログラムを使って，100エピソードの間の学習によるパフォーマンスの変化を何度か観察してみなさい。100エピソード間の評価の変化は毎回同じだろうか?
2. 作成した学習プログラムで得た結果は，ランダムに行動選択するエージェントに比べて良い成績を得ることをできるようになったことを確実に示すものだろうか。疑い深いヒトに対して，学習が成功していることを納得させられるように説明するには，どのような根拠(証拠)に基づいて説明したら良いだろうか。いくつかの方法を考えなさい。
2. **Q値の初期値**(`q0`)を変えると，学習にはどのような影響があるだろうか? その理由はなんだろうか?
3. **報酬量**を変化させると，学習の速度はどのように変化するだろうか?
4. 行動選択の**ポリシー**は改善の余地はあるだろうか?
5. **学習方法**には改善の余地はあるだろうか?
6. 学習の速度を速くする工夫をするには，上記の他に，どんな方法がありえるだろうか? いくつか考えて試しなさい。