# 第一回レポート課題


第一回の課題は，`FrozenLake`をよりよい成績で学習する学習エージェントのクラスを作成することです。提出物等は，以下を通りです。

1. **プログラムの提出** : このシートを利用します。
2. **レポートの提出**: 詳細はelearningのページを見てください。
3. **レポートの相互採点**: 後日演習時に説明します。

**[重要]** 第一回レポートは**単位取得の必須条件**です。

## 提出レポートについて


### フォーマットについて

1. **A3, 1頁(片面)**
2. **pdf形式で提出**
3. レポートには**学籍番号や氏名はレポート中に記入しないこと**

### 書いてはいけないこと

1. **`FrozenLake`の環境の概要**(環境やルールの説明)**は書かないこと**
2. **`python`のプログラムは書いてはいけない**。**関数名や変数名も書いてはいけない。**


### 書くべきこと

1. Q学習について(簡潔に)
2. 学習エージェントの学習性能の向上のために工夫した点
    1. **提案方法:** どんな方法を考えたか。(複数の異なる方法を検討し，検討すること。)
    2. **検討手法:** 考えたいくつかの方法のいずれが良いかを判定したデータ
    3. **考察:** 良い結果を出した方法が，何故他の方法に良いのか，その理由に関する考察。


### 気をつけるべきこと

**商品の宣伝のチラシのように見やすいデザイン**にすること。

- たくさん書いてあってもわかりにくいのはダメ
- 情報が少なすぎるのもダメ。

### レポートの採点について

- **レボートのデザイン， 内容について以下の点に留意して相互採点**していただきます。
- 他者のレポートを採点した内容と、他者からの評価内容の両方が成績に反映します。
- 以下で，**単に文章を枠で囲んだだけのものは図とはみなしません**


1. **レポートのデザイン**
    1. **明瞭性:** 図や文章が用紙内に見やすくなるよう，**レイアウトの工夫**がなされているか

2. **図**
    1. **明瞭性:** 個々の図は色分けやデザインを工夫して、その**内容が分かりやすい**ものになっているか。また，各図について、**簡潔かつ分かりやすい解説**がなされているか。    
    1. **正確性:** グラフであれば，**各軸のタイトルや目盛り**は適切に表示されているか。

3. **Q学習の説明**
    1. **明瞭性:** Q学習について知らない人にも**わかりやすい説明**になっているか。
    2. **正確性:** Q学習についての説明に**間違いはない**か。

4. **提案方法**
    1. **明瞭性:** 学習性能を上げるために検討した**方法を具体的にわかりやすく説明**しているか。
    2. **多様性:** (一つだけではなく)**さまざまな，有効に思われる手法**を考えているか。
    3. **独自性:** 提案手法には，**独自の工夫**がなされているか。独創的なものではなくても，**独自の調査**に基づくものか。

5. **検討手法**
    1. **妥当性:** 考えたいずれの方法がより良いものかを判断するための検討**手法は適切**か。また，検討**結果(主張)は適切**か。
    1. **証拠の明示:** 検討結果を示す図等が明示されているか。

6. **考察**
    1. **根拠の明瞭性:** 検討の結果，良い学習方法と判断された方法が，他の方法に比べて**なぜ良いのか，その理由**が十分に考察され，わかりやすく説明されているか。

## FrozenLake プログラム提出について

`FrozenLake8x8-v0`に対して作成した，最もパフォーマンスの良い学習エージェントプログラムを，以下の指示に従って提出してください。

**課題1.** このファイルの名前を以下のように変更しなさい。

```
FrozenLake-<学籍番号>-<名前>.ipynb
例) FrozenLake-16-2202-099-9-YamaguchiDai.ipynb
```

- 名前は必ず，姓名の順にすること
- **ファイル名が不適切な場合は減点**します

## 名前の変数定義

**課題2** 次の実行セルに，以下のように`id`と`name`を定義してください。

- 学籍番号や名前の記載方法は，上記のファイル名と同様の注意を守ること

```
id="学籍番号"
name="名前"
```
以下は名前が"山口 大"の場合の例
```
id="16-2202-099-9"
name="YamaguchiDai"
```

In [5]:
id="15-2202-047-1"
name="HiramatsuMichitaka"

## 準備

**課題3**

次のセルでは，モジュールや`FrozenLake8x8`の読み込みと，評価に使うためのプログラムの定義をしています。

- **randomモジュール**はここで読み込んでいます。学習エージェントのクラス定義に必要な場合は，モジュール名`ra`でアクセスしてください。
- **`action_list`の定義**もあります。これも必要に応じてクラス定義に使いましょう。
- **この課題の内容**: 次のセルは**Markdownセル**になっています。これを**Codeセルに変更して実行**してください。ただし，**セルの内容を編集してはいけません。編集した場合は不正行為**とみなします。

```python
import numpy as np
import random as ra
import matplotlib.pyplot as plt
%matplotlib inline

import gym
env = gym.make('FrozenLake8x8-v0')
action_list=list(range(env.action_space.n))

def plot_score(score):
    plt.figure(figsize=(6,2))
    plt.rcParams["font.size"] = 16
    
    plt.grid()
    plt.ylabel("mean return")
    plt.xlabel("episode")
    plt.ylim(min(score),max(score))
    plt.plot(score)
    plt.show()
    
def run_episodes(env, agent, max_episode=200, learning=True):
    history_score=np.zeros(max_episode)
    history_step=np.zeros(max_episode)
    
    for n_episode in range(max_episode):
        ra.seed()
        score=0
        s=env.reset()
        for t in range(env.spec.max_episode_steps):
            s_old=s
            action=agent.get_action(s)
            s,r,terminal,_=env.step(action)
            score+=r
            if learning==True: agent.learning(s_old,action,r,s)
            if terminal: break
        history_score[n_episode]=score
        history_step[n_episode]=t+1

    return(history_step,history_score)

def analyze_scores(scores,condition):
    above_steps=np.where(scores>0.2)
    above_duration=len(above_steps[0])
    min_above_step=-1 if above_duration==0 else np.nanmin(above_steps)

    print("[Your Score]")
    print("beyond 0.2 at index: ", min_above_step)
    print("# of beyond 0.2: ", above_duration)

    fname="FrozenLake-"+id+"-"+name+".dat"
    with open(fname, mode='w') as f:
        f.write("{},{},{},{},".format(id,name,above_duration,min_above_step)+condition)
    
def mean_performance(env, agent, n_trial=100, max_episode=3000):
    filter = np.ones(env.spec.trials)/env.spec.trials
    max_episode0=max_episode
    max_episode+=env.spec.trials-1
    
    mean_steps=np.zeros(max_episode)
    mean_scores=np.zeros(max_episode)

    for trial in range(n_trial):
        agent.reset()
        steps,scores=run_episodes(env=env, agent=agent, max_episode=max_episode)
        mean_steps+=steps
        mean_scores+=scores
    
    mean_steps=np.convolve(mean_steps, filter, mode='valid')
    mean_scores=np.convolve(mean_scores, filter, mode='valid')
    mean_steps/=(n_trial+1)
    mean_scores/=(n_trial+1)
    
    print("# of trials: %d, " % (n_trial), end='')
    print("episodes/trial: %d, " % (max_episode0), end='')
    print("steps/episode: %d, " % (env.spec.max_episode_steps), end='')
    print("window size (steps): %d" % (env.spec.trials))
    condition="{}-{}-{}-{}".format(n_trial,max_episode0,env.spec.max_episode_steps,env.spec.trials)
    analyze_scores(mean_scores,condition)

    return(mean_steps,mean_scores)
```

In [30]:
import numpy as np
import random as ra
import matplotlib.pyplot as plt
%matplotlib inline

import gym
env = gym.make('FrozenLake8x8-v0')
action_list=list(range(env.action_space.n))

def plot_score(score):
    plt.figure(figsize=(6,2))
    plt.rcParams["font.size"] = 16

    plt.grid()
    plt.ylabel("mean return")
    plt.xlabel("episode")
    plt.ylim(min(score),max(score))
    plt.plot(score)
    plt.show()

def run_episodes(env, agent, max_episode=200, learning=True):
    history_score=np.zeros(max_episode)
    history_step=np.zeros(max_episode)

    for n_episode in range(max_episode):
        ra.seed()
        score=0
        s=env.reset()
        for t in range(env.spec.max_episode_steps):
            s_old=s
            action=agent.get_action(s)
            s,r,terminal,_=env.step(action)
            score+=r
            if learning==True: agent.learning(s_old,action,r,s)
            if terminal: break
        history_score[n_episode]=score
        history_step[n_episode]=t+1

    return(history_step,history_score)

def analyze_scores(scores,condition):
    above_steps=np.where(scores>0.2)
    above_duration=len(above_steps[0])
    min_above_step=-1 if above_duration==0 else np.nanmin(above_steps)

    print("[Your Score]")
    print("beyond 0.2 at index: ", min_above_step)
    print("# of beyond 0.2: ", above_duration)

    fname="FrozenLake-"+id+"-"+name+".dat"
    with open(fname, mode='w') as f:
        f.write("{},{},{},{},".format(id,name,above_duration,min_above_step)+condition)

def mean_performance(env, agent, n_trial=100, max_episode=3000):
    filter = np.ones(env.spec.trials)/env.spec.trials
    max_episode0=max_episode
    max_episode+=env.spec.trials-1

    mean_steps=np.zeros(max_episode)
    mean_scores=np.zeros(max_episode)

    for trial in range(n_trial):
        agent.reset()
        steps,scores=run_episodes(env=env, agent=agent, max_episode=max_episode)
        mean_steps+=steps
        mean_scores+=scores

    mean_steps=np.convolve(mean_steps, filter, mode='valid')
    mean_scores=np.convolve(mean_scores, filter, mode='valid')
    mean_steps/=(n_trial+1)
    mean_scores/=(n_trial+1)

    print("# of trials: %d, " % (n_trial), end='')
    print("episodes/trial: %d, " % (max_episode0), end='')
    print("steps/episode: %d, " % (env.spec.max_episode_steps), end='')
    print("window size (steps): %d" % (env.spec.trials))
    condition="{}-{}-{}-{}".format(n_trial,max_episode0,env.spec.max_episode_steps,env.spec.trials)
    analyze_scores(mean_scores,condition)

    return(mean_steps,mean_scores)

## プログラム提出セル
**課題4** 次のセルに学習エージェントのクラス定義を記入してください。**クラス名は`Qlearner`としてください。**

- 必要に応じて，`Qlearner`が呼び出す関数の定義をしても構いません。
- **注意**: Qlearnerは， 課題シート`6-class`にかかれていた仕様を満たしていないと， **性能評価ができない**場合があります。その場合の**評点は0点**になります。気をつけてください。



In [31]:

class Qlearner:
    def __init__(self,action_list,epsilon=0.1,alpha=0.2,gamma=0.9,q0=0):
            self.action_list=action_list
            self.epsilon=epsilon
            self.alpha=alpha
            self.gamma=gamma
            self.q0=q0
            self.Q={}
    def reset(self):
        self.Q={}
    
    def get_q(self, s, a):
        q=self.Q.get((s,a),self.q0)
        return(q)
        
    def get_maxQ(self,s):
        q2={}
        for i in self.action_list:
            q2[(s,i)]=self.get_q(s,i)
        max_q2=max(q2.values())
        keys=[k[1] for k,v in q2.items() if v==max_q2]
        return(max_q2,len(keys),keys)
    
    def get_action(self,s):
        if ra.random()<self.epsilon:
            ac=ra.choice(self.action_list)
        else:
            m,l,k=self.get_maxQ(s)
            ac=ra.choice(k)
        return(ac)
    
    def learning(self,s1,a1,r,s2):
        m,l,k=self.get_maxQ(s2)
        self.Q[s1,a1]=self.get_q(s1,a1)+self.alpha*(r+self.gamma*m-self.get_q(s1,a1))
        

## 評価用セル

**課題5.** 以下は提出プログラムの評価のための命令文です。

- この命令文を次のセルにコピペして，**実行できることを確認**してください。
- **実行時にエラーがでたら採点対象外**になります。
- **命令文を変更してはいけません**。

**評価プログラムについて**
- 以下で呼び出している`mean_performance()`は，学習クラス`Qlearner`の評価を以下のように行う。
    - 1回の学習シミュレーション: 「初期状態から3000エピソードの学習」
    - 上記学習シミュレーションを100回繰り返し，報酬推移(エピソード終了)の平均を計算
    - 100エピソード中の報酬平均が0.2を超えたら，プログラムは合格点(6/10)。成績に応じて追加点。
    - 上記成績を得られなかったら，プログラムは0点。
    - 実行結果は，ファイル`FrozenLake-<学籍番号>-<名前>.dat`にも書き出される。
- `mean_performance()`の実行にはすこし時間がかかるが，引数設定により上記のエピソード回数や平均回数を小さくすれば短縮できる。ただし，**引数を変えて試す場合は，提出用シートでは実行しないこと**。

```python
%%time
q_agent=Qlearner(action_list)
steps,scores=mean_performance(env,agent=q_agent)
plot_score(scores)
```

In [None]:
%%time
q_agent=Qlearner(action_list)
steps,scores=mean_performance(env,agent=q_agent)
plot_score(scores)