## 5.3、5.4  PyTorchでDQN

In [31]:
# パッケージのimport
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym


In [32]:
# 動画の描画関数の宣言
# 参考URL http://nbviewer.jupyter.org/github/patrickmineault
# /xcorr-notebooks/blob/master/Render%20OpenAI%20gym%20as%20GIF.ipynb
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display


def display_frames_as_gif(frames):
    """
    Displays a list of frames as a gif, with controls
    """
    plt.figure(figsize=(frames[0].shape[1]/72.0, frames[0].shape[0]/72.0),
               dpi=72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames),
                                   interval=50)

    anim.save('movie_cartpole_DQN.mp4')  # 動画のファイル名と保存です
    display(display_animation(anim, default_mode='loop'))
    

In [33]:
# 本コードでは、namedtupleを使用します。
# namedtupleを使うことで、値をフィールド名とペアで格納できます。
# すると値に対して、フィールド名でアクセスできて便利です。
# https://docs.python.jp/3/library/collections.html#collections.namedtuple
# 以下は使用例です

from collections import namedtuple

# 各ステップでのtransition(経験)をnamedtupleで変換
Tr = namedtuple('tr', ('name_a', 'value_b'))
Tr_object = Tr('名前Aです', 100)

print(Tr_object)  # 出力：tr(name_a='名前Aです', value_b=100)
print(Tr_object.value_b)  # 出力：100


tr(name_a='名前Aです', value_b=100)
100


In [34]:
# namedtupleを生成
from collections import namedtuple

Transition = namedtuple(
    'Transition', ('state', 'action', 'next_state', 'reward'))


In [35]:
# 定数の設定
ENV = 'CartPole-v0'  # 使用する課題名
GAMMA = 0.99  # 時間割引率
MAX_STEPS = 200  # 1試行のstep数
NUM_EPISODES = 500  # 最大試行回数


In [36]:
# 経験を保存するメモリクラスを定義します


class ReplayMemory:

    def __init__(self, CAPACITY):
        self.capacity = CAPACITY  # メモリの最大長さ
        self.memory = []  # 経験を保存する変数
        self.index = 0  # 保存するindexを示す変数

    def push(self, state, action, state_next, reward):
        '''transition = (state, action, state_next, reward)をメモリに保存する'''

        if len(self.memory) < self.capacity:
            self.memory.append(None)  # メモリが満タンでないときは足す

        # namedtupleのTransitionを使用し、値とフィールド名をペアにして保存します
        self.memory[self.index] = Transition(state, action, state_next, reward)

        self.index = (self.index + 1) % self.capacity  # 保存するindexを1つずらす
        #　メモリがいっぱいになったら古い内容から上書き

    def sample(self, batch_size):
        '''batch_size分だけ、ランダムに保存内容を取り出す'''
        return random.sample(self.memory, batch_size)

    def __len__(self):
        '''関数lenに対して、現在の変数memoryの長さを返す'''
        return len(self.memory)


In [37]:
# エージェントが持つ脳となるクラスです、DQNを実行します、DQNの中心部　
# Q関数をディープラーニングのネットワークをクラスとして定義

import random
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F

BATCH_SIZE = 32
CAPACITY = 10000


class Brain:
    def __init__(self, num_states, num_actions):
        self.num_actions = num_actions  # CartPoleの行動（右に左に押す）の2を取得

        # 経験を記憶するメモリオブジェクトを生成
        self.memory = ReplayMemory(CAPACITY)

        # ニューラルネットワークを構築
        self.model = nn.Sequential()
        self.model.add_module('fc1', nn.Linear(num_states, 32))
        self.model.add_module('relu1', nn.ReLU())
        self.model.add_module('fc2', nn.Linear(32, 32))
        self.model.add_module('relu2', nn.ReLU())
        self.model.add_module('fc3', nn.Linear(32, num_actions))

        print(self.model)  # ネットワークの形を出力

        # 最適化手法の設定
        self.optimizer = optim.Adam(self.model.parameters(), lr=0.0001)

    def replay(self):
        '''Experience Replayでネットワークの結合パラメータを学習'''

        # -----------------------------------------
        # 1. メモリサイズの確認
        # -----------------------------------------
        # 1.1 メモリサイズがミニバッチより小さい場合は終了
        if len(self.memory) < BATCH_SIZE:
            return

        # -----------------------------------------
        # 2. ミニバッチの作成
        # -----------------------------------------
        # 2.1 メモリからミニバッチ分のデータを取り出す
        transitions = self.memory.sample(BATCH_SIZE)

        # 2.2 各変数をミニバッチに対応する形に変形
        # transitionsは1stepごとの(state, action, state_next, reward)が、BATCH_SIZE分格納されている
        # つまり、(state, action, state_next, reward)×BATCH_SIZE
        # これをミニバッチにしたい。つまり
        # (state×BATCH_SIZE, action×BATCH_SIZE, state_next×BATCH_SIZE, reward×BATCH_SIZE)にする
        batch = Transition(*zip(*transitions))

        # 2.3 各変数の要素をミニバッチに対応する形に変形し、ネットワークで扱えるようVariableにする
        # 例えばstateの場合、[torch.FloatTensor of size 1x4]がBATCH_SIZE分並んでいるのですが、
        # それを torch.FloatTensor of size BATCH_SIZEx4 に変換します
        # 状態、行動、報酬、non_finalの状態のミニバッチのVariableを作成
        # catはConcatenates（結合）のことです。
        state_batch = torch.cat(batch.state)
        action_batch = torch.cat(batch.action)
        reward_batch = torch.cat(batch.reward)
        non_final_next_states = torch.cat([s for s in batch.next_state
                                           if s is not None])
        # 次の状態があるかでQ学習の更新式も変わる
        # non_final_next_states = 次の状態が存在する状態だけを集めたミニバッチ

        # -----------------------------------------
        # 3. 教師信号となるQ(s_t, a_t)値を求める
        # -----------------------------------------
        # 教師信号＝ネットワークが本来出力して欲しい値
        # 3.1 Q値を求めるためにネットワークを推論モードに切り替える
        self.model.eval()

        # 3.2 ネットワークが出力したQ(s_t, a_t)を求める
        # self.model(state_batch)は、右左の両方のQ値を出力しており
        # [torch.FloatTensor of size BATCH_SIZEx2]になっている。
        # ここから実行したアクションa_tに対応するQ値を求めるため、action_batchで行った行動a_tが右か左かのindexを求め
        # それに対応するQ値をgatherでひっぱり出す。
        state_action_values = self.model(state_batch).gather(1, action_batch)
        # 実際にNNが出力したQ(s_t,a_t)
        
        # 3.3 max{Q(s_t+1, a)}値を求める。ただし次の状態があるかに注意。

        # cartpoleがdoneになっておらず、next_stateがあるかをチェックするインデックスマスクを作成
        non_final_mask = torch.ByteTensor(tuple(map(lambda s: s is not None,
                                                    batch.next_state)))
        non_final_mask = non_final_mask.type(torch.bool)　
        #torchバージョン問題で型変換
        
        # まずは全部0にしておく
        next_state_values = torch.zeros(BATCH_SIZE)

        # 次の状態があるindexの最大Q値を求める
        # 出力にアクセスし、max(1)で列方向の最大値の[値、index]を求めます
        # そしてそのQ値（index=0）を出力します
        # detachでその値を取り出します
        # 次の状態が存在しない場合は０
        next_state_values[non_final_mask] = self.model(
            non_final_next_states).max(1)[0].detach()
        # detach() 値を取り出す、その変数が保持しているそれまでの計算履歴を失いbpする際に微分計算しなくなる。
        # 教師信号は固定されたものである必要があるので微分操作が行われないようにする
        # 予測として出力したQ(s_t,a_t)はdetachしない
        
        # 3.4 教師となるQ(s_t, a_t)値を、Q学習の式から求める
        expected_state_action_values = reward_batch + GAMMA * next_state_values

        # -----------------------------------------
        # 4. 結合パラメータの更新
        # -----------------------------------------
        # 4.1 ネットワークを訓練モードに切り替える
        self.model.train()

        # 4.2 損失関数を計算する（smooth_l1_loss=Huberloss）
        # expected_state_action_valuesは
        # sizeが[minbatch]になっているので、unsqueezeで[minibatch x 1]へ
        loss = F.smooth_l1_loss(state_action_values,
                                expected_state_action_values.unsqueeze(1))

        # 4.3 結合パラメータを更新する
        self.optimizer.zero_grad()  # 勾配をリセット
        loss.backward()  # バックプロパゲーションを計算
        self.optimizer.step()  # 結合パラメータを更新

    def decide_action(self, state, episode):
        '''現在の状態に応じて、行動を決定する'''
        # ε-greedy法で徐々に最適行動のみを採用する
        epsilon = 0.5 * (1 / (episode + 1))

        if epsilon <= np.random.uniform(0, 1):
            self.model.eval()  # ネットワークを推論モードに切り替える
            with torch.no_grad():
                action = self.model(state).max(1)[1].view(1, 1)
            # ネットワークの出力の最大値のindexを取り出します = max(1)[1]
            # .view(1,1)は[torch.LongTensor of size 1]　を size 1x1 に変換します

        else:
            # 0,1の行動をランダムに返す
            action = torch.LongTensor(
                [[random.randrange(self.num_actions)]])  # 0,1の行動をランダムに返す
            # actionは[torch.LongTensor of size 1x1]の形になります

        return action


In [38]:
# CartPoleで動くエージェントクラスです、棒付き台車そのものになります


class Agent:
    def __init__(self, num_states, num_actions):
        '''課題の状態と行動の数を設定する'''
        self.brain = Brain(num_states, num_actions)  # エージェントが行動を決定するための頭脳を生成

    def update_q_function(self):
        '''Q関数を更新する'''
        self.brain.replay()

    def get_action(self, state, episode):
        '''行動を決定する'''
        action = self.brain.decide_action(state, episode)
        return action

    def memorize(self, state, action, state_next, reward):
        '''memoryオブジェクトに、state, action, state_next, rewardの内容を保存する'''
        # 経験したデータ(trainsition)を格納
        self.brain.memory.push(state, action, state_next, reward)


In [39]:
# CartPoleを実行する環境のクラスです


class Environment:

    def __init__(self):
        self.env = gym.make(ENV)  # 実行する課題を設定
        num_states = self.env.observation_space.shape[0]  # 課題の状態数4を取得
        num_actions = self.env.action_space.n  # CartPoleの行動（右に左に押す）の2を取得
        self.agent = Agent(num_states, num_actions)  # 環境内で行動するAgentを生成

        
    def run(self):
        '''実行'''
        episode_10_list = np.zeros(10)  # 10試行分の立ち続けたstep数を格納し、平均ステップ数を出力に利用
        complete_episodes = 0  # 195step以上連続で立ち続けた試行数
        episode_final = False  # 最後の試行フラグ
        frames = []  # 最後の試行を動画にするために画像を格納する変数

        for episode in range(NUM_EPISODES):  # 最大試行数分繰り返す
            observation = self.env.reset()  # 環境の初期化

            state = observation  # 観測をそのまま状態sとして使用
            state = torch.from_numpy(state).type(
                torch.FloatTensor)  # NumPy変数をPyTorchのテンソルに変換
            state = torch.unsqueeze(state, 0)  # size 4をsize 1x4に変換

            for step in range(MAX_STEPS):  # 1エピソードのループ

                if episode_final is True:  # 最終試行ではframesに各時刻の画像を追加していく
                    frames.append(self.env.render(mode='rgb_array'))

                action = self.agent.get_action(state, episode)  # 行動を求める

                # 行動a_tの実行により、s_{t+1}とdoneフラグを求める
                # actionから.item()を指定して、中身を取り出す
                observation_next, _, done, _ = self.env.step(
                    action.item())  # rewardとinfoは使わないので_にする

                # 報酬を与える。さらにepisodeの終了評価と、state_nextを設定する
                if done:  # ステップ数が200経過するか、一定角度以上傾くとdoneはtrueになる
                    state_next = None  # 次の状態はないので、Noneを格納

                    # 直近10episodeの立てたstep数リストに追加
                    episode_10_list = np.hstack(
                        (episode_10_list[1:], step + 1))

                    if step < 195:
                        reward = torch.FloatTensor(
                            [-1.0])  # 途中でこけたら罰則として報酬-1を与える
                        complete_episodes = 0  # 連続成功記録をリセット
                    else:
                        reward = torch.FloatTensor([1.0])  # 立ったまま終了時は報酬1を与える
                        complete_episodes = complete_episodes + 1  # 連続記録を更新
                else:
                    reward = torch.FloatTensor([0.0])  # 普段は報酬0
                    state_next = observation_next  # 観測をそのまま状態とする
                    state_next = torch.from_numpy(state_next).type(
                        torch.FloatTensor)  # numpy変数をPyTorchのテンソルに変換
                    state_next = torch.unsqueeze(state_next, 0)  # size 4をsize 1x4に変換

                # メモリに経験を追加
                self.agent.memorize(state, action, state_next, reward)

                # Experience ReplayでQ関数を更新する
                self.agent.update_q_function()

                # 観測の更新
                state = state_next

                # 終了時の処理
                if done:
                    print('%d Episode: Finished after %d steps：10試行の平均step数 = %.1lf' % (
                        episode, step + 1, episode_10_list.mean()))
                    break

            if episode_final is True:
                # 動画を保存と描画
                display_frames_as_gif(frames)
                break

            # 10連続で200step経ち続けたら成功
            if complete_episodes >= 10:
                print('10回連続成功')
                episode_final = True  # 次の試行を描画を行う最終試行とする


In [40]:
# main クラス
cartpole_env = Environment()
cartpole_env.run()


Sequential(
  (fc1): Linear(in_features=4, out_features=32, bias=True)
  (relu1): ReLU()
  (fc2): Linear(in_features=32, out_features=32, bias=True)
  (relu2): ReLU()
  (fc3): Linear(in_features=32, out_features=2, bias=True)
)
0 Episode: Finished after 11 steps：10試行の平均step数 = 1.1
1 Episode: Finished after 9 steps：10試行の平均step数 = 2.0
2 Episode: Finished after 11 steps：10試行の平均step数 = 3.1
3 Episode: Finished after 12 steps：10試行の平均step数 = 4.3
4 Episode: Finished after 10 steps：10試行の平均step数 = 5.3
5 Episode: Finished after 10 steps：10試行の平均step数 = 6.3




6 Episode: Finished after 16 steps：10試行の平均step数 = 7.9
7 Episode: Finished after 17 steps：10試行の平均step数 = 9.6




8 Episode: Finished after 25 steps：10試行の平均step数 = 12.1
9 Episode: Finished after 17 steps：10試行の平均step数 = 13.8
10 Episode: Finished after 21 steps：10試行の平均step数 = 14.8




11 Episode: Finished after 18 steps：10試行の平均step数 = 15.7
12 Episode: Finished after 20 steps：10試行の平均step数 = 16.6
13 Episode: Finished after 28 steps：10試行の平均step数 = 18.2
14 Episode: Finished after 16 steps：10試行の平均step数 = 18.8
15 Episode: Finished after 20 steps：10試行の平均step数 = 19.8




16 Episode: Finished after 17 steps：10試行の平均step数 = 19.9
17 Episode: Finished after 13 steps：10試行の平均step数 = 19.5
18 Episode: Finished after 12 steps：10試行の平均step数 = 18.2
19 Episode: Finished after 15 steps：10試行の平均step数 = 18.0
20 Episode: Finished after 18 steps：10試行の平均step数 = 17.7
21 Episode: Finished after 23 steps：10試行の平均step数 = 18.2
22 Episode: Finished after 17 steps：10試行の平均step数 = 17.9




23 Episode: Finished after 15 steps：10試行の平均step数 = 16.6
24 Episode: Finished after 16 steps：10試行の平均step数 = 16.6
25 Episode: Finished after 20 steps：10試行の平均step数 = 16.6
26 Episode: Finished after 14 steps：10試行の平均step数 = 16.3
27 Episode: Finished after 18 steps：10試行の平均step数 = 16.8




28 Episode: Finished after 18 steps：10試行の平均step数 = 17.4
29 Episode: Finished after 26 steps：10試行の平均step数 = 18.5




30 Episode: Finished after 25 steps：10試行の平均step数 = 19.2
31 Episode: Finished after 40 steps：10試行の平均step数 = 20.9
32 Episode: Finished after 27 steps：10試行の平均step数 = 21.9




33 Episode: Finished after 24 steps：10試行の平均step数 = 22.8
34 Episode: Finished after 15 steps：10試行の平均step数 = 22.7
35 Episode: Finished after 24 steps：10試行の平均step数 = 23.1
36 Episode: Finished after 25 steps：10試行の平均step数 = 24.2






37 Episode: Finished after 33 steps：10試行の平均step数 = 25.7
38 Episode: Finished after 38 steps：10試行の平均step数 = 27.7
39 Episode: Finished after 32 steps：10試行の平均step数 = 28.3
40 Episode: Finished after 20 steps：10試行の平均step数 = 27.8




41 Episode: Finished after 35 steps：10試行の平均step数 = 27.3
42 Episode: Finished after 24 steps：10試行の平均step数 = 27.0
43 Episode: Finished after 26 steps：10試行の平均step数 = 27.2
44 Episode: Finished after 22 steps：10試行の平均step数 = 27.9




45 Episode: Finished after 30 steps：10試行の平均step数 = 28.5
46 Episode: Finished after 29 steps：10試行の平均step数 = 28.9
47 Episode: Finished after 31 steps：10試行の平均step数 = 28.7




48 Episode: Finished after 21 steps：10試行の平均step数 = 27.0
49 Episode: Finished after 31 steps：10試行の平均step数 = 26.9
50 Episode: Finished after 26 steps：10試行の平均step数 = 27.5
51 Episode: Finished after 32 steps：10試行の平均step数 = 27.2






52 Episode: Finished after 41 steps：10試行の平均step数 = 28.9
53 Episode: Finished after 50 steps：10試行の平均step数 = 31.3




54 Episode: Finished after 95 steps：10試行の平均step数 = 38.6
55 Episode: Finished after 40 steps：10試行の平均step数 = 39.6






56 Episode: Finished after 128 steps：10試行の平均step数 = 49.5
57 Episode: Finished after 48 steps：10試行の平均step数 = 51.2




58 Episode: Finished after 101 steps：10試行の平均step数 = 59.2
59 Episode: Finished after 60 steps：10試行の平均step数 = 62.1






60 Episode: Finished after 42 steps：10試行の平均step数 = 63.7




61 Episode: Finished after 84 steps：10試行の平均step数 = 68.9




62 Episode: Finished after 50 steps：10試行の平均step数 = 69.8






63 Episode: Finished after 87 steps：10試行の平均step数 = 73.5
64 Episode: Finished after 46 steps：10試行の平均step数 = 68.6




65 Episode: Finished after 54 steps：10試行の平均step数 = 70.0




66 Episode: Finished after 58 steps：10試行の平均step数 = 63.0




67 Episode: Finished after 33 steps：10試行の平均step数 = 61.5




68 Episode: Finished after 34 steps：10試行の平均step数 = 54.8




69 Episode: Finished after 75 steps：10試行の平均step数 = 56.3
70 Episode: Finished after 81 steps：10試行の平均step数 = 60.2




71 Episode: Finished after 34 steps：10試行の平均step数 = 55.2
72 Episode: Finished after 33 steps：10試行の平均step数 = 53.5
73 Episode: Finished after 36 steps：10試行の平均step数 = 48.4
74 Episode: Finished after 32 steps：10試行の平均step数 = 47.0




75 Episode: Finished after 40 steps：10試行の平均step数 = 45.6
76 Episode: Finished after 52 steps：10試行の平均step数 = 45.0






77 Episode: Finished after 105 steps：10試行の平均step数 = 52.2
78 Episode: Finished after 49 steps：10試行の平均step数 = 53.7




79 Episode: Finished after 69 steps：10試行の平均step数 = 53.1
80 Episode: Finished after 48 steps：10試行の平均step数 = 49.8






81 Episode: Finished after 132 steps：10試行の平均step数 = 59.6
82 Episode: Finished after 41 steps：10試行の平均step数 = 60.4
83 Episode: Finished after 42 steps：10試行の平均step数 = 61.0






84 Episode: Finished after 109 steps：10試行の平均step数 = 68.7
85 Episode: Finished after 42 steps：10試行の平均step数 = 68.9
86 Episode: Finished after 69 steps：10試行の平均step数 = 70.6




87 Episode: Finished after 47 steps：10試行の平均step数 = 64.8
88 Episode: Finished after 85 steps：10試行の平均step数 = 68.4






89 Episode: Finished after 90 steps：10試行の平均step数 = 70.5
90 Episode: Finished after 101 steps：10試行の平均step数 = 75.8




91 Episode: Finished after 55 steps：10試行の平均step数 = 68.1
92 Episode: Finished after 39 steps：10試行の平均step数 = 67.9
93 Episode: Finished after 37 steps：10試行の平均step数 = 67.4




94 Episode: Finished after 40 steps：10試行の平均step数 = 60.5
95 Episode: Finished after 47 steps：10試行の平均step数 = 61.0
96 Episode: Finished after 48 steps：10試行の平均step数 = 58.9




97 Episode: Finished after 40 steps：10試行の平均step数 = 58.2
98 Episode: Finished after 76 steps：10試行の平均step数 = 57.3




99 Episode: Finished after 43 steps：10試行の平均step数 = 52.6
100 Episode: Finished after 74 steps：10試行の平均step数 = 49.9




101 Episode: Finished after 50 steps：10試行の平均step数 = 49.4
102 Episode: Finished after 46 steps：10試行の平均step数 = 50.1
103 Episode: Finished after 50 steps：10試行の平均step数 = 51.4






104 Episode: Finished after 45 steps：10試行の平均step数 = 51.9
105 Episode: Finished after 40 steps：10試行の平均step数 = 51.2




106 Episode: Finished after 79 steps：10試行の平均step数 = 54.3
107 Episode: Finished after 67 steps：10試行の平均step数 = 57.0








108 Episode: Finished after 200 steps：10試行の平均step数 = 69.4
109 Episode: Finished after 104 steps：10試行の平均step数 = 75.5




110 Episode: Finished after 52 steps：10試行の平均step数 = 73.3
111 Episode: Finished after 105 steps：10試行の平均step数 = 78.8






112 Episode: Finished after 85 steps：10試行の平均step数 = 82.7




113 Episode: Finished after 104 steps：10試行の平均step数 = 88.1
114 Episode: Finished after 89 steps：10試行の平均step数 = 92.5






115 Episode: Finished after 97 steps：10試行の平均step数 = 98.2






116 Episode: Finished after 185 steps：10試行の平均step数 = 108.8
117 Episode: Finished after 76 steps：10試行の平均step数 = 109.7




118 Episode: Finished after 73 steps：10試行の平均step数 = 97.0
119 Episode: Finished after 82 steps：10試行の平均step数 = 94.8






120 Episode: Finished after 74 steps：10試行の平均step数 = 97.0




121 Episode: Finished after 107 steps：10試行の平均step数 = 97.2




122 Episode: Finished after 104 steps：10試行の平均step数 = 99.1






123 Episode: Finished after 152 steps：10試行の平均step数 = 103.9




124 Episode: Finished after 110 steps：10試行の平均step数 = 106.0
125 Episode: Finished after 92 steps：10試行の平均step数 = 105.5






126 Episode: Finished after 93 steps：10試行の平均step数 = 96.3




127 Episode: Finished after 123 steps：10試行の平均step数 = 101.0
128 Episode: Finished after 85 steps：10試行の平均step数 = 102.2








129 Episode: Finished after 142 steps：10試行の平均step数 = 108.2








130 Episode: Finished after 196 steps：10試行の平均step数 = 120.4








131 Episode: Finished after 154 steps：10試行の平均step数 = 125.1
132 Episode: Finished after 80 steps：10試行の平均step数 = 122.7




133 Episode: Finished after 92 steps：10試行の平均step数 = 116.7
134 Episode: Finished after 97 steps：10試行の平均step数 = 115.4






135 Episode: Finished after 104 steps：10試行の平均step数 = 116.6






136 Episode: Finished after 162 steps：10試行の平均step数 = 123.5




137 Episode: Finished after 128 steps：10試行の平均step数 = 124.0
138 Episode: Finished after 93 steps：10試行の平均step数 = 124.8






139 Episode: Finished after 103 steps：10試行の平均step数 = 120.9
140 Episode: Finished after 104 steps：10試行の平均step数 = 111.7






141 Episode: Finished after 166 steps：10試行の平均step数 = 112.9




142 Episode: Finished after 133 steps：10試行の平均step数 = 118.2






143 Episode: Finished after 121 steps：10試行の平均step数 = 121.1




144 Episode: Finished after 194 steps：10試行の平均step数 = 130.8






145 Episode: Finished after 125 steps：10試行の平均step数 = 132.9




146 Episode: Finished after 151 steps：10試行の平均step数 = 131.8
147 Episode: Finished after 105 steps：10試行の平均step数 = 129.5








148 Episode: Finished after 200 steps：10試行の平均step数 = 140.2
149 Episode: Finished after 106 steps：10試行の平均step数 = 140.5








150 Episode: Finished after 200 steps：10試行の平均step数 = 150.1






151 Episode: Finished after 196 steps：10試行の平均step数 = 153.1






152 Episode: Finished after 200 steps：10試行の平均step数 = 159.8
153 Episode: Finished after 108 steps：10試行の平均step数 = 158.5






154 Episode: Finished after 99 steps：10試行の平均step数 = 149.0
155 Episode: Finished after 94 steps：10試行の平均step数 = 145.9




156 Episode: Finished after 112 steps：10試行の平均step数 = 142.0
157 Episode: Finished after 108 steps：10試行の平均step数 = 142.3






158 Episode: Finished after 108 steps：10試行の平均step数 = 133.1






159 Episode: Finished after 200 steps：10試行の平均step数 = 142.5






160 Episode: Finished after 164 steps：10試行の平均step数 = 138.9




161 Episode: Finished after 138 steps：10試行の平均step数 = 133.1






162 Episode: Finished after 126 steps：10試行の平均step数 = 125.7
163 Episode: Finished after 90 steps：10試行の平均step数 = 123.9








164 Episode: Finished after 200 steps：10試行の平均step数 = 134.0
165 Episode: Finished after 93 steps：10試行の平均step数 = 133.9






166 Episode: Finished after 133 steps：10試行の平均step数 = 136.0




167 Episode: Finished after 156 steps：10試行の平均step数 = 140.8






168 Episode: Finished after 145 steps：10試行の平均step数 = 144.5








169 Episode: Finished after 200 steps：10試行の平均step数 = 144.5






170 Episode: Finished after 124 steps：10試行の平均step数 = 140.5








171 Episode: Finished after 200 steps：10試行の平均step数 = 146.7




172 Episode: Finished after 144 steps：10試行の平均step数 = 148.5






173 Episode: Finished after 145 steps：10試行の平均step数 = 154.0






174 Episode: Finished after 165 steps：10試行の平均step数 = 150.5




175 Episode: Finished after 130 steps：10試行の平均step数 = 154.2






176 Episode: Finished after 200 steps：10試行の平均step数 = 160.9






177 Episode: Finished after 179 steps：10試行の平均step数 = 163.2




178 Episode: Finished after 118 steps：10試行の平均step数 = 160.5






179 Episode: Finished after 200 steps：10試行の平均step数 = 160.5




180 Episode: Finished after 117 steps：10試行の平均step数 = 159.8




181 Episode: Finished after 176 steps：10試行の平均step数 = 157.4






182 Episode: Finished after 200 steps：10試行の平均step数 = 163.0




183 Episode: Finished after 130 steps：10試行の平均step数 = 161.5






184 Episode: Finished after 139 steps：10試行の平均step数 = 158.9




185 Episode: Finished after 177 steps：10試行の平均step数 = 163.6






186 Episode: Finished after 155 steps：10試行の平均step数 = 159.1




187 Episode: Finished after 126 steps：10試行の平均step数 = 153.8
188 Episode: Finished after 80 steps：10試行の平均step数 = 150.0
189 Episode: Finished after 10 steps：10試行の平均step数 = 131.0




190 Episode: Finished after 53 steps：10試行の平均step数 = 124.6
191 Episode: Finished after 11 steps：10試行の平均step数 = 108.1
192 Episode: Finished after 9 steps：10試行の平均step数 = 89.0
193 Episode: Finished after 8 steps：10試行の平均step数 = 76.8
194 Episode: Finished after 8 steps：10試行の平均step数 = 63.7
195 Episode: Finished after 9 steps：10試行の平均step数 = 46.9
196 Episode: Finished after 9 steps：10試行の平均step数 = 32.3
197 Episode: Finished after 10 steps：10試行の平均step数 = 20.7
198 Episode: Finished after 10 steps：10試行の平均step数 = 13.7
199 Episode: Finished after 10 steps：10試行の平均step数 = 13.7
200 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
201 Episode: Finished after 9 steps：10試行の平均step数 = 9.2




202 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
203 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
204 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
205 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
206 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
207 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
208 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
209 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
210 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
211 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
212 Episode: Finished after 9 steps：10試行の平均step数 = 9.6




213 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
214 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
215 Episode: Finished after 8 steps：10試行の平均step数 = 9.5
216 Episode: Finished after 8 steps：10試行の平均step数 = 9.4
217 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
218 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
219 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
220 Episode: Finished after 8 steps：10試行の平均step数 = 9.0
221 Episode: Finished after 10 steps：10試行の平均step数 = 9.0
222 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
223 Episode: Finished after 9 steps：10試行の平均step数 = 8.9
224 Episode: Finished after 9 steps：10試行の平均step数 = 8.8
225 Episode: Finished after 10 steps：10試行の平均step数 = 9.0




226 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
227 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
228 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
229 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
230 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
231 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
232 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
233 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
234 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
235 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
236 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
237 Episode: Finished after 9 steps：10試行の平均step数 = 9.6




238 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
239 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
240 Episode: Finished after 11 steps：10試行の平均step数 = 9.8
241 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
242 Episode: Finished after 12 steps：10試行の平均step数 = 10.0
243 Episode: Finished after 11 steps：10試行の平均step数 = 10.1
244 Episode: Finished after 12 steps：10試行の平均step数 = 10.4
245 Episode: Finished after 11 steps：10試行の平均step数 = 10.5
246 Episode: Finished after 10 steps：10試行の平均step数 = 10.5
247 Episode: Finished after 16 steps：10試行の平均step数 = 11.2




248 Episode: Finished after 19 steps：10試行の平均step数 = 12.1
249 Episode: Finished after 19 steps：10試行の平均step数 = 13.1
250 Episode: Finished after 15 steps：10試行の平均step数 = 13.5






251 Episode: Finished after 152 steps：10試行の平均step数 = 27.7






252 Episode: Finished after 200 steps：10試行の平均step数 = 46.5




253 Episode: Finished after 114 steps：10試行の平均step数 = 56.8
254 Episode: Finished after 105 steps：10試行の平均step数 = 66.1






255 Episode: Finished after 123 steps：10試行の平均step数 = 77.3
256 Episode: Finished after 95 steps：10試行の平均step数 = 85.8






257 Episode: Finished after 136 steps：10試行の平均step数 = 97.8




258 Episode: Finished after 159 steps：10試行の平均step数 = 111.8






259 Episode: Finished after 152 steps：10試行の平均step数 = 125.1




260 Episode: Finished after 122 steps：10試行の平均step数 = 135.8




261 Episode: Finished after 120 steps：10試行の平均step数 = 132.6
262 Episode: Finished after 101 steps：10試行の平均step数 = 122.7






263 Episode: Finished after 92 steps：10試行の平均step数 = 120.5
264 Episode: Finished after 24 steps：10試行の平均step数 = 112.4
265 Episode: Finished after 23 steps：10試行の平均step数 = 102.4
266 Episode: Finished after 21 steps：10試行の平均step数 = 95.0
267 Episode: Finished after 14 steps：10試行の平均step数 = 82.8
268 Episode: Finished after 15 steps：10試行の平均step数 = 68.4




269 Episode: Finished after 16 steps：10試行の平均step数 = 54.8
270 Episode: Finished after 18 steps：10試行の平均step数 = 44.4
271 Episode: Finished after 19 steps：10試行の平均step数 = 34.3
272 Episode: Finished after 13 steps：10試行の平均step数 = 25.5
273 Episode: Finished after 12 steps：10試行の平均step数 = 17.5
274 Episode: Finished after 12 steps：10試行の平均step数 = 16.3
275 Episode: Finished after 15 steps：10試行の平均step数 = 15.5
276 Episode: Finished after 14 steps：10試行の平均step数 = 14.8




277 Episode: Finished after 12 steps：10試行の平均step数 = 14.6
278 Episode: Finished after 12 steps：10試行の平均step数 = 14.3
279 Episode: Finished after 13 steps：10試行の平均step数 = 14.0
280 Episode: Finished after 10 steps：10試行の平均step数 = 13.2
281 Episode: Finished after 11 steps：10試行の平均step数 = 12.4
282 Episode: Finished after 10 steps：10試行の平均step数 = 12.1
283 Episode: Finished after 11 steps：10試行の平均step数 = 12.0
284 Episode: Finished after 11 steps：10試行の平均step数 = 11.9
285 Episode: Finished after 9 steps：10試行の平均step数 = 11.3
286 Episode: Finished after 9 steps：10試行の平均step数 = 10.8




287 Episode: Finished after 11 steps：10試行の平均step数 = 10.7
288 Episode: Finished after 10 steps：10試行の平均step数 = 10.5
289 Episode: Finished after 9 steps：10試行の平均step数 = 10.1
290 Episode: Finished after 11 steps：10試行の平均step数 = 10.2
291 Episode: Finished after 9 steps：10試行の平均step数 = 10.0
292 Episode: Finished after 9 steps：10試行の平均step数 = 9.9
293 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
294 Episode: Finished after 11 steps：10試行の平均step数 = 9.7
295 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
296 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
297 Episode: Finished after 9 steps：10試行の平均step数 = 9.6




298 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
299 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
300 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
301 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
302 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
303 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
304 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
305 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
306 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
307 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
308 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
309 Episode: Finished after 9 steps：10試行の平均step数 = 9.5




310 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
311 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
312 Episode: Finished after 11 steps：10試行の平均step数 = 9.3
313 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
314 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
315 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
316 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
317 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
318 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
319 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
320 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
321 Episode: Finished after 10 steps：10試行の平均step数 = 9.6




322 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
323 Episode: Finished after 8 steps：10試行の平均step数 = 9.2
324 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
325 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
326 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
327 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
328 Episode: Finished after 10 steps：10試行の平均step数 = 9.1
329 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
330 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
331 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
332 Episode: Finished after 11 steps：10試行の平均step数 = 9.4
333 Episode: Finished after 8 steps：10試行の平均step数 = 9.4




334 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
335 Episode: Finished after 8 steps：10試行の平均step数 = 9.4
336 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
337 Episode: Finished after 11 steps：10試行の平均step数 = 9.7
338 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
339 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
340 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
341 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
342 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
343 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
344 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
345 Episode: Finished after 9 steps：10試行の平均step数 = 9.5




346 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
347 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
348 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
349 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
350 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
351 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
352 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
353 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
354 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
355 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
356 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
357 Episode: Finished after 9 steps：10試行の平均step数 = 9.4




358 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
359 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
360 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
361 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
362 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
363 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
364 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
365 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
366 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
367 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
368 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
369 Episode: Finished after 9 steps：10試行の平均step数 = 9.2




370 Episode: Finished after 8 steps：10試行の平均step数 = 9.1
371 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
372 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
373 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
374 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
375 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
376 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
377 Episode: Finished after 8 steps：10試行の平均step数 = 8.9
378 Episode: Finished after 10 steps：10試行の平均step数 = 9.0
379 Episode: Finished after 10 steps：10試行の平均step数 = 9.1
380 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
381 Episode: Finished after 10 steps：10試行の平均step数 = 9.4




382 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
383 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
384 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
385 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
386 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
387 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
388 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
389 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
390 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
391 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
392 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
393 Episode: Finished after 9 steps：10試行の平均step数 = 9.2




394 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
395 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
396 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
397 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
398 Episode: Finished after 8 steps：10試行の平均step数 = 9.2
399 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
400 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
401 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
402 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
403 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
404 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
405 Episode: Finished after 10 steps：10試行の平均step数 = 9.3




406 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
407 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
408 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
409 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
410 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
411 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
412 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
413 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
414 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
415 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
416 Episode: Finished after 11 steps：10試行の平均step数 = 9.6
417 Episode: Finished after 9 steps：10試行の平均step数 = 9.5




418 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
419 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
420 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
421 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
422 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
423 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
424 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
425 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
426 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
427 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
428 Episode: Finished after 9 steps：10試行の平均step数 = 9.5




429 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
430 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
431 Episode: Finished after 11 steps：10試行の平均step数 = 9.7
432 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
433 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
434 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
435 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
436 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
437 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
438 Episode: Finished after 9 steps：10試行の平均step数 = 9.8
439 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
440 Episode: Finished after 9 steps：10試行の平均step数 = 9.7




441 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
442 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
443 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
444 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
445 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
446 Episode: Finished after 8 steps：10試行の平均step数 = 9.4
447 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
448 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
449 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
450 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
451 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
452 Episode: Finished after 9 steps：10試行の平均step数 = 9.2




453 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
454 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
455 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
456 Episode: Finished after 8 steps：10試行の平均step数 = 9.2
457 Episode: Finished after 11 steps：10試行の平均step数 = 9.4
458 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
459 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
460 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
461 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
462 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
463 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
464 Episode: Finished after 9 steps：10試行の平均step数 = 9.3




465 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
466 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
467 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
468 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
469 Episode: Finished after 10 steps：10試行の平均step数 = 9.3
470 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
471 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
472 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
473 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
474 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
475 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
476 Episode: Finished after 10 steps：10試行の平均step数 = 9.6






477 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
478 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
479 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
480 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
481 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
482 Episode: Finished after 11 steps：10試行の平均step数 = 9.7
483 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
484 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
485 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
486 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
487 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
488 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
489 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
490 Episode: Finished after 8 steps：10試行の平均step数 = 9.4
491 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
492 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
493 Episode: Finished after 9 steps：10試行の平均step数 = 9.3
494 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
49

