In [1]:
# パッケージのimport
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

# 動画の描画関数の宣言
# 参考URL http://nbviewer.jupyter.org/github/patrickmineault
# /xcorr-notebooks/blob/master/Render%20OpenAI%20gym%20as%20GIF.ipynb
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display


def display_frames_as_gif(frames):
    """
    Displays a list of frames as a gif, with controls
    """
    plt.figure(figsize=(frames[0].shape[1]/72.0, frames[0].shape[0]/72.0),
               dpi=72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames),
                                   interval=50)

    anim.save('movie_cartpole_DQN.mp4')  # 動画のファイル名と保存です
    display(display_animation(anim, default_mode='loop'))

In [2]:
# 本コードでは、namedtupleを使用します。
# namedtupleを使うことで、値をフィールド名とペアで格納できます。
# すると値に対して、フィールド名でアクセスできて便利です。
# https://docs.python.jp/3/library/collections.html#collections.namedtuple
# 以下は使用例です

from collections import namedtuple

Tr = namedtuple('tr', ('name_a', 'value_b'))
Tr_object = Tr('名前Aです', 100)

print(Tr_object)  # 出力：tr(name_a='名前Aです', value_b=100)
print(Tr_object.value_b)  # 出力：100

tr(name_a='名前Aです', value_b=100)
100


In [3]:
# namedtupleを生成
from collections import namedtuple

Transition = namedtuple(
    'Transition', ('state', 'action', 'next_state', 'reward'))

In [12]:
# 定数の設定
ENV = 'CartPole-v0'  # 使用する課題名
# ENV = 'MountainCar-v0'
GAMMA = 0.99  # 時間割引率
MAX_STEPS = 200  # 1試行のstep数
NUM_EPISODES = 500  # 最大試行回数

In [13]:
# 経験を保存するメモリクラスを定義します


class ReplayMemory:

    def __init__(self, CAPACITY):
        self.capacity = CAPACITY  # メモリの最大長さ
        self.memory = []  # 経験を保存する変数
        self.index = 0  # 保存するindexを示す変数

    def push(self, state, action, state_next, reward):
        '''transition = (state, action, state_next, reward)をメモリに保存する'''

        if len(self.memory) < self.capacity:
            self.memory.append(None)  # メモリが満タンでないときは足す

        # namedtupleのTransitionを使用し、値とフィールド名をペアにして保存します
        self.memory[self.index] = Transition(state, action, state_next, reward)

        self.index = (self.index + 1) % self.capacity  # 保存するindexを1つずらす

    def sample(self, batch_size):
        '''batch_size分だけ、ランダムに保存内容を取り出す'''
        return random.sample(self.memory, batch_size)

    def __len__(self):
        '''関数lenに対して、現在の変数memoryの長さを返す'''
        return len(self.memory)

In [36]:
# エージェントが持つ脳となるクラスです、DQNを実行します
# Q関数をディープラーニングのネットワークをクラスとして定義

import random
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F

BATCH_SIZE = 32
CAPACITY = 10000


class Brain:
    def __init__(self, num_states, num_actions):
        self.num_actions = num_actions  # CartPoleの行動（右に左に押す）の2を取得

        # 経験を記憶するメモリオブジェクトを生成
        self.memory = ReplayMemory(CAPACITY)

        # ニューラルネットワークを構築
        self.model = nn.Sequential()
        self.model.add_module('fc1', nn.Linear(num_states, 32))
        self.model.add_module('relu1', nn.ReLU())
        self.model.add_module('fc2', nn.Linear(32, 32))
        self.model.add_module('relu2', nn.ReLU())
        self.model.add_module('fc3', nn.Linear(32, num_actions))

        print(self.model)  # ネットワークの形を出力

        # 最適化手法の設定
        self.optimizer = optim.Adam(self.model.parameters(), lr=0.0001)

    def replay(self):
        '''Experience Replayでネットワークの結合パラメータを学習'''

        # -----------------------------------------
        # 1. メモリサイズの確認
        # -----------------------------------------
        # 1.1 メモリサイズがミニバッチより小さい間は何もしない
        if len(self.memory) < BATCH_SIZE:
            return

        # -----------------------------------------
        # 2. ミニバッチの作成
        # -----------------------------------------
        # 2.1 メモリからミニバッチ分のデータを取り出す
        transitions = self.memory.sample(BATCH_SIZE)

        # 2.2 各変数をミニバッチに対応する形に変形
        # transitionsは1stepごとの(state, action, state_next, reward)が、BATCH_SIZE分格納されている
        # つまり、(state, action, state_next, reward)×BATCH_SIZE
        # これをミニバッチにしたい。つまり
        # (state×BATCH_SIZE, action×BATCH_SIZE, state_next×BATCH_SIZE, reward×BATCH_SIZE)にする
        batch = Transition(*zip(*transitions))

        # 2.3 各変数の要素をミニバッチに対応する形に変形し、ネットワークで扱えるようVariableにする
        # 例えばstateの場合、[torch.FloatTensor of size 1x4]がBATCH_SIZE分並んでいるのですが、
        # それを torch.FloatTensor of size BATCH_SIZEx4 に変換します
        # 状態、行動、報酬、non_finalの状態のミニバッチのVariableを作成
        # catはConcatenates（結合）のことです。
        state_batch = torch.cat(batch.state)
        action_batch = torch.cat(batch.action)
        reward_batch = torch.cat(batch.reward)
        non_final_next_states = torch.cat([s for s in batch.next_state
                                           if s is not None])

        # -----------------------------------------
        # 3. 教師信号となるQ(s_t, a_t)値を求める
        # -----------------------------------------
        # 3.1 ネットワークを推論モードに切り替える
        self.model.eval()

        # 3.2 ネットワークが出力したQ(s_t, a_t)を求める
        # self.model(state_batch)は、右左の両方のQ値を出力しており
        # [torch.FloatTensor of size BATCH_SIZEx2]になっている。
        # ここから実行したアクションa_tに対応するQ値を求めるため、action_batchで行った行動a_tが右か左かのindexを求め
        # それに対応するQ値をgatherでひっぱり出す。
        state_action_values = self.model(state_batch).gather(1, action_batch)

        # 3.3 max{Q(s_t+1, a)}値を求める。ただし次の状態があるかに注意。

        # cartpoleがdoneになっておらず、next_stateがあるかをチェックするインデックスマスクを作成
        non_final_mask = torch.ByteTensor(tuple(map(lambda s: s is not None,
                                                    batch.next_state)))
        # まずは全部0にしておく
        next_state_values = torch.zeros(BATCH_SIZE)

        # 次の状態があるindexの最大Q値を求める
        # 出力にアクセスし、max(1)で列方向の最大値の[値、index]を求めます
        # そしてそのQ値（index=0）を出力します
        # detachでその値を取り出します
        next_state_values[non_final_mask] = self.model(
            non_final_next_states).max(1)[0].detach()

        # 3.4 教師となるQ(s_t, a_t)値を、Q学習の式から求める
        expected_state_action_values = reward_batch + GAMMA * next_state_values

        # -----------------------------------------
        # 4. 結合パラメータの更新
        # -----------------------------------------
        # 4.1 ネットワークを訓練モードに切り替える
        self.model.train()

        # 4.2 損失関数を計算する（smooth_l1_lossはHuberloss）
        # expected_state_action_valuesは
        # sizeが[minbatch]になっているので、unsqueezeで[minibatch x 1]へ
        loss = F.smooth_l1_loss(state_action_values,
                                expected_state_action_values.unsqueeze(1))

        # 4.3 結合パラメータを更新する
        self.optimizer.zero_grad()  # 勾配をリセット
        loss.backward()  # バックプロパゲーションを計算
        self.optimizer.step()  # 結合パラメータを更新

    def decide_action(self, state, episode, mode=False):
        '''現在の状態に応じて、行動を決定する'''
        # ε-greedy法で徐々に最適行動のみを採用する
        epsilon = 0.5 * (1 / (episode + 1))
        
        if mode == True:
            self.model.eval()  # ネットワークを推論モードに切り替える
            with torch.no_grad():
                action = self.model(state).max(1)[1].view(1, 1)

        if epsilon <= np.random.uniform(0, 1):
            self.model.eval()  # ネットワークを推論モードに切り替える
            with torch.no_grad():
                action = self.model(state).max(1)[1].view(1, 1)
            # ネットワークの出力の最大値のindexを取り出します = max(1)[1]
            # .view(1,1)は[torch.LongTensor of size 1]　を size 1x1 に変換します

        else:
            # 0,1の行動をランダムに返す
            action = torch.LongTensor(
                [[random.randrange(self.num_actions)]])  # 0,1の行動をランダムに返す
            # actionは[torch.LongTensor of size 1x1]の形になります

        return action

In [39]:
# CartPoleで動くエージェントクラスです、棒付き台車そのものになります


class Agent:
    def __init__(self, num_states, num_actions):
        '''課題の状態と行動の数を設定する'''
        self.brain = Brain(num_states, num_actions)  # エージェントが行動を決定するための頭脳を生成

    def update_q_function(self):
        '''Q関数を更新する'''
        self.brain.replay()

    def get_action(self, state, episode, mode=False):
        '''行動を決定する'''
        action = self.brain.decide_action(state, episode, mode)
        return action

    def memorize(self, state, action, state_next, reward):
        '''memoryオブジェクトに、state, action, state_next, rewardの内容を保存する'''
        self.brain.memory.push(state, action, state_next, reward)

In [40]:
# CartPoleを実行する環境のクラスです


class Environment:

    def __init__(self):
        self.env = gym.make(ENV)  # 実行する課題を設定
        num_states = self.env.observation_space.shape[0]  # 課題の状態数4を取得
        num_actions = self.env.action_space.n  # CartPoleの行動（右に左に押す）の2を取得
        self.agent = Agent(num_states, num_actions)  # 環境内で行動するAgentを生成

        
    def run(self):
        '''実行'''
        episode_10_list = np.zeros(10)  # 10試行分の立ち続けたstep数を格納し、平均ステップ数を出力に利用
        complete_episodes = 0  # 195step以上連続で立ち続けた試行数
        episode_final = False  # 最後の試行フラグ
        frames = []  # 最後の試行を動画にするために画像を格納する変数

        for episode in range(NUM_EPISODES):  # 最大試行数分繰り返す
            observation = self.env.reset()  # 環境の初期化

            state = observation  # 観測をそのまま状態sとして使用
            state = torch.from_numpy(state).type(
                torch.FloatTensor)  # NumPy変数をPyTorchのテンソルに変換
            state = torch.unsqueeze(state, 0)  # size 4をsize 1x4に変換
            
            counter = 0
            for step in range(MAX_STEPS):  # 1エピソードのループ
                counter = counter + 1

                if episode_final is True:  # 最終試行ではframesに各時刻の画像を追加していく
                    frames.append(self.env.render(mode='rgb_array'))

                action = self.agent.get_action(state, episode)  # 行動を求める

                # 行動a_tの実行により、s_{t+1}とdoneフラグを求める
                # actionから.item()を指定して、中身を取り出す
                observation_next, _, done, _ = self.env.step(
                    action.item())  # rewardとinfoは使わないので_にする

                # 報酬を与える。さらにepisodeの終了評価と、state_nextを設定する
                if done:  # ステップ数が200経過するか、一定角度以上傾くとdoneはtrueになる
                    state_next = None  # 次の状態はないので、Noneを格納

                    # 直近10episodeの立てたstep数リストに追加
                    episode_10_list = np.hstack(
                        (episode_10_list[1:], step + 1))

                    if step < 195:
                        reward = torch.FloatTensor(
                            [-1.0])  # 途中でこけたら罰則として報酬-1を与える
                        complete_episodes = 0  # 連続成功記録をリセット
                    else:
                        reward = torch.FloatTensor([1.0])  # 立ったまま終了時は報酬1を与える
                        complete_episodes = complete_episodes + 1  # 連続記録を更新
                else:
                    reward = torch.FloatTensor([0.0])  # 普段は報酬0
                    state_next = observation_next  # 観測をそのまま状態とする
                    state_next = torch.from_numpy(state_next).type(
                        torch.FloatTensor)  # numpy変数をPyTorchのテンソルに変換
                    state_next = torch.unsqueeze(state_next, 0)  # size 4をsize 1x4に変換

                # メモリに経験を追加
                self.agent.memorize(state, action, state_next, reward)

                # Experience ReplayでQ関数を更新する
                self.agent.update_q_function()
                print('update', counter)

                # 観測の更新
                state = state_next

                # 終了時の処理
                if done:
                    print('%d Episode: Finished after %d steps：10試行の平均step数 = %.1lf' % (
                        episode, step + 1, episode_10_list.mean()))
                    break

            if episode_final is True:
                # 動画を保存と描画
                display_frames_as_gif(frames)
                break

            # 10連続で200step経ち続けたら成功
            if complete_episodes >= 10:
                print('10回連続成功')
                # episode_final = True  # 次の試行を描画を行う最終試行とする
                break

In [41]:
# main クラス
cartpole_env = Environment()
cartpole_env.run()

[33mWARN: gym.spaces.Box autodetected dtype as <class 'numpy.float32'>. Please provide explicit dtype.[0m
Sequential(
  (fc1): Linear(in_features=4, out_features=32, bias=True)
  (relu1): ReLU()
  (fc2): Linear(in_features=32, out_features=32, bias=True)
  (relu2): ReLU()
  (fc3): Linear(in_features=32, out_features=2, bias=True)
)
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
0 Episode: Finished after 17 steps：10試行の平均step数 = 1.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
1 Episode: Finished after 9 steps：10試行の平均step数 = 2.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
2 Episode: Finished after 10 steps：10試行の平均step数 = 3.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
3 Episode: Finished after 11 steps：10試行の平均step数 = 4.7
update 1
update

update 14
update 15
42 Episode: Finished after 15 steps：10試行の平均step数 = 20.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
43 Episode: Finished after 33 steps：10試行の平均step数 = 22.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
44 Episode: Finished after 16 steps：10試行の平均step数 = 22.1
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
45 Episode: Finished after 25 steps：10試行の平均step数 = 22.0
update 1
update 2
update 3
update 4
update 

update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
74 Episode: Finished after 60 steps：10試行の平均step数 = 35.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
75 Episode: Finished after 48 steps：10試行の平均step数 = 37.9
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update

update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
update 76
update 77
update 78
update 79
update 80
update 81
update 82
update 83
update 84
update 85
update 86
update 87
update 88
update 89
update 90
update 91
update 92
update 93
update 94
update 95
update 96
update 97
update 98
update 99
update 100
update 101
update 102
update 103
update 104
update 105
update 106
update 107
update 108
update 109
update 110
update 111
update 112
update 113
update 114
update 115
update 116
update 117
update 118
update 119
update 120
update 121
update 122
85 Episode: Finished after 122 steps：10試行の平均step数 = 77.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 

update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
97 Episode: Finished after 56 steps：10試行の平均step数 = 61.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
98 Episode: Finished after 52 steps：10試行の平均step数 = 60.9
update 1
update 2
update 3
update 4
u

update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
update 76
update 77
update 78
update 79
108 Episode: Finished after 79 steps：10試行の平均step数 = 79.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
up

update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
update 76
update 77
update 78
update 79
update 80
update 81
update 82
update 83
update 84
update 85
update 86
update 87
update 88
update 89
update 90
update 91
update 92
update 93
update 94
update 95
update 96
update 97
update 98
update 99
update 100
update 101
update 102
update 103
update 104
update 105
update 106
update 107
update 108
update 109
update 110
update 111
update 112
update 113
update 114
update 115
update 116
update 117
update 118
update 119
118 Episode: Finished after 119 steps：10試行の平均step数 = 93.7
update 1
update 2
update 3
update 4
update

update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
125 Episode: Finished after 75 steps：10試行の平均step数 = 107.5
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
126 Episode: Finished after 70 

update 148
update 149
update 150
update 151
update 152
update 153
update 154
update 155
update 156
update 157
update 158
update 159
update 160
update 161
update 162
update 163
update 164
update 165
update 166
update 167
update 168
update 169
update 170
update 171
update 172
update 173
update 174
update 175
update 176
update 177
update 178
update 179
update 180
update 181
update 182
update 183
update 184
update 185
update 186
update 187
update 188
update 189
update 190
update 191
update 192
update 193
update 194
update 195
update 196
update 197
update 198
update 199
update 200
132 Episode: Finished after 200 steps：10試行の平均step数 = 114.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 

update 79
update 80
update 81
update 82
update 83
update 84
update 85
update 86
update 87
update 88
update 89
update 90
update 91
update 92
update 93
update 94
update 95
update 96
update 97
update 98
update 99
update 100
update 101
update 102
update 103
update 104
update 105
update 106
update 107
update 108
update 109
update 110
update 111
update 112
update 113
update 114
update 115
update 116
update 117
update 118
update 119
update 120
update 121
update 122
update 123
update 124
update 125
update 126
update 127
update 128
update 129
update 130
update 131
update 132
update 133
update 134
update 135
update 136
update 137
update 138
update 139
update 140
update 141
update 142
update 143
update 144
update 145
update 146
update 147
update 148
update 149
update 150
update 151
update 152
update 153
update 154
update 155
update 156
update 157
update 158
update 159
update 160
update 161
update 162
update 163
update 164
update 165
update 166
update 167
update 168
update 169
update 170
update 17

update 130
update 131
update 132
update 133
update 134
update 135
update 136
update 137
update 138
update 139
update 140
update 141
update 142
update 143
update 144
update 145
update 146
update 147
update 148
update 149
update 150
update 151
update 152
update 153
update 154
update 155
update 156
update 157
update 158
update 159
update 160
update 161
update 162
update 163
update 164
update 165
update 166
update 167
update 168
update 169
update 170
update 171
update 172
update 173
update 174
update 175
update 176
update 177
update 178
update 179
update 180
update 181
update 182
update 183
update 184
update 185
update 186
update 187
update 188
update 189
update 190
update 191
update 192
update 193
update 194
update 195
update 196
142 Episode: Finished after 196 steps：10試行の平均step数 = 167.8
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
upd

update 146
update 147
update 148
update 149
update 150
update 151
update 152
update 153
update 154
update 155
update 156
update 157
update 158
147 Episode: Finished after 158 steps：10試行の平均step数 = 175.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
update 76
update 77
update 78
update 79
update 80
update 

update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
update 76
update 77
update 78
update 79
update 80
update 81
update 82
update 83
update 84
update 85
update 86
update 87
update 88
update 89
update 90
update 91
update 92
update 93
update 94
update 95
update 96
update 97
update 98
update 99
update 100
update 101
update 102
update 103
update 104
update 105
update 106
update 107
update 108
update 109
update 110
update 111
update 112
update 113
update 114
update 115
update 116
update 117
update 118
u

update 87
update 88
update 89
update 90
update 91
update 92
update 93
update 94
update 95
update 96
update 97
update 98
update 99
update 100
update 101
update 102
update 103
update 104
update 105
update 106
update 107
update 108
update 109
update 110
update 111
update 112
update 113
update 114
update 115
update 116
update 117
update 118
update 119
update 120
update 121
update 122
update 123
update 124
update 125
update 126
update 127
update 128
update 129
update 130
update 131
update 132
update 133
update 134
update 135
update 136
update 137
update 138
update 139
update 140
update 141
update 142
update 143
update 144
update 145
update 146
update 147
update 148
update 149
update 150
update 151
update 152
update 153
update 154
update 155
update 156
update 157
update 158
update 159
update 160
update 161
update 162
update 163
update 164
update 165
update 166
update 167
update 168
update 169
update 170
update 171
update 172
update 173
update 174
update 175
update 176
update 177
update 178
u

update 154
update 155
update 156
update 157
update 158
update 159
update 160
update 161
update 162
update 163
update 164
update 165
160 Episode: Finished after 165 steps：10試行の平均step数 = 184.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
update 53
update 54
update 55
update 56
update 57
update 58
update 59
update 60
update 61
update 62
update 63
update 64
update 65
update 66
update 67
update 68
update 69
update 70
update 71
update 72
update 73
update 74
update 75
update 76
update 77
update 78
update 79
update 80
update 81
update 8

update 102
update 103
update 104
update 105
update 106
update 107
update 108
update 109
update 110
update 111
update 112
update 113
update 114
update 115
update 116
update 117
update 118
update 119
update 120
update 121
update 122
update 123
update 124
update 125
update 126
update 127
update 128
update 129
update 130
update 131
update 132
update 133
update 134
update 135
update 136
update 137
update 138
update 139
update 140
update 141
update 142
update 143
update 144
update 145
update 146
update 147
update 148
update 149
update 150
update 151
update 152
update 153
update 154
update 155
update 156
update 157
update 158
update 159
update 160
update 161
update 162
update 163
update 164
update 165
update 166
update 167
update 168
update 169
update 170
update 171
update 172
update 173
172 Episode: Finished after 173 steps：10試行の平均step数 = 56.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
173 Episode: Finished after 9 steps：10試行の平均step数 = 55.5
update 1
upda

update 161
update 162
update 163
update 164
update 165
update 166
update 167
update 168
update 169
update 170
update 171
update 172
update 173
update 174
update 175
update 176
update 177
update 178
update 179
update 180
update 181
update 182
update 183
update 184
update 185
update 186
update 187
update 188
update 189
update 190
update 191
update 192
update 193
update 194
update 195
update 196
update 197
update 198
update 199
182 Episode: Finished after 199 steps：10試行の平均step数 = 85.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
update 11
update 12
update 13
update 14
update 15
update 16
update 17
update 18
update 19
update 20
update 21
update 22
update 23
update 24
update 25
update 26
update 27
update 28
update 29
update 30
update 31
update 32
update 33
update 34
update 35
update 36
update 37
update 38
update 39
update 40
update 41
update 42
update 43
update 44
update 45
update 46
update 47
update 48
update 49
update 50
update 51
update 52
up

update 10
216 Episode: Finished after 10 steps：10試行の平均step数 = 9.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
217 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
218 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
219 Episode: Finished after 10 steps：10試行の平均step数 = 9.8
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
220 Episode: Finished after 10 steps：10試行の平均step数 = 9.9
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
221 Episode: Finished after 10 steps：10試行の平均step数 = 9.9
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
222 Episode: Finished after 10 steps：10試行の平均step数 = 9.9
update 1
update 2
update 3
update 4
update 5
update 

update 9
update 10
281 Episode: Finished after 10 steps：10試行の平均step数 = 9.5
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
282 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
283 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
284 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
285 Episode: Finished after 9 steps：10試行の平均step数 = 9.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
286 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
287 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
288 Episode: Fi

update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
351 Episode: Finished after 9 steps：10試行の平均step数 = 9.4
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
352 Episode: Finished after 8 steps：10試行の平均step数 = 9.3
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
353 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
354 Episode: Finished after 8 steps：10試行の平均step数 = 9.0
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
355 Episode: Finished after 9 steps：10試行の平均step数 = 8.9
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
356 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
357 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
update 1
update 2
update 3
update 4
update 5
update 6
update 7
upd

update 10
420 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
421 Episode: Finished after 10 steps：10試行の平均step数 = 9.7
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
422 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
423 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
424 Episode: Finished after 10 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
425 Episode: Finished after 9 steps：10試行の平均step数 = 9.6
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
426 Episode: Finished after 9 steps：10試行の平均step数 = 9.5
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
upda

update 6
update 7
update 8
update 9
update 10
490 Episode: Finished after 10 steps：10試行の平均step数 = 9.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
491 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
492 Episode: Finished after 9 steps：10試行の平均step数 = 9.0
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
update 10
493 Episode: Finished after 10 steps：10試行の平均step数 = 9.1
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
494 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
495 Episode: Finished after 9 steps：10試行の平均step数 = 9.2
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8
update 9
496 Episode: Finished after 9 steps：10試行の平均step数 = 9.1
update 1
update 2
update 3
update 4
update 5
update 6
update 7
update 8

In [48]:
ENV = 'CartPole-v0'
env = gym.make(ENV)
observation = env.reset()  # 環境の初期化

state = observation  # 観測をそのまま状態sとして使用
state = torch.from_numpy(state).type(torch.FloatTensor) # NumPy変数をPyTorchのテンソルに変換
state = torch.unsqueeze(state, 0)  # size 4をsize 1x4に変換

for step in range(MAX_STEPS):  # 1エピソードのループ
    #env.render()
    action = cartpole_env.agent.get_action(state, episode=0, mode=True)  # 行動を求める

    # 行動a_tの実行により、s_{t+1}とdoneフラグを求める
    # actionから.item()を指定して、中身を取り出す
    observation_next, _, done, _ = env.step(
        action.item())  # rewardとinfoは使わないので_にする
    if done:
        print(step+1)

[33mWARN: gym.spaces.Box autodetected dtype as <class 'numpy.float32'>. Please provide explicit dtype.[0m
25
[33mWARN: You are calling 'step()' even though this environment has already returned done = True. You should always call 'reset()' once you receive 'done = True' -- any further steps are undefined behavior.[0m
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200


In [None]:
cartpole_env.agent.