In [1]:
# パッケージのimport
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

  (fname, cnt))
  (fname, cnt))


In [2]:
# 動画の描画関数の宣言
# 参考URL http://nbviewer.jupyter.org/github/patrickmineault
# /xcorr-notebooks/blob/master/Render%20OpenAI%20gym%20as%20GIF.ipynb
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display


def display_frames_as_gif(frames):
    """
    Displays a list of frames as a gif, with controls
    """
    plt.figure(figsize=(frames[0].shape[1]/72.0, frames[0].shape[0]/72.0),
               dpi=72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames),
                                   interval=50)

    anim.save('movie_cartpole_DQN.mp4')  # 動画のファイル名と保存です
    display(display_animation(anim, default_mode='loop'))

In [3]:
from collections import namedtuple

Tr = namedtuple('tr', ('name_a', 'value_b'))
Tr_object = Tr('名前Aです', 100)

print(Tr_object)  # 出力：tr(name_a='名前Aです', value_b=100)
print(Tr_object.value_b)  # 出力：100

tr(name_a='名前Aです', value_b=100)
100


In [4]:
from collections import namedtuple

Transition = namedtuple(
    'Transition', ('state', 'action', 'next_state', 'reward'))

In [5]:
from collections import namedtuple

Transition = namedtuple(
    'Transition', ('state', 'action', 'next_state', 'reward'))

In [7]:
# 定数の設定
ENV = 'CartPole-v0'  # 使用する課題名
GAMMA = 0.99  # 時間割引率
MAX_STEPS = 200  # 1試行のstep数
NUM_EPISODES = 500  # 最大試行回数

In [8]:
# 経験を保存するメモリクラスを定義します

class ReplayMemory:
    def __init__(self, CAPACITY):
        self.capacity = CAPACITY  # メモリの最大長さ
        self.memory = []  # 経験を保存する変数
        self.index = 0  # 保存するindexを示す変数
    
    def push(self, state, action, state_next, reward):
        '''transition = (state, action, state_next, reward)をメモリに保存する'''
        if len(self.memory) < self.capacity:
            self.memory.append(None)  # メモリが満タンでないときは足す
        
        # namedtupleのTransitionを使用し、値とフィールド名をペアにして保存します
        self.memory[self.index] = Transition(state, action, state_next, reward)
        self.index = (self.index + 1) % self.capacity  # 保存するindexを1つずらす
        
    def sample(self, batch_size):
        '''batch_size分だけ、ランダムに保存内容を取り出す'''
        return random.sample(self.memory, batch_size)
    
    def __len__(self):
        '''関数lenに対して、現在の変数memoryの長さを返す'''
        return len(self.memory)

In [9]:
# エージェントが持つ脳となるクラスです、DQNを実行します
# Q関数をディープラーニングのネットワークをクラスとして定義

import random
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F

BATCH_SIZE = 32
CAPACITY = 10000

class Brain:
    def __init__(self, num_states, num_actions):
        self.num_actions = num_actions  # CartPoleの行動（右に左に押す）の2を取得
        
        # 経験を記憶するメモリオブジェクトを生成
        self.memory = ReplayMemory(CAPACITY)
        
        # ニューラルネットワークを構築
        self.model = nn.Sequential()
        self.model.add_module('fc1', nn.Linear(num_states, 32))
        self.model.add_module('relu1', nn.ReLU())
        self.model.add_module('fc2', nn.Linear(32, 32))
        self.model.add_module('relu2', nn.ReLU())
        self.model.add_module('fc3', nn.Linear(32, num_actions))

        print(self.model)  # ネットワークの形を出力

        # 最適化手法の設定
        self.optimizer = optim.Adam(self.model.parameters(), lr=0.0001)
    
    def replay(self):
        '''Experience Replayでネットワークの結合パラメータを学習'''
        
        # 1.1 メモリサイズがミニバッチより小さい間は何もしない
        if len(self.memory) < BATCH_SIZE:
            return
        
        # 2.1 メモリからミニバッチ分のデータを取り出す
        transitions = self.memory.sample(BATCH_SIZE)
        batch = Transition(*zip(*transitions))
        
        state_batch = torch.cat(batch.state)
        action_batch = torch.cat(batch.action)
        reward_batch = torch.cat(batch.reward)
        non_final_next_states = torch.cat([s for s in batch.next_state
                                           if s is not None])
        
        # 3. 教師信号となるQ(s_t, a_t)値を求める
        
        # 3.1 ネットワークを推論モードに切り替える
        self.model.eval()
        
        
        # 3.2 ネットワークが出力したQ(s_t, a_t)を求める
        state_action_values = self.model(state_batch).gather(1, action_batch)
        
        # 3.3 max{Q(s_t+1, a)}値を求める。ただし次の状態があるかに注意。
        # cartpoleがdoneになっておらず、next_stateがあるかをチェックするインデックスマスクを作成
        non_final_mask = torch.ByteTensor(tuple(map(lambda s: s is not None,
                                                    batch.next_state)))
        
        # まずは全部0にしておく
        next_state_values = torch.zeros(BATCH_SIZE)
        
        # 次の状態があるindexの最大Q値を求める
        next_state_values[non_final_mask] = self.model(
            non_final_next_states).max(1)[0].detach()
        
        # 3.4 教師となるQ(s_t, a_t)値を、Q学習の式から求める
        expected_state_action_values = reward_batch + GAMMA * next_state_values
        
        # 4. 結合パラメータの更新
        # 4.1 ネットワークを訓練モードに切り替える
        self.model.train()
        # 4.2 損失関数を計算する（smooth_l1_lossはHuberloss）
        # expected_state_action_valuesは
        # sizeが[minbatch]になっているので、unsqueezeで[minibatch x 1]へ
        loss = F.smooth_l1_loss(state_action_values,
                                expected_state_action_values.unsqueeze(1))
        
        # 4.3 結合パラメータを更新する
        self.optimizer.zero_grad()  # 勾配をリセット
        loss.backward()  # バックプロパゲーションを計算
        self.optimizer.step()  # 結合パラメータを更新
        
    def decide_action(self, state, episode):
        '''現在の状態に応じて、行動を決定する'''
        # ε-greedy法で徐々に最適行動のみを採用する
        epsilon = 0.5 * (1 / (episode + 1))
        
        if epsilon <= np.random.uniform(0, 1):
            self.model.eval()  # ネットワークを推論モードに切り替える
            with torch.no_grad():
                action = self.model(state).max(1)[1].view(1, 1)
            # ネットワークの出力の最大値のindexを取り出します = max(1)[1]
            # .view(1,1)は[torch.LongTensor of size 1]　を size 1x1 に変換します

        else:
            # 0,1の行動をランダムに返す
            action = torch.LongTensor(
                [[random.randrange(self.num_actions)]])  # 0,1の行動をランダムに返す
            # actionは[torch.LongTensor of size 1x1]の形になります

        return action


In [10]:
# CartPoleで動くエージェントクラスです、棒付き台車そのものになります


class Agent:
    def __init__(self, num_states, num_actions):
        '''課題の状態と行動の数を設定する'''
        self.brain = Brain(num_states, num_actions)  # エージェントが行動を決定するための頭脳を生成

    def update_q_function(self):
        '''Q関数を更新する'''
        self.brain.replay()

    def get_action(self, state, episode):
        '''行動を決定する'''
        action = self.brain.decide_action(state, episode)
        return action

    def memorize(self, state, action, state_next, reward):
        '''memoryオブジェクトに、state, action, state_next, rewardの内容を保存する'''
        self.brain.memory.push(state, action, state_next, reward)

In [11]:
# CartPoleを実行する環境のクラスです


class Environment:

    def __init__(self):
        self.env = gym.make(ENV)  # 実行する課題を設定
        num_states = self.env.observation_space.shape[0]  # 課題の状態数4を取得
        num_actions = self.env.action_space.n  # CartPoleの行動（右に左に押す）の2を取得
        self.agent = Agent(num_states, num_actions)  # 環境内で行動するAgentを生成

        
    def run(self):
        '''実行'''
        episode_10_list = np.zeros(10)  # 10試行分の立ち続けたstep数を格納し、平均ステップ数を出力に利用
        complete_episodes = 0  # 195step以上連続で立ち続けた試行数
        episode_final = False  # 最後の試行フラグ
        frames = []  # 最後の試行を動画にするために画像を格納する変数

        for episode in range(NUM_EPISODES):  # 最大試行数分繰り返す
            observation = self.env.reset()  # 環境の初期化

            state = observation  # 観測をそのまま状態sとして使用
            state = torch.from_numpy(state).type(
                torch.FloatTensor)  # NumPy変数をPyTorchのテンソルに変換
            state = torch.unsqueeze(state, 0)  # size 4をsize 1x4に変換

            for step in range(MAX_STEPS):  # 1エピソードのループ

                if episode_final is True:  # 最終試行ではframesに各時刻の画像を追加していく
                    frames.append(self.env.render(mode='rgb_array'))

                action = self.agent.get_action(state, episode)  # 行動を求める

                # 行動a_tの実行により、s_{t+1}とdoneフラグを求める
                # actionから.item()を指定して、中身を取り出す
                observation_next, _, done, _ = self.env.step(
                    action.item())  # rewardとinfoは使わないので_にする

                # 報酬を与える。さらにepisodeの終了評価と、state_nextを設定する
                if done:  # ステップ数が200経過するか、一定角度以上傾くとdoneはtrueになる
                    state_next = None  # 次の状態はないので、Noneを格納

                    # 直近10episodeの立てたstep数リストに追加
                    episode_10_list = np.hstack(
                        (episode_10_list[1:], step + 1))

                    if step < 195:
                        reward = torch.FloatTensor(
                            [-1.0])  # 途中でこけたら罰則として報酬-1を与える
                        complete_episodes = 0  # 連続成功記録をリセット
                    else:
                        reward = torch.FloatTensor([1.0])  # 立ったまま終了時は報酬1を与える
                        complete_episodes = complete_episodes + 1  # 連続記録を更新
                else:
                    reward = torch.FloatTensor([0.0])  # 普段は報酬0
                    state_next = observation_next  # 観測をそのまま状態とする
                    state_next = torch.from_numpy(state_next).type(
                        torch.FloatTensor)  # numpy変数をPyTorchのテンソルに変換
                    state_next = torch.unsqueeze(state_next, 0)  # size 4をsize 1x4に変換

                # メモリに経験を追加
                self.agent.memorize(state, action, state_next, reward)

                # Experience ReplayでQ関数を更新する
                self.agent.update_q_function()

                # 観測の更新
                state = state_next

                # 終了時の処理
                if done:
                    print('%d Episode: Finished after %d steps：10試行の平均step数 = %.1lf' % (
                        episode, step + 1, episode_10_list.mean()))
                    break

            if episode_final is True:
                # 動画を保存と描画
                display_frames_as_gif(frames)
                break

            # 10連続で200step経ち続けたら成功
            if complete_episodes >= 10:
                print('10回連続成功')
                episode_final = True  # 次の試行を描画を行う最終試行とする


In [12]:
# main クラス
cartpole_env = Environment()
cartpole_env.run()

Sequential(
  (fc1): Linear(in_features=4, out_features=32, bias=True)
  (relu1): ReLU()
  (fc2): Linear(in_features=32, out_features=32, bias=True)
  (relu2): ReLU()
  (fc3): Linear(in_features=32, out_features=2, bias=True)
)
0 Episode: Finished after 20 steps：10試行の平均step数 = 2.0
1 Episode: Finished after 11 steps：10試行の平均step数 = 3.1
2 Episode: Finished after 11 steps：10試行の平均step数 = 4.2
3 Episode: Finished after 8 steps：10試行の平均step数 = 5.0




4 Episode: Finished after 10 steps：10試行の平均step数 = 6.0
5 Episode: Finished after 10 steps：10試行の平均step数 = 7.0
6 Episode: Finished after 9 steps：10試行の平均step数 = 7.9
7 Episode: Finished after 10 steps：10試行の平均step数 = 8.9
8 Episode: Finished after 14 steps：10試行の平均step数 = 10.3
9 Episode: Finished after 14 steps：10試行の平均step数 = 11.7
10 Episode: Finished after 15 steps：10試行の平均step数 = 11.2
11 Episode: Finished after 17 steps：10試行の平均step数 = 11.8




12 Episode: Finished after 28 steps：10試行の平均step数 = 13.5
13 Episode: Finished after 30 steps：10試行の平均step数 = 15.7
14 Episode: Finished after 11 steps：10試行の平均step数 = 15.8
15 Episode: Finished after 10 steps：10試行の平均step数 = 15.8
16 Episode: Finished after 15 steps：10試行の平均step数 = 16.4






17 Episode: Finished after 54 steps：10試行の平均step数 = 20.8
18 Episode: Finished after 30 steps：10試行の平均step数 = 22.4
19 Episode: Finished after 22 steps：10試行の平均step数 = 23.2
20 Episode: Finished after 17 steps：10試行の平均step数 = 23.4




21 Episode: Finished after 44 steps：10試行の平均step数 = 26.1
22 Episode: Finished after 46 steps：10試行の平均step数 = 27.9




23 Episode: Finished after 50 steps：10試行の平均step数 = 29.9
24 Episode: Finished after 54 steps：10試行の平均step数 = 34.2
25 Episode: Finished after 29 steps：10試行の平均step数 = 36.1




26 Episode: Finished after 28 steps：10試行の平均step数 = 37.4
27 Episode: Finished after 80 steps：10試行の平均step数 = 40.0




28 Episode: Finished after 42 steps：10試行の平均step数 = 41.2
29 Episode: Finished after 81 steps：10試行の平均step数 = 47.1






30 Episode: Finished after 86 steps：10試行の平均step数 = 54.0
31 Episode: Finished after 87 steps：10試行の平均step数 = 58.3






32 Episode: Finished after 54 steps：10試行の平均step数 = 59.1
33 Episode: Finished after 51 steps：10試行の平均step数 = 59.2




34 Episode: Finished after 45 steps：10試行の平均step数 = 58.3
35 Episode: Finished after 86 steps：10試行の平均step数 = 64.0




36 Episode: Finished after 47 steps：10試行の平均step数 = 65.9
37 Episode: Finished after 55 steps：10試行の平均step数 = 63.4






38 Episode: Finished after 80 steps：10試行の平均step数 = 67.2
39 Episode: Finished after 52 steps：10試行の平均step数 = 64.3






40 Episode: Finished after 200 steps：10試行の平均step数 = 75.7
41 Episode: Finished after 87 steps：10試行の平均step数 = 75.7






42 Episode: Finished after 52 steps：10試行の平均step数 = 75.5
43 Episode: Finished after 51 steps：10試行の平均step数 = 75.5






44 Episode: Finished after 171 steps：10試行の平均step数 = 88.1
45 Episode: Finished after 87 steps：10試行の平均step数 = 88.2








46 Episode: Finished after 184 steps：10試行の平均step数 = 101.9
47 Episode: Finished after 91 steps：10試行の平均step数 = 105.5








48 Episode: Finished after 200 steps：10試行の平均step数 = 117.5




49 Episode: Finished after 123 steps：10試行の平均step数 = 124.6






50 Episode: Finished after 144 steps：10試行の平均step数 = 119.0






51 Episode: Finished after 186 steps：10試行の平均step数 = 128.9






52 Episode: Finished after 146 steps：10試行の平均step数 = 138.3




53 Episode: Finished after 125 steps：10試行の平均step数 = 145.7




54 Episode: Finished after 93 steps：10試行の平均step数 = 137.9
55 Episode: Finished after 82 steps：10試行の平均step数 = 137.4






56 Episode: Finished after 103 steps：10試行の平均step数 = 129.3






57 Episode: Finished after 184 steps：10試行の平均step数 = 138.6




58 Episode: Finished after 102 steps：10試行の平均step数 = 128.8




59 Episode: Finished after 100 steps：10試行の平均step数 = 126.5






60 Episode: Finished after 171 steps：10試行の平均step数 = 129.2




61 Episode: Finished after 96 steps：10試行の平均step数 = 120.2






62 Episode: Finished after 200 steps：10試行の平均step数 = 125.6




63 Episode: Finished after 105 steps：10試行の平均step数 = 123.6








64 Episode: Finished after 200 steps：10試行の平均step数 = 134.3






65 Episode: Finished after 200 steps：10試行の平均step数 = 146.1






66 Episode: Finished after 200 steps：10試行の平均step数 = 155.8






67 Episode: Finished after 177 steps：10試行の平均step数 = 155.1






68 Episode: Finished after 200 steps：10試行の平均step数 = 164.9




69 Episode: Finished after 96 steps：10試行の平均step数 = 164.5






70 Episode: Finished after 163 steps：10試行の平均step数 = 163.7




71 Episode: Finished after 128 steps：10試行の平均step数 = 166.9






72 Episode: Finished after 195 steps：10試行の平均step数 = 166.4








73 Episode: Finished after 200 steps：10試行の平均step数 = 175.9






74 Episode: Finished after 136 steps：10試行の平均step数 = 169.5






75 Episode: Finished after 150 steps：10試行の平均step数 = 164.5






76 Episode: Finished after 130 steps：10試行の平均step数 = 157.5






77 Episode: Finished after 189 steps：10試行の平均step数 = 158.7






78 Episode: Finished after 141 steps：10試行の平均step数 = 152.8






79 Episode: Finished after 114 steps：10試行の平均step数 = 154.6






80 Episode: Finished after 167 steps：10試行の平均step数 = 155.0








81 Episode: Finished after 174 steps：10試行の平均step数 = 159.6






82 Episode: Finished after 195 steps：10試行の平均step数 = 159.6






83 Episode: Finished after 184 steps：10試行の平均step数 = 158.0






84 Episode: Finished after 200 steps：10試行の平均step数 = 164.4






85 Episode: Finished after 185 steps：10試行の平均step数 = 167.9






86 Episode: Finished after 200 steps：10試行の平均step数 = 174.9






87 Episode: Finished after 200 steps：10試行の平均step数 = 176.0








88 Episode: Finished after 200 steps：10試行の平均step数 = 181.9




89 Episode: Finished after 176 steps：10試行の平均step数 = 188.1








90 Episode: Finished after 200 steps：10試行の平均step数 = 191.4






91 Episode: Finished after 182 steps：10試行の平均step数 = 192.2






92 Episode: Finished after 192 steps：10試行の平均step数 = 191.9




93 Episode: Finished after 140 steps：10試行の平均step数 = 187.5






94 Episode: Finished after 154 steps：10試行の平均step数 = 182.9




95 Episode: Finished after 147 steps：10試行の平均step数 = 179.1








96 Episode: Finished after 186 steps：10試行の平均step数 = 177.7




97 Episode: Finished after 163 steps：10試行の平均step数 = 174.0






98 Episode: Finished after 200 steps：10試行の平均step数 = 174.0






99 Episode: Finished after 150 steps：10試行の平均step数 = 171.4






100 Episode: Finished after 200 steps：10試行の平均step数 = 171.4






101 Episode: Finished after 154 steps：10試行の平均step数 = 168.6






102 Episode: Finished after 200 steps：10試行の平均step数 = 169.4






103 Episode: Finished after 149 steps：10試行の平均step数 = 170.3




104 Episode: Finished after 174 steps：10試行の平均step数 = 172.3






105 Episode: Finished after 178 steps：10試行の平均step数 = 175.4






106 Episode: Finished after 129 steps：10試行の平均step数 = 169.7






107 Episode: Finished after 199 steps：10試行の平均step数 = 173.3






108 Episode: Finished after 200 steps：10試行の平均step数 = 173.3






109 Episode: Finished after 200 steps：10試行の平均step数 = 178.3






110 Episode: Finished after 200 steps：10試行の平均step数 = 178.3








111 Episode: Finished after 200 steps：10試行の平均step数 = 182.9






112 Episode: Finished after 200 steps：10試行の平均step数 = 182.9






113 Episode: Finished after 200 steps：10試行の平均step数 = 188.0






114 Episode: Finished after 199 steps：10試行の平均step数 = 190.5






115 Episode: Finished after 194 steps：10試行の平均step数 = 192.1






116 Episode: Finished after 188 steps：10試行の平均step数 = 198.0






117 Episode: Finished after 200 steps：10試行の平均step数 = 198.1






118 Episode: Finished after 194 steps：10試行の平均step数 = 197.5






119 Episode: Finished after 200 steps：10試行の平均step数 = 197.5








120 Episode: Finished after 200 steps：10試行の平均step数 = 197.5






121 Episode: Finished after 200 steps：10試行の平均step数 = 197.5






122 Episode: Finished after 200 steps：10試行の平均step数 = 197.5






123 Episode: Finished after 200 steps：10試行の平均step数 = 197.5






124 Episode: Finished after 198 steps：10試行の平均step数 = 197.4






125 Episode: Finished after 200 steps：10試行の平均step数 = 198.0






126 Episode: Finished after 178 steps：10試行の平均step数 = 197.0






127 Episode: Finished after 200 steps：10試行の平均step数 = 197.0






128 Episode: Finished after 193 steps：10試行の平均step数 = 196.9








129 Episode: Finished after 200 steps：10試行の平均step数 = 196.9






130 Episode: Finished after 194 steps：10試行の平均step数 = 196.3






131 Episode: Finished after 200 steps：10試行の平均step数 = 196.3






132 Episode: Finished after 200 steps：10試行の平均step数 = 196.3






133 Episode: Finished after 187 steps：10試行の平均step数 = 195.0






134 Episode: Finished after 200 steps：10試行の平均step数 = 195.2






135 Episode: Finished after 200 steps：10試行の平均step数 = 195.2






136 Episode: Finished after 200 steps：10試行の平均step数 = 197.4








137 Episode: Finished after 200 steps：10試行の平均step数 = 197.4






138 Episode: Finished after 192 steps：10試行の平均step数 = 197.3






139 Episode: Finished after 200 steps：10試行の平均step数 = 197.3






140 Episode: Finished after 200 steps：10試行の平均step数 = 197.9






141 Episode: Finished after 200 steps：10試行の平均step数 = 197.9






142 Episode: Finished after 200 steps：10試行の平均step数 = 197.9






143 Episode: Finished after 200 steps：10試行の平均step数 = 199.2








144 Episode: Finished after 200 steps：10試行の平均step数 = 199.2






145 Episode: Finished after 200 steps：10試行の平均step数 = 199.2






146 Episode: Finished after 200 steps：10試行の平均step数 = 199.2






147 Episode: Finished after 200 steps：10試行の平均step数 = 199.2






148 Episode: Finished after 200 steps：10試行の平均step数 = 200.0
10回連続成功


NoSuchDisplayException: Cannot connect to "None"