In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [18/12/07] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np
import matplotlib.pyplot as plt


# 自作クラス
#from Agent import Agent

class Academy( object ):
    """
    エージェントの強化学習環境
    ・強化学習モデルにおける環境 Enviroment に対応
    ・学習や推論を行うための設定を行う。
    
    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _max_episode : <int> エピソードの最大回数。最大回数数に到達すると、Academy と全 Agent のエピソードを完了する。
        _max_time_step : <int> 時間ステップの最大回数
        _save_step : <int> 保存間隔（エピソード数）
        _agents : list<AgentBase>
        _done : <bool> エピソードが完了したかのフラグ

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__( self, max_episode = 1, max_time_step = 100, save_step = 5 ):
        self._max_episode = max_episode
        self._max_time_step = max_time_step
        self._save_step = save_step
        self._agents = []
        self._done = False
        return

    def academy_reset( self ):
        """
        学習環境をリセットする。
        """
        if( self._agents != None ):
            for agent in self._agents:
                agent.agent_reset()        

        self._done = False
        return

    def done( self ):
        """
        エピソードを完了にする。
        """
        self._done = True
        return

    def is_done( self ):
        """
        Academy がエピソードを完了したかの取得
        """
        return self._done

    def add_agent( self, agent ):
        """
        学習環境にエージェントを追加する。
        """
        self._agents.append( agent )
        return


    def academy_run( self ):
        """
        学習環境を実行する
        """
        # エピソードを試行
        for episode in range( 0, self._max_episode ):
            print( "現在のエピソード数：", episode )

            # 学習環境を RESET
            self.academy_reset()

            # 時間ステップを 1ステップづつ進める
            for time_step in range( 0 ,self._max_time_step ):
                dones = []

                # 学習環境の動画のフレームを追加
                if( episode % self._save_step == 0 ):
                    self.add_frame( episode, time_step )
                if( episode == self._max_episode - 1 ):
                    self.add_frame( episode, time_step )

                for agent in self._agents:
                    done = agent.agent_step( episode, time_step )
                    dones.append( done )

                # 全エージェントが完了した場合
                if( all(dones) == True ):
                    break

            # Academy と全 Agents のエピソードを完了
            self._done = True
            for agent in self._agents:
                agent.agent_on_done( episode, time_step )

            # 動画を保存
            if( episode % self._save_step == 0 ):
                self.save_frames( "RL_ENV_Episode{}.gif".format(episode) )
                self._frames = []

            if( episode == self._max_episode - 1 ):
                self.save_frames( "RL_ENV_Episode{}.gif".format(episode) )
                self._frames = []
        
        return


    def add_frame( self, episode, times_step ):
        """
        強化学習の環境の１フレームをリストに追加する
        """
        #frame = None
        #self._frames.append( frame )
        return

    def save_frames( self, file_name ):
        """
        外部ファイルに動画を保存する。
        """
        return



In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/03/18] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import animation
import os.path

#from JSAnimation.IPython_display import display_animation
#from matplotlib import animation
#from IPython.display import display
#%matplotlib inline

# 自作クラス
#from Academy import Academy
#from Agent import Agent


class BreakoutAcademy( Academy ):
    """
    エージェントの強化学習環境
    ・強化学習モデルにおける環境 Enviroment に対応
    ・学習や推論を行うための設定を行う。
    
    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _env : OpenAIGym の ENV

        _frames : list<>
            動画のフレーム（１つの要素が１画像のフレーム）
        
    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__( self, env, max_episode = 1, max_time_step = 100, save_step = 100 ):
        super().__init__( max_episode, max_time_step, save_step )
        self._env = env
        self._frames = []
        return


    def academy_reset( self ):
        """
        学習環境をリセットする。
        ・エピソードの開始時にコールされる
        """
        if( self._agents != None ):
            for agent in self._agents:
                agent.agent_reset()        

        self._done = False
        #self._env.reset()
        return

    def academy_run( self ):
        """
        学習環境を実行する
        """
        #self.academy_reset()

        # エピソードを試行
        for episode in range( 0, self._max_episode ):
            # 学習環境を RESET
            self.academy_reset()

            # 時間ステップを 1ステップづつ進める
            for time_step in range( 0 ,self._max_time_step ):
                dones = []

                if( episode % self._save_step == 0 ):
                    # 学習環境の動画のフレームを追加
                    self.add_frame( episode, time_step )
                if( episode == self._max_episode - 1 ):
                    # 学習環境の動画のフレームを追加
                    self.add_frame( episode, time_step )

                for agent in self._agents:
                    done = agent.agent_step( episode, time_step )
                    dones.append( done )

                # 全エージェントが完了した場合
                if( all(dones) == True ):
                    break

            # Academy と全 Agents のエピソードを完了
            self._done = True
            for agent in self._agents:
                agent.agent_on_done( episode, time_step )

            # 動画を保存
            if( episode % self._save_step == 0 ):
                self.save_frames( "RL_ENV_{}_Episode{}.gif".format(self._env.spec.id, episode) )
                self._frames = []

            if( episode == self._max_episode - 1 ):
                self.save_frames( "RL_ENV_{}_Episode{}.gif".format(self._env.spec.id, episode) )
                self._frames = []

        return


    def add_frame( self, episode, times_step ):
        """
        強化学習環境の１フレームを追加する
        """
        frame = self._env.render( mode='rgb_array' )
        self._frames.append( frame )

        return


    def save_frames( self, file_name = "RL_ENV_CartPole-v0.mp4" ):
        """
        外部ファイルに動画を保存する。
        """
        plt.clf()
        plt.figure(
            figsize=( self._frames[0].shape[1]/72.0, self._frames[0].shape[0]/72.0 ),
            dpi=72
        )
        patch = plt.imshow( self._frames[0] )
        plt.axis('off')
        
        def animate(i):
            patch.set_data( self._frames[i] )

        anim = animation.FuncAnimation(
                   plt.gcf(), 
                   animate, 
                   frames = len( self._frames ),
                   interval=50
        )

        # 動画の保存
        ftitle, fext = os.path.splitext(file_name)
        if( fext == ".gif" ):
            anim.save( file_name, writer = 'imagemagick' )
        else:
            anim.save( file_name )

        #display( display_animation(anim, default_mode='loop') )
        
        plt.close()

        return


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/03/18] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import animation
import os.path

# 自作クラス
#from Academy import Academy
#from Agent import Agent


class BreakoutAcademy( Academy ):
    """
    エージェントの強化学習環境
    ・強化学習モデルにおける環境 Enviroment に対応
    ・学習や推論を行うための設定を行う。
    
    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _env : OpenAIGym の ENV

        _frames : list<>
            動画のフレーム（１つの要素が１画像のフレーム）
        
    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__( self, env, max_episode = 1, max_time_step = 100, save_step = 100 ):
        super().__init__( max_episode, max_time_step, save_step )
        self._env = env
        self._frames = []
        return


    def academy_reset( self ):
        """
        学習環境をリセットする。
        ・エピソードの開始時にコールされる
        """
        if( self._agents != None ):
            for agent in self._agents:
                agent.agent_reset()        

        self._done = False
        #self._env.reset()
        return

    def academy_run( self ):
        """
        学習環境を実行する
        """
        #self.academy_reset()

        # エピソードを試行
        for episode in range( 0, self._max_episode ):
            # 学習環境を RESET
            self.academy_reset()

            # 時間ステップを 1ステップづつ進める
            for time_step in range( 0 ,self._max_time_step ):
                dones = []

                if( episode % self._save_step == 0 ):
                    # 学習環境の動画のフレームを追加
                    self.add_frame( episode, time_step )
                if( episode == self._max_episode - 1 ):
                    # 学習環境の動画のフレームを追加
                    self.add_frame( episode, time_step )

                for agent in self._agents:
                    done = agent.agent_step( episode, time_step )
                    dones.append( done )

                # 全エージェントが完了した場合
                if( all(dones) == True ):
                    break

            # Academy と全 Agents のエピソードを完了
            self._done = True
            for agent in self._agents:
                agent.agent_on_done( episode, time_step )

            # 動画を保存
            if( episode % self._save_step == 0 ):
                self.save_frames( "RL_ENV_{}_Episode{}.gif".format(self._env.spec.id, episode) )
                self._frames = []

            if( episode == self._max_episode - 1 ):
                self.save_frames( "RL_ENV_{}_Episode{}.gif".format(self._env.spec.id, episode) )
                self._frames = []

        return


    def add_frame( self, episode, times_step ):
        """
        強化学習環境の１フレームを追加する
        """
        frame = self._env.render( mode='rgb_array' )
        self._frames.append( frame )

        return


    def save_frames( self, file_name = "RL_ENV_CartPole-v0.mp4" ):
        """
        外部ファイルに動画を保存する。
        """
        plt.clf()
        plt.figure(
            figsize=( self._frames[0].shape[1]/72.0, self._frames[0].shape[0]/72.0 ),
            dpi=72
        )
        patch = plt.imshow( self._frames[0] )
        plt.axis('off')
        
        def animate(i):
            patch.set_data( self._frames[i] )

        anim = animation.FuncAnimation(
                   plt.gcf(), 
                   animate, 
                   frames = len( self._frames ),
                   interval=50
        )

        # 動画の保存
        ftitle, fext = os.path.splitext(file_name)
        if( fext == ".gif" ):
            anim.save( file_name, writer = 'imagemagick' )
        else:
            anim.save( file_name )

        plt.close()

        return


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [18/12/04] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np


class Agent( object ):
    """
    強化学習におけるエージェントをモデル化したクラス。
    ・実際の Agent クラスの実装は、このクラスを継承し、オーバーライドするを想定している。

    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _brain : <Brain> エージェントの Brain への参照
        _observations : list<動的な型> エージェントが観測できる状態
        _total_reward : <float> 割引利得の総和
        _gamma : <float> 収益の割引率
        _done : <bool> エピソードの完了フラグ
        _state : <int> エージェントの現在の状態 s
        _action : <int> エピソードの現在の行動 a
        _s_a_historys : list< [int,int] > エピソードの状態と行動の履歴
        _reward_historys : list<float> 割引利得の履歴 / shape = [n_episode]

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__( 
        self, 
        brain = None, 
        gamma = 0.9, 
        state0 = 0
    ):
        self._brain = brain
        self._observations = []
        self._total_reward = 0.0
        self._gamma = gamma
        self._done = False
        self._state = state0
        self._action = np.nan
        self._s_a_historys = [ [ self._state, self._action ] ]
        self._reward_historys = [self._total_reward]
        return

    def print( self, str ):
        print( "----------------------------------" )
        print( "Agent" )
        print( self )
        print( str )

        print( "_brain : \n", self._brain )
        print( "_observations : \n", self._observations )
        print( "_total_reward : \n", self._total_reward )
        print( "_gamma : \n", self._gamma )
        print( "_done : \n", self._done )
        print( "_state : \n", self._state )
        print( "_action : \n", self._action )
        print( "_s_a_historys : \n", self._s_a_historys )
        print( "_reward_historys : \n", self._reward_historys )
        print( "----------------------------------" )
        return

    def get_s_a_historys( self ):
        return self._s_a_historys

    def get_reward_historys( self ):
        return self._reward_historys

    def collect_observations( self ):
        """
        Agent が観測している State を Brain に提供する。
        ・Brain が、エージェントの状態を取得時にコールバックする。
        """
        self._observations = []
        return self._observations


    def set_brain( self, brain ):
        """
        エージェントの Brain を設定する。
        """
        self._brain = brain
        return

    def add_vector_obs( self, observation ):
        """
        エージェントが観測できる状態を追加する。
        """
        self._observations.append( observation )
        return

    def done( self ):
        """
        エピソードを完了にする。
        """
        self._done = True
        return

    def is_done( self ):
        """
        Academy がエピソードを完了したかの取得
        """
        return self._done

    def set_total_reword( self, total_reward ):
        """
        報酬をセットする
        """
        self._total_reward = total_reward
        return self._total_reward

    def add_reward( self, reward, time_step ):
        """
        報酬を加算する
        ・割引収益 Rt = Σ_t γ^t r_t+1 になるように報酬を加算する。
        """
        self._total_reward += (self._gamma**time_step) * reward
        return self._total_reward

    def agent_reset( self ):
        """
        エージェントの再初期化処理
        """
        self._total_reward = 0.0
        self._done = False
        self._state = self._s_a_historys[0][0]
        self._action = self._s_a_historys[0][1]
        self._s_a_historys = [ [ self._state, self._action ] ]
        return

    def agent_step( self, episode, time_step ):
        """
        エージェント [Agent] の次の状態を決定する。
        ・Academy から各時間ステップ度にコールされるコールバック関数

        [Args]
            episode : <int> 現在のエピソード数
            time_step : <int> 現在の時間ステップ

        [Returns]
            done : <bool> エピソードの完了フラグ
        """
        self._done = False
        return self._done
    

    def agent_on_done( self, episode, time_step ):
        """
        Academy のエピソード完了後にコールされ、エピソードの終了時の処理を記述する。
        ・Academy からコールされるコールバック関数

        [Args]
            episode : <int> 現在のエピソード数
            time_step : <int> エピソード完了時の時間ステップ数
        """
        return



In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [18/12/05] : 新規作成
    [xx/xx/xx] : 
"""

class Brain( object ):
    """
    エージェントの意思決定ロジック
    ・複数のエージェントが同じ意識決定ロジックを共有出来るように、Brain として class 化する。
    ・移動方法などの Action を設定する。

    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _n_states : <int> 状態の要素数
        _n_actions : <int> 行動の要素数
                
    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(
        self,
        n_states,
        n_actions
    ):
        self._n_states = n_states
        self._n_actions = n_actions
        return

    def print( self, str ):
        print( "----------------------------------" )
        print( "Brain" )
        print( self )
        print( str )
        print( "_n_states : \n", self._n_states )
        print( "_n_actions : \n", self._n_actions )
        print( "----------------------------------" )
        return

    def reset_brain( self ):
        """
        Brain を再初期化する
        """        
        return


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/03/18] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np

# PyTorch
import torch.nn as nn
import torch.nn.functional as F

class Flatten( nn.Module) :
    '''コンボリューション層の出力画像を1次元に変換する層を定義'''

    def forward(self, x):
        return x.view(x.size(0), -1)


class QNetworkCNN( nn.Module ):
    """
    DQN のネットワーク構成
    PyTorch の nn.Module を継承して

    [public]

    """
    def __init__( self, device, in_channles, n_actions ):
        """
        [Args]
            _device : <torch.device> 実行デバイス

            in_channles : チャンネル数（＝入力画像データの枚数）
            n_actions : 状態数 |A| / 出力ノード数に対応する。
        """
        super( QNetworkCNN, self ).__init__()
        self._device = device

        def init_wight( module ):
            """
            ネットワーク層の重みが直交行列になるように初期化
            """
            # ? gain 値を取得（Relu⇒√2）
            gain = nn.init.calculate_gain( "relu" )

            #
            nn.init.orthogonal_( module.weight.data, gain = gain )
            nn.init.constant_( module.bias.data, 0 )
            return module

        self.layer = nn.Sequential(
            init_wight( nn.Conv2d( in_channels = in_channles, out_channels = 32, kernel_size = 8, stride = 4 ) ),
            nn.ReLU(),
            init_wight( nn.Conv2d( in_channels = 32, out_channels = 64, kernel_size = 4, stride = 2 ) ),
            nn.ReLU(),
            init_wight( nn.Conv2d( in_channels = 64, out_channels = 64, kernel_size = 3, stride = 1 ) ),
            nn.ReLU(),
            Flatten(),
            init_wight( nn.Linear( in_features = 7*7*64, out_features = 512 ) ),
            nn.ReLU(),
            init_wight( nn.Linear( in_features = 512, out_features = n_actions ) )
        )

        return

    def forward( self, x ):
        """
        ネットワークの順方向での更新処理
        """
        # 画像のピクセル値0-255を0-1に正規化する
        #x = x / 255.0

        output = self.layer(x)

        return output


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/03/19] : 新規作成
                ・参考：https://github.com/openai/baselines/blob/master/baselines/common/atari_wrappers.py
    [xx/xx/xx] : 
"""
import numpy as np
from collections import deque

# OpenAI Gym
import gym
from gym import spaces
from gym.spaces.box import Box

# PyTorch
import torch.nn as nn
import torch.nn.functional as F

# OpenCV
import cv2
cv2.ocl.setUseOpenCL(False)     # ?


class NoopResetEnv( gym.Wrapper ):
    """
    強化学習環境のリセット直後の特定の開始状態で大きく依存して学習が進むのを防ぐために、
    強化学習環境のリセット直後、数ステップ間は何も学習しないプロセスを実施する。
    ・OpenAI Gym の env をラッピングして実装している。
    ・atari_wrappers.py と同じ内容

    [public]
        env : OpenAIGym の ENV
        noop_max : <int> 何も学習しないステップ数
        override_num_noops : 
        noop_action : <int> 何もしない行動の値

    [protected] 変数名の前にアンダースコア _ を付ける

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(self, env, noop_max=30):
        gym.Wrapper.__init__(self, env)
        self.noop_max = noop_max
        self.override_num_noops = None
        self.noop_action = 0
        assert env.unwrapped.get_action_meanings()[0] == 'NOOP'

    def reset(self, **kwargs):
        """
        reset() メソッドをオーバーライド
        Do no-op action for a number of steps in [1, noop_max].
        """
        self.env.reset(**kwargs)
        if self.override_num_noops is not None:
            noops = self.override_num_noops
        else:
            noops = self.unwrapped.np_random.randint(
                1, self.noop_max + 1)  # pylint: disable=E1101
        assert noops > 0
        obs = None
        for _ in range(noops):
            obs, _, done, _ = self.env.step(self.noop_action)
            if done:
                obs = self.env.reset(**kwargs)
        return obs

    def step(self, ac):
        """
        step() メソッドをオーバーライト
        """
        return self.env.step(ac)


class EpisodicLifeEnv(gym.Wrapper):
    """
    Breakout は５機のライフがあるので、５回失敗でゲーム終了となるが、
    この残機では学習が面倒なので、１回失敗でゲーム終了に設定する。
    但し、１回失敗毎に完全にリセットすると、初期状態ばかり学習してしまい、過学習してしまいやすいので、
    １回失敗でのリセットでは、崩したブロックの状態はそのままにしておいて、
    ５回失敗でのリセットでは、崩したブロックの状態もリセットする完全なリセットとする。
    ・OpenAI Gym の env をラッピングして実装している。
    ・atari_wrappers.py と同じ内容？

    [public]
        env : OpenAIGym の ENV
        lives : <int> 残機
        was_real_done : <bool> 完全なリセットの意味での終了フラグ

    [protected] 変数名の前にアンダースコア _ を付ける

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(self, env):
        gym.Wrapper.__init__(self, env)
        self.lives = 0
        self.was_real_done = True

    def step(self, action):
        """
        step() メソッドをオーバーライト
        """
        obs, reward, done, info = self.env.step(action)
        self.was_real_done = done
        # check current lives, make loss of life terminal,
        # then update lives to handle bonus lives
        lives = self.env.unwrapped.ale.lives()
        if lives < self.lives and lives > 0:
            # for Qbert sometimes we stay in lives == 0 condtion for a few frames
            # so its important to keep lives > 0, so that we only reset once
            # the environment advertises done.
            done = True
        self.lives = lives
        return obs, reward, done, info

    def reset(self, **kwargs):
        """
        reset() メソッドをオーバーライト
        ・5機とも失敗したら、本当にリセット
        """
        if self.was_real_done:
            obs = self.env.reset(**kwargs)
        else:
            # no-op step to advance from terminal/lost life state
            obs, _, _, _ = self.env.step(0)
        self.lives = self.env.unwrapped.ale.lives()
        return obs


class MaxAndSkipEnv(gym.Wrapper):
    """
    Breakout は 60FPS で動作するが、この速さで動かすと早すぎるので、
    ４フレーム単位で行動を判断させ、４フレーム連続で同じ行動を行うようにする。
    これにより、60FPS → 15 FPS となる。
    但し、atari のゲームには、奇数フレームと偶数フレームで現れる画像が異なるゲームがあるために、
    画面上のチラツキを抑える意味で、最後の3、4フレームの最大値をとった画像を observation として採用する。
    ・OpenAI Gym の env をラッピングして実装している。
    ・atari_wrappers.py とほぼ同じ内容

    [public]
        env : OpenAIGym の ENV

    [protected] 変数名の前にアンダースコア _ を付ける
        _obs_buffer :
        _skip : <int> フレームのスキップ数

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(self, env, skip=4):
        gym.Wrapper.__init__(self, env)
        # most recent raw observations (for max pooling across time steps)
        self._obs_buffer = np.zeros(
            (2,)+env.observation_space.shape, dtype=np.uint8)
        self._skip = skip

    def step(self, action):
        """
        step() メソッドをオーバーライト
        Repeat action, sum reward, and max over last observations.
        """
        total_reward = 0.0
        done = None
        for i in range(self._skip):
            obs, reward, done, info = self.env.step(action)
            if i == self._skip - 2:
                self._obs_buffer[0] = obs
            if i == self._skip - 1:
                self._obs_buffer[1] = obs
            total_reward += reward
            if done:
                break
        # Note that the observation on the done=True frame
        # doesn't matter
        max_frame = self._obs_buffer.max(axis=0)

        return max_frame, total_reward, done, info

    def reset(self, **kwargs):
        """
        reset() メソッドをオーバーライト
        """
        return self.env.reset(**kwargs)


class ClipRewardEnv(gym.RewardWrapper):
    """
    報酬のクリッピング
    """
    def _reward(self, reward):
        """Bin reward to {+1, 0, -1} by its sign."""
        return np.sign(reward)

      

class WarpFrame(gym.ObservationWrapper):
    """
    画像サイズをNatureのDQN論文と同じ84x84のグレースケールに reshape する。

    [public]
        env : OpenAIGym の ENV
        observation_space : <spaces.Box> obsevation の shape / 継承先の gym.ObservationWrapper からの変数
        width : <int> 入力画像の幅のリサイズ後の値
        height : <int> 入力画像の高さのリサイズ後の値

    [protected] 変数名の前にアンダースコア _ を付ける

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(self, env):
        gym.ObservationWrapper.__init__(self, env)
        self.width = 84
        self.height = 84
        self.observation_space = spaces.Box(
            low=0, high=255,
            shape=(self.height, self.width, 1),
            dtype=np.uint8
        )

    def observation(self, frame):
        """
        observation の Getter をオーバーライド
        """
        # 入力画像をグレースケールに変換
        frame = cv2.cvtColor(frame, cv2.COLOR_RGB2GRAY)

        #
        frame = cv2.resize(
            frame, (self.width, self.height),
            interpolation=cv2.INTER_AREA
        )

        return frame    # [width,height] で return

      

class WrapFrameStack(gym.Wrapper):
    def __init__(self, env, n_stack_frames = 4 ):
        """
        obsevation を４フレーム分重ねる。
        モデルに一度に入力する画像データのフレーム数
        """
        gym.Wrapper.__init__(self, env)
        self.n_stack_frames = n_stack_frames
        self.frames = deque( [], maxlen = n_stack_frames )  # deque 構造で４フレーム分だけ確保
        obs_shape = env.observation_space.shape
        self.observation_space = spaces.Box( 
            low = 0, high = 255, 
            shape = ( obs_shape[0], obs_shape[1], obs_shape[2] * n_stack_frames )
        )
        return


    def reset(self):
        obs = self.env.reset()
        for _ in range(self.n_stack_frames):
            self.frames.append( obs )

        # list 部分を numpy 化
        observation = np.array( self.frames )
        return observation

    def step(self, action):
        """
        step() メソッドをオーバーライト
        """
        obs, reward, done, info = self.env.step(action)
        self.frames.append(obs)

        # list 部分を numpy 化
        observation = np.array( self.frames )
        return observation, reward, done, info


class ScaledFloatFrame(gym.ObservationWrapper):
    def _observation(self, observation):
        # careful! This undoes the memory optimization, use
        # with smaller replay buffers only.
        return np.array(observation).astype(np.float32) / 255.0
      
      
class WrapMiniBatch(gym.ObservationWrapper):
    """
    obsevation を ミニバッチ学習用のインデックス順に reshape する。
    [height, width, n_channels(=n_skip_frames)] → [n_channels(=n_skip_frames), height, width] 
    """
    def __init__(self, env=None):
        super(WrapMiniBatch, self).__init__(env)
        obs_shape = self.observation_space.shape
        self.observation_space = Box(
            self.observation_space.low[0, 0, 0],
            self.observation_space.high[0, 0, 0],
            shape = [obs_shape[2], obs_shape[0], obs_shape[1] ],
            dtype=self.observation_space.dtype
        )
        return

    def observation(self, observation):
        """
        observation の Getter をオーバーライド
        """
        # [height, width, n_channels(=n_skip_frames)] → [n_channels(=n_skip_frames), height, width] に reshape
        return observation.transpose(2, 0, 1)


def make_env( device, env_id, seed = 8, n_noop_max = 30, n_skip_frame = 4, n_stack_frames = 4 ):
    """
    上記 Wrapper による強化学習環境の生成メソッド

    [Args]
        device : <torch.device> 実行デバイス
        env_id : 
    """
    # OpenAI Gym の強化学習環境生成
    env = gym.make(env_id)

    # env をラッピングしていくことで、独自の設定を適用する。
    env = NoopResetEnv( env, noop_max = n_noop_max )
    env = MaxAndSkipEnv( env, skip = n_skip_frame )
    env.seed(seed)                  # 乱数シードの設定
    env = EpisodicLifeEnv(env)
    env = WarpFrame(env)
    env = ScaledFloatFrame(env)
    env = ClipRewardEnv(env)
    env = WrapFrameStack(env, n_stack_frames )
    #env = WrapMiniBatch(env)
    
    return env


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/02/12] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np
import random

# PyTorch
import torch

from collections import namedtuple

Transition = namedtuple(
    typename = "Transition",
    field_names = ( "state", "action", "next_state", "reward" )
)


class ExperienceReplay( object ):
    """
    Experience Replay による学習用のミニバッチデータの生成を行うクラス

    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _device : <torch.device> 実行デバイス

        _capacity : [int] メモリの最大値
        _memory : [list] (s,a,s',a',r) のリスト（学習用データ）
        _index : [int] 現在のメモリのインデックス
             
    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(
        self,
        device,
        capacity = 10000
    ):
        self._device = device
        self._capacity = capacity
        self._memory = []
        self._index = 0
        return

    def __len__( self ):
        return len( self._memory )

    def print( self, str ):
        print( "----------------------------------" )
        print( "CartPoleAgent" )
        print( self )
        print( str )
        print( "_device :", self._device )
        print( "_capacity :", self._capacity )
        print( "_memory : \n", self._memory )
        print( "_index : \n", self._index )
        return

    def push( self, state, action, next_state, reward ):
        """
        学習用のデータのメモリに、データを push する
        [Args]
            state : <> 現在の状態 s
            action : <> 現在の行動 a
            next_state : <> 次の状態 s'
            reword : <> 報酬        
        [Returns]
        """
        # 現在のメモリサイズが上限値以下なら、新たに容量を確保する。
        if( len(self._memory) < self._capacity ):
            self._memory.append( None )

        # nametuple を使用して、メモリに値を格納
        self._memory[ self._index ] = Transition( state, action, next_state, reward )

        # 現在のインデックスをづらす
        self._index = ( self._index + 1 ) % self._capacity

        return

    def pop( self, batch_size ):
        """
        ミニバッチサイズ分だけ、ランダムにメモリの内容を取り出す
        [Args]
        [Returns]
            
        """
        return random.sample( self._memory, batch_size )


    def get_mini_batch( self, batch_size ):
        """
        ミニバッチデータを取得する
        [Args]
        [Returns]
        """
        #----------------------------------------------------------------------
        # Experience Replay に基づき、ミニバッチ処理用のデータセットを生成する。
        #----------------------------------------------------------------------
        # メモリサイズがまだミニバッチサイズより小さい場合は、処理を行わない
        if( len(self._memory) < batch_size ):
            return None, None, None, None, None

        # ミニバッチサイズ以上ならば、学習用データを pop する
        transitions = self.pop( batch_size )
        #print( "transitions :", transitions )

        # 取り出したデータをミニバッチ学習用に reshape
        # transtions : shape = 1 step 毎の (s,a,s',r) * batch_size / shape = 32 * 4
        # → shape = (s * batch_size, a * batch_size, s' * batch_size, r * batch_size) / shape = 4 * 32
        batch = Transition( *zip(*transitions) )
        #print( "batch :", batch )

        #
        state_batch = torch.cat( batch.state ).to(self._device)
        action_batch = torch.cat( batch.action ).to(self._device)
        reward_batch = torch.cat( batch.reward ).to(self._device)

        non_final_next_states = torch.cat(
            [s for s in batch.next_state if s is not None]
        ).to(self._device)

        return batch, state_batch, action_batch, reward_batch, non_final_next_states


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/03/18] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np

# OpenAI Gym
import gym

# PyTorch
import torch

# 自作クラス
#from Agent import Agent


class BreakoutAgent( Agent ):
    """
    OpenAIGym の Breakout のエージェント

    [protected] 変数名の前にアンダースコア _ を付ける
        _device : <torch.device> 実行デバイス

        _env : OpenAI Gym の ENV
        _losses : list<float> 損失関数の値のリスト（長さはエピソード長）

    """
    def __init__( 
        self,
        device,
        env,
        brain = None, 
        gamma = 0.9
    ):
        super().__init__( brain, gamma, 0 )
        self._device = device
        self._env = env        
        self._total_reward = torch.FloatTensor( [0.0] )
        self._loss_historys = []

        obs_shape = self._env.observation_space.shape  # (1, 84, 84)

        # shape = [mini_batch, n_stack_frames(=n_channels), height, width]
        #self._observations = torch.zeros( 1, 4, obs_shape[1], obs_shape[2] )
        self._observations = torch.zeros( 1, 1, obs_shape[1], obs_shape[2] ).to(self._device)
        return

    def print( self, str ):
        print( "----------------------------------" )
        print( "BreakoutAgent" )
        print( self )
        print( str )
        print( "_device :", self._device )
        print( "_env :", self._env )
        print( "_brain : \n", self._brain )
        print( "_observations : \n", self._observations )
        print( "_total_reward : \n", self._total_reward )
        print( "_gamma : \n", self._gamma )
        print( "_done : \n", self._done )
        print( "_s_a_historys : \n", self._s_a_historys )
        print( "_reward_historys : \n", self._reward_historys )
        print( "----------------------------------" )
        return

    def get_loss_historys( self ):
        return self._loss_historys

    def agent_reset( self ):
        """
        エージェントの再初期化処理
        """
        observations_next = self._env.reset()   # shape = [1,84,84]

        # numpy → Tensor に型変換
        observations_next = torch.from_numpy(observations_next).float().to(self._device)

        # ミニバッチ用の次元を追加
        observations_next = torch.unsqueeze( observations_next, dim = 0 ).to(self._device)

        #self._observations[:-1] = self._observations[1:]  # 0～2番目に1～3番目を上書き
        #self._observations[-1:] = observations_next  # 4番目に最新のobsを格納
        self._observations = observations_next

        self._total_reward = torch.FloatTensor( [0.0] )
        self._done = False
        return

    def agent_step( self, episode, time_step ):
        """
        エージェント [Agent] の次の状態を決定する。
        ・Academy から各時間ステップ度にコールされるコールバック関数

        [Args]
            episode : 現在のエピソード数
            time_step : 現在の時間ステップ

        [Returns]
            done : bool
                   エピソードの完了フラグ
        """
        # 既にエピソードが完了状態なら、そのまま return して、全エージェントの完了を待つ
        if( self._done == True):
            return self._done

       
        #-------------------------------------------------------------------
        # ε-greedy 法の ε 値を減衰させる。
        #-------------------------------------------------------------------
        #self._brain.decay_epsilon()
        self._brain.decay_epsilon_episode( episode )
        
        #-------------------------------------------------------------------
        # 行動 a_t を求める
        #-------------------------------------------------------------------
        action = self._brain.action( self._observations, time_step )
        #print( "action :", action )

        #-------------------------------------------------------------------
        # 行動を実行する。
        #-------------------------------------------------------------------
        observations_next, reward, env_done, info = self._env.step( action.item() )

        # numpy → PyTorch 用の型に変換
        observations_next = torch.from_numpy(observations_next).float().to(self._device)

        # ミニバッチ学習用の次元を追加
        observations_next = torch.unsqueeze( observations_next, dim = 0 ).to(self._device)

        #print( "reward :", reward )
        #print( "env_done :", env_done )
        #print( "info :", info )

        #------------------------------------------------------------------
        # 行動の実行により、次の時間での状態 s_{t+1} 報酬 r_{t+1} を求める。
        #------------------------------------------------------------------
        self.add_reward( reward, time_step )
        reward = torch.FloatTensor( [reward] ).to(self._device)

        # env_done : ステップ数が最大数経過 OR 一定角度以上傾くと ⇒ True
        if( env_done == True ):
            # 次の状態は存在しない（＝終端状態）ので、None に設定する
            observations_next = None
        else:
            pass

        #----------------------------------------
        # 価値関数の更新
        #----------------------------------------
        self._brain.update_q_function( self._observations, action, observations_next, reward )

        #----------------------------------------
        # 状態の更新
        #----------------------------------------
        #self._observations[:-1] = self._observations[1:]  # 0～2番目に1～3番目を上書き
        #self._observations[-1:] = observations_next  # 4番目に最新のobsを格納
        self._observations = observations_next

        #----------------------------------------
        # 完了時の処理
        #----------------------------------------
        if( env_done == True ):
            self.done()

        return self._done


    def agent_on_done( self, episode, time_step ):
        """
        Academy のエピソード完了後にコールされ、エピソードの終了時の処理を記述する。
        ・Academy からコールされるコールバック関数

        [Args]
            episode : <int> 現在のエピソード数
        """
        print( "エピソード = {0} / 最終時間ステップ数 = {1}".format( episode, time_step )  )

        # 利得の履歴に追加
        self._reward_historys.append( self._total_reward )

        # 損失関数の履歴に追加
        print( "loss = %0.6f" % self._brain.get_loss() )
        self._loss_historys.append( self._brain.get_loss() )

        # 一定間隔で、Target Network と Main Network を同期する
        if( (episode % 2) == 0 ):
            self._brain.update_target_q_function()

        return


In [0]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

"""
    更新情報
    [19/03/18] : 新規作成
    [xx/xx/xx] : 
"""
import numpy as np
import random

# 自作クラス
#from Brain import Brain
#from Agent import Agent
#from ExperienceReplay import ExperienceReplay
#from QNetworkCNN import QNetworkCNN

# PyTorch
import torch
from torch  import nn   # ネットワークの構成関連
from torch import optim
import torch.nn.functional as F


class BreakoutDQN2015Brain( Brain ):
    """
    Breakoutの Brain。
    ・DQN によるアルゴリズム
    
    [public]

    [protected] 変数名の前にアンダースコア _ を付ける
        _device : <torch.device> 実行デバイス

        _epsilon : <float> ε-greedy 法の ε 値
        _gamma : <float> 割引利得の γ 値
        _learning_rate : <float> 学習率

        _q_function : <> 教師信号である古いパラメーター θ- で固定化された行動状態関数 Q(s,a,θ-)
        _expected_q_function : <> 推定行動状態関数 Q(s,a,θ)
        _memory : <ExperienceRelay> ExperienceRelayに基づく学習用のデータセット

        _main_network : <QNetwork> DQNのネットワーク
        _target_network : <QNetwork> DQNのターゲットネットワーク

        _loss_fn : <torch.> モデルの損失関数
        _optimizer : <torch.optimizer> モデルの最適化アルゴリズム

        _n_stack_frames : <int> モデルに一度に入力する画像のフレーム数

    [private] 変数名の前にダブルアンダースコア __ を付ける（Pythonルール）

    """
    def __init__(
        self,
        device,
        n_states, n_actions,
        epsilon_init = 1.0, epsilon_final = 0.1, n_epsilon_step = 1000000,
        gamma = 0.9, learning_rate = 0.0001,
        batch_size = 32,
        memory_capacity = 10000,
        n_stack_frames = 4,
        n_skip_frames = 4
    ):
        super().__init__( n_states, n_actions )
        self._device = device
        self._epsilon = epsilon_init
        self._epsilon_init = epsilon_init
        self._epsilon_final = epsilon_final
        self._gamma = gamma
        self._learning_rate = learning_rate
        self._batch_size = batch_size
        self._n_stack_frames = n_stack_frames
        self._n_skip_frames = n_skip_frames

        self._main_network = None
        self._target_network = None
        self.model()

        self._loss_fn = None
        self._optimizer = None

        self._q_function = None
        self._expected_q_function = None
        self._memory = ExperienceReplay( device = device, capacity = memory_capacity )

        self._b_loss_init = False

        self._epsilon_step = ( epsilon_init - epsilon_final ) / n_epsilon_step
        self._action_repeat = torch.LongTensor( [0] )

        return

    def print( self, str ):
        print( "----------------------------------" )
        print( "BreakoutDQN2015Brain" )
        print( self )
        print( str )
        print( "_device :", self._device )
        print( "_n_states : ", self._n_states )
        print( "_n_actions : ", self._n_actions )
        print( "_epsilon : ", self._epsilon )
        print( "_epsilon_init : ", self._epsilon_init )
        print( "_epsilon_final : ", self._epsilon_final )
        print( "_epsilon_step : ", self._epsilon_step )
        print( "_gamma : ", self._gamma )
        print( "_learning_rate : ", self._learning_rate )
        print( "_batch_size : ", self._batch_size )
        print( "_n_stack_frames : ", self._n_stack_frames )
        print( "_n_skip_frames : ", self._n_skip_frames )

        print( "_q_function : \n", self._q_function )
        print( "_expected_q_function : \n", self._expected_q_function )
        print( "_memory :", self._memory )

        print( "_main_network :\n", self._main_network )
        print( "_target_network :", self._target_network )
        print( "_loss_fn :\n", self._loss_fn )
        print( "_optimizer :\n", self._optimizer )

        print( "----------------------------------" )
        return

    def get_q_function( self ):
        """
        Q 関数の値を取得する。
        """
        return self._q_function


    def model( self ):
        """
        DQN のネットワーク構成を構築する。
        
        [Args]
        [Returns]
        """
        #------------------------------------------------
        # ネットワーク構成
        #------------------------------------------------        
        self._main_network = QNetworkCNN(
            device = self._device,
            in_channles = self._n_stack_frames,
            n_actions = self._n_actions
        ).to(self._device)

        self._target_network = QNetworkCNN(
            device = self._device,
            in_channles = self._n_stack_frames,
            n_actions = self._n_actions
        ).to(self._device)
        
        print( "main network :", self._main_network )
        print( "target network :", self._target_network )
        return

    def loss( self ):
        """
        モデルの損失関数を設定する。
        [Args]
        [Returns]
            self._loss_fn : <> モデルの損失関数
        """
        # smooth L1 関数（＝Huber 関数）
        self._loss_fn = F.smooth_l1_loss( 
            input = self._q_function,                        # 行動価値関数 Q(s,a;θ) / shape = n_batch
            target = self._expected_q_function.unsqueeze(1)  # 推定行動価値関数 Q(s,a;θ)
        )

        #print( "loss_fn :", self._loss_fn )

        # loss 値の初回計算フラグ
        self._b_loss_init = True

        return self._loss_fn

    def get_loss( self ):
        if( self._b_loss_init == True ):
            return self._loss_fn.data
        else:
            return 0.0

    def optimizer( self ):
        """
        モデルの最適化アルゴリズムを設定する。
        [Args]
        [Returns]
            self._optimizer : <torch.optimizer> モデルの最適化アルゴリズム            
        """
        # 最適化アルゴリズムとして、RMSprop を採用
        self._optimizer = optim.RMSprop(
            params = self._main_network.parameters(), 
            lr = self._learning_rate 
        )

        return self._optimizer


    def predict( self, batch, state_batch, action_batch, reward_batch, non_final_next_states ):
        """
        教師信号となる行動価値関数を求める

        [Args]
        [Returns]
        """
        #--------------------------------------------------------------------
        # ネットワークを推論モードへ切り替え（PyTorch特有の処理）
        #--------------------------------------------------------------------
        self._main_network.eval()
        self._target_network.eval()

        #--------------------------------------------------------------------
        # 構築したDQNのネットワークが出力する Q(s,a) を求める。
        # 学習用データをモデルに流し込む
        # model(引数) で呼び出せるのは、__call__ をオーバライトしているため
        #--------------------------------------------------------------------
        # outputs / shape = batch_size * _n_actions
        outputs = self._main_network( state_batch ).to(self._device)
        #print( "outputs :", outputs )

        # outputs から実際にエージェントが選択した action を取り出す
        # gather(...) : 
        # dim = 1 : 列方向
        # index = action_batch : エージェントが実際に選択した行動は action_batch 
        self._q_function = outputs.gather( 1, action_batch ).to(self._device)
        #print( "_q_function :", self._q_function )

        #--------------------------------------------------------------------
        # 次の状態を求める
        #--------------------------------------------------------------------
        # 全部 0 で初期化
        next_state_values = torch.zeros( self._batch_size ).to(self._device)

        # エージェントが done ではなく、next_state が存在するインデックス用のマスク
        non_final_mask = torch.ByteTensor(
            tuple( map(lambda s: s is not None,batch.next_state) )
        ).to(self._device)
        #print( "non_final_mask :", non_final_mask )

        # Main Network ではなく Target Network からの出力
        next_outputs = self._target_network( non_final_next_states ).to(self._device)
        #print( "next_outputs :", next_outputs )

        # detach() : ネットワークの出力の値を取り出す。Variable の誤差逆伝搬による値の更新が止まる？
        # 教師信号は固定された値である必要があるので、detach() で値が変更させないようにする。
        next_state_values[non_final_mask] = next_outputs.max(1)[0].detach().to(self._device)
        #print( "next_state_values :", next_state_values )

        #--------------------------------------------------------------------
        # ネットワークの出力となる推定行動価値関数を求める
        #--------------------------------------------------------------------
        self._expected_q_function = reward_batch + self._gamma * next_state_values

        return

    def fit( self ):
        """
        モデルを学習し、
        [Args]
        [Returns]
        """
        # モデルを学習モードに切り替える。
        self._main_network.train()

        # 損失関数を計算する
        self.loss()

        # 勾配を 0 に初期化（この初期化処理が必要なのは、勾配がイテレーション毎に加算される仕様のため）
        self._optimizer.zero_grad()

        # 誤差逆伝搬
        self._loss_fn.backward()

        # backward() で計算した勾配を元に、設定した optimizer に従って、重みを更新
        self._optimizer.step()

        #print( "loss :", self._loss_fn.data )

        return

    def decay_epsilon( self ):
        """
        ε-greedy 法の ε 値を減衰させる。
        """
        if( self._epsilon > self._epsilon_final and self._epsilon <= self._epsilon_init ):
            self._epsilon -= self._epsilon_step

        return
      
    def decay_epsilon_episode( self, episode ):
        self._epsilon = 0.5 * ( 1 / (episode + 1) )
        return

      
    def action( self, state, time_step ):
        """
        Brain のロジックに従って、現在の状態 s での行動 a を決定する。
        ・ε-グリーディー法に従った行動選択
        [Args]
            state : int
                現在の状態
        """
        # フレームスキップ間は、同じ行動をする。
        if( (time_step % self._n_skip_frames) != 0 ):
            action = self._action_repeat
        else:
            # ε-グリーディー法に従った行動選択
            if( self._epsilon <= np.random.uniform(0,1) ):
                #------------------------------
                # Q の最大化する行動を選択
                #------------------------------
                # model を推論モードに切り替える（PyTorch特有の処理）
                self._main_network.eval()

                # 微分を行わない処理の範囲を with 構文で囲む
                with torch.no_grad():
                    # テストデータをモデルに流し込み、モデルの出力を取得する
                    outputs = self._main_network( state ).to(self._device)
                    #print( "outputs :", outputs )
                    #print( "outputs.data :", outputs.data )

                    # dim = 1 ⇒ 列方向で最大値をとる
                    # Returns : (Tensor, LongTensor)
                    _, max_index = torch.max( outputs.data, dim = 1 )
                    #print( "max_index :", max_index )

                    # .view(1,1) : [torch.LongTensor of size 1] → size 1×1 に reshape
                    action = max_index.view(1,1).to(self._device)

            else:
                # ε の確率でランダムな行動を選択
                #action = np.random.choice( self._n_actions )
                action = torch.LongTensor(
                    [ [random.randrange(self._n_actions)] ]
                ).to(self._device)

        #print( "action :", action )
        self._action_repeat = action

        return action


    def update_q_function( self, state, action, next_state, reward ):
        """
        Q 関数の値を更新する。

        [Args]
            state : <int> 現在の状態 s のインデックス
            action : <int> 現在の行動 a
            next_state : <int> 次の状態 s'
            reword : <float> 報酬
        
        [Returns]

        """
        #-----------------------------------------
        # 経験に基づく学習用データを追加
        #-----------------------------------------
        self._memory.push( state = state, action = action, next_state = next_state, reward = reward )

        # 学習用データがミニバッチサイズ以下ならば、以降の処理は行わない
        if( len(self._memory) < self._batch_size ):
            return

        #-----------------------------------------        
        # ミニバッチデータを取得する
        #-----------------------------------------
        batch, state_batch, action_batch, reward_batch, non_final_next_states = self._memory.get_mini_batch( self._batch_size )

        #-----------------------------------------
        # 教師信号となる推定行動価値関数を求める 
        #-----------------------------------------
        self.predict( batch, state_batch, action_batch, reward_batch, non_final_next_states )

        #-----------------------------------------
        # ネットワークを学習し、パラメーターを更新する。
        #-----------------------------------------
        self.fit()

        return self._q_function


    def update_target_q_function( self ):
        """
        Target Network を Main Network と同期する。
        """
        # load_state_dict() : モデルを読み込み
        self._target_network.load_state_dict(
            state_dict = self._main_network.state_dict()    # Main Network のモデルを読み込む
        )

        return

In [22]:
# -*- coding:utf-8 -*-
# Anaconda 5.0.1 環境

import numpy as np
import matplotlib.pyplot as plt
import random
from matplotlib import animation

# OpenAI Gym
import gym

# PyTorch
import torch
from torch.utils.data import TensorDataset, DataLoader
from torch  import nn   # ネットワークの構成関連
import torchvision      # 画像処理関連

# 自作モジュール
#from Academy import Academy
#from BreakoutAcademy import BreakoutAcademy
#from Brain import Brain
#from BreakoutDQN2015Brain import BreakoutDQN2015Brain
#from Agent import Agent
#from BreakoutAgent import BreakoutAgent
#from ExperienceReplay import ExperienceReplay
#from BreakoutAtariWrappers import *


#--------------------------------
# 設定可能な定数
#--------------------------------
RL_ENV = "BreakoutNoFrameskip-v0"       # 利用する強化学習環境の課題名
#RL_ENV = "Breakout-v0"       # 利用する強化学習環境の課題名
NUM_EPISODE = 1000                         # エピソード試行回数(12000)
NUM_TIME_STEP = 5000                   # １エピソードの時間ステップの最大数
NUM_NOOP = 30                       # エピソード開始からの何も学習しないステップ数
NUM_SKIP_FRAME = 4                  # スキップするフレーム数
NUM_STACK_FRAME = 4                 # モデルに一度に入力する画像データのフレーム数
BRAIN_LEARNING_RATE = 0.0005        # 学習率(0.00025)
BRAIN_BATCH_SIZE = 32               # ミニバッチサイズ
BRAIN_GREEDY_EPSILON = 0.5          # ε-greedy 法の ε 値
BRAIN_GREEDY_EPSILON_INIT = 1.0         # ε-greedy 法の ε 値の初期値
BRAIN_GREEDY_EPSILON_FINAL = 0.1        # ε-greedy 法の ε 値の初期値
BRAIN_GREEDY_EPSILON_STEPS = 1000000    # ε-greedy 法の ε が減少していくフレーム数
BRAIN_GAMMDA = 0.99                 # 利得の割引率
MEMORY_CAPACITY = 50000             # Experience Relay 用の学習用データセットのメモリの最大の長さ


def main():
    """
	強化学習の学習環境用のブロック崩しゲーム（Breakout）
    ・エージェントの行動方策の学習ロジックは、DQN (2015年Natureバージョン)
    """
    print("Start main()")
    
    # バージョン確認
    print( "OpenAI Gym", gym.__version__ )
    print( "PyTorch :", torch.__version__ )

    np.random.seed(8)
    random.seed(8)
    torch.manual_seed(8)

    #===================================
    # 実行 Device の設定
    #===================================
    use_cuda = torch.cuda.is_available()
    device = torch.device( "cuda" if use_cuda else "cpu" )
    print( "実行デバイス :", device)

    #===================================
    # 学習環境、エージェント生成フェイズ
    #===================================
    # OpenAI-Gym の ENV を作成
    env = make_env( 
        device = device,
        env_id = RL_ENV, 
        seed = 8,
        n_noop_max = NUM_NOOP,
        n_skip_frame = NUM_SKIP_FRAME,
        n_stack_frames = NUM_STACK_FRAME
    )
    
    print( "env.observation_space :", env.observation_space )
    print( "env.action_space :", env.action_space )
    print( "env.unwrapped.get_action_meanings() :", env.unwrapped.get_action_meanings() )     # 行動の値の意味

    #-----------------------------------
    # Academy の生成
    #-----------------------------------
    academy = BreakoutAcademy( 
        env = env, 
        max_episode = NUM_EPISODE, max_time_step = NUM_TIME_STEP, 
        save_step = 100
    )

    #-----------------------------------
    # Brain の生成
    #-----------------------------------
    brain = BreakoutDQN2015Brain(
        device = device,
        n_states = env.observation_space.shape[0] * env.observation_space.shape[1] * env.observation_space.shape[2], n_actions = env.action_space.n,
        epsilon_init = BRAIN_GREEDY_EPSILON_INIT, epsilon_final = BRAIN_GREEDY_EPSILON_FINAL, n_epsilon_step = BRAIN_GREEDY_EPSILON_STEPS,
        gamma = BRAIN_GAMMDA,
        learning_rate = BRAIN_LEARNING_RATE,
        batch_size = BRAIN_BATCH_SIZE,
        memory_capacity = MEMORY_CAPACITY,
        n_stack_frames = NUM_STACK_FRAME,
        n_skip_frames = NUM_SKIP_FRAME
    )
    
    # モデルの構造を定義する。
    #brain.model()

    # 損失関数を設定する。
    #brain.loss()

    # モデルの最適化アルゴリズムを設定
    brain.optimizer()

    #-----------------------------------
	# Agent の生成
    #-----------------------------------
    agent = BreakoutAgent(
        device = device,
        env = env,
        brain = brain,
        gamma = BRAIN_GAMMDA
    )

    # Agent の Brain を設定
    agent.set_brain( brain )

    # 学習環境に作成したエージェントを追加
    academy.add_agent( agent )
    
    agent.print( "after init()" )
    brain.print( "after init()" )

    #===================================
    # エピソードの実行
    #===================================
    academy.academy_run()
    agent.print( "after run" )
    brain.print( "after run" )

    #===================================
    # 学習結果の描写処理
    #===================================
    #---------------------------------------------
    # 利得の履歴の plot
    #---------------------------------------------
    reward_historys = agent.get_reward_historys()

    plt.clf()
    plt.plot(
        range(0,NUM_EPISODE+1), reward_historys,
        label = 'gamma = {}'.format(BRAIN_GAMMDA),
        linestyle = '-',
        linewidth = 0.5,
        color = 'black'
    )
    plt.title( "Reward History" )
    plt.xlim( 0, NUM_EPISODE+1 )
    #plt.ylim( [-0.1, 1.05] )
    plt.xlabel( "Episode" )
    plt.grid()
    plt.legend( loc = "lower right" )
    plt.tight_layout()

    plt.savefig( 
        "{}_DQN2015_Reward_episode{}_ts{}_lr{}_noop{}.png".format( RL_ENV, NUM_EPISODE, NUM_TIME_STEP, BRAIN_LEARNING_RATE, NUM_NOOP ), 
        dpi = 150, bbox_inches = "tight"
    )
    plt.show()

    #-----------------------------------
    # 損失関数の plot
    #-----------------------------------
    loss_historys = agent.get_loss_historys()

    plt.clf()
    plt.plot(
        range( 0, NUM_EPISODE ), loss_historys,
        label = 'mini_batch_size = %d, learning_rate = %0.4f' % ( BRAIN_BATCH_SIZE, BRAIN_LEARNING_RATE ),
        linestyle = '-',
        #linewidth = 2,
        color = 'black'
    )
    plt.title( "loss / Smooth L1" )
    plt.legend( loc = 'best' )
    plt.xlim( 0, NUM_EPISODE+1 )
    #plt.ylim( [0, 1.05] )
    plt.xlabel( "Episode" )
    plt.grid()
    plt.tight_layout()
    plt.savefig(
        "{}_DQN2015_Loss_episode{}_ts{}_lr{}_noop{}.png".format( RL_ENV, NUM_EPISODE, NUM_TIME_STEP, BRAIN_LEARNING_RATE, NUM_NOOP ),  
        dpi = 150, bbox_inches = "tight"
    )
    plt.show()

    print("Finish main()")
    return

    
if __name__ == '__main__':
     main()




Start main()
OpenAI Gym 0.10.11
PyTorch : 1.0.1.post2
実行デバイス : cuda




env.observation_space : Box(84, 84, 4)
env.action_space : Discrete(4)
env.unwrapped.get_action_meanings() : ['NOOP', 'FIRE', 'RIGHT', 'LEFT']
main network : QNetworkCNN(
  (layer): Sequential(
    (0): Conv2d(4, 32, kernel_size=(8, 8), stride=(4, 4))
    (1): ReLU()
    (2): Conv2d(32, 64, kernel_size=(4, 4), stride=(2, 2))
    (3): ReLU()
    (4): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1))
    (5): ReLU()
    (6): Flatten()
    (7): Linear(in_features=3136, out_features=512, bias=True)
    (8): ReLU()
    (9): Linear(in_features=512, out_features=4, bias=True)
  )
)
target network : QNetworkCNN(
  (layer): Sequential(
    (0): Conv2d(4, 32, kernel_size=(8, 8), stride=(4, 4))
    (1): ReLU()
    (2): Conv2d(32, 64, kernel_size=(4, 4), stride=(2, 2))
    (3): ReLU()
    (4): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1))
    (5): ReLU()
    (6): Flatten()
    (7): Linear(in_features=3136, out_features=512, bias=True)
    (8): ReLU()
    (9): Linear(in_features=512, out_feature

MovieWriter imagemagick unavailable. Trying to use pillow instead.


エピソード = 0 / 最終時間ステップ数 = 39
loss = 0.020283
エピソード = 1 / 最終時間ステップ数 = 15
loss = 0.023072
エピソード = 2 / 最終時間ステップ数 = 7
loss = 0.012524
エピソード = 3 / 最終時間ステップ数 = 33
loss = 0.010883
エピソード = 4 / 最終時間ステップ数 = 6
loss = 0.019647
エピソード = 5 / 最終時間ステップ数 = 11
loss = 0.018629
エピソード = 6 / 最終時間ステップ数 = 8
loss = 0.013591
エピソード = 7 / 最終時間ステップ数 = 6
loss = 0.014429
エピソード = 8 / 最終時間ステップ数 = 7
loss = 0.019595
エピソード = 9 / 最終時間ステップ数 = 12
loss = 0.009768
エピソード = 10 / 最終時間ステップ数 = 53
loss = 0.011978
エピソード = 11 / 最終時間ステップ数 = 8
loss = 0.006217
エピソード = 12 / 最終時間ステップ数 = 8
loss = 0.007844
エピソード = 13 / 最終時間ステップ数 = 17
loss = 0.005104
エピソード = 14 / 最終時間ステップ数 = 15
loss = 0.011377
エピソード = 15 / 最終時間ステップ数 = 72
loss = 0.007414
エピソード = 16 / 最終時間ステップ数 = 15
loss = 0.009901
エピソード = 17 / 最終時間ステップ数 = 8
loss = 0.029621
エピソード = 18 / 最終時間ステップ数 = 12
loss = 0.015705
エピソード = 19 / 最終時間ステップ数 = 15
loss = 0.009939
エピソード = 20 / 最終時間ステップ数 = 12
loss = 0.030119
エピソード = 21 / 最終時間ステップ数 = 6
loss = 0.037032
エピソード = 22 / 最終時間ステップ数 = 6
loss = 0.033445
エピソード = 

MovieWriter imagemagick unavailable. Trying to use pillow instead.


エピソード = 98 / 最終時間ステップ数 = 19
loss = 0.011580
エピソード = 99 / 最終時間ステップ数 = 8
loss = 0.025716
エピソード = 100 / 最終時間ステップ数 = 2
loss = 0.071037
エピソード = 101 / 最終時間ステップ数 = 6
loss = 0.019040
エピソード = 102 / 最終時間ステップ数 = 53
loss = 0.038085
エピソード = 103 / 最終時間ステップ数 = 8
loss = 0.022284
エピソード = 104 / 最終時間ステップ数 = 8
loss = 0.041056
エピソード = 105 / 最終時間ステップ数 = 8
loss = 0.021736
エピソード = 106 / 最終時間ステップ数 = 26
loss = 0.042543
エピソード = 107 / 最終時間ステップ数 = 21
loss = 0.021980
エピソード = 108 / 最終時間ステップ数 = 8
loss = 0.025009
エピソード = 109 / 最終時間ステップ数 = 33
loss = 0.060720
エピソード = 110 / 最終時間ステップ数 = 7
loss = 0.025518
エピソード = 111 / 最終時間ステップ数 = 6
loss = 0.075940
エピソード = 112 / 最終時間ステップ数 = 36
loss = 0.015457
エピソード = 113 / 最終時間ステップ数 = 6
loss = 0.018282
エピソード = 114 / 最終時間ステップ数 = 242
loss = 0.005755
エピソード = 115 / 最終時間ステップ数 = 11
loss = 0.013774
エピソード = 116 / 最終時間ステップ数 = 6
loss = 0.022494
エピソード = 117 / 最終時間ステップ数 = 128
loss = 0.013342
エピソード = 118 / 最終時間ステップ数 = 52
loss = 0.034187
エピソード = 119 / 最終時間ステップ数 = 6
loss = 0.021676
エピソード = 120 / 最終時間ステップ

KeyboardInterrupt: ignored

<Figure size 576x396 with 0 Axes>