参考: https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html  
Author: Adam Paszke

このチュートリアルでは、PyTorchを使ってDeepQLearningをします。OpenAI GymのCartPole-v0タスクを解きます。

# タスク

エージェントは2つのアクションのうちから決定する必要があります。カートを左に動かすか、右に動かすかです。  
このとき、上に立てたポールが倒れないようにします。  
https://gym.openai.com/envs/CartPole-v0 でリーダーボードを確認できます。

<img src="./cartpole.gif" width=300>

エージェントが現在の環境を観測してアクションを選択したら、環境は新しい状態に遷移し、アクションの結果に対する報酬を返します。  
このタスクでは、各タイムステップで報酬が+1ずつ増加していきます。  
そしてポールが倒れるかカートが中心から2.4よりも離れた場合に環境が終了します。  
つまりより長くキープできることがより良いということになります。

CartPoleのタスクでは、エージェントへの入力は環境の状態を表す4つの値（位置、速度など）です。  
毎フレームで計算します。  
状態は前のフレームと現在のフレームの差とします。こうするとポールの速度も扱えます。

# パッケージのインポート

最初に必要なパッケージをインポートします。環境のためにgymを入れます。他にも以下のものを使います。  
<ul>
    <li>torch.nn: ニューラルネットワーク</li>
    <li>torch.optim: 最適化</li>
    <li>torch.autograd: 自動微分</li>
    <li>torchvision: 画像関連で有用</li>
</ul>

In [1]:
import sys
sys.path.append("/home/ubuntu/anaconda3/lib/python3.7/site-packages")

import gym
import math
import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from collections import namedtuple
from itertools import count
from PIL import Image

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as T

In [4]:
env=gym.make("CartPole-v0").unwrapped # 環境

### matplotlibのセットアップ
is_ipython="inline" in matplotlib.get_backend()

if is_ipython:
    from IPython import display
    
plt.ion()

device=torch.device("cuda" if torch.cuda.is_available() else "cpu") # デバイス

# Replay Memory

DQNの学習において、experience replay memoryを使います。  
これはエージェントが観察してきた遷移を保存します。後々このデータを再利用します。  
これからランダムにサンプリングすることで、バッチを形成した遷移が無相関となります（？）。  
これによってDQNの学習が安定化することが知られています。

これを実現するために、以下の2つのクラスを用意します。  
<ul>
    <li>Transition: 環境における、一つの遷移を表す。(state,action)→(next_state,reward)のマッピング。</li>
    <li>ReplayMemory: 最近の遷移を持つcyclic buffer。sample()で遷移のバッチからランダムに抽出できる。</li>
</ul>

In [5]:
Transition=namedtuple("Transition",("state","action","next_state","reward"))

class ReplayMemory(object):
    def __init__(self,capacity):
        self.capacity=capacity
        self.memory=[]
        self.position=0
        
    def push(self,*args): # 遷移を保存する
        if len(self.memory)<self.capacity:
            self.memory.append(None)
            
        self.memory[self.position]=Transition(*args)
        self.position=(self.position+1)%self.capacity
        
    def sample(self,batch_size):
        return random.sample(self.memory,batch_size)
    
    def __len__(self):
        return len(self.memory)

それではこれからモデルを定義します。がその前に、DQNを理解しましょう。

# DQN