In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch
from torchvision import transforms
from torchinfo import summary
import numpy as np
import gym
import os

from models import MDRNNCell, AE, Controller

In [2]:
dir_path = './results/'
files = os.listdir(dir_path)
files = [f for f in files if 'best_1_1_G' in f]

num = -1
idx = 0
file = ''
for idx, fi in enumerate(files):
    Gnum = fi.split('G')[1].split('.')[0]
    Gnum = int(Gnum)
    if Gnum > num:
        file = fi
        num = Gnum
        
file_path = dir_path + file
s = torch.load(file_path)

In [3]:
file

'best_1_1_G247.p'

In [4]:
ASIZE, LSIZE, RSIZE, RED_SIZE, SIZE = 3, 32, 256, 64, 64

ae = AE(3, LSIZE, 32*8*8) # Dense：3チャンネル、潜在ベクトルサイズ、中間層サイズ
mdrnn = MDRNNCell(LSIZE, ASIZE, RSIZE, 5) # MDRNN：潜在ベクトルサイズ、アクションサイズ、中間層サイズ、混合ガウス分布の分布数
controller = Controller(LSIZE, RSIZE, ASIZE) # コントローラー：潜在ベクトルサイズ、中間層サイズ、アクションサイズ

ae.load_state_dict(s['ae'])
mdrnn.load_state_dict(s['mdrnn'])
controller.load_state_dict(s['controller'])

In [5]:
summary(ae, input_size=(1, 3, 64, 64))

Layer (type:depth-idx)                   Output Shape              Param #
AE                                       [1, 16, 2, 2]             --
├─AE_Encoder: 1-1                        [1, 32]                   --
│    └─Conv2d: 2-1                       [1, 16, 16, 16]           1,744
│    └─Conv2d: 2-2                       [1, 32, 8, 8]             4,640
│    └─Linear: 2-3                       [1, 32]                   65,568
├─AE_Decoder: 1-2                        [1, 16, 2, 2]             --
│    └─Linear: 2-4                       [1, 2048]                 67,584
│    └─ConvTranspose2d: 2-5              [1, 16, 2, 2]             294,928
Total params: 434,464
Trainable params: 434,464
Non-trainable params: 0
Total mult-adds (M): 2.06
Input size (MB): 0.05
Forward/backward pass size (MB): 0.07
Params size (MB): 1.74
Estimated Total Size (MB): 1.85

In [5]:
transform = transforms.Compose([
    transforms.ToPILImage(),
    transforms.Resize((RED_SIZE, RED_SIZE)),
    transforms.ToTensor()
])

In [6]:
i = 0
early_termination = True
time_limit = 2000
imgs = []

def get_action_and_transition(obs, hidden):
        """ 行動を起こし、遷移

        VAEを用いて観測値を潜在状態に変換し、MDRNNを用いて次の潜在状態と次の隠れ状態の推定を行い、コントローラに対応するアクションを計算する。

        :args obs: current observation (1 x 3 x 64 x 64) torch tensor
        :args hidden: current hidden state (1 x 256) torch tensor

        :returns: (action, next_hidden)
            - action: 1D np array
            - next_hidden (1 x 256) torch tensor
        """
        _, latent_mu = ae(obs)
        action = controller(latent_mu, hidden[0] ) # コントローラーによるアクションの計算

        mus, sigmas, logpi, rs, d, next_hidden = mdrnn(action, latent_mu, hidden) # MDRNNによる次の潜在状態と次の隠れ状態の推定

        return action.squeeze().cpu().numpy(), next_hidden


with torch.no_grad():          
    env = gym.make('CarRacing-v2', render_mode='rgb_array', domain_randomize=False) # 環境：CarRacing-v2

    obs, _ = env.reset() # 環境のリセット
    imgs.append(obs) # 画像の取得

    hidden = [
        torch.zeros(1, RSIZE)#.to(device) # 隠れ状態の初期化
        for _ in range(2)]

    neg_count = 0 # 負の報酬を受け取った回数

    cumulative = 0 # 累積報酬
    i = 0
    while True:
        obs = transform(obs).unsqueeze(0)#.to(device) # 観測（画像）の前処理：obs(1, 3, 64, 64)
        
        action, hidden = get_action_and_transition(obs, hidden) # 行動を起こし、遷移：action(1, ASIZE), hidden(1, RSIZE)
        #Steering: Real valued in [-1, 1] 
        #Gas: Real valued in [0, 1]
        #Break: Real valued in [0, 1]

        obs, reward, done, _, _ = env.step(action) # 行動を実行し、報酬を受け取る：obs(3, 64, 64), reward, done, info
        imgs.append(obs) # 画像の取得
        
        #報酬を得られなかった（コース外に出たなど）連続回数をカウント
        neg_count = neg_count+1 if reward < 0.0 else 0 
        
        #トレーニングのスピードアップのために、コース外の評価を行い，20time step以上コース外に出た場合はロールアウトを終了する
        if (neg_count>20 and early_termination):  
            done = True
        
        cumulative += reward # 累積報酬の更新
        
        # ロールアウトの終了：タイムリミットに達した場合、早期終了した場合, 完了した場合
        if done or (early_termination and i > time_limit):
            env.close()
            break

        i += 1

  if not isinstance(terminated, (bool, np.bool8)):


In [7]:
cumulative

906.5999999999842

In [8]:
import imageio

imageio.mimsave('./results/rollout.gif', imgs, duration=20)