## 1. Cartpole 강화학습 준비

In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

### 1.1 Cartpole 시연함수

In [15]:
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display


def display_frames_as_gif(frames):
    plt.figure(figsize=(frames[0].shape[1] / 72.0, frames[0].shape[0] / 72.0),
               dpi=72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames),
                                   interval=50)

    anim.save('Cartpole_DDQN.mp4')
    display(display_animation(anim, default_mode='loop'))

### 1.2 Constant 정의

In [3]:
from collections import namedtuple

Transition = namedtuple(
    'Transition', ('state', 'action', 'next_state', 'reward'))

In [4]:
ENV = 'CartPole-v0' 
GAMMA = 0.99 
MAX_STEPS = 200  
NUM_EPISODES = 500  

## 2. ReplayMemory

In [5]:
class ReplayMemory:

    def __init__(self, CAPACITY):
        self.capacity = CAPACITY 
        self.memory = [] 
        self.index = 0 

    def push(self, state, action, state_next, reward):
        if len(self.memory) < self.capacity:
            self.memory.append(None)  

        self.memory[self.index] = Transition(state, action, state_next, reward)
        self.index = (self.index + 1) % self.capacity  

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

In [6]:
#!pip install --upgrade pip

In [7]:
#!pip install torch

## 3. Cartpole DDQN 설계

In [8]:
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self, n_in, n_mid, n_out):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(n_in, n_mid)
        self.fc2 = nn.Linear(n_mid, n_mid)
        self.fc3 = nn.Linear(n_mid, n_out)

    def forward(self, x):
        h1 = F.relu(self.fc1(x))
        h2 = F.relu(self.fc2(h1))
        output = self.fc3(h2)
        return output

In [9]:
import random
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F

BATCH_SIZE = 32
CAPACITY = 10000


class Brain:
    def __init__(self, num_states, num_actions):
        self.num_actions = num_actions  

        self.memory = ReplayMemory(CAPACITY)

        n_in, n_mid, n_out = num_states, 32, num_actions
        self.main_q_network = Net(n_in, n_mid, n_out) 
        self.target_q_network = Net(n_in, n_mid, n_out)  
        print(self.main_q_network)  

        self.optimizer = optim.Adam(
            self.main_q_network.parameters(), lr=0.0001)

    def replay(self):

        if len(self.memory) < BATCH_SIZE:
            return
        self.batch, self.state_batch, self.action_batch, self.reward_batch, self.non_final_next_states = self.make_minibatch()
        self.expected_state_action_values = self.get_expected_state_action_values()
        self.update_main_q_network()

    def decide_action(self, state, episode):
        epsilon = 0.5 * (1 / (episode + 1))

        if epsilon <= np.random.uniform(0, 1):
            self.main_q_network.eval()  
            with torch.no_grad():
                action = self.main_q_network(state).max(1)[1].view(1, 1)

        else:
            action = torch.LongTensor(
                [[random.randrange(self.num_actions)]]) 
        return action

    def make_minibatch(self):
        transitions = self.memory.sample(BATCH_SIZE)

        batch = Transition(*zip(*transitions))

        state_batch = torch.cat(batch.state)
        action_batch = torch.cat(batch.action)
        reward_batch = torch.cat(batch.reward)
        non_final_next_states = torch.cat([s for s in batch.next_state
                                           if s is not None])

        return batch, state_batch, action_batch, reward_batch, non_final_next_states

    def get_expected_state_action_values(self):

        self.main_q_network.eval()
        self.target_q_network.eval()

        self.state_action_values = self.main_q_network(
            self.state_batch).gather(1, self.action_batch)

        non_final_mask = torch.ByteTensor(tuple(map(lambda s: s is not None,
                                                    self.batch.next_state)))
        next_state_values = torch.zeros(BATCH_SIZE)

        a_m = torch.zeros(BATCH_SIZE).type(torch.LongTensor)

        a_m[non_final_mask] = self.main_q_network(
            self.non_final_next_states).detach().max(1)[1]

        a_m_non_final_next_states = a_m[non_final_mask].view(-1, 1)

        next_state_values[non_final_mask] = self.target_q_network(
            self.non_final_next_states).gather(1, a_m_non_final_next_states).detach().squeeze()

        expected_state_action_values = self.reward_batch + GAMMA * next_state_values

        return expected_state_action_values

    def update_main_q_network(self):

        self.main_q_network.train()

        loss = F.smooth_l1_loss(self.state_action_values,
                                self.expected_state_action_values.unsqueeze(1))

        self.optimizer.zero_grad() 
        loss.backward()  
        self.optimizer.step() 

    def update_target_q_network(self):  
        self.target_q_network.load_state_dict(self.main_q_network.state_dict())

## 4. Cartpole Agent 설계

In [10]:
class Agent:
    def __init__(self, num_states, num_actions):
        self.brain = Brain(num_states, num_actions)  
        
    def update_q_function(self):
        self.brain.replay()

    def get_action(self, state, episode):
        action = self.brain.decide_action(state, episode)
        return action

    def memorize(self, state, action, state_next, reward):
        self.brain.memory.push(state, action, state_next, reward)

    def update_target_q_function(self):
        self.brain.update_target_q_network()

## 5. Cartpole 환경 설계

In [16]:
class Environment:

    def __init__(self):
        self.env = gym.make(ENV)  
        num_states = self.env.observation_space.shape[0] 
        num_actions = self.env.action_space.n  
        self.agent = Agent(num_states, num_actions)  

    def run(self):
        episode_10_list = np.zeros(10) 
        complete_episodes = 0  
        episode_final = False  
        frames = []  
        
        for episode in range(NUM_EPISODES):
            observation = self.env.reset()  

            state = observation 
            state = torch.from_numpy(state).type(
                torch.FloatTensor)
            state = torch.unsqueeze(state, 0) 

            for step in range(MAX_STEPS):  
                
                if episode_final is True:  
                    frames.append(self.env.render(mode='rgb_array'))
                    
                action = self.agent.get_action(state, episode)  

                observation_next, _, done, _ = self.env.step(
                    action.item())  
                if done:  
                    state_next = None 

                    episode_10_list = np.hstack(
                        (episode_10_list[1:], step + 1))

                    if step < 195:
                        reward = torch.FloatTensor(
                            [-1.0])
                        complete_episodes = 0  
                    else:
                        reward = torch.FloatTensor([1.0])  
                        complete_episodes = complete_episodes + 1
                else:
                    reward = torch.FloatTensor([0.0])  
                    state_next = observation_next  
                    state_next = torch.from_numpy(state_next).type(
                        torch.FloatTensor)  
                    state_next = torch.unsqueeze(state_next, 0)  

                self.agent.memorize(state, action, state_next, reward)
                self.agent.update_q_function()

                state = state_next

                if done:
                    print('%d Episode: Finished after %d steps：최근 10 에피소드의 평균 단계 수 = %.1lf' % (
                        episode, step + 1, episode_10_list.mean()))
                    
                    if(episode % 2 == 0):
                        self.agent.update_target_q_function()
                    break
                    
                    
            if episode_final is True:
                display_frames_as_gif(frames)
                break

            if complete_episodes >= 10:
                print('10 에피소드 연속 성공')
                episode_final = True  

## 6. Cartpole DDQN 학습

In [17]:
cartpole_env = Environment()
cartpole_env.run()

Net(
  (fc1): Linear(in_features=4, out_features=32, bias=True)
  (fc2): Linear(in_features=32, out_features=32, bias=True)
  (fc3): Linear(in_features=32, out_features=2, bias=True)
)
0 Episode: Finished after 40 steps：최근 10 에피소드의 평균 단계 수 = 4.0
1 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 4.9
2 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 5.8
3 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 6.8
4 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 8.0
5 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 8.9
6 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.8
7 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.7






8 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 11.7
9 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 12.6
10 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.7
11 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.9
12 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.1
13 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.2
14 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.9
15 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.0




16 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.0
17 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.1
18 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.0
19 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.2
20 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.2
21 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.1
22 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.1
23 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.0




24 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.0
25 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.0
26 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.0
27 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.9
28 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.9
29 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.7
30 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.7
31 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.6
32 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.5




33 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.5
34 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.6
35 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.7
36 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.8
37 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.7
38 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.8
39 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.8
40 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.7
41 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.9




42 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.9
43 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.8
44 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.9
45 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.6
46 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.6
47 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.8
48 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.8
49 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.8
50 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.7




51 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5
52 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.5
53 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.4
54 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
55 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.4
56 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
57 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
58 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.1
59 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.2




60 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
61 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
62 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
63 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.3
64 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.4
65 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.5
66 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5
67 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.6
68 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.8




69 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.0
70 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.2
71 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.2
72 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.3
73 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.6
74 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.5
75 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.7
76 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.8




77 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.7
78 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 10.8
79 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.6
80 Episode: Finished after 14 steps：최근 10 에피소드의 평균 단계 수 = 10.8
81 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 11.1
82 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 11.0
83 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.9




84 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.9
85 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.9
86 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 11.1
87 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 11.3
88 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 11.3
89 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 11.6
90 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 11.5






91 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 11.4
92 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 11.7
93 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 11.8
94 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 12.0
95 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 12.1
96 Episode: Finished after 15 steps：최근 10 에피소드의 평균 단계 수 = 12.4
97 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 12.5




98 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 12.6
99 Episode: Finished after 15 steps：최근 10 에피소드의 평균 단계 수 = 12.8
100 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 13.2
101 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 13.3
102 Episode: Finished after 15 steps：최근 10 에피소드의 평균 단계 수 = 13.5
103 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 13.7




104 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 14.2
105 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 14.2
106 Episode: Finished after 16 steps：최근 10 에피소드의 평균 단계 수 = 14.3
107 Episode: Finished after 21 steps：최근 10 에피소드의 평균 단계 수 = 15.1




108 Episode: Finished after 62 steps：최근 10 에피소드의 평균 단계 수 = 20.1
109 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 20.3
110 Episode: Finished after 18 steps：최근 10 에피소드의 평균 단계 수 = 20.4
111 Episode: Finished after 21 steps：최근 10 에피소드의 평균 단계 수 = 21.3






112 Episode: Finished after 80 steps：최근 10 에피소드의 평균 단계 수 = 27.8




113 Episode: Finished after 89 steps：최근 10 에피소드의 평균 단계 수 = 35.4




114 Episode: Finished after 100 steps：최근 10 에피소드의 평균 단계 수 = 43.7






115 Episode: Finished after 110 steps：최근 10 에피소드의 평균 단계 수 = 53.4




116 Episode: Finished after 105 steps：최근 10 에피소드의 평균 단계 수 = 62.3




117 Episode: Finished after 82 steps：최근 10 에피소드의 평균 단계 수 = 68.4
118 Episode: Finished after 73 steps：최근 10 에피소드의 평균 단계 수 = 69.5






119 Episode: Finished after 72 steps：최근 10 에피소드의 평균 단계 수 = 75.0






120 Episode: Finished after 157 steps：최근 10 에피소드의 평균 단계 수 = 88.9






121 Episode: Finished after 154 steps：최근 10 에피소드의 평균 단계 수 = 102.2




122 Episode: Finished after 93 steps：최근 10 에피소드의 평균 단계 수 = 103.5




123 Episode: Finished after 94 steps：최근 10 에피소드의 평균 단계 수 = 104.0






124 Episode: Finished after 121 steps：최근 10 에피소드의 평균 단계 수 = 106.1






125 Episode: Finished after 155 steps：최근 10 에피소드의 평균 단계 수 = 110.6
126 Episode: Finished after 70 steps：최근 10 에피소드의 평균 단계 수 = 107.1






127 Episode: Finished after 89 steps：최근 10 에피소드의 평균 단계 수 = 107.8
128 Episode: Finished after 63 steps：최근 10 에피소드의 평균 단계 수 = 106.8




129 Episode: Finished after 68 steps：최근 10 에피소드의 평균 단계 수 = 106.4
130 Episode: Finished after 75 steps：최근 10 에피소드의 평균 단계 수 = 98.2






131 Episode: Finished after 99 steps：최근 10 에피소드의 평균 단계 수 = 92.7






132 Episode: Finished after 106 steps：최근 10 에피소드의 평균 단계 수 = 94.0
133 Episode: Finished after 55 steps：최근 10 에피소드의 평균 단계 수 = 90.1




134 Episode: Finished after 97 steps：최근 10 에피소드의 평균 단계 수 = 87.7
135 Episode: Finished after 52 steps：최근 10 에피소드의 평균 단계 수 = 77.4






136 Episode: Finished after 71 steps：최근 10 에피소드의 평균 단계 수 = 77.5
137 Episode: Finished after 70 steps：최근 10 에피소드의 평균 단계 수 = 75.6






138 Episode: Finished after 79 steps：최근 10 에피소드의 평균 단계 수 = 77.2




139 Episode: Finished after 76 steps：최근 10 에피소드의 평균 단계 수 = 78.0




140 Episode: Finished after 86 steps：최근 10 에피소드의 평균 단계 수 = 79.1
141 Episode: Finished after 58 steps：최근 10 에피소드의 평균 단계 수 = 75.0






142 Episode: Finished after 74 steps：최근 10 에피소드의 평균 단계 수 = 71.8




143 Episode: Finished after 86 steps：최근 10 에피소드의 평균 단계 수 = 74.9
144 Episode: Finished after 78 steps：최근 10 에피소드의 평균 단계 수 = 73.0




145 Episode: Finished after 83 steps：최근 10 에피소드의 평균 단계 수 = 76.1






146 Episode: Finished after 89 steps：최근 10 에피소드의 평균 단계 수 = 77.9
147 Episode: Finished after 49 steps：최근 10 에피소드의 평균 단계 수 = 75.8




148 Episode: Finished after 34 steps：최근 10 에피소드의 평균 단계 수 = 71.3
149 Episode: Finished after 64 steps：최근 10 에피소드의 평균 단계 수 = 70.1






150 Episode: Finished after 106 steps：최근 10 에피소드의 평균 단계 수 = 72.1
151 Episode: Finished after 62 steps：최근 10 에피소드의 평균 단계 수 = 72.5






152 Episode: Finished after 78 steps：최근 10 에피소드의 평균 단계 수 = 72.9




153 Episode: Finished after 93 steps：최근 10 에피소드의 평균 단계 수 = 73.6
154 Episode: Finished after 45 steps：최근 10 에피소드의 평균 단계 수 = 70.3






155 Episode: Finished after 83 steps：최근 10 에피소드의 평균 단계 수 = 70.3




156 Episode: Finished after 121 steps：최근 10 에피소드의 평균 단계 수 = 73.5
157 Episode: Finished after 65 steps：최근 10 에피소드의 평균 단계 수 = 75.1








158 Episode: Finished after 146 steps：최근 10 에피소드의 평균 단계 수 = 86.3






159 Episode: Finished after 173 steps：최근 10 에피소드의 평균 단계 수 = 97.2






160 Episode: Finished after 158 steps：최근 10 에피소드의 평균 단계 수 = 102.4






161 Episode: Finished after 199 steps：최근 10 에피소드의 평균 단계 수 = 116.1










162 Episode: Finished after 182 steps：최근 10 에피소드의 평균 단계 수 = 126.5




163 Episode: Finished after 85 steps：최근 10 에피소드의 평균 단계 수 = 125.7






164 Episode: Finished after 116 steps：최근 10 에피소드의 평균 단계 수 = 132.8








165 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 144.5






166 Episode: Finished after 169 steps：최근 10 에피소드의 평균 단계 수 = 149.3








167 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 162.8




168 Episode: Finished after 144 steps：최근 10 에피소드의 평균 단계 수 = 162.6








169 Episode: Finished after 177 steps：최근 10 에피소드의 평균 단계 수 = 163.0






170 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 167.2






171 Episode: Finished after 135 steps：최근 10 에피소드의 평균 단계 수 = 160.8








172 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 162.6




173 Episode: Finished after 140 steps：최근 10 에피소드의 평균 단계 수 = 168.1








174 Episode: Finished after 167 steps：최근 10 에피소드의 평균 단계 수 = 173.2








175 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 173.2






176 Episode: Finished after 150 steps：최근 10 에피소드의 평균 단계 수 = 171.3








177 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 171.3








178 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 176.9








179 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 179.2






180 Episode: Finished after 137 steps：최근 10 에피소드의 평균 단계 수 = 172.9






181 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 179.4








182 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 179.4








183 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 185.4






184 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 188.7








185 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 188.7








186 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 193.7






187 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 193.7








188 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 193.7






189 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 193.7








190 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 200.0
10 에피소드 연속 성공
















191 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 200.0
