## 1. Cartpole 강화학습 준비

In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

### 1.1 Cartpole 시연함수

In [2]:
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display


def display_frames_as_gif(frames):
    plt.figure(figsize=(frames[0].shape[1] / 72.0, frames[0].shape[0] / 72.0),
               dpi=72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames),
                                   interval=50)

    anim.save('Cartpole_DeulingNetwork.mp4')
    display(display_animation(anim, default_mode='loop'))

### 1.2 Constant 정의

In [3]:
from collections import namedtuple

Transition = namedtuple(
    'Transition', ('state', 'action', 'next_state', 'reward'))

In [4]:
ENV = 'CartPole-v0' 
GAMMA = 0.99 
MAX_STEPS = 200  
NUM_EPISODES = 500  

## 2. ReplayMemory

In [5]:
class ReplayMemory:

    def __init__(self, CAPACITY):
        self.capacity = CAPACITY 
        self.memory = [] 
        self.index = 0 

    def push(self, state, action, state_next, reward):
        if len(self.memory) < self.capacity:
            self.memory.append(None)  

        self.memory[self.index] = Transition(state, action, state_next, reward)
        self.index = (self.index + 1) % self.capacity  

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

In [6]:
#!pip install --upgrade pip

In [7]:
#!pip install torch

## 3. Cartpole Dueling DQN 설계

In [8]:
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self, n_in, n_mid, n_out):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(n_in, n_mid)
        self.fc2 = nn.Linear(n_mid, n_mid)
        # Dueling Network
        self.fc3_adv = nn.Linear(n_mid, n_out) 
        self.fc3_v = nn.Linear(n_mid, 1)
        
    def forward(self, x):
        h1 = F.relu(self.fc1(x))
        h2 = F.relu(self.fc2(h1))

        adv = self.fc3_adv(h2)  
        val = self.fc3_v(h2).expand(-1, adv.size(1))  


        output = val + adv - adv.mean(1, keepdim=True).expand(-1, adv.size(1))
        return output

In [9]:
import random
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F

BATCH_SIZE = 32
CAPACITY = 10000


class Brain:
    def __init__(self, num_states, num_actions):
        self.num_actions = num_actions  

        self.memory = ReplayMemory(CAPACITY)

        n_in, n_mid, n_out = num_states, 32, num_actions
        self.main_q_network = Net(n_in, n_mid, n_out) 
        self.target_q_network = Net(n_in, n_mid, n_out)  
        print(self.main_q_network)  

        self.optimizer = optim.Adam(
            self.main_q_network.parameters(), lr=0.0001)

    def replay(self):

        if len(self.memory) < BATCH_SIZE:
            return
        self.batch, self.state_batch, self.action_batch, self.reward_batch, self.non_final_next_states = self.make_minibatch()
        self.expected_state_action_values = self.get_expected_state_action_values()
        self.update_main_q_network()

    def decide_action(self, state, episode):
        epsilon = 0.5 * (1 / (episode + 1))

        if epsilon <= np.random.uniform(0, 1):
            self.main_q_network.eval()  
            with torch.no_grad():
                action = self.main_q_network(state).max(1)[1].view(1, 1)

        else:
            action = torch.LongTensor(
                [[random.randrange(self.num_actions)]]) 
        return action

    def make_minibatch(self):
        transitions = self.memory.sample(BATCH_SIZE)

        batch = Transition(*zip(*transitions))

        state_batch = torch.cat(batch.state)
        action_batch = torch.cat(batch.action)
        reward_batch = torch.cat(batch.reward)
        non_final_next_states = torch.cat([s for s in batch.next_state
                                           if s is not None])

        return batch, state_batch, action_batch, reward_batch, non_final_next_states

    def get_expected_state_action_values(self):

        self.main_q_network.eval()
        self.target_q_network.eval()

        self.state_action_values = self.main_q_network(
            self.state_batch).gather(1, self.action_batch)

        non_final_mask = torch.ByteTensor(tuple(map(lambda s: s is not None,
                                                    self.batch.next_state)))
        next_state_values = torch.zeros(BATCH_SIZE)

        a_m = torch.zeros(BATCH_SIZE).type(torch.LongTensor)

        a_m[non_final_mask] = self.main_q_network(
            self.non_final_next_states).detach().max(1)[1]

        a_m_non_final_next_states = a_m[non_final_mask].view(-1, 1)

        next_state_values[non_final_mask] = self.target_q_network(
            self.non_final_next_states).gather(1, a_m_non_final_next_states).detach().squeeze()

        expected_state_action_values = self.reward_batch + GAMMA * next_state_values

        return expected_state_action_values

    def update_main_q_network(self):

        self.main_q_network.train()

        loss = F.smooth_l1_loss(self.state_action_values,
                                self.expected_state_action_values.unsqueeze(1))

        self.optimizer.zero_grad() 
        loss.backward()  
        self.optimizer.step() 

    def update_target_q_network(self):  
        self.target_q_network.load_state_dict(self.main_q_network.state_dict())

## 4. Cartpole Agent 설계

In [10]:
class Agent:
    def __init__(self, num_states, num_actions):
        self.brain = Brain(num_states, num_actions)  
        
    def update_q_function(self):
        self.brain.replay()

    def get_action(self, state, episode):
        action = self.brain.decide_action(state, episode)
        return action

    def memorize(self, state, action, state_next, reward):
        self.brain.memory.push(state, action, state_next, reward)

    def update_target_q_function(self):
        self.brain.update_target_q_network()

## 5. Cartpole 환경 설계

In [11]:
class Environment:

    def __init__(self):
        self.env = gym.make(ENV)  
        num_states = self.env.observation_space.shape[0] 
        num_actions = self.env.action_space.n  
        self.agent = Agent(num_states, num_actions)  

    def run(self):
        episode_10_list = np.zeros(10) 
        complete_episodes = 0  
        episode_final = False  
        frames = []  
        
        for episode in range(NUM_EPISODES):
            observation = self.env.reset()  

            state = observation 
            state = torch.from_numpy(state).type(
                torch.FloatTensor)
            state = torch.unsqueeze(state, 0) 

            for step in range(MAX_STEPS):  
                
                if episode_final is True:  
                    frames.append(self.env.render(mode='rgb_array'))
                    
                action = self.agent.get_action(state, episode)  

                observation_next, _, done, _ = self.env.step(
                    action.item())  
                if done:  
                    state_next = None 

                    episode_10_list = np.hstack(
                        (episode_10_list[1:], step + 1))

                    if step < 195:
                        reward = torch.FloatTensor(
                            [-1.0])
                        complete_episodes = 0  
                    else:
                        reward = torch.FloatTensor([1.0])  
                        complete_episodes = complete_episodes + 1
                else:
                    reward = torch.FloatTensor([0.0])  
                    state_next = observation_next  
                    state_next = torch.from_numpy(state_next).type(
                        torch.FloatTensor)  
                    state_next = torch.unsqueeze(state_next, 0)  

                self.agent.memorize(state, action, state_next, reward)
                self.agent.update_q_function()

                state = state_next

                if done:
                    print('%d Episode: Finished after %d steps：최근 10 에피소드의 평균 단계 수 = %.1lf' % (
                        episode, step + 1, episode_10_list.mean()))
                    
                    if(episode % 2 == 0):
                        self.agent.update_target_q_function()
                    break
                    
                    
            if episode_final is True:
                display_frames_as_gif(frames)
                break

            if complete_episodes >= 10:
                print('10 에피소드 연속 성공')
                episode_final = True  

## 6. Cartpole Dueling DQN 학습

In [12]:
cartpole_env = Environment()
cartpole_env.run()

Net(
  (fc1): Linear(in_features=4, out_features=32, bias=True)
  (fc2): Linear(in_features=32, out_features=32, bias=True)
  (fc3_adv): Linear(in_features=32, out_features=2, bias=True)
  (fc3_v): Linear(in_features=32, out_features=1, bias=True)
)
0 Episode: Finished after 15 steps：최근 10 에피소드의 평균 단계 수 = 1.5
1 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 2.8
2 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 3.8
3 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 4.8
4 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 5.8
5 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 6.8
6 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 7.7
7 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 8.6
8 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5






9 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.5
10 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.0
11 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.5
12 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.4
13 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.2
14 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.0
15 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.0




16 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.2
17 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
18 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.4
19 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.4
20 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.4
21 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.4
22 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.4
23 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5




24 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.5
25 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.4
26 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
27 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 9.6
28 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 9.9




29 Episode: Finished after 25 steps：최근 10 에피소드의 평균 단계 수 = 11.4
30 Episode: Finished after 36 steps：최근 10 에피소드의 평균 단계 수 = 14.0
31 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 14.1
32 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 14.1
33 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 14.2




34 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 14.3
35 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 14.3
36 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 14.2
37 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 13.9
38 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 13.5
39 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 11.9
40 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.2
41 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3




42 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
43 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.3
44 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
45 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
46 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
47 Episode: Finished after 24 steps：최근 10 에피소드의 평균 단계 수 = 10.7




48 Episode: Finished after 25 steps：최근 10 에피소드의 평균 단계 수 = 12.3
49 Episode: Finished after 28 steps：최근 10 에피소드의 평균 단계 수 = 14.2






50 Episode: Finished after 93 steps：최근 10 에피소드의 평균 단계 수 = 22.6
51 Episode: Finished after 28 steps：최근 10 에피소드의 평균 단계 수 = 24.4
52 Episode: Finished after 34 steps：최근 10 에피소드의 평균 단계 수 = 26.9






53 Episode: Finished after 85 steps：최근 10 에피소드의 평균 단계 수 = 34.4
54 Episode: Finished after 31 steps：최근 10 에피소드의 평균 단계 수 = 36.6






55 Episode: Finished after 37 steps：최근 10 에피소드의 평균 단계 수 = 39.4
56 Episode: Finished after 23 steps：최근 10 에피소드의 평균 단계 수 = 40.8
57 Episode: Finished after 41 steps：최근 10 에피소드의 평균 단계 수 = 42.5




58 Episode: Finished after 42 steps：최근 10 에피소드의 평균 단계 수 = 44.2
59 Episode: Finished after 47 steps：최근 10 에피소드의 평균 단계 수 = 46.1




60 Episode: Finished after 41 steps：최근 10 에피소드의 평균 단계 수 = 40.9
61 Episode: Finished after 40 steps：최근 10 에피소드의 평균 단계 수 = 42.1






62 Episode: Finished after 36 steps：최근 10 에피소드의 평균 단계 수 = 42.3
63 Episode: Finished after 29 steps：최근 10 에피소드의 평균 단계 수 = 36.7




64 Episode: Finished after 47 steps：최근 10 에피소드의 평균 단계 수 = 38.3
65 Episode: Finished after 41 steps：최근 10 에피소드의 평균 단계 수 = 38.7




66 Episode: Finished after 27 steps：최근 10 에피소드의 평균 단계 수 = 39.1
67 Episode: Finished after 31 steps：최근 10 에피소드의 평균 단계 수 = 38.1




68 Episode: Finished after 77 steps：최근 10 에피소드의 평균 단계 수 = 41.6
69 Episode: Finished after 46 steps：최근 10 에피소드의 평균 단계 수 = 41.5




70 Episode: Finished after 40 steps：최근 10 에피소드의 평균 단계 수 = 41.4
71 Episode: Finished after 49 steps：최근 10 에피소드의 평균 단계 수 = 42.3






72 Episode: Finished after 53 steps：최근 10 에피소드의 평균 단계 수 = 44.0
73 Episode: Finished after 37 steps：최근 10 에피소드의 평균 단계 수 = 44.8




74 Episode: Finished after 43 steps：최근 10 에피소드의 평균 단계 수 = 44.4
75 Episode: Finished after 49 steps：최근 10 에피소드의 평균 단계 수 = 45.2






76 Episode: Finished after 36 steps：최근 10 에피소드의 평균 단계 수 = 46.1
77 Episode: Finished after 49 steps：최근 10 에피소드의 평균 단계 수 = 47.9




78 Episode: Finished after 24 steps：최근 10 에피소드의 평균 단계 수 = 42.6
79 Episode: Finished after 35 steps：최근 10 에피소드의 평균 단계 수 = 41.5




80 Episode: Finished after 45 steps：최근 10 에피소드의 평균 단계 수 = 42.0
81 Episode: Finished after 47 steps：최근 10 에피소드의 평균 단계 수 = 41.8




82 Episode: Finished after 38 steps：최근 10 에피소드의 평균 단계 수 = 40.3








83 Episode: Finished after 173 steps：최근 10 에피소드의 평균 단계 수 = 53.9
84 Episode: Finished after 61 steps：최근 10 에피소드의 평균 단계 수 = 55.7






85 Episode: Finished after 79 steps：최근 10 에피소드의 평균 단계 수 = 58.7
86 Episode: Finished after 60 steps：최근 10 에피소드의 평균 단계 수 = 61.1






87 Episode: Finished after 73 steps：최근 10 에피소드의 평균 단계 수 = 63.5






88 Episode: Finished after 121 steps：최근 10 에피소드의 평균 단계 수 = 73.2




89 Episode: Finished after 95 steps：최근 10 에피소드의 평균 단계 수 = 79.2






90 Episode: Finished after 144 steps：최근 10 에피소드의 평균 단계 수 = 89.1






91 Episode: Finished after 120 steps：최근 10 에피소드의 평균 단계 수 = 96.4




92 Episode: Finished after 107 steps：최근 10 에피소드의 평균 단계 수 = 103.3






93 Episode: Finished after 117 steps：최근 10 에피소드의 평균 단계 수 = 97.7








94 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 111.6






95 Episode: Finished after 139 steps：최근 10 에피소드의 평균 단계 수 = 117.6








96 Episode: Finished after 164 steps：최근 10 에피소드의 평균 단계 수 = 128.0






97 Episode: Finished after 154 steps：최근 10 에피소드의 평균 단계 수 = 136.1








98 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 144.0








99 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 154.5






100 Episode: Finished after 165 steps：최근 10 에피소드의 평균 단계 수 = 156.6








101 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 164.6








102 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 173.9








103 Episode: Finished after 183 steps：최근 10 에피소드의 평균 단계 수 = 180.5








104 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 180.5








105 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 186.6








106 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 190.2








107 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 194.8








108 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 194.8








109 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 194.8








110 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 198.3








111 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 198.3








112 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 198.3








113 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 200.0
10 에피소드 연속 성공
















114 Episode: Finished after 188 steps：최근 10 에피소드의 평균 단계 수 = 198.8
