In [34]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

In [35]:
# 애니메이션을 만드는 함수
# 참고 URL http://nbviewer.jupyter.org/github/patrickmineault/xcorr-notebooks/blob/master/Render%20OpenAI%20gym%20as%20GIF.ipynb
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display


def display_frames_as_gif(frames):
    """
    Displays a list of frames as a gif, with controls
    """
    plt.figure(figsize=(frames[0].shape[1]/72.0, frames[0].shape[0]/72.0),
               dpi=72)
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames),
                                   interval=50)

    anim.save('movie_cartpole.mp4')  # 주석 추가 : 애니메이션을 저장하는 부분
    display(display_animation(anim, default_mode='loop'))

In [36]:
# 상수 정의
ENV = 'CartPole-v0'  # 태스크 이름
GAMMA = 0.99  # 시간할인율
MAX_STEPS = 200  # 1에피소드 당 최대 단계 수
NUM_EPISODES = 500  # 최대 에피소드 수

In [37]:
from collections import namedtuple
Transition=namedtuple('Transition',('state','action','next_state','reward'))

In [38]:

class ReplayMemory:

    def __init__(self, CAPACITY):
        self.capacity = CAPACITY  # 메모리의 최대 저장 건수
        self.memory = []  # 실제 transition을 저장할 변수
        self.index = 0  # 저장 위치를 가리킬 인덱스 변수

    def push(self, state, action, state_next, reward):
        '''transition = (state, action, state_next, reward)을 메모리에 저장'''

        if len(self.memory) < self.capacity:
            self.memory.append(None)  # 메모리가 가득차지 않은 경우

        # Transition이라는 namedtuple을 사용하여 키-값 쌍의 형태로 값을 저장
        self.memory[self.index] = Transition(state, action, state_next, reward)

        self.index = (self.index + 1) % self.capacity  # 다음 저장할 위치를 한 자리 뒤로 수정

    def sample(self, batch_size):
        '''batch_size 갯수 만큼 무작위로 저장된 transition을 추출'''
        return random.sample(self.memory, batch_size)

    def __len__(self):
        '''len 함수로 현재 저장된 transition 갯수를 반환'''
        return len(self.memory)

In [53]:
import random
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F

BATCH_SIZE = 32
CAPACITY = 10000
class Brain:
    def __init__(self,num_states,num_actions):
        self.num_action=num_actions
        self.memory=ReplayMemory(CAPACITY)
        
        self.model=nn.Sequential()
        self.model.add_module('fc1',nn.Linear(num_states,32))
        self.model.add_module('relu1',nn.ReLU())
        self.model.add_module('fc2',nn.Linear(32,32))
        self.model.add_module('relu2',nn.ReLU())
        self.model.add_module('fc3',nn.Linear(32,num_actions))
        
        self.optimizer=optim.Adam(self.model.parameters(),lr=0.0001)
    def replay(self):
        if len(self.memory)<BATCH_SIZE:
            print("not enough Transition")
            return
        sample=self.memory.sample(BATCH_SIZE)
        batch=Transition(*zip(*sample))
        
        state_batch=torch.cat(batch.state)
        action_batch=torch.cat(batch.action)
        reward_batch=torch.cat(batch.reward)
        non_final_next_states=torch.cat([s for s in batch.next_state if s is not None])
        
        self.model.eval()
        
        state_action_values=self.model(state_batch).gather(1,action_batch)
        
        mask=tuple(map(lambda s: s is not None,batch.next_state))
        
        non_final_mask=torch.ByteTensor(mask)
        
        next_state_values=torch.zeros(BATCH_SIZE)
        
        next_state_values[non_final_mask]=self.model(non_final_next_states).max(1)[0].detach()
        expected_state_action_values=reward_batch+GAMMA*next_state_values
        
        self.model.train()
        
        loss=F.smooth_l1_loss(state_action_values,expected_state_action_values.unsqueeze(1))
        
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
    def decide_action(self,state, episode):
        '''현재 상태에 따라 행동을 결정한다'''
        # ε-greedy 알고리즘에서 서서히 최적행동의 비중을 늘린다
        epsilon = 0.5 * (1 / (episode + 1))

        if epsilon <= np.random.uniform(0, 1):
            self.model.eval()  # 신경망을 추론 모드로 전환
            with torch.no_grad():
                action = self.model(state).max(1)[1].view(1, 1)
            # 신경망 출력의 최댓값에 대한 인덱스 = max(1)[1]
            # .view(1,1)은 [torch.LongTensor of size 1] 을 size 1*1로 변환하는 역할을 한다

        else:
            # 행동을 무작위로 반환(0 혹은 1)
            action = torch.LongTensor(
                [[random.randrange(2)]])  # 행동을 무작위로 반환(0 혹은 1)
            # action은 [torch.LongTensor of size 1*1] 형태가 된다

        return action

In [54]:
class Agent:
    def __init__(self, num_states, num_actions):
        '''태스크의 상태 및 행동의 가짓수를 설정'''
        self.brain = Brain(num_states, num_actions)  # 에이전트의 행동을 결정할 두뇌 역할 객체를 생성

    def update_q_function(self):
        '''Q함수를 수정'''
        self.brain.replay()

    def get_action(self, state, episode):
        '''행동을 결정'''
        action = self.brain.decide_action(state, episode)
        return action

    def memorize(self, state, action, state_next, reward):
        '''memory 객체에 state, action, state_next, reward 내용을 저장'''
        self.brain.memory.push(state, action, state_next, reward)

In [55]:
class Environment:

    def __init__(self):
        self.env = gym.make(ENV)  # 태스크를 설정
        num_states = self.env.observation_space.shape[0]  # 태스크의 상태 변수 수(4)를 받아옴
        num_actions = self.env.action_space.n  # 태스크의 행동 가짓수(2)를 받아옴
        self.agent = Agent(num_states, num_actions)  # 에이전트 역할을 할 객체를 생성

        
    def run(self):
        '''실행'''
        episode_10_list = np.zeros(10)  # 최근 10에피소드 동안 버틴 단계 수를 저장함(평균 단계 수를 출력할 때 사용)
        complete_episodes = 0  # 현재까지 195단계를 버틴 에피소드 수
        episode_final = False  # 마지막 에피소드 여부
        frames = []  # 애니메이션을 만들기 위해 마지막 에피소드의 프레임을 저장할 배열

        for episode in range(NUM_EPISODES):  # 최대 에피소드 수만큼 반복
            observation = self.env.reset()  # 환경 초기화

            state = observation  # 관측을 변환없이 그대로 상태 s로 사용
            state = torch.from_numpy(state).type(
                torch.FloatTensor)  # NumPy 변수를 파이토치 텐서로 변환
            state = torch.unsqueeze(state, 0)  # size 4를 size 1*4로 변환

            for step in range(MAX_STEPS):  # 1 에피소드에 해당하는 반복문

                if episode_final is True:  # 마지막 에피소드에서는 각 시각의 이미지를 frames에 저장한다
                    frames.append(self.env.render(mode='rgb_array'))

                action = self.agent.get_action(state, episode)  # 다음 행동을 결정

                # 행동 a_t를 실행하여 다음 상태 s_{t+1}과 done 플래그 값을 결정
                # action에 .item()을 호출하여 행동 내용을 구함
                observation_next, _, done, _ = self.env.step(
                    action.item())  # reward와 info는 사용하지 않으므로 _로 처리

                # 보상을 부여하고 episode의 종료 판정 및 state_next를 설정한다
                if done:  # 단계 수가 200을 넘었거나 봉이 일정 각도 이상 기울면 done이 True가 됨
                    state_next = None  # 다음 상태가 없으므로 None으로

                    # 최근 10 에피소드에서 버틴 단계 수를 리스트에 저장
                    episode_10_list = np.hstack(
                        (episode_10_list[1:], step + 1))

                    if step < 195:
                        reward = torch.FloatTensor(
                            [-1.0])  # 도중에 봉이 쓰러졌다면 페널티로 보상 -1을 부여
                        complete_episodes = 0  # 연속 성공 에피소드 기록을 초기화
                    else:
                        reward = torch.FloatTensor([1.0])  # 봉이 서 있는 채로 에피소드를 마쳤다면 보상 1 부여
                        complete_episodes = complete_episodes + 1  # 연속 성공 에피소드 기록을 갱신
                else:
                    reward = torch.FloatTensor([0.0])  # 그 외의 경우는 보상 0을 부여
                    state_next = observation_next  # 관측 결과를 그대로 상태로 사용
                    state_next = torch.from_numpy(state_next).type(
                        torch.FloatTensor)  # numpy 변수를 파이토치 텐서로 변환
                    state_next = torch.unsqueeze(state_next, 0)  # size 4를 size 1*4로 변환

                # 메모리에 경험을 저장
                self.agent.memorize(state, action, state_next, reward)

                # Experience Replay로 Q함수를 수정
                self.agent.update_q_function()

                # 관측 결과를 업데이트
                state = state_next

                # 에피소드 종료 처리
                if done:
                    print('%d Episode: Finished after %d steps：최근 10 에피소드의 평균 단계 수 = %.1lf' % (
                        episode, step + 1, episode_10_list.mean()))
                    break

            if episode_final is True:
                # 애니메이션 생성 및 저장
                display_frames_as_gif(frames)
                break

            # 10 에피소드 연속으로 195단계를 버티면 태스크 성공
            if complete_episodes >= 10:
                print('10 에피소드 연속 성공')
                episode_final = True  # 다음 에피소드에서 애니메이션을 생성

In [None]:

# 실행 엔트리 포인트
cartpole_env = Environment()
cartpole_env.run()

not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
0 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 0.8
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
1 Episode: Finished after 14 steps：최근 10 에피소드의 평균 단계 수 = 2.2
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
not enough Transition
2 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 3.5
3 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 4.5
4 Episode: Finished after 14 steps：최근 10 에피소드의 평균 단계 수 = 5.9
5 Episode: Fin



13 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.3
14 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.7
15 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.6
16 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.7
17 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.6
18 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5
19 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.3
20 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.3
21 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.1
22 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.1
23 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.3
24 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.5
25 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5
26 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.5






27 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.6
28 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.8
29 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.2
30 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.3
31 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.4
32 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.4
33 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.3
34 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.3
35 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.3
36 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 10.1
37 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 10.1
38 Episode: Finished after 8 steps：최근 10 에피소드의 평균 단계 수 = 9.8
39 Episode: Finished after 9 steps：최근 10 에피소드의 평균 단계 수 = 9.5
40 Episode: Finished after 10 steps：최근 10 에피소드의 평균 단계 수 = 9.5




41 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.6
42 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 9.8
43 Episode: Finished after 11 steps：최근 10 에피소드의 평균 단계 수 = 9.9
44 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.1
45 Episode: Finished after 12 steps：최근 10 에피소드의 평균 단계 수 = 10.4
46 Episode: Finished after 13 steps：최근 10 에피소드의 평균 단계 수 = 10.8
47 Episode: Finished after 19 steps：최근 10 에피소드의 평균 단계 수 = 11.7
48 Episode: Finished after 23 steps：최근 10 에피소드의 평균 단계 수 = 13.2
49 Episode: Finished after 19 steps：최근 10 에피소드의 평균 단계 수 = 14.2




50 Episode: Finished after 20 steps：최근 10 에피소드의 평균 단계 수 = 15.2
51 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 15.8
52 Episode: Finished after 40 steps：최근 10 에피소드의 평균 단계 수 = 18.6
53 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 19.2
54 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 19.7




55 Episode: Finished after 37 steps：최근 10 에피소드의 평균 단계 수 = 22.2
56 Episode: Finished after 19 steps：최근 10 에피소드의 평균 단계 수 = 22.8
57 Episode: Finished after 18 steps：최근 10 에피소드의 평균 단계 수 = 22.7
58 Episode: Finished after 17 steps：최근 10 에피소드의 평균 단계 수 = 22.1




59 Episode: Finished after 93 steps：최근 10 에피소드의 평균 단계 수 = 29.5
60 Episode: Finished after 37 steps：최근 10 에피소드의 평균 단계 수 = 31.2
61 Episode: Finished after 51 steps：최근 10 에피소드의 평균 단계 수 = 34.6






62 Episode: Finished after 131 steps：최근 10 에피소드의 평균 단계 수 = 43.7
63 Episode: Finished after 56 steps：최근 10 에피소드의 평균 단계 수 = 47.6
64 Episode: Finished after 54 steps：최근 10 에피소드의 평균 단계 수 = 51.3




65 Episode: Finished after 36 steps：최근 10 에피소드의 평균 단계 수 = 51.2
66 Episode: Finished after 31 steps：최근 10 에피소드의 평균 단계 수 = 52.4
67 Episode: Finished after 43 steps：최근 10 에피소드의 평균 단계 수 = 54.9




68 Episode: Finished after 69 steps：최근 10 에피소드의 평균 단계 수 = 60.1
69 Episode: Finished after 62 steps：최근 10 에피소드의 평균 단계 수 = 57.0
70 Episode: Finished after 42 steps：최근 10 에피소드의 평균 단계 수 = 57.5






71 Episode: Finished after 45 steps：최근 10 에피소드의 평균 단계 수 = 56.9
72 Episode: Finished after 46 steps：최근 10 에피소드의 평균 단계 수 = 48.4
73 Episode: Finished after 31 steps：최근 10 에피소드의 평균 단계 수 = 45.9
74 Episode: Finished after 38 steps：최근 10 에피소드의 평균 단계 수 = 44.3




75 Episode: Finished after 43 steps：최근 10 에피소드의 평균 단계 수 = 45.0
76 Episode: Finished after 36 steps：최근 10 에피소드의 평균 단계 수 = 45.5
77 Episode: Finished after 55 steps：최근 10 에피소드의 평균 단계 수 = 46.7




78 Episode: Finished after 83 steps：최근 10 에피소드의 평균 단계 수 = 48.1
79 Episode: Finished after 50 steps：최근 10 에피소드의 평균 단계 수 = 46.9
80 Episode: Finished after 52 steps：최근 10 에피소드의 평균 단계 수 = 47.9






81 Episode: Finished after 63 steps：최근 10 에피소드의 평균 단계 수 = 49.7
82 Episode: Finished after 42 steps：최근 10 에피소드의 평균 단계 수 = 49.3
83 Episode: Finished after 33 steps：최근 10 에피소드의 평균 단계 수 = 49.5




84 Episode: Finished after 94 steps：최근 10 에피소드의 평균 단계 수 = 55.1
85 Episode: Finished after 66 steps：최근 10 에피소드의 평균 단계 수 = 57.4




86 Episode: Finished after 62 steps：최근 10 에피소드의 평균 단계 수 = 60.0
87 Episode: Finished after 95 steps：최근 10 에피소드의 평균 단계 수 = 64.0






88 Episode: Finished after 80 steps：최근 10 에피소드의 평균 단계 수 = 63.7
89 Episode: Finished after 128 steps：최근 10 에피소드의 평균 단계 수 = 71.5






90 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 86.3




91 Episode: Finished after 127 steps：최근 10 에피소드의 평균 단계 수 = 92.7






92 Episode: Finished after 166 steps：최근 10 에피소드의 평균 단계 수 = 105.1
93 Episode: Finished after 46 steps：최근 10 에피소드의 평균 단계 수 = 106.4




94 Episode: Finished after 68 steps：최근 10 에피소드의 평균 단계 수 = 103.8
95 Episode: Finished after 104 steps：최근 10 에피소드의 평균 단계 수 = 107.6




96 Episode: Finished after 68 steps：최근 10 에피소드의 평균 단계 수 = 108.2






97 Episode: Finished after 166 steps：최근 10 에피소드의 평균 단계 수 = 115.3
98 Episode: Finished after 58 steps：최근 10 에피소드의 평균 단계 수 = 113.1




99 Episode: Finished after 101 steps：최근 10 에피소드의 평균 단계 수 = 110.4






100 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 110.4




101 Episode: Finished after 144 steps：최근 10 에피소드의 평균 단계 수 = 112.1
102 Episode: Finished after 86 steps：최근 10 에피소드의 평균 단계 수 = 104.1




103 Episode: Finished after 60 steps：최근 10 에피소드의 평균 단계 수 = 105.5
104 Episode: Finished after 92 steps：최근 10 에피소드의 평균 단계 수 = 107.9






105 Episode: Finished after 96 steps：최근 10 에피소드의 평균 단계 수 = 107.1






106 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 120.3




107 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 123.7
108 Episode: Finished after 71 steps：최근 10 에피소드의 평균 단계 수 = 125.0






109 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 134.9






110 Episode: Finished after 141 steps：최근 10 에피소드의 평균 단계 수 = 129.0
111 Episode: Finished after 89 steps：최근 10 에피소드의 평균 단계 수 = 123.5






112 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 134.9






113 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 148.9




114 Episode: Finished after 135 steps：최근 10 에피소드의 평균 단계 수 = 153.2




115 Episode: Finished after 151 steps：최근 10 에피소드의 평균 단계 수 = 158.7






116 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 158.7




117 Episode: Finished after 127 steps：최근 10 에피소드의 평균 단계 수 = 151.4




118 Episode: Finished after 152 steps：최근 10 에피소드의 평균 단계 수 = 159.5






119 Episode: Finished after 198 steps：최근 10 에피소드의 평균 단계 수 = 159.3




120 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 165.2






121 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 176.3




122 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 176.3






123 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 176.3






124 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 182.8




125 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 187.7






126 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 187.7






127 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 195.0




128 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 199.8
10 에피소드 연속 성공










129 Episode: Finished after 200 steps：최근 10 에피소드의 평균 단계 수 = 200.0
