In [45]:
from string import ascii_uppercase
from draw_utils import *
from pyglet.gl import *
import numpy as np
import pandas as pd
import os



# reward
move_reward = -1
obs_reward = -10
out_reward = -10
goal_reward = 1000
noitem_reward = -0.1

print('reward:' , move_reward, obs_reward, goal_reward)

local_path = os.path.abspath(os.path.join(os.path.dirname('__file__')))


class Simulator:
    def __init__(self):
        '''
        height : 그리드 높이
        width : 그리드 너비 
        inds : A ~ Q alphabet list
        '''
        # Load train data
        self.files = pd.read_csv(os.path.join(local_path, "./data/factory_order_train.csv"))
        self.height = 10
        self.width = 9
        self.inds = list(ascii_uppercase)[:17]

    def set_box(self):
        '''
        아이템들이 있을 위치를 미리 정해놓고 그 위치 좌표들에 아이템이 들어올 수 있으므로 그리드에 100으로 표시한다.
        데이터 파일에서 이번 에피소드 아이템 정보를 받아 가져와야 할 아이템이 있는 좌표만 -100으로 표시한다.
        self.local_target에 에이전트가 이번에 방문해야할 좌표들을 저장한다.
        따라서 가져와야하는 아이템 좌표와 end point 좌표(처음 시작했던 좌표로 돌아와야하므로)가 들어가게 된다.
        '''
        box_data = pd.read_csv(os.path.join(local_path, "./data/box.csv"))

        # 물건이 들어있을 수 있는 경우
        for box in box_data.itertuples(index = True, name ='Pandas'):
            self.grid[getattr(box, "row")][getattr(box, "col")] = 100

        # 물건이 실제 들어있는 경우
        order_item = list(set(self.inds) & set(self.items))
        order_csv = box_data[box_data['item'].isin(order_item)]

        for order_box in order_csv.itertuples(index = True, name ='Pandas'):
            self.grid[getattr(order_box, "row")][getattr(order_box, "col")] = 200
            # local target에 가야 할 위치 좌표 넣기
            self.local_target.append(
                [getattr(order_box, "row"),
                 getattr(order_box, "col")]
                )

        #self.local_target.sort()
        #self.local_target.append([9,4]) 

        # 알파벳을 Grid에 넣어서 -> grid에 2Dconv 적용 가능

    def set_obstacle(self):
        '''
        장애물이 있어야하는 위치는 미리 obstacles.csv에 정의되어 있다. 이 좌표들을 0으로 표시한다.
        '''
        obstacles_data = pd.read_csv(os.path.join(local_path, "./data/obstacles.csv"))
        for obstacle in obstacles_data.itertuples(index = True, name ='Pandas'):
            self.grid[getattr(obstacle, "row")][getattr(obstacle, "col")] = 150

    def reset(self, epi):
        '''
        reset()은 첫 스텝에서 사용되며 그리드에서 에이전트 위치가 start point에 있게 한다.

        :param epi: episode, 에피소드 마다 가져와야 할 아이템 리스트를 불러올 때 사용
        :return: 초기셋팅 된 그리드
        :rtype: numpy.ndarray
        _____________________________________________________________________________________
        items : 이번 에피소드에서 가져와야하는 아이템들
        terminal_location : 현재 에이전트가 찾아가야하는 목적지
        local_target : 한 에피소드에서 찾아가야하는 아이템 좌표, 마지막 엔드 포인트 등의 위치좌표들
        actions: visualization을 위해 에이전트 action을 저장하는 리스트
        curloc : 현재 위치
        '''

        # initial episode parameter setting
        self.epi = epi
        self.items = list(self.files.iloc[self.epi])[0]
        self.cumulative_reward = 0
        self.terminal_location = None
        self.local_target = []
        self.actions = []

        # initial grid setting
        self.grid = np.ones((self.height, self.width), dtype="float16")

        # set information about the gridworld
        self.set_box()
        self.set_obstacle()

        # start point를 grid에 표시
        self.curloc = [9, 4]
        self.grid[int(self.curloc[0])][int(self.curloc[1])] = 50
        
        self.done = False
        
        return self.grid

    def apply_action(self, action, cur_x, cur_y):
        '''
        에이전트가 행한 action대로 현 에이전트의 위치좌표를 바꾼다.
        action은 discrete하며 4가지 up,down,left,right으로 정의된다.
        
        :param x: 에이전트의 현재 x 좌표
        :param y: 에이전트의 현재 y 좌표
        :return: action에 따라 변한 에이전트의 x 좌표, y 좌표
        :rtype: int, int
        '''
        new_x = cur_x
        new_y = cur_y
        # up
        if action == 0:
            new_x = cur_x - 1
        # down
        elif action == 1:
            new_x = cur_x + 1
        # left
        elif action == 2:
            new_y = cur_y - 1
        # right
        else:
            new_y = cur_y + 1

        return int(new_x), int(new_y)


    def get_reward(self, new_x, new_y, out_of_boundary):
        '''
        get_reward함수는 리워드를 계산하는 함수이며, 상황에 따라 에이전트가 action을 옳게 했는지 판단하는 지표가 된다.

        :param new_x: action에 따른 에이전트 새로운 위치좌표 x
        :param new_y: action에 따른 에이전트 새로운 위치좌표 y
        :param out_of_boundary: 에이전트 위치가 그리드 밖이 되지 않도록 제한
        :return: action에 따른 리워드
        :rtype: float
        '''

        # 바깥으로 나가는 경우
        if any(out_of_boundary):
            reward = out_reward
                       
        else:
            # 장애물에 부딪히는 경우 
            if self.grid[new_x][new_y] == 150:
                reward = obs_reward
                
            elif self.grid[new_x][new_y] == 100:
                reward = noitem_reward

            # 현재 목표에 도달한 경우
            elif [new_x, new_y] in self.local_target:##########################
                reward = goal_reward
                ########## 도착하면 보상 #########
                if [new_x, new_y] == [9,4]:
                    reward = 2000
            #elif new_x == self.terminal_location[0] and new_y == self.terminal_location[1]:
                #reward = goal_reward

            # 그냥 움직이는 경우 
            else:
                reward = move_reward

        return reward

    def step(self, action, epi):
        ''' ,
        에이전트의 action에 따라 step을 진행한다.
        action에 따라 에이전트 위치를 변환하고, action에 대해 리워드를 받고, 어느 상황에 에피소드가 종료되어야 하는지 등을 판단한다.
        에이전트가 endpoint에 도착하면 gif로 에피소드에서 에이전트의 행동이 저장된다.

        :param action: 에이전트 행동
        :return:
            grid, 그리드
            reward, 리워드
            cumulative_reward, 누적 리워드
            done, 종료 여부
            goal_ob_reward, goal까지 아이템을 모두 가지고 돌아오는 finish율 계산을 위한 파라미터

        :rtype: numpy.ndarray, float, float, bool, bool/str

        (Hint : 시작 위치 (9,4)에서 up말고 다른 action은 전부 장애물이므로 action을 고정하는 것이 좋음)
        '''

        #self.terminal_location = self.local_target[0]
        cur_x,cur_y = self.curloc
        self.actions.append((cur_x, cur_y))

        goal_ob_reward = False
        
        new_x, new_y = self.apply_action(action, cur_x, cur_y)

        out_of_boundary = [new_x < 0, new_x >= self.height, new_y < 0, new_y >= self.width]

        if epi <= 100000:
            if any(out_of_boundary):
                #self.done = True
                #goal_ob_reward = True
                reward = self.get_reward(new_x, new_y, out_of_boundary)
            else:
            # 장애물에 부딪히는 경우 종료
                if (self.grid[new_x][new_y] == 150) or (self.grid[new_x][new_y] == 100):
                    #self.done = True
                    #goal_ob_reward = True
                    reward = self.get_reward(new_x, new_y, out_of_boundary)

            # 현재 목표에 도달한 경우, 다음 목표설정
                #elif new_x == self.terminal_location[0] and new_y == self.terminal_location[1]:
                elif [new_x, new_y] in self.local_target:

                # end point 일 때
                    if [new_x, new_y] == [9,4]:
                        self.done = True
                    reward = self.get_reward(new_x, new_y, out_of_boundary)
                    self.local_target.remove([new_x, new_y])
                    if self.local_target == []:
                        self.local_target.append([9,4])###########################
                    self.grid[cur_x][cur_y] = 1
                    self.grid[new_x][new_y] = 50
                    goal_ob_reward = True
                    self.curloc = [new_x, new_y]
                    
                else:
                # 그냥 움직이는 경우 
                    self.grid[cur_x][cur_y] = 1
                    self.grid[new_x][new_y] = 50
                    self.curloc = [new_x,new_y]
                    reward = self.get_reward(new_x, new_y, out_of_boundary)
        
        else:
            
        # 바깥으로 나가는 경우 종료
            if any(out_of_boundary):
                self.done = True
                goal_ob_reward = True
                reward = self.get_reward(new_x, new_y, out_of_boundary)
            else:
            # 장애물에 부딪히는 경우 종료
                if (self.grid[new_x][new_y] == 150): #or (self.grid[new_x][new_y] == 100):
                    self.done = True
                    goal_ob_reward = True
                    reward = self.get_reward(new_x, new_y, out_of_boundary)
                    
                elif (self.grid[new_x][new_y] == 100):
                    reward = self.get_reward(new_x, new_y, out_of_boundary)

            #elif new_x == self.terminal_location[0] and new_y == self.terminal_location[1]:
                elif [new_x, new_y] in self.local_target:

                # end point 일 때
                    if [new_x, new_y] == [9,4]:
                        self.done = True
                    reward = self.get_reward(new_x, new_y, out_of_boundary)
                    self.local_target.remove([new_x, new_y])
                    if self.local_target == []:
                        self.local_target.append([9,4])###########################
                    self.grid[cur_x][cur_y] = 1
                    self.grid[new_x][new_y] = 50
                    goal_ob_reward = True
                    self.curloc = [new_x, new_y]
                else:
                # 그냥 움직이는 경우 
                    self.grid[cur_x][cur_y] = 1
                    self.grid[new_x][new_y] = 50
                    self.curloc = [new_x,new_y]
                    reward = self.get_reward(new_x, new_y, out_of_boundary)
                
        
        self.cumulative_reward += reward

        if self.done == True:
            if [new_x, new_y] == [9, 4]:
                if self.local_target[0] == [9, 4]:
                    # 완료되면 GIFS 저장
                    print(f'100번 안에 들어왔다! : {len(self.actions)}')
                    goal_ob_reward = 'finish'
                    height = 10
                    width = 9 
                    display = Display(visible=False, size=(width, height))
                    display.start()

                    start_point = (9, 4)
                    unit = 50
                    screen_height = height * unit
                    screen_width = width * unit
                    log_path = "./logs"
                    data_path = "./data"
                    render_cls = Render(screen_width, screen_height, unit, start_point, data_path, log_path)
                    for idx, new_pos in enumerate(self.actions):
                        render_cls.update_movement(new_pos, idx+1)
                    
                    render_cls.save_gif(self.epi)
                    render_cls.viewer.close()
                    display.stop()
        
        return self.grid, reward, self.cumulative_reward, self.done, goal_ob_reward


# if __name__ == "__main__":

#     sim = Simulator()
#     files = pd.read_csv("./data/factory_order_train.csv")
   
#     for epi in range(1): # len(files)):
#         items = list(files.iloc[epi])[0]
#         done = False
#         i = 0
#         obs = sim.reset(epi)
#         actions = [0, 0, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 3, 3, 0, 1, 3, 3, 3, 3, 0, 1, 3, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1]

#         while done == False:
            
#             i += 1
#             next_obs, reward, cumul ,done, goal_reward = sim.step(actions[i])

#             obs = next_obs

#             if (done == True) or (i == (len(actions)-1)):
#                 i =0


reward: -1 -10 1000


## 1. Agent 구성

Agent 구성에 필요한 요소

1. Replay Buffer
2. Qnet

In [46]:
import collections
import pdb
import random

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

#from Sim import *



### Replay buffer

In [47]:

## Replay buffer

class ReplayBuffer():
    def __init__(self):
        self.buffer = collections.deque(maxlen=buffer_limit)

    def put(self, transition):
        self.buffer.append(transition)

    def sample(self, n):
        mini_batch = random.sample(self.buffer, n)     #sample 메서드 : buffer 중에 n 개만 뽑음
        s_lst, a_lst, r_lst, s_prime_lst, done_mask_lst = [], [], [], [], []
                                                        # state 값, action 값, reward 값, 다음 state 값, done_mask 값
                                                        # done_mask : 종료 상태의 Value 값을 마스킹해줍니다

        for transition in mini_batch: #우리가 뽑은 n 개의 미니배치들 하나씩에서
            s, a, r, s_prime, done_mask = transition #

            # 이로 보아 하나의 sample 에는 s,a,s_prime,done_mask 값이 담김을 확인할 수 있다
            s_lst.append(s)
            a_lst.append([a]) # 자료형이 list 임을 확인 가능, 여러개의 action 이 담겨있을 것이라 추측
            r_lst.append([r])
            s_prime_lst.append(s_prime)
            done_mask_lst.append([done_mask])

        return torch.tensor(s_lst, dtype=torch. float), torch.tensor(a_lst), torch.tensor(r_lst), torch.tensor(s_prime_lst, dtype=torch. float), torch.tensor(done_mask_lst)
        # s_lst, s_prime_lst 는 타입을 바꿔주었다. 데이터가 int 였기 때문에
        # 나머지는 tensor화

    def size(self):
        return len(self.buffer)




### Qnet

In [48]:
class QnetCNN(nn.Module):
    def __init__(self):
        super(QnetCNN, self).__init__()
        
        
        self.layer1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=6, kernel_size=3, stride=2, padding=1),
            nn.ReLU())

        self.layer2 = nn.Sequential(
            nn.Conv2d(6, 16, kernel_size=3, stride=2, padding=1),
            nn.ReLU())
    
        #Flatten
        self.flatten = nn.Flatten()

        self.fc1 = nn.Linear(144, 64)
        self.fc2 = nn.Linear(64, 4)
        
    def forward(self,x):
        x = torch.from_numpy(np.asarray(x)).float()
        x = torch.reshape(x, (-1, 1, 10, 9))
        
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)# 좌우상하 4개의 값을 반환
        return x

    def sample_action(self, obs, epsilon):
        out = self.forward(obs) 
        coin = random.random() 
        

        if coin < epsilon: 
            return random.randint(0,3)
        else:
            return out.argmax().item() 


## 해당 재료를 가지고 train


In [49]:
def train(q, q_target, memory, optimizer): 
    for i in range(10):
        s, a, r, s_prime, done_mask = memory.sample(batch_size) #32개를 버퍼에서 뽑아 모아 놓은 s,a,r,s_prime,done_mask
        q_out = q(s)                                            # s 값으로 다음 각 action 값들의 value 값 반환
        q_a = q_out.gather(1,a)                      #선택한 액션값들의 q(s,a) 반환
        max_q_prime = q_target(s_prime).max(1)[0].unsqueeze(1)  # 다음 state의 각 q(s,a) 값 반환
        target = r + gamma * max_q_prime * done_mask # 배열 맞춰주기, 쓰러진 경우는 제거
        
        loss = F.smooth_l1_loss(q_a, target)                    # DQN 의 손실함수 계산 L1 유클리드

        optimizer.zero_grad()                                   # optimizer 의 모든 parameter 를 0으로 변환
        loss.backward()                                         # loss 에 대한 gradient 계산
        optimizer.step()                                        # 손실값을 바탕으로 Qnet 의 파라미터 업데이트


In [50]:
def model_save(model_dict, opt_dict, epi):
    PATH = './weights/'
    torch.save({
            'model': model_dict,
            'optimizer': opt_dict,
            'epi': epi
            }, PATH + 'all.tar')

#### 전체적인 구성

In [None]:
import time
from tqdm import tqdm

learning_rate = 1e-3
gamma = 0.99
buffer_limit  = 100000
batch_size = 100

USE_CUDA = torch.cuda.is_available()
print(USE_CUDA)
device = torch.device('cuda:0' if USE_CUDA else 'cpu')

def main():

    env = Simulator()
    files = pd.read_csv("./data/factory_order_train.csv")

    q = QnetCNN()
    q_target = QnetCNN()
    
    # 현재 Qnet 의 파라미터를 q_target 에 load
    q_target.load_state_dict(q.state_dict())      
    

    memory = ReplayBuffer()

    print_interval = 100
    score = 0.0
    
    optimizer = optim.Adam(q.parameters(), lr = learning_rate) 
    # loss 값을 바탕으로 업데이트할 비율 (q_target 말고 q 만 업데이트)

    

    for epi in tqdm(range(60000)):
        #time.sleep(0.001)
        if epi%1000 == 0:
            model_save(q.state_dict(), optimizer.state_dict(), epi)
            
        if epi <= 10000:
            epsilon = 0.5
        else:
            epsilon = max(0.02, 0.5 - 0.001 * (epi//100 - 100))

            
        ep = 1#epi%39998
        
        s = env.reset(ep)
        obs = np.asarray(s, dtype=np.float32) 

        a_step= 0
        done = False 
        first = True
        while not done: 
            
            if first:
                a = 0
                first = False
                
            elif obs[9][4] == 50:
                a = 0
                
            else:
                a = q.sample_action(torch.from_numpy(obs).float(), epsilon) 
            
            s_prime, r, cumul, done, goal_reward = env.step(a, epi)
            
            
            if a_step == 100:
                done = True
                goal_reward= True
            
            array = s_prime
            s_prime = np.asarray(s_prime, dtype=np.float32)
             
            done_mask = 0.0 if done else 1.0

            memory.put((obs,a,r/100, s_prime, done_mask))

            obs = s_prime 
            score += r
        
            if done : # 끝났으면 train 안함
                break

            a_step +=1 # a 의 시행횟수
 

        if memory.size() > 200: 
            train(q, q_target, memory, optimizer) 

        if epi%print_interval==0 and epi != 0: 
            action = ['↑', '↓', '←', '→'][a]
            print(f'epi = {ep}\n 마지막 상태 :\n{array}\n 이 때 한 행동 : {action}\n 마지막 보상 : {r}\n 총 받은 보상 :{cumul}\n end : {done}\n clear : {goal_reward}')
           # env.now_state()
            
            q_target.load_state_dict(q.state_dict()) #q_target 지금걸로 업데이트
            print(f"episode :{ep}, score = {score/print_interval}, n_buffer :{memory.size()} , eps : {epsilon*100}")
            score = 0.0

main()

True


  0%|                                                                    | 101/60000 [00:30<4:13:55,  3.93it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :2533
 end : True
 clear : True
episode :1, score = 693.5480000000118, n_buffer :10201 , eps : 50.0


  0%|▏                                                                   | 201/60000 [00:59<4:25:54,  3.75it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :877.4999999999987
 end : True
 clear : True
episode :1, score = 1386.392999999955, n_buffer :20301 , eps : 50.0


  1%|▎                                                                   | 301/60000 [01:27<5:15:48,  3.15it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :803.6999999999997
 end : True
 clear : True
episode :1, score = 1234.7529999999592, n_buffer :30401 , eps : 50.0


  1%|▍                                                                   | 401/60000 [01:59<3:50:00,  4.32it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :-545.6000000000001
 end : True
 clear : True
episode :1, score = 1716.3159999999639, n_buffer :40501 , eps : 50.0


  1%|▌                                                                   | 502/60000 [02:29<4:58:12,  3.33it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.  50.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :1674.2000000000007
 end : True
 clear : True
episode :1, score = 2088.3869999999342, n_buffer :50601 , eps : 50.0


  1%|▋                                                                   | 601/60000 [02:59<5:36:03,  2.95it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :-506
 end : True
 clear : True
episode :1, score = 3102.8689999999874, n_buffer :60701 , eps : 50.0


  1%|▊                                                                   | 701/60000 [03:30<5:52:29,  2.80it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3809.4000000000005
 end : True
 clear : True
episode :1, score = 3018.614000000003, n_buffer :70801 , eps : 50.0


  1%|▉                                                                   | 801/60000 [04:01<4:05:49,  4.01it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : 1000
 총 받은 보상 :4688.000000000001
 end : True
 clear : True
episode :1, score = 3128.405000000016, n_buffer :80901 , eps : 50.0


  2%|█                                                                   | 901/60000 [04:37<9:34:26,  1.71it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :3861.6000000000013
 end : True
 clear : True
episode :1, score = 3552.1730000000666, n_buffer :91001 , eps : 50.0


  2%|█                                                                  | 1001/60000 [05:09<5:25:21,  3.02it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.  50.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :2882.2000000000025
 end : True
 clear : True
episode :1, score = 3276.3030000000335, n_buffer :100000 , eps : 50.0


  2%|█▏                                                                 | 1101/60000 [05:39<3:34:30,  4.58it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :3873.3000000000025
 end : True
 clear : True
episode :1, score = 3135.779000000006, n_buffer :100000 , eps : 50.0


  2%|█▎                                                                 | 1201/60000 [06:10<5:32:23,  2.95it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.  50.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :2890.3000000000025
 end : True
 clear : True
episode :1, score = 3284.3090000000166, n_buffer :100000 , eps : 50.0


  2%|█▍                                                                 | 1301/60000 [06:41<5:29:57,  2.96it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :4865.3
 end : True
 clear : True
episode :1, score = 3994.8180000001184, n_buffer :100000 , eps : 50.0


  2%|█▌                                                                 | 1401/60000 [07:29<5:59:58,  2.71it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4850.899999999999
 end : True
 clear : True
episode :1, score = 4546.213000000127, n_buffer :100000 , eps : 50.0


  3%|█▋                                                                 | 1501/60000 [08:00<5:22:50,  3.02it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.  50.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4906.699999999999
 end : True
 clear : True
episode :1, score = 4350.276000000096, n_buffer :100000 , eps : 50.0


  3%|█▊                                                                 | 1601/60000 [08:31<4:37:07,  3.51it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3624.900000000001
 end : True
 clear : True
episode :1, score = 4410.288000000099, n_buffer :100000 , eps : 50.0


  3%|█▉                                                                 | 1701/60000 [09:02<4:25:47,  3.66it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.  50.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4863.5
 end : True
 clear : True
episode :1, score = 4194.561000000062, n_buffer :100000 , eps : 50.0


  3%|██                                                                 | 1801/60000 [09:40<5:30:53,  2.93it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4884.199999999999
 end : True
 clear : True
episode :1, score = 4278.2590000000855, n_buffer :100000 , eps : 50.0


  3%|██                                                                 | 1901/60000 [10:11<4:32:00,  3.56it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.  50.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3682.5000000000005
 end : True
 clear : True
episode :1, score = 3849.8890000000606, n_buffer :100000 , eps : 50.0


  3%|██▏                                                               | 2001/60000 [10:56<13:08:07,  1.23it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :4840.1
 end : True
 clear : True
episode :1, score = 4227.79900000006, n_buffer :100000 , eps : 50.0


  4%|██▎                                                                | 2101/60000 [12:10<5:38:21,  2.85it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4839.199999999997
 end : True
 clear : True
episode :1, score = 4341.49600000006, n_buffer :100000 , eps : 50.0


  4%|██▍                                                                | 2201/60000 [13:09<5:17:05,  3.04it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3813.000000000001
 end : True
 clear : True
episode :1, score = 3946.808000000063, n_buffer :100000 , eps : 50.0


  4%|██▌                                                                | 2301/60000 [14:44<4:16:55,  3.74it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :3764.4000000000033
 end : True
 clear : True
episode :1, score = 3797.7650000000535, n_buffer :100000 , eps : 50.0


  4%|██▋                                                               | 2401/60000 [15:46<20:18:00,  1.27s/it]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :2803
 end : True
 clear : True
episode :1, score = 3349.3779999999983, n_buffer :100000 , eps : 50.0


  4%|██▊                                                                | 2501/60000 [16:16<4:16:45,  3.73it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.  50.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :2587
 end : True
 clear : True
episode :1, score = 2101.7049999999986, n_buffer :100000 , eps : 50.0


  4%|██▉                                                                | 2601/60000 [16:47<5:42:34,  2.79it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :1775.9
 end : True
 clear : True
episode :1, score = 2279.5719999999965, n_buffer :100000 , eps : 50.0


  5%|███                                                                | 2701/60000 [17:18<4:43:04,  3.37it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :1667
 end : True
 clear : True
episode :1, score = 2668.109999999998, n_buffer :100000 , eps : 50.0


  5%|███▏                                                               | 2801/60000 [17:46<4:58:07,  3.20it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :2741.8
 end : True
 clear : True
episode :1, score = 2705.055999999999, n_buffer :100000 , eps : 50.0


  5%|███▏                                                               | 2901/60000 [18:17<4:08:31,  3.83it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.  50. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3725.7000000000003
 end : True
 clear : True
episode :1, score = 2833.1389999999888, n_buffer :100000 , eps : 50.0


  5%|███▎                                                               | 3001/60000 [18:49<4:31:34,  3.50it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3842.7000000000003
 end : True
 clear : True
episode :1, score = 2985.5859999999952, n_buffer :100000 , eps : 50.0


  5%|███▍                                                               | 3101/60000 [19:18<4:22:36,  3.61it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3898.5000000000023
 end : True
 clear : True
episode :1, score = 4013.4750000000613, n_buffer :100000 , eps : 50.0


  5%|███▌                                                               | 3201/60000 [19:57<6:32:39,  2.41it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4876.9999999999945
 end : True
 clear : True
episode :1, score = 4262.768000000095, n_buffer :100000 , eps : 50.0


  6%|███▋                                                               | 3301/60000 [20:27<3:41:16,  4.27it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4829.299999999999
 end : True
 clear : True
episode :1, score = 4459.218000000109, n_buffer :100000 , eps : 50.0


  6%|███▊                                                               | 3401/60000 [20:59<4:55:04,  3.20it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4862.5999999999985
 end : True
 clear : True
episode :1, score = 4338.200000000091, n_buffer :100000 , eps : 50.0


  6%|███▉                                                               | 3501/60000 [21:50<5:06:43,  3.07it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4845.499999999999
 end : True
 clear : True
episode :1, score = 4158.074000000046, n_buffer :100000 , eps : 50.0


  6%|████                                                               | 3601/60000 [22:22<5:05:58,  3.07it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4867.0999999999985
 end : True
 clear : True
episode :1, score = 4447.216000000113, n_buffer :100000 , eps : 50.0


  6%|████▏                                                              | 3701/60000 [22:58<5:47:20,  2.70it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4670.899999999998
 end : True
 clear : True
episode :1, score = 4315.36000000009, n_buffer :100000 , eps : 50.0


  6%|████▏                                                              | 3801/60000 [23:28<4:45:18,  3.28it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4717.699999999999
 end : True
 clear : True
episode :1, score = 4372.078000000062, n_buffer :100000 , eps : 50.0


  7%|████▎                                                              | 3901/60000 [24:02<4:42:57,  3.30it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4827.5
 end : True
 clear : True
episode :1, score = 4249.91900000005, n_buffer :100000 , eps : 50.0


  7%|████▍                                                              | 4001/60000 [24:33<3:46:18,  4.12it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.  50.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3723.9
 end : True
 clear : True
episode :1, score = 4058.7420000001125, n_buffer :100000 , eps : 50.0


  7%|████▌                                                              | 4102/60000 [25:03<3:50:10,  4.05it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :3727.5000000000005
 end : True
 clear : True
episode :1, score = 4076.4280000000317, n_buffer :100000 , eps : 50.0


  7%|████▋                                                              | 4201/60000 [25:34<4:15:51,  3.63it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.  50.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :858.5999999999995
 end : True
 clear : True
episode :1, score = 3725.2400000000484, n_buffer :100000 , eps : 50.0


  7%|████▊                                                              | 4301/60000 [26:07<4:59:18,  3.10it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4705.999999999998
 end : True
 clear : True
episode :1, score = 3972.216000000064, n_buffer :100000 , eps : 50.0


  7%|████▉                                                              | 4401/60000 [26:40<5:01:06,  3.08it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.  50.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4725.799999999997
 end : True
 clear : True
episode :1, score = 4465.519000000087, n_buffer :100000 , eps : 50.0


  8%|█████                                                              | 4501/60000 [27:12<5:37:33,  2.74it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3729.3000000000015
 end : True
 clear : True
episode :1, score = 4353.309000000097, n_buffer :100000 , eps : 50.0


  8%|█████▏                                                             | 4601/60000 [27:56<4:56:01,  3.12it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4851.799999999999
 end : True
 clear : True
episode :1, score = 4631.907000000103, n_buffer :100000 , eps : 50.0


  8%|█████▏                                                             | 4701/60000 [28:37<4:22:18,  3.51it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4857.199999999999
 end : True
 clear : True
episode :1, score = 4654.009000000069, n_buffer :100000 , eps : 50.0


  8%|█████▎                                                             | 4801/60000 [29:14<4:30:57,  3.40it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3773.4000000000015
 end : True
 clear : True
episode :1, score = 4518.709000000091, n_buffer :100000 , eps : 50.0


  8%|█████▍                                                             | 4901/60000 [29:55<5:16:48,  2.90it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4865.299999999992
 end : True
 clear : True
episode :1, score = 4320.871000000094, n_buffer :100000 , eps : 50.0


  8%|█████▌                                                             | 5001/60000 [30:27<4:28:35,  3.41it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3606.9
 end : True
 clear : True
episode :1, score = 3916.35300000004, n_buffer :100000 , eps : 50.0


  9%|█████▋                                                             | 5101/60000 [30:58<4:19:27,  3.53it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3746.4000000000005
 end : True
 clear : True
episode :1, score = 3820.9350000000168, n_buffer :100000 , eps : 50.0


  9%|█████▊                                                             | 5201/60000 [31:35<5:28:14,  2.78it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :3697.800000000001
 end : True
 clear : True
episode :1, score = 3933.088000000037, n_buffer :100000 , eps : 50.0


  9%|█████▉                                                             | 5301/60000 [32:07<4:40:03,  3.26it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3826.5000000000005
 end : True
 clear : True
episode :1, score = 3882.3970000000613, n_buffer :100000 , eps : 50.0


  9%|██████                                                             | 5401/60000 [32:42<4:48:06,  3.16it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :3808.5000000000005
 end : True
 clear : True
episode :1, score = 3783.920000000044, n_buffer :100000 , eps : 50.0


  9%|██████▏                                                            | 5501/60000 [33:16<3:46:11,  4.02it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3778.800000000002
 end : True
 clear : True
episode :1, score = 3815.307000000078, n_buffer :100000 , eps : 50.0


  9%|██████▏                                                           | 5601/60000 [33:50<16:30:17,  1.09s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :4752.799999999999
 end : True
 clear : True
episode :1, score = 3781.9460000000277, n_buffer :100000 , eps : 50.0


 10%|██████▎                                                            | 5701/60000 [34:21<4:56:25,  3.05it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3735.6000000000004
 end : True
 clear : True
episode :1, score = 3792.570000000016, n_buffer :100000 , eps : 50.0


 10%|██████▍                                                            | 5801/60000 [34:52<4:28:51,  3.36it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.  50. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :3784.2000000000016
 end : True
 clear : True
episode :1, score = 3459.115000000033, n_buffer :100000 , eps : 50.0


 10%|██████▌                                                            | 5901/60000 [35:23<6:16:33,  2.39it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :2714.8
 end : True
 clear : True
episode :1, score = 3342.043000000012, n_buffer :100000 , eps : 50.0


 10%|██████▋                                                            | 6001/60000 [35:53<4:30:17,  3.33it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [ 50.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :2825.5000000000005
 end : True
 clear : True
episode :1, score = 3098.394000000012, n_buffer :100000 , eps : 50.0


 10%|██████▊                                                            | 6101/60000 [36:27<4:58:54,  3.01it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :2785
 end : True
 clear : True
episode :1, score = 3077.163999999998, n_buffer :100000 , eps : 50.0


 10%|██████▉                                                            | 6201/60000 [37:01<5:30:08,  2.72it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :2740
 end : True
 clear : True
episode :1, score = 3219.6170000000134, n_buffer :100000 , eps : 50.0


 11%|███████                                                            | 6301/60000 [37:31<4:49:16,  3.09it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :2641
 end : True
 clear : True
episode :1, score = 2984.543000000003, n_buffer :100000 , eps : 50.0


 11%|███████▏                                                           | 6401/60000 [38:01<5:18:28,  2.81it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :2740
 end : True
 clear : True
episode :1, score = 2944.9920000000006, n_buffer :100000 , eps : 50.0


 11%|███████▎                                                           | 6501/60000 [38:35<4:55:14,  3.02it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :2734.6000000000004
 end : True
 clear : True
episode :1, score = 3020.9299999999935, n_buffer :100000 , eps : 50.0


 11%|███████▎                                                           | 6601/60000 [39:10<8:37:02,  1.72it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.  50. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :2587
 end : True
 clear : True
episode :1, score = 3426.3000000000316, n_buffer :100000 , eps : 50.0


 11%|███████▍                                                           | 6701/60000 [39:42<5:01:33,  2.95it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.  50.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :3854.4000000000024
 end : True
 clear : True
episode :1, score = 3607.6560000000663, n_buffer :100000 , eps : 50.0


 11%|███████▌                                                           | 6801/60000 [40:12<4:09:29,  3.55it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :2795.8
 end : True
 clear : True
episode :1, score = 3644.639000000071, n_buffer :100000 , eps : 50.0


 12%|███████▋                                                           | 6901/60000 [40:41<4:34:28,  3.22it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4823.000000000002
 end : True
 clear : True
episode :1, score = 3765.1200000000663, n_buffer :100000 , eps : 50.0


 12%|███████▊                                                           | 7001/60000 [41:19<4:40:29,  3.15it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :3712.2000000000007
 end : True
 clear : True
episode :1, score = 3831.9650000000465, n_buffer :100000 , eps : 50.0


 12%|███████▉                                                           | 7101/60000 [41:50<5:17:34,  2.78it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3647.4000000000005
 end : True
 clear : True
episode :1, score = 3768.1130000000744, n_buffer :100000 , eps : 50.0


 12%|████████                                                           | 7201/60000 [42:20<5:19:58,  2.75it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3784.2000000000007
 end : True
 clear : True
episode :1, score = 3635.335000000059, n_buffer :100000 , eps : 50.0


 12%|████████▏                                                          | 7301/60000 [42:51<4:30:33,  3.25it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3867.000000000002
 end : True
 clear : True
episode :1, score = 3759.7970000000787, n_buffer :100000 , eps : 50.0


 12%|████████▎                                                          | 7401/60000 [43:22<4:20:33,  3.36it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :2813.800000000002
 end : True
 clear : True
episode :1, score = 3757.9470000000465, n_buffer :100000 , eps : 50.0


 13%|████████▍                                                          | 7501/60000 [43:55<4:57:23,  2.94it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3812.1000000000017
 end : True
 clear : True
episode :1, score = 3745.6860000000825, n_buffer :100000 , eps : 50.0


 13%|████████▍                                                          | 7601/60000 [44:27<4:24:30,  3.30it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3853.5000000000023
 end : True
 clear : True
episode :1, score = 3930.5050000000874, n_buffer :100000 , eps : 50.0


 13%|████████▌                                                          | 7701/60000 [44:57<4:59:19,  2.91it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :3868.800000000002
 end : True
 clear : True
episode :1, score = 4032.9480000001436, n_buffer :100000 , eps : 50.0


 13%|████████▋                                                          | 7801/60000 [45:30<4:55:19,  2.95it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.  50.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4871.6
 end : True
 clear : True
episode :1, score = 4304.431000000167, n_buffer :100000 , eps : 50.0


 13%|████████▊                                                          | 7901/60000 [46:03<4:31:29,  3.20it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4816.699999999999
 end : True
 clear : True
episode :1, score = 4246.071000000133, n_buffer :100000 , eps : 50.0


 13%|████████▉                                                          | 8001/60000 [46:35<4:49:02,  3.00it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3918.3000000000034
 end : True
 clear : True
episode :1, score = 4258.831000000159, n_buffer :100000 , eps : 50.0


 14%|█████████                                                          | 8101/60000 [47:23<5:15:38,  2.74it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.  50. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :4635.799999999999
 end : True
 clear : True
episode :1, score = 4555.946000000112, n_buffer :100000 , eps : 50.0


 14%|█████████▏                                                         | 8202/60000 [47:53<3:18:26,  4.35it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4838.300000000001
 end : True
 clear : True
episode :1, score = 4755.146000000111, n_buffer :100000 , eps : 50.0


 14%|█████████▎                                                         | 8301/60000 [48:28<3:28:34,  4.13it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4898.5999999999985
 end : True
 clear : True
episode :1, score = 4692.493000000142, n_buffer :100000 , eps : 50.0


 14%|█████████▍                                                         | 8401/60000 [48:57<4:08:05,  3.47it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.  50.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4859.899999999998
 end : True
 clear : True
episode :1, score = 4576.665000000105, n_buffer :100000 , eps : 50.0


 14%|█████████▍                                                         | 8501/60000 [49:30<4:33:31,  3.14it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3797.7000000000003
 end : True
 clear : True
episode :1, score = 4692.3050000001, n_buffer :100000 , eps : 50.0


 14%|█████████▌                                                         | 8601/60000 [50:26<5:57:09,  2.40it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :4796.9
 end : True
 clear : True
episode :1, score = 4546.974000000074, n_buffer :100000 , eps : 50.0


 15%|█████████▋                                                         | 8701/60000 [51:17<4:17:08,  3.32it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.  50.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :3883.2000000000025
 end : True
 clear : True
episode :1, score = 4408.766000000098, n_buffer :100000 , eps : 50.0


 15%|█████████▋                                                        | 8801/60000 [52:11<10:40:31,  1.33it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3813.8999999999996
 end : True
 clear : True
episode :1, score = 4485.956000000115, n_buffer :100000 , eps : 50.0


 15%|█████████▉                                                         | 8901/60000 [53:01<5:02:13,  2.82it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4852.699999999999
 end : True
 clear : True
episode :1, score = 4567.971000000101, n_buffer :100000 , eps : 50.0


 15%|██████████                                                         | 9001/60000 [54:11<5:00:47,  2.83it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.  50. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4831.999999999998
 end : True
 clear : True
episode :1, score = 4539.130000000098, n_buffer :100000 , eps : 50.0


 15%|██████████▏                                                        | 9101/60000 [55:03<4:21:32,  3.24it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3681.6000000000004
 end : True
 clear : True
episode :1, score = 4424.074000000094, n_buffer :100000 , eps : 50.0


 15%|██████████▎                                                        | 9201/60000 [56:16<4:56:13,  2.86it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3852.6000000000013
 end : True
 clear : True
episode :1, score = 4394.178000000062, n_buffer :100000 , eps : 50.0


 16%|██████████▏                                                       | 9301/60000 [57:34<14:41:41,  1.04s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.  50. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4775.299999999997
 end : True
 clear : True
episode :1, score = 4392.0410000000675, n_buffer :100000 , eps : 50.0


 16%|██████████▍                                                        | 9402/60000 [59:38<4:24:51,  3.18it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4793.300000000001
 end : True
 clear : True
episode :1, score = 4798.750000000051, n_buffer :100000 , eps : 50.0


 16%|██████████▎                                                      | 9501/60000 [1:00:37<4:03:52,  3.45it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :2767
 end : True
 clear : True
episode :1, score = 4639.872000000095, n_buffer :100000 , eps : 50.0


 16%|██████████▍                                                      | 9601/60000 [1:01:12<3:55:18,  3.57it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4748.300000000001
 end : True
 clear : True
episode :1, score = 4535.2380000001, n_buffer :100000 , eps : 50.0


 16%|██████████▌                                                      | 9701/60000 [1:01:45<4:46:23,  2.93it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4839.199999999999
 end : True
 clear : True
episode :1, score = 4149.797000000138, n_buffer :100000 , eps : 50.0


 16%|██████████▌                                                      | 9801/60000 [1:02:15<3:50:56,  3.62it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [ 50.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4591.7
 end : True
 clear : True
episode :1, score = 4496.367000000097, n_buffer :100000 , eps : 50.0


 17%|██████████▋                                                      | 9902/60000 [1:02:47<3:08:01,  4.44it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4831.999999999998
 end : True
 clear : True
episode :1, score = 4294.230000000143, n_buffer :100000 , eps : 50.0


 17%|██████████▋                                                     | 10001/60000 [1:03:16<4:08:14,  3.36it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3767.1000000000017
 end : True
 clear : True
episode :1, score = 3830.8450000000425, n_buffer :100000 , eps : 50.0


 17%|██████████▊                                                     | 10101/60000 [1:03:47<3:36:47,  3.84it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4837.399999999998
 end : True
 clear : True
episode :1, score = 4231.161000000149, n_buffer :100000 , eps : 49.9


 17%|██████████▉                                                     | 10201/60000 [1:04:19<5:21:44,  2.58it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4822.999999999999
 end : True
 clear : True
episode :1, score = 4509.200000000111, n_buffer :100000 , eps : 49.8


 17%|██████████▉                                                     | 10301/60000 [1:04:53<3:57:24,  3.49it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4799.599999999997
 end : True
 clear : True
episode :1, score = 4168.898000000054, n_buffer :100000 , eps : 49.7


 17%|███████████                                                     | 10401/60000 [1:05:24<4:14:17,  3.25it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4781.6
 end : True
 clear : True
episode :1, score = 4030.1300000000338, n_buffer :100000 , eps : 49.6


 18%|███████████▏                                                    | 10501/60000 [1:05:55<3:45:57,  3.65it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.  50.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4737.500000000002
 end : True
 clear : True
episode :1, score = 4394.995000000075, n_buffer :100000 , eps : 49.5


 18%|███████████▎                                                    | 10601/60000 [1:06:31<8:33:44,  1.60it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3813.900000000001
 end : True
 clear : True
episode :1, score = 4443.857000000098, n_buffer :100000 , eps : 49.4


 18%|███████████▍                                                    | 10701/60000 [1:07:15<4:31:14,  3.03it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4851.799999999994
 end : True
 clear : True
episode :1, score = 4684.874000000107, n_buffer :100000 , eps : 49.3


 18%|███████████▌                                                    | 10801/60000 [1:08:38<4:21:56,  3.13it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4866.2
 end : True
 clear : True
episode :1, score = 4824.046000000061, n_buffer :100000 , eps : 49.2


 18%|███████████▋                                                    | 10901/60000 [1:09:13<4:11:50,  3.25it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.  50.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4881.500000000002
 end : True
 clear : True
episode :1, score = 4638.054000000124, n_buffer :100000 , eps : 49.1


 18%|███████████▋                                                    | 11001/60000 [1:10:11<7:08:02,  1.91it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.  50.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4861.699999999995
 end : True
 clear : True
episode :1, score = 4431.418000000085, n_buffer :100000 , eps : 49.0


 19%|███████████▊                                                    | 11101/60000 [1:10:55<4:24:02,  3.09it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4865.299999999998
 end : True
 clear : True
episode :1, score = 4421.192000000071, n_buffer :100000 , eps : 48.9


 19%|███████████▊                                                   | 11201/60000 [1:12:16<14:25:15,  1.06s/it]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :2605
 end : True
 clear : True
episode :1, score = 4631.185000000061, n_buffer :100000 , eps : 48.8


 19%|████████████                                                    | 11301/60000 [1:13:03<6:10:30,  2.19it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :3855.3000000000025
 end : True
 clear : True
episode :1, score = 4071.509000000094, n_buffer :100000 , eps : 48.699999999999996


 19%|████████████▏                                                   | 11401/60000 [1:13:38<4:45:43,  2.83it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.  50.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4759.0999999999985
 end : True
 clear : True
episode :1, score = 4188.840000000067, n_buffer :100000 , eps : 48.6


 19%|████████████▎                                                   | 11501/60000 [1:14:21<4:31:13,  2.98it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :3804
 end : True
 clear : True
episode :1, score = 3788.791000000057, n_buffer :100000 , eps : 48.5


 19%|████████████▎                                                   | 11601/60000 [1:14:50<4:50:41,  2.77it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.  50. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :-567.2
 end : True
 clear : True
episode :1, score = 3536.297000000002, n_buffer :100000 , eps : 48.4


 20%|████████████▍                                                   | 11701/60000 [1:15:19<4:08:08,  3.24it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4815.800000000001
 end : True
 clear : True
episode :1, score = 3886.1890000000526, n_buffer :100000 , eps : 48.3


 20%|████████████▌                                                   | 11801/60000 [1:15:47<3:48:58,  3.51it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :4638.499999999998
 end : True
 clear : True
episode :1, score = 4192.295000000085, n_buffer :100000 , eps : 48.199999999999996


 20%|████████████▋                                                   | 11901/60000 [1:16:18<3:52:26,  3.45it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4769.9
 end : True
 clear : True
episode :1, score = 4292.409000000091, n_buffer :100000 , eps : 48.1


 20%|████████████▊                                                   | 12001/60000 [1:16:52<3:56:42,  3.38it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4901.29999999999
 end : True
 clear : True
episode :1, score = 4530.114000000087, n_buffer :100000 , eps : 48.0


 20%|████████████▉                                                   | 12101/60000 [1:17:25<4:12:08,  3.17it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4864.399999999999
 end : True
 clear : True
episode :1, score = 4641.12300000006, n_buffer :100000 , eps : 47.9


 20%|█████████████                                                   | 12201/60000 [1:17:54<4:09:55,  3.19it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :3892.2000000000035
 end : True
 clear : True
episode :1, score = 4642.301000000195, n_buffer :100000 , eps : 47.8


 21%|█████████████                                                   | 12301/60000 [1:18:28<4:22:27,  3.03it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4883.29999999999
 end : True
 clear : True
episode :1, score = 4741.555000000204, n_buffer :100000 , eps : 47.699999999999996


 21%|█████████████▏                                                  | 12401/60000 [1:19:00<4:40:17,  2.83it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4889.599999999988
 end : True
 clear : True
episode :1, score = 4705.621000000207, n_buffer :100000 , eps : 47.599999999999994


 21%|█████████████▎                                                  | 12501/60000 [1:19:34<4:15:43,  3.10it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :4872.4999999999945
 end : True
 clear : True
episode :1, score = 4823.991000000132, n_buffer :100000 , eps : 47.5


 21%|█████████████▍                                                  | 12601/60000 [1:20:05<3:35:22,  3.67it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4815.799999999997
 end : True
 clear : True
episode :1, score = 4746.235000000223, n_buffer :100000 , eps : 47.4


 21%|█████████████▌                                                  | 12701/60000 [1:20:48<4:50:08,  2.72it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.  50.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4904.899999999994
 end : True
 clear : True
episode :1, score = 4790.7890000001835, n_buffer :100000 , eps : 47.3


 21%|█████████████▋                                                  | 12801/60000 [1:21:20<3:43:08,  3.53it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4891.399999999995
 end : True
 clear : True
episode :1, score = 4686.440000000177, n_buffer :100000 , eps : 47.199999999999996


 22%|█████████████▊                                                  | 12901/60000 [1:21:53<4:57:12,  2.64it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4817.599999999997
 end : True
 clear : True
episode :1, score = 4592.47600000017, n_buffer :100000 , eps : 47.099999999999994


 22%|█████████████▋                                                 | 13001/60000 [1:22:48<17:26:20,  1.34s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.  50.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4872.499999999993
 end : True
 clear : True
episode :1, score = 4814.706000000153, n_buffer :100000 , eps : 47.0


 22%|█████████████▊                                                 | 13101/60000 [1:23:57<18:04:27,  1.39s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4813.999999999993
 end : True
 clear : True
episode :1, score = 4828.031000000121, n_buffer :100000 , eps : 46.9


 22%|██████████████                                                  | 13201/60000 [1:24:59<4:28:20,  2.91it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.  50.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :4883.3
 end : True
 clear : True
episode :1, score = 4804.114000000127, n_buffer :100000 , eps : 46.8


 22%|██████████████▏                                                 | 13301/60000 [1:25:50<6:17:03,  2.06it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.  50. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :4838.299999999999
 end : True
 clear : True
episode :1, score = 4647.896000000116, n_buffer :100000 , eps : 46.699999999999996


 22%|██████████████▎                                                 | 13401/60000 [1:26:20<3:18:48,  3.91it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3804.9
 end : True
 clear : True
episode :1, score = 4392.376000000097, n_buffer :100000 , eps : 46.599999999999994


 23%|██████████████▍                                                 | 13501/60000 [1:26:47<3:48:25,  3.39it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4864.399999999998
 end : True
 clear : True
episode :1, score = 4405.872000000148, n_buffer :100000 , eps : 46.5


 23%|██████████████▌                                                 | 13601/60000 [1:27:30<4:20:22,  2.97it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.  50. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -10
 총 받은 보상 :3778.8
 end : True
 clear : True
episode :1, score = 4144.051000000099, n_buffer :100000 , eps : 46.4


 23%|██████████████▌                                                 | 13701/60000 [1:28:08<4:02:17,  3.18it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.  50. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4805.9
 end : True
 clear : True
episode :1, score = 4310.279000000062, n_buffer :100000 , eps : 46.300000000000004


 23%|██████████████▋                                                 | 13801/60000 [1:28:57<3:56:34,  3.25it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3813
 end : True
 clear : True
episode :1, score = 4155.429000000108, n_buffer :100000 , eps : 46.2


 23%|██████████████▊                                                 | 13901/60000 [1:29:31<3:58:06,  3.23it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3759
 end : True
 clear : True
episode :1, score = 3991.3340000000485, n_buffer :100000 , eps : 46.1


 23%|██████████████▉                                                 | 14001/60000 [1:30:03<3:15:51,  3.91it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :3847.2000000000016
 end : True
 clear : True
episode :1, score = 3891.3990000000385, n_buffer :100000 , eps : 46.0


 24%|███████████████                                                 | 14101/60000 [1:30:33<3:13:10,  3.96it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3812.1000000000017
 end : True
 clear : True
episode :1, score = 3892.6650000000504, n_buffer :100000 , eps : 45.9


 24%|███████████████▏                                                | 14201/60000 [1:31:04<4:17:41,  2.96it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4776.199999999995
 end : True
 clear : True
episode :1, score = 4051.1520000001333, n_buffer :100000 , eps : 45.800000000000004


 24%|███████████████▎                                                | 14301/60000 [1:31:32<4:34:04,  2.78it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :3813.9
 end : True
 clear : True
episode :1, score = 4166.533000000134, n_buffer :100000 , eps : 45.7


 24%|███████████████▎                                                | 14401/60000 [1:32:03<3:52:18,  3.27it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.  50. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4751.9000000000015
 end : True
 clear : True
episode :1, score = 4171.755000000081, n_buffer :100000 , eps : 45.6


 24%|███████████████▍                                                | 14501/60000 [1:32:38<4:00:30,  3.15it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :3851.700000000002
 end : True
 clear : True
episode :1, score = 4538.623000000158, n_buffer :100000 , eps : 45.5


 24%|███████████████▌                                                | 14601/60000 [1:33:09<3:16:45,  3.85it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3785.1000000000017
 end : True
 clear : True
episode :1, score = 4683.704000000222, n_buffer :100000 , eps : 45.4


 25%|███████████████▋                                                | 14701/60000 [1:33:41<4:40:10,  2.69it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4878.799999999999
 end : True
 clear : True
episode :1, score = 4642.174000000158, n_buffer :100000 , eps : 45.300000000000004


 25%|███████████████▊                                                | 14801/60000 [1:34:18<3:58:52,  3.15it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4834.699999999995
 end : True
 clear : True
episode :1, score = 4736.675000000116, n_buffer :100000 , eps : 45.2


 25%|███████████████▉                                                | 14901/60000 [1:34:49<4:13:28,  2.97it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4876.999999999999
 end : True
 clear : True
episode :1, score = 4824.292000000231, n_buffer :100000 , eps : 45.1


 25%|████████████████                                                | 15001/60000 [1:35:26<4:03:47,  3.08it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :4882.4
 end : True
 clear : True
episode :1, score = 4756.75200000019, n_buffer :100000 , eps : 45.0


 25%|████████████████                                                | 15101/60000 [1:36:03<4:16:47,  2.91it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :2910.1000000000035
 end : True
 clear : True
episode :1, score = 4717.428000000171, n_buffer :100000 , eps : 44.9


 25%|████████████████▏                                               | 15201/60000 [1:36:34<3:11:16,  3.90it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4909.399999999989
 end : True
 clear : True
episode :1, score = 4738.830000000099, n_buffer :100000 , eps : 44.800000000000004


 26%|████████████████▎                                               | 15301/60000 [1:37:06<4:08:08,  3.00it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4828.399999999992
 end : True
 clear : True
episode :1, score = 4765.85200000018, n_buffer :100000 , eps : 44.7


 26%|████████████████▍                                               | 15401/60000 [1:37:37<2:43:32,  4.55it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4790.5999999999985
 end : True
 clear : True
episode :1, score = 4694.504000000164, n_buffer :100000 , eps : 44.6


 26%|████████████████▌                                               | 15501/60000 [1:38:10<4:55:56,  2.51it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [100.   1. 150.   1. 150.   1. 150.   1. 200.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :-122.59999999999985
 end : True
 clear : True
episode :1, score = 4662.760000000216, n_buffer :100000 , eps : 44.5


 26%|████████████████▋                                               | 15601/60000 [1:38:42<4:00:00,  3.08it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4863.499999999993
 end : True
 clear : True
episode :1, score = 4745.063000000177, n_buffer :100000 , eps : 44.4


 26%|████████████████▋                                               | 15701/60000 [1:39:15<3:44:18,  3.29it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.  50.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4840.999999999998
 end : True
 clear : True
episode :1, score = 4795.108000000165, n_buffer :100000 , eps : 44.3


 26%|████████████████▊                                               | 15801/60000 [1:39:47<3:51:09,  3.19it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4863.499999999991
 end : True
 clear : True
episode :1, score = 4778.504000000246, n_buffer :100000 , eps : 44.2


 27%|████████████████▉                                               | 15901/60000 [1:40:21<4:08:56,  2.95it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :3932.700000000004
 end : True
 clear : True
episode :1, score = 4749.743000000204, n_buffer :100000 , eps : 44.1


 27%|█████████████████                                               | 16001/60000 [1:40:54<4:03:31,  3.01it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3865.2000000000025
 end : True
 clear : True
episode :1, score = 4729.439000000246, n_buffer :100000 , eps : 44.0


 27%|█████████████████▏                                              | 16101/60000 [1:41:26<4:01:49,  3.03it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4862.599999999991
 end : True
 clear : True
episode :1, score = 4572.640000000227, n_buffer :100000 , eps : 43.9


 27%|█████████████████▎                                              | 16201/60000 [1:42:00<4:22:24,  2.78it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4838.29999999999
 end : True
 clear : True
episode :1, score = 4773.270000000235, n_buffer :100000 , eps : 43.8


 27%|█████████████████▍                                              | 16301/60000 [1:42:38<4:12:02,  2.89it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4876.9999999999945
 end : True
 clear : True
episode :1, score = 4800.2250000002605, n_buffer :100000 , eps : 43.7


 27%|█████████████████▍                                              | 16401/60000 [1:43:12<3:52:15,  3.13it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4835.599999999991
 end : True
 clear : True
episode :1, score = 4757.984000000189, n_buffer :100000 , eps : 43.6


 28%|█████████████████▌                                              | 16501/60000 [1:43:41<3:13:05,  3.75it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4872.499999999991
 end : True
 clear : True
episode :1, score = 4665.226000000214, n_buffer :100000 , eps : 43.5


 28%|█████████████████▋                                              | 16601/60000 [1:44:20<4:00:34,  3.01it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4872.499999999999
 end : True
 clear : True
episode :1, score = 4607.99100000017, n_buffer :100000 , eps : 43.4


 28%|█████████████████▊                                              | 16701/60000 [1:44:51<3:02:40,  3.95it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4843.699999999993
 end : True
 clear : True
episode :1, score = 4634.356000000227, n_buffer :100000 , eps : 43.3


 28%|█████████████████▉                                              | 16801/60000 [1:45:24<3:42:35,  3.23it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.  50.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :4795.1
 end : True
 clear : True
episode :1, score = 4584.729000000217, n_buffer :100000 , eps : 43.2


 28%|██████████████████                                              | 16901/60000 [1:45:58<4:47:49,  2.50it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4903.099999999986
 end : True
 clear : True
episode :1, score = 4591.666000000206, n_buffer :100000 , eps : 43.1


 28%|██████████████████▏                                             | 17001/60000 [1:46:31<3:20:52,  3.57it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4884.199999999992
 end : True
 clear : True
episode :1, score = 4355.365000000174, n_buffer :100000 , eps : 43.0


 29%|██████████████████▏                                             | 17101/60000 [1:47:05<3:45:07,  3.18it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3789.6000000000004
 end : True
 clear : True
episode :1, score = 4230.751000000174, n_buffer :100000 , eps : 42.9


 29%|██████████████████▎                                             | 17201/60000 [1:47:39<3:32:22,  3.36it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :4888.700000000001
 end : True
 clear : True
episode :1, score = 4119.942000000163, n_buffer :100000 , eps : 42.8


 29%|██████████████████▍                                             | 17301/60000 [1:48:13<4:01:03,  2.95it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :3898.500000000003
 end : True
 clear : True
episode :1, score = 4140.2360000001, n_buffer :100000 , eps : 42.699999999999996


 29%|██████████████████▌                                             | 17401/60000 [1:49:04<4:15:27,  2.78it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4822.1
 end : True
 clear : True
episode :1, score = 4642.808000000112, n_buffer :100000 , eps : 42.6


 29%|██████████████████▋                                             | 17501/60000 [1:49:33<3:34:49,  3.30it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :3907.500000000004
 end : True
 clear : True
episode :1, score = 4389.468000000253, n_buffer :100000 , eps : 42.5


 29%|██████████████████▊                                             | 17602/60000 [1:50:03<2:41:24,  4.38it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4829.300000000001
 end : True
 clear : True
episode :1, score = 4474.480000000155, n_buffer :100000 , eps : 42.4


 30%|██████████████████▉                                             | 17701/60000 [1:50:48<4:11:56,  2.80it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :2938.9000000000046
 end : True
 clear : True
episode :1, score = 4459.074000000275, n_buffer :100000 , eps : 42.3


 30%|██████████████████▉                                             | 17801/60000 [1:51:21<2:42:23,  4.33it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [ 50.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4899.4999999999945
 end : True
 clear : True
episode :1, score = 4541.594000000127, n_buffer :100000 , eps : 42.199999999999996


 30%|███████████████████                                             | 17901/60000 [1:51:48<2:51:02,  4.10it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4849.0999999999985
 end : True
 clear : True
episode :1, score = 4687.9010000002345, n_buffer :100000 , eps : 42.1


 30%|███████████████████▏                                            | 18001/60000 [1:52:20<3:50:33,  3.04it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4847.299999999988
 end : True
 clear : True
episode :1, score = 4402.4690000001, n_buffer :100000 , eps : 42.0


 30%|███████████████████▎                                            | 18101/60000 [1:52:49<3:36:04,  3.23it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4877.899999999988
 end : True
 clear : True
episode :1, score = 4703.733000000227, n_buffer :100000 , eps : 41.9


 30%|███████████████████▍                                            | 18201/60000 [1:53:22<3:40:46,  3.16it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4894.099999999994
 end : True
 clear : True
episode :1, score = 4766.140000000224, n_buffer :100000 , eps : 41.8


 31%|███████████████████▌                                            | 18301/60000 [1:53:54<4:32:10,  2.55it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4853.599999999994
 end : True
 clear : True
episode :1, score = 4722.021000000259, n_buffer :100000 , eps : 41.699999999999996


 31%|███████████████████▋                                            | 18401/60000 [1:54:24<3:40:36,  3.14it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4867.999999999998
 end : True
 clear : True
episode :1, score = 4585.872000000141, n_buffer :100000 , eps : 41.6


 31%|███████████████████▋                                            | 18502/60000 [1:54:56<2:39:23,  4.34it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4857.19999999999
 end : True
 clear : True
episode :1, score = 4568.518000000233, n_buffer :100000 , eps : 41.5


 31%|███████████████████▊                                            | 18601/60000 [1:55:25<3:10:51,  3.62it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4788.799999999996
 end : True
 clear : True
episode :1, score = 4566.056000000164, n_buffer :100000 , eps : 41.4


 31%|███████████████████▉                                            | 18701/60000 [1:55:55<3:53:06,  2.95it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4874.299999999984
 end : True
 clear : True
episode :1, score = 4662.287000000235, n_buffer :100000 , eps : 41.3


 31%|████████████████████                                            | 18801/60000 [1:56:25<3:54:37,  2.93it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4862.599999999993
 end : True
 clear : True
episode :1, score = 4644.4420000002165, n_buffer :100000 , eps : 41.2


 32%|████████████████████▏                                           | 18901/60000 [1:57:00<3:06:26,  3.67it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4706.9
 end : True
 clear : True
episode :1, score = 4741.350000000143, n_buffer :100000 , eps : 41.1


 32%|████████████████████▎                                           | 19001/60000 [1:57:30<3:43:12,  3.06it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4818.5
 end : True
 clear : True
episode :1, score = 4705.805000000086, n_buffer :100000 , eps : 41.0


 32%|████████████████████▎                                           | 19101/60000 [1:58:00<4:07:23,  2.76it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.  50.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4879.700000000001
 end : True
 clear : True
episode :1, score = 4689.010000000274, n_buffer :100000 , eps : 40.900000000000006


 32%|████████████████████▍                                           | 19201/60000 [1:58:31<4:18:44,  2.63it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4831.1
 end : True
 clear : True
episode :1, score = 4729.688000000175, n_buffer :100000 , eps : 40.800000000000004


 32%|████████████████████▌                                           | 19302/60000 [1:59:04<2:38:39,  4.28it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :4879.699999999997
 end : True
 clear : True
episode :1, score = 4587.8410000002195, n_buffer :100000 , eps : 40.7


 32%|████████████████████▋                                           | 19401/60000 [1:59:30<3:24:25,  3.31it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4836.499999999999
 end : True
 clear : True
episode :1, score = 4642.262000000134, n_buffer :100000 , eps : 40.6


 33%|████████████████████▊                                           | 19501/60000 [1:59:59<4:24:30,  2.55it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.  50.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :3856.2000000000035
 end : True
 clear : True
episode :1, score = 4181.805000000207, n_buffer :100000 , eps : 40.5


 33%|████████████████████▉                                           | 19601/60000 [2:00:31<3:58:04,  2.83it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4915.700000000001
 end : True
 clear : True
episode :1, score = 4703.162000000279, n_buffer :100000 , eps : 40.400000000000006


 33%|█████████████████████                                           | 19701/60000 [2:01:01<3:52:37,  2.89it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :2659.9
 end : True
 clear : True
episode :1, score = 4618.474000000196, n_buffer :100000 , eps : 40.300000000000004


 33%|█████████████████████                                           | 19801/60000 [2:01:31<3:57:35,  2.82it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4876.999999999985
 end : True
 clear : True
episode :1, score = 4788.768000000302, n_buffer :100000 , eps : 40.2


 33%|█████████████████████▏                                          | 19901/60000 [2:01:58<3:32:55,  3.14it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4912.9999999999945
 end : True
 clear : True
episode :1, score = 4756.846000000185, n_buffer :100000 , eps : 40.1


 33%|█████████████████████▎                                          | 20001/60000 [2:02:30<3:13:38,  3.44it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :4883.29999999999
 end : True
 clear : True
episode :1, score = 4696.390000000225, n_buffer :100000 , eps : 40.0


 34%|█████████████████████▍                                          | 20101/60000 [2:02:59<2:57:23,  3.75it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4863.499999999995
 end : True
 clear : True
episode :1, score = 4757.8580000001975, n_buffer :100000 , eps : 39.900000000000006


 34%|█████████████████████▌                                          | 20201/60000 [2:03:47<4:13:52,  2.61it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -10
 총 받은 보상 :4804.9999999999945
 end : True
 clear : True
episode :1, score = 4870.982000000215, n_buffer :100000 , eps : 39.800000000000004


 34%|█████████████████████▋                                          | 20301/60000 [2:04:26<4:36:03,  2.40it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :4714.099999999998
 end : True
 clear : True
episode :1, score = 4801.133000000132, n_buffer :100000 , eps : 39.7


 34%|█████████████████████▊                                          | 20401/60000 [2:05:17<6:02:42,  1.82it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4871.599999999999
 end : True
 clear : True
episode :1, score = 4805.3870000000825, n_buffer :100000 , eps : 39.6


 34%|█████████████████████▊                                          | 20501/60000 [2:06:25<5:30:35,  1.99it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4888.699999999989
 end : True
 clear : True
episode :1, score = 4612.37400000005, n_buffer :100000 , eps : 39.5


 34%|█████████████████████▉                                          | 20601/60000 [2:07:07<3:00:52,  3.63it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.  50.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4780.699999999997
 end : True
 clear : True
episode :1, score = 4769.119000000046, n_buffer :100000 , eps : 39.4


 35%|█████████████████████▋                                         | 20701/60000 [2:08:16<13:25:13,  1.23s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4556.599999999999
 end : True
 clear : True
episode :1, score = 4642.513000000083, n_buffer :100000 , eps : 39.300000000000004


 35%|██████████████████████▏                                         | 20801/60000 [2:09:22<5:17:42,  2.06it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3905.700000000005
 end : True
 clear : True
episode :1, score = 4657.75600000019, n_buffer :100000 , eps : 39.2


 35%|█████████████████████▉                                         | 20901/60000 [2:11:18<16:08:06,  1.49s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4717.700000000001
 end : True
 clear : True
episode :1, score = 4780.614000000051, n_buffer :100000 , eps : 39.1


 35%|██████████████████████▍                                         | 21001/60000 [2:13:03<3:43:53,  2.90it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4690.699999999999
 end : True
 clear : True
episode :1, score = 4808.576000000047, n_buffer :100000 , eps : 39.0


 35%|██████████████████████▏                                        | 21101/60000 [2:15:29<12:47:46,  1.18s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4892.300000000001
 end : True
 clear : True
episode :1, score = 4878.956000000111, n_buffer :100000 , eps : 38.9


 35%|██████████████████████▌                                         | 21201/60000 [2:16:10<3:17:13,  3.28it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :3914.700000000003
 end : True
 clear : True
episode :1, score = 4580.646000000154, n_buffer :100000 , eps : 38.800000000000004


 36%|██████████████████████▋                                         | 21301/60000 [2:17:00<3:51:48,  2.78it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4837.399999999997
 end : True
 clear : True
episode :1, score = 4848.214000000157, n_buffer :100000 , eps : 38.7


 36%|██████████████████████▊                                         | 21401/60000 [2:17:59<4:25:16,  2.43it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4903.099999999986
 end : True
 clear : True
episode :1, score = 4751.097000000138, n_buffer :100000 , eps : 38.6


 36%|██████████████████████▉                                         | 21501/60000 [2:18:40<6:27:00,  1.66it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4945.399999999984
 end : True
 clear : True
episode :1, score = 4840.283000000178, n_buffer :100000 , eps : 38.5


 36%|███████████████████████                                         | 21601/60000 [2:19:33<3:10:43,  3.36it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4870.699999999996
 end : True
 clear : True
episode :1, score = 4896.975000000102, n_buffer :100000 , eps : 38.4


 36%|███████████████████████▏                                        | 21701/60000 [2:20:27<3:13:13,  3.30it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4844.599999999995
 end : True
 clear : True
episode :1, score = 4853.60500000013, n_buffer :100000 , eps : 38.3


 36%|███████████████████████▎                                        | 21801/60000 [2:21:01<2:29:00,  4.27it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4903.999999999983
 end : True
 clear : True
episode :1, score = 4723.8840000001865, n_buffer :100000 , eps : 38.2


 37%|███████████████████████▎                                        | 21901/60000 [2:21:33<9:17:03,  1.14it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.  50. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4876.099999999993
 end : True
 clear : True
episode :1, score = 4775.525000000145, n_buffer :100000 , eps : 38.1


 37%|███████████████████████▍                                        | 22002/60000 [2:22:10<2:36:05,  4.06it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -1
 총 받은 보상 :4907.599999999997
 end : True
 clear : True
episode :1, score = 4758.241000000257, n_buffer :100000 , eps : 38.0


 37%|███████████████████████▌                                        | 22102/60000 [2:22:46<2:45:38,  3.81it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :4907.599999999988
 end : True
 clear : True
episode :1, score = 4747.740000000218, n_buffer :100000 , eps : 37.9


 37%|███████████████████████▋                                        | 22201/60000 [2:23:22<3:55:24,  2.68it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4884.2
 end : True
 clear : True
episode :1, score = 4832.194000000093, n_buffer :100000 , eps : 37.8


 37%|███████████████████████▊                                        | 22301/60000 [2:23:59<4:49:22,  2.17it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4873.3999999999905
 end : True
 clear : True
episode :1, score = 4837.572000000252, n_buffer :100000 , eps : 37.7


 37%|███████████████████████▉                                        | 22401/60000 [2:25:02<4:29:43,  2.32it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4898.599999999988
 end : True
 clear : True
episode :1, score = 4900.586000000169, n_buffer :100000 , eps : 37.6


 38%|████████████████████████                                        | 22501/60000 [2:25:53<3:28:41,  2.99it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.  50.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4885.0999999999985
 end : True
 clear : True
episode :1, score = 4903.644000000163, n_buffer :100000 , eps : 37.5


 38%|████████████████████████                                        | 22601/60000 [2:26:39<3:03:51,  3.39it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4912.099999999999
 end : True
 clear : True
episode :1, score = 4750.27000000013, n_buffer :100000 , eps : 37.4


 38%|███████████████████████▊                                       | 22701/60000 [2:27:57<17:09:00,  1.66s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5907.199999999999
 end : True
 clear : finish
episode :1, score = 4827.598000000123, n_buffer :100000 , eps : 37.3


 38%|████████████████████████▎                                       | 22801/60000 [2:29:54<4:11:23,  2.47it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4900.3999999999905
 end : True
 clear : True
episode :1, score = 4864.55900000014, n_buffer :100000 , eps : 37.2


 38%|████████████████████████▍                                       | 22901/60000 [2:31:32<8:52:12,  1.16it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4879.700000000001
 end : True
 clear : True
episode :1, score = 4897.731000000042, n_buffer :100000 , eps : 37.1


 38%|████████████████████████▌                                       | 23001/60000 [2:32:53<6:09:16,  1.67it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.  50.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :3855.3000000000043
 end : True
 clear : True
episode :1, score = 4799.950000000172, n_buffer :100000 , eps : 37.0


 39%|████████████████████████▋                                       | 23101/60000 [2:34:05<3:49:12,  2.68it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.  50.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4841.9
 end : True
 clear : True
episode :1, score = 4887.165000000084, n_buffer :100000 , eps : 36.9


 39%|████████████████████████▋                                       | 23201/60000 [2:36:01<7:40:13,  1.33it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4880.6
 end : True
 clear : True
episode :1, score = 4996.6570000001175, n_buffer :100000 , eps : 36.8


 39%|████████████████████████▊                                       | 23301/60000 [2:38:18<5:45:37,  1.77it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.  50. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4881.500000000001
 end : True
 clear : True
episode :1, score = 4993.765000000121, n_buffer :100000 , eps : 36.7


 39%|████████████████████████▌                                      | 23401/60000 [2:40:01<26:10:18,  2.57s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5877.7
 end : True
 clear : finish
episode :1, score = 4906.702000000067, n_buffer :100000 , eps : 36.6


 39%|█████████████████████████                                       | 23501/60000 [2:40:54<3:07:14,  3.25it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.  50.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4802.299999999997
 end : True
 clear : True
episode :1, score = 4876.882000000101, n_buffer :100000 , eps : 36.5


 39%|█████████████████████████▏                                      | 23601/60000 [2:42:05<6:44:20,  1.50it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4779.800000000001
 end : True
 clear : True
episode :1, score = 4940.143000000151, n_buffer :100000 , eps : 36.4


 40%|█████████████████████████▎                                      | 23701/60000 [2:42:55<2:53:13,  3.49it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4891.399999999994
 end : True
 clear : True
episode :1, score = 4783.299000000136, n_buffer :100000 , eps : 36.3


 40%|█████████████████████████▍                                      | 23801/60000 [2:44:28<5:53:40,  1.71it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.  50.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -10
 총 받은 보상 :3821.1000000000035
 end : True
 clear : True
episode :1, score = 4920.041000000161, n_buffer :100000 , eps : 36.199999999999996


 40%|█████████████████████████▍                                      | 23902/60000 [2:45:29<7:24:15,  1.35it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :4921.099999999989
 end : True
 clear : True
episode :1, score = 4806.604000000199, n_buffer :100000 , eps : 36.1


 40%|█████████████████████████▌                                      | 24002/60000 [2:46:01<1:49:47,  5.46it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.  50. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :2944.3000000000043
 end : True
 clear : True
episode :1, score = 4396.752000000206, n_buffer :100000 , eps : 36.0


 40%|█████████████████████████▋                                      | 24102/60000 [2:46:35<1:25:22,  7.01it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4836.499999999993
 end : True
 clear : True
episode :1, score = 4660.867000000229, n_buffer :100000 , eps : 35.9


 40%|█████████████████████████▊                                      | 24202/60000 [2:47:01<1:48:32,  5.50it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.  50. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4903.999999999987
 end : True
 clear : True
episode :1, score = 4237.479000000276, n_buffer :100000 , eps : 35.8


 41%|█████████████████████████▉                                      | 24302/60000 [2:47:29<1:24:55,  7.01it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3746.4000000000033
 end : True
 clear : True
episode :1, score = 4806.403000000225, n_buffer :100000 , eps : 35.699999999999996


 41%|██████████████████████████                                      | 24402/60000 [2:48:38<5:21:24,  1.85it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.  50. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4869.799999999996
 end : True
 clear : True
episode :1, score = 4968.195000000139, n_buffer :100000 , eps : 35.6


 41%|██████████████████████████▏                                     | 24502/60000 [2:50:17<7:56:18,  1.24it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.  50.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -1
 총 받은 보상 :4852.699999999989
 end : True
 clear : True
episode :1, score = 5105.899000000288, n_buffer :100000 , eps : 35.5


 41%|██████████████████████████▏                                     | 24602/60000 [2:51:11<1:24:14,  7.00it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.  50.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4888.699999999995
 end : True
 clear : True
episode :1, score = 4869.117000000198, n_buffer :100000 , eps : 35.4


 41%|██████████████████████████▎                                     | 24702/60000 [2:52:32<2:52:51,  3.40it/s]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :4912.999999999985
 end : True
 clear : True
episode :1, score = 4984.480000000169, n_buffer :100000 , eps : 35.3


 41%|██████████████████████████▍                                     | 24802/60000 [2:53:45<8:47:47,  1.11it/s]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5793.999999999993
 end : True
 clear : finish
episode :1, score = 4758.568000000235, n_buffer :100000 , eps : 35.199999999999996


 42%|██████████████████████████▏                                    | 24901/60000 [2:55:27<10:34:33,  1.08s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.  50.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :4737.499999999998
 end : True
 clear : True
episode :1, score = 4729.325000000088, n_buffer :100000 , eps : 35.099999999999994


 42%|██████████████████████████▎                                    | 25001/60000 [2:58:38<23:43:07,  2.44s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5866.2999999999965
 end : True
 clear : True
episode :1, score = 5370.257000000059, n_buffer :100000 , eps : 35.0


 42%|██████████████████████████▎                                    | 25102/60000 [3:01:05<14:50:28,  1.53s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5845.799999999999
 end : True
 clear : finish
episode :1, score = 5257.455000000149, n_buffer :100000 , eps : 34.9


 42%|██████████████████████████▍                                    | 25201/60000 [3:04:09<11:20:15,  1.17s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.  50.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -10
 총 받은 보상 :4864.399999999999
 end : True
 clear : True
episode :1, score = 5488.748000000061, n_buffer :100000 , eps : 34.8


 42%|██████████████████████████▌                                    | 25301/60000 [3:06:50<19:19:35,  2.01s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5899.9
 end : True
 clear : finish
episode :1, score = 5131.586000000051, n_buffer :100000 , eps : 34.699999999999996


 42%|███████████████████████████                                     | 25402/60000 [3:09:55<7:52:31,  1.22it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.  50.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↑
 마지막 보상 : -1
 총 받은 보상 :3390
 end : True
 clear : True
episode :1, score = 5236.782000000072, n_buffer :100000 , eps : 34.599999999999994


 43%|██████████████████████████▊                                    | 25501/60000 [3:12:54<26:48:05,  2.80s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5813.4
 end : True
 clear : finish
episode :1, score = 5451.038000000039, n_buffer :100000 , eps : 34.5


 43%|██████████████████████████▉                                    | 25601/60000 [3:15:41<20:57:28,  2.19s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5893.699999999999
 end : True
 clear : finish
episode :1, score = 5210.128000000095, n_buffer :100000 , eps : 34.4


 43%|██████████████████████████▉                                    | 25701/60000 [3:18:04<22:45:53,  2.39s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5880.199999999994
 end : True
 clear : finish
episode :1, score = 4957.957000000112, n_buffer :100000 , eps : 34.3


 43%|███████████████████████████▌                                    | 25802/60000 [3:19:16<4:03:07,  2.34it/s]

epi = 1
 마지막 상태 :
[[100. 200. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.  50.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :3831.9
 end : True
 clear : True
episode :1, score = 4448.76600000007, n_buffer :100000 , eps : 34.199999999999996


 43%|███████████████████████████▏                                   | 25901/60000 [3:21:34<11:33:31,  1.22s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.  50. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : -1
 총 받은 보상 :4786.099999999991
 end : True
 clear : True
episode :1, score = 5161.423000000161, n_buffer :100000 , eps : 34.099999999999994


 43%|███████████████████████████▋                                    | 26002/60000 [3:23:38<9:34:36,  1.01s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5899.199999999999
 end : True
 clear : finish
episode :1, score = 5205.298000000195, n_buffer :100000 , eps : 34.0


 44%|███████████████████████████▍                                   | 26102/60000 [3:25:47<18:01:26,  1.91s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5899.4000000000015
 end : True
 clear : finish
episode :1, score = 5235.4760000000915, n_buffer :100000 , eps : 33.9


 44%|███████████████████████████▌                                   | 26201/60000 [3:28:55<16:40:44,  1.78s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5886.899999999996
 end : True
 clear : finish
episode :1, score = 5469.898000000177, n_buffer :100000 , eps : 33.8


 44%|███████████████████████████▌                                   | 26302/60000 [3:32:25<11:03:12,  1.18s/it]

epi = 1
 마지막 상태 :
[[100.  50. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.   1. 150. 150. 150. 150.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :4911.199999999989
 end : True
 clear : True
episode :1, score = 5604.615000000153, n_buffer :100000 , eps : 33.699999999999996


 44%|███████████████████████████▋                                   | 26401/60000 [3:35:35<25:56:12,  2.78s/it]

epi = 1
 마지막 상태 :
[[100.   1. 100. 100. 100. 100. 100. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [100.   1.   1.   1.   1.   1.   1.   1. 100.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [100.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1. 150.   1. 150.   1. 150.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [150. 150. 150. 150.  50. 150. 150. 150. 150.]]
 이 때 한 행동 : ↓
 마지막 보상 : 1000
 총 받은 보상 :5902.599999999996
 end : True
 clear : finish
episode :1, score = 5559.334000000118, n_buffer :100000 , eps : 33.599999999999994


 44%|███████████████████████████▋                                   | 26402/60000 [3:35:37<24:44:16,  2.65s/it]