In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
cd /content/drive/MyDrive/project

/content/drive/MyDrive/project


In [None]:
from string import ascii_uppercase
#from draw_utils import *
#from pyglet.gl import *
import numpy as np
import pandas as pd
import os
import copy


# reward
move_reward = -0.1
obs_reward = -0.5
goal_reward = 10
finish_reward = 20
print('reward:' , move_reward, obs_reward, goal_reward)

local_path = os.path.abspath(os.path.join(os.path.dirname('__file__')))


class Simulator:
    def __init__(self):
        '''
        height : 그리드 높이
        width : 그리드 너비 
        inds : A ~ Q alphabet list
        '''
        # Load train data
        self.files = pd.read_csv(os.path.join(local_path, "./data/train1.csv")) #"./data/factory_order_train.csv"))
        self.height = 10
        self.width = 9
        self.inds = list(ascii_uppercase)[:17]

    def set_box(self):
        '''
        아이템들이 있을 위치를 미리 정해놓고 그 위치 좌표들에 아이템이 들어올 수 있으므로 그리드에 100으로 표시한다.
        데이터 파일에서 이번 에피소드 아이템 정보를 받아 가져와야 할 아이템이 있는 좌표만 -100으로 표시한다.
        self.local_target에 에이전트가 이번에 방문해야할 좌표들을 저장한다.
        따라서 가져와야하는 아이템 좌표와 end point 좌표(처음 시작했던 좌표로 돌아와야하므로)가 들어가게 된다.
        '''
        box_data = pd.read_csv(os.path.join(local_path, "./data/box.csv"))

        # 물건이 들어있을 수 있는 경우
        for box in box_data.itertuples(index = True, name ='Pandas'):
            self.grid[getattr(box, "row")][getattr(box, "col")] = 0

        # 물건이 실제 들어있는 경우
        order_item = list(set(self.inds) & set(self.items))
        order_csv = box_data[box_data['item'].isin(order_item)]
        
        for order_box in order_csv.itertuples(index = True, name ='Pandas'):
            self.grid[getattr(order_box, "row")][getattr(order_box, "col")] = 200
            # local target에 가야 할 위치 좌표 넣기
            self.local_target.append(
                [getattr(order_box, "row"),
                 getattr(order_box, "col")]
                )

        #self.local_target.append([9,4]) 
        # 알파벳을 Grid에 넣어서 -> grid에 2Dconv 적용 가능

    def set_obstacle(self):
        '''
        장애물이 있어야하는 위치는 미리 obstacles.csv에 정의되어 있다. 이 좌표들을 0으로 표시한다.
        '''
        obstacles_data = pd.read_csv(os.path.join(local_path, "./data/obstacles.csv"))
        for obstacle in obstacles_data.itertuples(index = True, name ='Pandas'):
            self.grid[getattr(obstacle, "row")][getattr(obstacle, "col")] = 0

    def reset(self, epi):
        '''
        reset()은 첫 스텝에서 사용되며 그리드에서 에이전트 위치가 start point에 있게 한다.

        :param epi: episode, 에피소드 마다 가져와야 할 아이템 리스트를 불러올 때 사용
        :return: 초기셋팅 된 그리드
        :rtype: numpy.ndarray
        _____________________________________________________________________________________
        items : 이번 에피소드에서 가져와야하는 아이템들
        terminal_location : 현재 에이전트가 찾아가야하는 목적지
        local_target : 한 에피소드에서 찾아가야하는 아이템 좌표, 마지막 엔드 포인트 등의 위치좌표들
        actions: visualization을 위해 에이전트 action을 저장하는 리스트
        curloc : 현재 위치
        '''

        # initial episode parameter setting
        self.epi = epi
        self.items = list(self.files.iloc[self.epi])[0]
        self.cumulative_reward = 0
        self.terminal_location = None
        self.local_target = []
        self.actions = []
        self.item_loc = False ## 수정
        
        # initial grid setting
        self.grid = np.ones((self.height, self.width), dtype="float16")

        # set information about the gridworld
        self.set_box()
        self.set_obstacle()

        # start point를 grid에 표시
        self.curloc = [9, 4]
        self.grid[int(self.curloc[0])][int(self.curloc[1])] = 100
        
        self.done = False
        
        return self.grid

    def apply_action(self, action, cur_x, cur_y):
        '''
        에이전트가 행한 action대로 현 에이전트의 위치좌표를 바꾼다.
        action은 discrete하며 4가지 up,down,left,right으로 정의된다.
        
        :param x: 에이전트의 현재 x 좌표
        :param y: 에이전트의 현재 y 좌표
        :return: action에 따라 변한 에이전트의 x 좌표, y 좌표
        :rtype: int, int
        '''
        new_x = cur_x
        new_y = cur_y
        # up
        if action == 0:
            new_x = cur_x - 1
        # down
        elif action == 1:
            new_x = cur_x + 1
        # left
        elif action == 2:
            new_y = cur_y - 1
        # right
        else:
            new_y = cur_y + 1

        return int(new_x), int(new_y)


    def get_reward(self, new_x, new_y, out_of_boundary):
        '''
        get_reward함수는 리워드를 계산하는 함수이며, 상황에 따라 에이전트가 action을 옳게 했는지 판단하는 지표가 된다.

        :param new_x: action에 따른 에이전트 새로운 위치좌표 x
        :param new_y: action에 따른 에이전트 새로운 위치좌표 y
        :param out_of_boundary: 에이전트 위치가 그리드 밖이 되지 않도록 제한
        :return: action에 따른 리워드
        :rtype: float
        '''

        # 바깥으로 나가는 경우
        if any(out_of_boundary):
            reward = obs_reward
                       
        else:
            # 장애물에 부딪히는 경우 
            if self.grid[new_x][new_y] == 0:
                reward = obs_reward  

            # 현재 목표에 도달한 경우
            elif [new_x, new_y] in self.terminal_location:
                if [new_x, new_y] == [9, 4]:
                    reward = finish_reward
                else:
                    reward = goal_reward

            # 그냥 움직이는 경우 
            else:
                reward = move_reward

        return reward

    def step(self, action):
        ''' 
        에이전트의 action에 따라 step을 진행한다.
        action에 따라 에이전트 위치를 변환하고, action에 대해 리워드를 받고, 어느 상황에 에피소드가 종료되어야 하는지 등을 판단한다.
        에이전트가 endpoint에 도착하면 gif로 에피소드에서 에이전트의 행동이 저장된다.

        :param action: 에이전트 행동
        :return:
            grid, 그리드
            reward, 리워드
            cumulative_reward, 누적 리워드
            done, 종료 여부
            goal_ob_reward, goal까지 아이템을 모두 가지고 돌아오는 finish율 계산을 위한 파라미터

        :rtype: numpy.ndarray, float, float, bool, bool/str

        (Hint : 시작 위치 (9,4)에서 up말고 다른 action은 전부 장애물이므로 action을 고정하는 것이 좋음)
        '''

        self.terminal_location = copy.deepcopy(self.local_target)
        cur_x,cur_y = self.curloc
        self.actions.append((cur_x, cur_y))

        goal_ob_reward = False
        
        new_x, new_y = self.apply_action(action, cur_x, cur_y)

        out_of_boundary = [new_x < 0, new_x >= self.height, new_y < 0, new_y >= self.width]

        # 바깥으로 나가는 경우 종료
        if any(out_of_boundary):
            pass
            #self.done = True
            #goal_ob_reward = True
        else:
            # 장애물에 부딪히는 경우 종료
            if self.grid[new_x][new_y] == 0:
                pass
                #self.done = True
                #goal_ob_reward = True

            # 현재 목표에 도달한 경우
            elif [new_x, new_y] in self.terminal_location:

                # end point 일 때
                if [new_x, new_y] == [9,4]:
                    
                    self.done = True
                    self.local_target.remove([new_x, new_y])
                
                # item 일때
                else:
                    self.local_target.remove([new_x, new_y])
                    if not self.local_target:
                        self.local_target.append([9,4])
                        self.grid[9][4] = 200
                
                if self.item_loc: #저번에가 item 이었던 자리었으면
                    self.grid[cur_x][cur_y] = 0
                    self.grid[new_x][new_y] = 100
                else:
                    self.grid[cur_x][cur_y] = 1
                    self.grid[new_x][new_y] = 100

                goal_ob_reward = True
                self.item_loc=True
                
                self.curloc = [new_x, new_y]
            else:
                # 그냥 움직이는 경우
                if self.item_loc:
                    self.grid[cur_x][cur_y] = 0
                    self.grid[new_x][new_y] = 100
                    self.item_loc = False

                else:
                    self.grid[cur_x][cur_y] = 1
                    self.grid[new_x][new_y] = 100
                    
                self.curloc = [new_x,new_y]
                
        reward = self.get_reward(new_x, new_y, out_of_boundary)
        self.cumulative_reward += reward

        # if self.done == True:
        #     if [new_x, new_y] == [9, 4]:
        #         if self.terminal_location[0] == [9, 4]:
        #                 # 완료되면 GIFS 저장

        #             if len(self.actions) < 500:
        #                 print(f'500번 안에 들어왔다! : {len(self.actions)}')
        #                 goal_ob_reward = 'finish'
        #                 height = 10
        #                 width = 9 
        #                 display = Display(visible=False, size=(width, height))
        #                 display.start()

        #                 start_point = (9, 4)
        #                 unit = 50
        #                 screen_height = height * unit
        #                 screen_width = width * unit
        #                 log_path = "./logsdqn"
        #                 data_path = "./data"
        #                 render_cls = Render(screen_width, screen_height, unit, start_point, data_path, log_path)
        #                 for idx, new_pos in enumerate(self.actions):
        #                     render_cls.update_movement(new_pos, idx+1)

        #                 render_cls.save_gif(self.epi)
        #                 render_cls.viewer.close()
        #                 display.stop()
        #             else:
        #                 print(len(self.actions))
        
        
        
        
        return self.grid, reward, self.cumulative_reward, self.done, goal_ob_reward

reward: -0.1 -0.5 10


In [None]:
import collections
import pdb
import random

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

#from Sim import *



In [None]:

## Replay buffer

class ReplayBuffer():
    def __init__(self):
        self.buffer = collections.deque(maxlen=buffer_limit)

    def put(self, transition):
        self.buffer.append(transition)

    def sample(self, n):
        mini_batch = random.sample(self.buffer, n)     #sample 메서드 : buffer 중에 n 개만 뽑음
        s_lst, a_lst, r_lst, s_prime_lst, done_mask_lst = [], [], [], [], []
                                                        # state 값, action 값, reward 값, 다음 state 값, done_mask 값
                                                        # done_mask : 종료 상태의 Value 값을 마스킹해줍니다

        for transition in mini_batch: #우리가 뽑은 n 개의 미니배치들 하나씩에서
            s, a, r, s_prime, done_mask = transition #

            # 이로 보아 하나의 sample 에는 s,a,s_prime,done_mask 값이 담김을 확인할 수 있다
            s_lst.append(s)
            a_lst.append([a]) # 자료형이 list 임을 확인 가능, 여러개의 action 이 담겨있을 것이라 추측
            r_lst.append([r])
            s_prime_lst.append(s_prime)
            done_mask_lst.append([done_mask])

        return torch.tensor(s_lst, dtype=torch. float), torch.tensor(a_lst), torch.tensor(r_lst), torch.tensor(s_prime_lst, dtype=torch. float), torch.tensor(done_mask_lst)
        # s_lst, s_prime_lst 는 타입을 바꿔주었다. 데이터가 int 였기 때문에
        # 나머지는 tensor화

    def size(self):
        return len(self.buffer)




In [None]:
class QnetCNN(nn.Module):
    def __init__(self):
        super(QnetCNN, self).__init__()
        
        
        self.layer1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=8, kernel_size=3, stride=1),
            nn.ReLU())

        self.layer2 = nn.Sequential(
            nn.Conv2d(in_channels=8, out_channels=16, kernel_size=3, stride=1),
            nn.ReLU())
        
        self.layer3 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=5, stride=1),
            nn.ReLU())
    
        #Flatten
        self.flatten = nn.Flatten()

        self.fc1 = nn.Linear(32, 16)
        self.fc2 = nn.Linear(16, 4)
        
    def forward(self,x):
        x = torch.from_numpy(np.asarray(x)).float()
        x = torch.reshape(x, (-1, 1, 9, 9))
        
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)# 좌우상하 4개의 값을 반환
        return x

    def sample_action(self, obs, epsilon):
        out = self.forward(obs) 
        coin = random.random() 
        

        if coin < epsilon: 
            return random.randint(0,3)
        else:
            return out.argmax().item() 


In [None]:
def train(q, q_target, memory, optimizer): 
    for i in range(10):
        s, a, r, s_prime, done_mask = memory.sample(batch_size) #32개를 버퍼에서 뽑아 모아 놓은 s,a,r,s_prime,done_mask
        q_out = q(s)                                            # s 값으로 다음 각 action 값들의 value 값 반환
        q_a = q_out.gather(1,a)                      #선택한 액션값들의 q(s,a) 반환
        max_q_prime = q_target(s_prime).max(1)[0].unsqueeze(1)  # 다음 state의 각 q(s,a) 값 반환
        target = r + gamma * max_q_prime * done_mask # 배열 맞춰주기, 쓰러진 경우는 제거
        
        loss = F.smooth_l1_loss(q_a, target)                    # DQN 의 손실함수 계산 L1 유클리드

        optimizer.zero_grad()                                   # optimizer 의 모든 parameter 를 0으로 변환
        loss.backward()                                         # loss 에 대한 gradient 계산
        optimizer.step()                                        # 손실값을 바탕으로 Qnet 의 파라미터 업데이트


In [None]:
def model_save(model_dict, epi):
    PATH = './weights/'
    torch.save({
            'model': model_dict,
            'epi': epi,
            }, PATH + 'all_0602_item1_99.tar')

In [None]:
import time
from tqdm import tqdm

learning_rate = 0.0001
gamma = 0.99
buffer_limit  = 100000
batch_size = 128

USE_CUDA = torch.cuda.is_available()
print(USE_CUDA)
device = torch.device('cuda:0' if USE_CUDA else 'cpu')

def main():

    env = Simulator()
    files = pd.read_csv("./data/train1.csv") #"./data/factory_order_train.csv"))

    q = QnetCNN()
    q_target = QnetCNN()
    
    # PATH = './weights/'
    # checkpoint = torch.load(PATH+'all_0602_item1_99.tar')
    # q.load_state_dict(checkpoint['model'])
    # epi_num = checkpoint['epi']
    # q.eval()
    # 현재 Qnet 의 파라미터를 q_target 에 load
    q_target.load_state_dict(q.state_dict())      
    

    memory = ReplayBuffer()

    print_interval = 100
    score = 0.0
    
    optimizer = optim.Adam(q.parameters(), lr = learning_rate) 
    # loss 값을 바탕으로 업데이트할 비율 (q_target 말고 q 만 업데이트)
    
    # scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma)

    cnt = 0
    masking = False

    for epi in tqdm(range(300000)):
        #time.sleep(0.001)
        if epi%1000 == 0:
            model_save(q.state_dict(), epi)
            
#         if epi <= 39999:
        epsilon = max(0.01, 0.5 - 0.0005 * (epi//100))

            
        ep = epi%17
        
        
        
        s = env.reset(ep)
        obs = np.asarray(s, dtype=np.float32)
        w,h = np.where(obs==100)
        w,h = w[0], h[0]
        b = np.zeros((9,9))
        c = obs[max(0,w-4):w+5,max(0,h-4):h+5]
        n,m = np.where(c==100)
        n,m = n[0],m[0]
        if (n < 4) and (m < 4):
            b[max(0, 4-n):len(c)+4-n, max(0, 4-m):len(c[0])+4-m]= c
        elif (n<4) and (m>=4):
            b[max(0, 4-n):len(c)+4-n, max(0, 4-m):len(c[0])]= c
        elif (n>=4) and (m<4):
            b[max(0, 4-n):len(c), max(0, 4-m):len(c[0])+4-m]= c
        else:
            b[max(0, 4-n):len(c), max(0, 4-m):len(c[0])]= c

        a_step= 0
        done = False 
        first = True
        while not done:
            if first:
                a = 0
                first = False
                
            elif obs[9][4] == 50:
                a = 0
                
            else:
                a = q.sample_action(torch.from_numpy(b).float(), epsilon) 
            
            s_prime, r, cumul, done, goal_reward = env.step(a)
            array = s_prime
            s_prime = np.asarray(s_prime, dtype=np.float32)
            
            w,h = np.where(s_prime==100)
            w,h = w[0], h[0]
            b_prime = np.zeros((9,9))
            c = s_prime[max(0,w-4):w+5,max(0,h-4):h+5]
            n,m = np.where(c==100)
            n,m = n[0],m[0]
            if (n < 4) and (m < 4):
                b_prime[max(0, 4-n):len(c)+4-n, max(0, 4-m):len(c[0])+4-m]= c
            elif (n<4) and (m>=4):
                b_prime[max(0, 4-n):len(c)+4-n, max(0, 4-m):len(c[0])]= c
            elif (n>=4) and (m<4):
                b_prime[max(0, 4-n):len(c), max(0, 4-m):len(c[0])+4-m]= c
            else:
                b_prime[max(0, 4-n):len(c), max(0, 4-m):len(c[0])]= c
            
            if done:
                masking = True
            
            if masking : # 끝났으면 train 안함
                cnt +=1
                print(f'지금 다 먹고 {cnt}번째 도착완료 \n  그리고 총 보상은 : {cumul} ')
                masking = False
            
            
            if a_step == 200:
                done = True
                goal_reward= True
            
            
             
            done_mask = 0.0 if done else 1.0

            memory.put((b,a,r/100, b_prime, done_mask))
            obs = s_prime
            b = b_prime
            score += r
        
            if done : # 끝났으면 train 안함
                break

            a_step +=1 # a 의 시행횟수
 

        if memory.size() > 2000: 
            train(q, q_target, memory, optimizer) 

        if epi%print_interval==0 and epi != 0: 
            action = ['↑', '↓', '←', '→'][a]
            print(f'epi = {ep}\n 마지막 상태 :\n{obs}\n 이 때 한 행동 : {action}\n 마지막 보상 : {r}\n 총 받은 보상 :{cumul}\n end : {done}\n clear : {goal_reward}')
           # env.now_state()
            
            q_target.load_state_dict(q.state_dict()) #q_target 지금걸로 업데이트
            print(f"episode :{ep}, score = {score/print_interval}, n_buffer :{memory.size()} , eps : {epsilon*100}")
            score = 0.0

main()

 16%|█▌        | 48609/300000 [2:36:14<15:04:43,  4.63it/s]

지금 다 먹고 18508번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▌        | 48610/300000 [2:36:14<15:27:33,  4.52it/s]

지금 다 먹고 18509번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▌        | 48612/300000 [2:36:15<16:39:38,  4.19it/s]

지금 다 먹고 18510번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 18511번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 16%|█▌        | 48614/300000 [2:36:15<14:46:32,  4.73it/s]

지금 다 먹고 18512번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 16%|█▌        | 48616/300000 [2:36:16<15:15:59,  4.57it/s]

지금 다 먹고 18513번째 도착완료 
  그리고 총 보상은 : 22.60000000000001 


 16%|█▌        | 48617/300000 [2:36:16<15:00:37,  4.65it/s]

지금 다 먹고 18514번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 18515번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 16%|█▌        | 48619/300000 [2:36:16<14:01:22,  4.98it/s]

지금 다 먹고 18516번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▌        | 48620/300000 [2:36:16<14:46:28,  4.73it/s]

지금 다 먹고 18517번째 도착완료 
  그리고 총 보상은 : 23.3 


 16%|█▌        | 48621/300000 [2:36:17<14:46:37,  4.73it/s]

지금 다 먹고 18518번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 16%|█▌        | 48623/300000 [2:36:17<14:46:53,  4.72it/s]

지금 다 먹고 18519번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 18520번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▌        | 48625/300000 [2:36:17<13:46:30,  5.07it/s]

지금 다 먹고 18521번째 도착완료 
  그리고 총 보상은 : 22.6 


 16%|█▌        | 48626/300000 [2:36:18<15:26:39,  4.52it/s]

지금 다 먹고 18522번째 도착완료 
  그리고 총 보상은 : 12.800000000000042 


 16%|█▌        | 48627/300000 [2:36:18<15:21:04,  4.55it/s]

지금 다 먹고 18523번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 16%|█▌        | 48629/300000 [2:36:18<15:44:49,  4.43it/s]

지금 다 먹고 18524번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 18525번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 


 16%|█▌        | 48631/300000 [2:36:19<15:17:30,  4.57it/s]

지금 다 먹고 18526번째 도착완료 
  그리고 총 보상은 : 14.200000000000026 
지금 다 먹고 18527번째 도착완료 
  그리고 총 보상은 : 26.1 


 16%|█▌        | 48633/300000 [2:36:19<13:50:39,  5.04it/s]

지금 다 먹고 18528번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▌        | 48635/300000 [2:36:20<14:27:19,  4.83it/s]

지금 다 먹고 18529번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 18530번째 도착완료 
  그리고 총 보상은 : 25.6 


 16%|█▌        | 48637/300000 [2:36:20<13:33:42,  5.15it/s]

지금 다 먹고 18531번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 16%|█▌        | 48640/300000 [2:36:21<14:43:33,  4.74it/s]

지금 다 먹고 18532번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▌        | 48642/300000 [2:36:21<15:08:44,  4.61it/s]

지금 다 먹고 18533번째 도착완료 
  그리고 총 보상은 : 17.800000000000015 
지금 다 먹고 18534번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 


 16%|█▌        | 48647/300000 [2:36:22<15:26:34,  4.52it/s]

지금 다 먹고 18535번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 18536번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 16%|█▌        | 48651/300000 [2:36:23<15:37:22,  4.47it/s]

지금 다 먹고 18537번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 
지금 다 먹고 18538번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 16%|█▌        | 48653/300000 [2:36:23<14:06:42,  4.95it/s]

지금 다 먹고 18539번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 18540번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 16%|█▌        | 48657/300000 [2:36:24<14:38:43,  4.77it/s]

지금 다 먹고 18541번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 18542번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▌        | 48659/300000 [2:36:25<14:06:44,  4.95it/s]

지금 다 먹고 18543번째 도착완료 
  그리고 총 보상은 : 16.00000000000001 
지금 다 먹고 18544번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 16%|█▌        | 48661/300000 [2:36:25<13:13:06,  5.28it/s]

지금 다 먹고 18545번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▌        | 48663/300000 [2:36:26<14:10:54,  4.92it/s]

지금 다 먹고 18546번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 18547번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 16%|█▌        | 48665/300000 [2:36:26<13:48:36,  5.06it/s]

지금 다 먹고 18548번째 도착완료 
  그리고 총 보상은 : 20.000000000000004 
지금 다 먹고 18549번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 16%|█▌        | 48667/300000 [2:36:26<14:05:15,  4.96it/s]

지금 다 먹고 18550번째 도착완료 
  그리고 총 보상은 : 14.300000000000026 


 16%|█▌        | 48668/300000 [2:36:27<14:13:36,  4.91it/s]

지금 다 먹고 18551번째 도착완료 
  그리고 총 보상은 : 15.299999999999997 
지금 다 먹고 18552번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 16%|█▌        | 48670/300000 [2:36:27<13:00:33,  5.37it/s]

지금 다 먹고 18553번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▌        | 48674/300000 [2:36:28<14:57:56,  4.66it/s]

지금 다 먹고 18554번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 18555번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▌        | 48676/300000 [2:36:28<13:56:56,  5.00it/s]

지금 다 먹고 18556번째 도착완료 
  그리고 총 보상은 : 23.000000000000007 
지금 다 먹고 18557번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 16%|█▌        | 48678/300000 [2:36:29<13:12:07,  5.29it/s]

지금 다 먹고 18558번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▌        | 48680/300000 [2:36:29<14:08:44,  4.94it/s]

지금 다 먹고 18559번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 18560번째 도착완료 
  그리고 총 보상은 : 17.7 


 16%|█▌        | 48682/300000 [2:36:29<13:12:08,  5.29it/s]

지금 다 먹고 18561번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 16%|█▌        | 48685/300000 [2:36:30<16:26:08,  4.25it/s]

지금 다 먹고 18562번째 도착완료 
  그리고 총 보상은 : 8.700000000000038 


 16%|█▌        | 48686/300000 [2:36:30<16:14:02,  4.30it/s]

지금 다 먹고 18563번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 18564번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▌        | 48689/300000 [2:36:31<14:26:47,  4.83it/s]

지금 다 먹고 18565번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 18566번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 


 16%|█▌        | 48691/300000 [2:36:31<14:35:31,  4.78it/s]

지금 다 먹고 18567번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▌        | 48693/300000 [2:36:32<16:34:14,  4.21it/s]

지금 다 먹고 18568번째 도착완료 
  그리고 총 보상은 : 19.200000000000006 


 16%|█▌        | 48694/300000 [2:36:32<16:02:48,  4.35it/s]

지금 다 먹고 18569번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 18570번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▌        | 48696/300000 [2:36:33<14:57:52,  4.66it/s]

지금 다 먹고 18571번째 도착완료 
  그리고 총 보상은 : 8.599999999999998 
지금 다 먹고 18572번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▌        | 48698/300000 [2:36:33<13:59:58,  4.99it/s]

지금 다 먹고 18573번째 도착완료 
  그리고 총 보상은 : 21.00000000000001 
지금 다 먹고 18574번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 


 16%|█▌        | 48700/300000 [2:36:33<14:11:18,  4.92it/s]

지금 다 먹고 18575번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 16%|█▌        | 48701/300000 [2:36:34<15:52:12,  4.40it/s]

지금 다 먹고 18576번째 도착완료 
  그리고 총 보상은 : 16.900000000000016 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :16.900000000000016
 end : True
 clear : True
episode :12, score = 10.602999999998588, n_buffer :100000 , eps : 25.650000000000002


 16%|█▌        | 48703/300000 [2:36:34<18:30:31,  3.77it/s]

지금 다 먹고 18577번째 도착완료 
  그리고 총 보상은 : 13.000000000000034 


 16%|█▌        | 48704/300000 [2:36:34<16:49:13,  4.15it/s]

지금 다 먹고 18578번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 16%|█▌        | 48705/300000 [2:36:35<16:38:36,  4.19it/s]

지금 다 먹고 18579번째 도착완료 
  그리고 총 보상은 : 11.400000000000018 
지금 다 먹고 18580번째 도착완료 
  그리고 총 보상은 : 27.6 


 16%|█▌        | 48708/300000 [2:36:35<14:43:38,  4.74it/s]

지금 다 먹고 18581번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▌        | 48709/300000 [2:36:35<14:29:11,  4.82it/s]

지금 다 먹고 18582번째 도착완료 
  그리고 총 보상은 : 11.200000000000012 
지금 다 먹고 18583번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 16%|█▌        | 48711/300000 [2:36:36<13:42:31,  5.09it/s]

지금 다 먹고 18584번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 18585번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 16%|█▌        | 48714/300000 [2:36:36<14:28:05,  4.82it/s]

지금 다 먹고 18586번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 18587번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▌        | 48716/300000 [2:36:37<13:54:35,  5.02it/s]

지금 다 먹고 18588번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 18589번째 도착완료 
  그리고 총 보상은 : 19.100000000000012 


 16%|█▌        | 48718/300000 [2:36:37<13:35:17,  5.14it/s]

지금 다 먹고 18590번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 18591번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 16%|█▌        | 48720/300000 [2:36:38<15:04:23,  4.63it/s]

지금 다 먹고 18592번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 


 16%|█▌        | 48721/300000 [2:36:38<14:14:57,  4.90it/s]

지금 다 먹고 18593번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 18594번째 도착완료 
  그리고 총 보상은 : 22.6 


 16%|█▌        | 48723/300000 [2:36:38<13:26:44,  5.19it/s]

지금 다 먹고 18595번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 16%|█▌        | 48725/300000 [2:36:39<15:38:34,  4.46it/s]

지금 다 먹고 18596번째 도착완료 
  그리고 총 보상은 : 27.1 


 16%|█▌        | 48727/300000 [2:36:39<15:56:48,  4.38it/s]

지금 다 먹고 18597번째 도착완료 
  그리고 총 보상은 : 19.30000000000001 
지금 다 먹고 18598번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 16%|█▌        | 48729/300000 [2:36:40<14:05:06,  4.96it/s]

지금 다 먹고 18599번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 16%|█▌        | 48731/300000 [2:36:40<15:48:21,  4.42it/s]

지금 다 먹고 18600번째 도착완료 
  그리고 총 보상은 : 9.700000000000017 
지금 다 먹고 18601번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▌        | 48733/300000 [2:36:40<14:00:04,  4.99it/s]

지금 다 먹고 18602번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 18603번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 16%|█▌        | 48736/300000 [2:36:41<14:09:50,  4.93it/s]

지금 다 먹고 18604번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 18605번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 16%|█▌        | 48738/300000 [2:36:41<12:55:10,  5.40it/s]

지금 다 먹고 18606번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▌        | 48740/300000 [2:36:42<14:05:26,  4.95it/s]

지금 다 먹고 18607번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▌        | 48742/300000 [2:36:42<14:59:05,  4.66it/s]

지금 다 먹고 18608번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 18609번째 도착완료 
  그리고 총 보상은 : 16.9 


 16%|█▌        | 48744/300000 [2:36:43<13:58:07,  5.00it/s]

지금 다 먹고 18610번째 도착완료 
  그리고 총 보상은 : 26.6 


 16%|█▌        | 48746/300000 [2:36:43<14:06:34,  4.95it/s]

지금 다 먹고 18611번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 16%|█▌        | 48748/300000 [2:36:44<16:03:55,  4.34it/s]

지금 다 먹고 18612번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 16%|█▌        | 48749/300000 [2:36:44<15:05:50,  4.62it/s]

지금 다 먹고 18613번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 18614번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 16%|█▋        | 48751/300000 [2:36:44<15:23:47,  4.53it/s]

지금 다 먹고 18615번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 16%|█▋        | 48752/300000 [2:36:44<14:20:55,  4.86it/s]

지금 다 먹고 18616번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 16%|█▋        | 48754/300000 [2:36:45<14:22:46,  4.85it/s]

지금 다 먹고 18617번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 18618번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▋        | 48756/300000 [2:36:45<13:11:18,  5.29it/s]

지금 다 먹고 18619번째 도착완료 
  그리고 총 보상은 : 23.5 
지금 다 먹고 18620번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 48758/300000 [2:36:46<14:22:28,  4.86it/s]

지금 다 먹고 18621번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 16%|█▋        | 48759/300000 [2:36:46<13:51:21,  5.04it/s]

지금 다 먹고 18622번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 18623번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 48763/300000 [2:36:47<14:22:08,  4.86it/s]

지금 다 먹고 18624번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 16%|█▋        | 48765/300000 [2:36:47<14:14:23,  4.90it/s]

지금 다 먹고 18625번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 16%|█▋        | 48767/300000 [2:36:48<15:18:53,  4.56it/s]

지금 다 먹고 18626번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 16%|█▋        | 48768/300000 [2:36:48<14:49:38,  4.71it/s]

지금 다 먹고 18627번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 16%|█▋        | 48769/300000 [2:36:48<15:03:28,  4.63it/s]

지금 다 먹고 18628번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 16%|█▋        | 48770/300000 [2:36:48<15:52:51,  4.39it/s]

지금 다 먹고 18629번째 도착완료 
  그리고 총 보상은 : 20.000000000000004 


 16%|█▋        | 48771/300000 [2:36:48<14:58:45,  4.66it/s]

지금 다 먹고 18630번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 
지금 다 먹고 18631번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 16%|█▋        | 48773/300000 [2:36:49<14:08:27,  4.93it/s]

지금 다 먹고 18632번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 


 16%|█▋        | 48774/300000 [2:36:49<14:54:01,  4.68it/s]

지금 다 먹고 18633번째 도착완료 
  그리고 총 보상은 : 9.19999999999999 


 16%|█▋        | 48776/300000 [2:36:49<14:36:23,  4.78it/s]

지금 다 먹고 18634번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 18635번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 48780/300000 [2:36:50<14:55:24,  4.68it/s]

지금 다 먹고 18636번째 도착완료 
  그리고 총 보상은 : 27.1 


 16%|█▋        | 48782/300000 [2:36:51<16:38:13,  4.19it/s]

지금 다 먹고 18637번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 18638번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▋        | 48784/300000 [2:36:51<14:14:04,  4.90it/s]

지금 다 먹고 18639번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 16%|█▋        | 48786/300000 [2:36:52<15:29:40,  4.50it/s]

지금 다 먹고 18640번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▋        | 48789/300000 [2:36:52<15:48:03,  4.42it/s]

지금 다 먹고 18641번째 도착완료 
  그리고 총 보상은 : 22.799999999999997 


 16%|█▋        | 48793/300000 [2:36:53<16:08:50,  4.32it/s]

지금 다 먹고 18642번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 16%|█▋        | 48794/300000 [2:36:54<16:35:28,  4.21it/s]

지금 다 먹고 18643번째 도착완료 
  그리고 총 보상은 : 13.400000000000004 


 16%|█▋        | 48795/300000 [2:36:54<17:01:15,  4.10it/s]

지금 다 먹고 18644번째 도착완료 
  그리고 총 보상은 : 17.30000000000001 


 16%|█▋        | 48796/300000 [2:36:54<16:37:43,  4.20it/s]

지금 다 먹고 18645번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 18646번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 16%|█▋        | 48799/300000 [2:36:55<15:04:30,  4.63it/s]

지금 다 먹고 18647번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 18648번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 16%|█▋        | 48801/300000 [2:36:55<14:07:26,  4.94it/s]

지금 다 먹고 18649번째 도착완료 
  그리고 총 보상은 : 22.7 
epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :22.7
 end : True
 clear : True
episode :10, score = 10.327999999998532, n_buffer :100000 , eps : 25.6


 16%|█▋        | 48805/300000 [2:36:56<17:08:49,  4.07it/s]

지금 다 먹고 18650번째 도착완료 
  그리고 총 보상은 : 14.400000000000025 
지금 다 먹고 18651번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 48807/300000 [2:36:57<15:58:40,  4.37it/s]

지금 다 먹고 18652번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 


 16%|█▋        | 48808/300000 [2:36:57<14:45:00,  4.73it/s]

지금 다 먹고 18653번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 18654번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 16%|█▋        | 48810/300000 [2:36:57<13:39:17,  5.11it/s]

지금 다 먹고 18655번째 도착완료 
  그리고 총 보상은 : 23.80000000000001 
지금 다 먹고 18656번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 16%|█▋        | 48812/300000 [2:36:58<12:52:14,  5.42it/s]

지금 다 먹고 18657번째 도착완료 
  그리고 총 보상은 : 25.1 


 16%|█▋        | 48814/300000 [2:36:58<13:50:24,  5.04it/s]

지금 다 먹고 18658번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 16%|█▋        | 48815/300000 [2:36:58<14:52:00,  4.69it/s]

지금 다 먹고 18659번째 도착완료 
  그리고 총 보상은 : 13.60000000000003 
지금 다 먹고 18660번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 16%|█▋        | 48817/300000 [2:36:59<14:49:57,  4.70it/s]

지금 다 먹고 18661번째 도착완료 
  그리고 총 보상은 : 16.30000000000001 
지금 다 먹고 18662번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 48819/300000 [2:36:59<13:24:39,  5.20it/s]

지금 다 먹고 18663번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 18664번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 16%|█▋        | 48820/300000 [2:36:59<13:37:31,  5.12it/s]

지금 다 먹고 18665번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 16%|█▋        | 48822/300000 [2:37:00<13:01:51,  5.35it/s]

지금 다 먹고 18666번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 18667번째 도착완료 
  그리고 총 보상은 : 21.1 


 16%|█▋        | 48824/300000 [2:37:00<12:53:55,  5.41it/s]

지금 다 먹고 18668번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 18669번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 16%|█▋        | 48827/300000 [2:37:00<13:21:38,  5.22it/s]

지금 다 먹고 18670번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 16%|█▋        | 48829/300000 [2:37:01<13:59:52,  4.98it/s]

지금 다 먹고 18671번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 18672번째 도착완료 
  그리고 총 보상은 : 26.6 


 16%|█▋        | 48831/300000 [2:37:01<12:59:49,  5.37it/s]

지금 다 먹고 18673번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 18674번째 도착완료 
  그리고 총 보상은 : 21.099999999999998 


 16%|█▋        | 48833/300000 [2:37:02<13:30:20,  5.17it/s]

지금 다 먹고 18675번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 
지금 다 먹고 18676번째 도착완료 
  그리고 총 보상은 : 27.6 


 16%|█▋        | 48835/300000 [2:37:02<13:33:37,  5.14it/s]

지금 다 먹고 18677번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 16%|█▋        | 48837/300000 [2:37:03<15:46:56,  4.42it/s]

지금 다 먹고 18678번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▋        | 48839/300000 [2:37:03<15:35:24,  4.48it/s]

지금 다 먹고 18679번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 18680번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▋        | 48841/300000 [2:37:03<13:57:37,  5.00it/s]

지금 다 먹고 18681번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 18682번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 16%|█▋        | 48844/300000 [2:37:04<13:45:43,  5.07it/s]

지금 다 먹고 18683번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 18684번째 도착완료 
  그리고 총 보상은 : 12.600000000000003 


 16%|█▋        | 48846/300000 [2:37:04<13:45:50,  5.07it/s]

지금 다 먹고 18685번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 18686번째 도착완료 
  그리고 총 보상은 : 24.90000000000001 


 16%|█▋        | 48848/300000 [2:37:05<12:53:53,  5.41it/s]

지금 다 먹고 18687번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 18688번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 16%|█▋        | 48850/300000 [2:37:05<12:23:04,  5.63it/s]

지금 다 먹고 18689번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 18690번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 16%|█▋        | 48852/300000 [2:37:05<12:36:23,  5.53it/s]

지금 다 먹고 18691번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 18692번째 도착완료 
  그리고 총 보상은 : 22.6 


 16%|█▋        | 48854/300000 [2:37:06<13:00:26,  5.36it/s]

지금 다 먹고 18693번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 18694번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 48856/300000 [2:37:06<14:08:15,  4.93it/s]

지금 다 먹고 18695번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 16%|█▋        | 48857/300000 [2:37:07<14:45:07,  4.73it/s]

지금 다 먹고 18696번째 도착완료 
  그리고 총 보상은 : 21.6 


 16%|█▋        | 48858/300000 [2:37:07<14:00:47,  4.98it/s]

지금 다 먹고 18697번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 18698번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 16%|█▋        | 48861/300000 [2:37:07<13:41:32,  5.09it/s]

지금 다 먹고 18699번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 18700번째 도착완료 
  그리고 총 보상은 : 22.8 


 16%|█▋        | 48863/300000 [2:37:08<14:10:46,  4.92it/s]

지금 다 먹고 18701번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 16%|█▋        | 48864/300000 [2:37:08<14:49:04,  4.71it/s]

지금 다 먹고 18702번째 도착완료 
  그리고 총 보상은 : 22.100000000000012 


 16%|█▋        | 48865/300000 [2:37:08<14:15:25,  4.89it/s]

지금 다 먹고 18703번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 16%|█▋        | 48867/300000 [2:37:09<15:01:16,  4.64it/s]

지금 다 먹고 18704번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 16%|█▋        | 48869/300000 [2:37:09<15:13:44,  4.58it/s]

지금 다 먹고 18705번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 18706번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 16%|█▋        | 48871/300000 [2:37:09<14:10:08,  4.92it/s]

지금 다 먹고 18707번째 도착완료 
  그리고 총 보상은 : 12.500000000000004 
지금 다 먹고 18708번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 


 16%|█▋        | 48873/300000 [2:37:10<14:23:04,  4.85it/s]

지금 다 먹고 18709번째 도착완료 
  그리고 총 보상은 : 21.90000000000001 
지금 다 먹고 18710번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 48875/300000 [2:37:10<13:13:52,  5.27it/s]

지금 다 먹고 18711번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 18712번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 16%|█▋        | 48878/300000 [2:37:11<14:10:44,  4.92it/s]

지금 다 먹고 18713번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 18714번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 48880/300000 [2:37:11<14:03:44,  4.96it/s]

지금 다 먹고 18715번째 도착완료 
  그리고 총 보상은 : 19.600000000000005 
지금 다 먹고 18716번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 16%|█▋        | 48882/300000 [2:37:12<12:56:30,  5.39it/s]

지금 다 먹고 18717번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▋        | 48884/300000 [2:37:12<13:46:53,  5.06it/s]

지금 다 먹고 18718번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 18719번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 16%|█▋        | 48886/300000 [2:37:12<14:14:54,  4.90it/s]

지금 다 먹고 18720번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 16%|█▋        | 48887/300000 [2:37:13<15:14:43,  4.58it/s]

지금 다 먹고 18721번째 도착완료 
  그리고 총 보상은 : 13.400000000000034 
지금 다 먹고 18722번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 


 16%|█▋        | 48889/300000 [2:37:13<14:15:06,  4.89it/s]

지금 다 먹고 18723번째 도착완료 
  그리고 총 보상은 : 16.800000000000015 
지금 다 먹고 18724번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 48892/300000 [2:37:14<14:51:27,  4.69it/s]

지금 다 먹고 18725번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 16%|█▋        | 48893/300000 [2:37:14<14:41:48,  4.75it/s]

지금 다 먹고 18726번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 16%|█▋        | 48894/300000 [2:37:14<17:16:49,  4.04it/s]

지금 다 먹고 18727번째 도착완료 
  그리고 총 보상은 : 4.099999999999948 


 16%|█▋        | 48895/300000 [2:37:14<16:21:14,  4.27it/s]

지금 다 먹고 18728번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 16%|█▋        | 48896/300000 [2:37:15<16:27:11,  4.24it/s]

지금 다 먹고 18729번째 도착완료 
  그리고 총 보상은 : 10.700000000000001 
지금 다 먹고 18730번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 16%|█▋        | 48898/300000 [2:37:15<14:19:04,  4.87it/s]

지금 다 먹고 18731번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 18732번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▋        | 48900/300000 [2:37:15<13:52:07,  5.03it/s]

지금 다 먹고 18733번째 도착완료 
  그리고 총 보상은 : 17.700000000000003 


 16%|█▋        | 48901/300000 [2:37:16<15:49:44,  4.41it/s]

epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0. 200.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0. 100.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :-23.300000000000075
 end : True
 clear : True
episode :8, score = 15.452000000001282, n_buffer :100000 , eps : 25.55
지금 다 먹고 18734번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▋        | 48903/300000 [2:37:16<15:15:18,  4.57it/s]

지금 다 먹고 18735번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 48904/300000 [2:37:16<15:14:08,  4.58it/s]

지금 다 먹고 18736번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 16%|█▋        | 48905/300000 [2:37:17<15:19:13,  4.55it/s]

지금 다 먹고 18737번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 16%|█▋        | 48906/300000 [2:37:17<15:49:17,  4.41it/s]

지금 다 먹고 18738번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 
지금 다 먹고 18739번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 16%|█▋        | 48908/300000 [2:37:17<13:54:29,  5.01it/s]

지금 다 먹고 18740번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 16%|█▋        | 48909/300000 [2:37:17<14:09:25,  4.93it/s]

지금 다 먹고 18741번째 도착완료 
  그리고 총 보상은 : 17.100000000000005 
지금 다 먹고 18742번째 도착완료 
  그리고 총 보상은 : 28.1 


 16%|█▋        | 48912/300000 [2:37:18<13:59:49,  4.98it/s]

지금 다 먹고 18743번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 18744번째 도착완료 
  그리고 총 보상은 : 14.700000000000003 


 16%|█▋        | 48914/300000 [2:37:18<13:21:05,  5.22it/s]

지금 다 먹고 18745번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 18746번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 16%|█▋        | 48916/300000 [2:37:19<13:08:48,  5.31it/s]

지금 다 먹고 18747번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 16%|█▋        | 48918/300000 [2:37:19<13:59:29,  4.98it/s]

지금 다 먹고 18748번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 18749번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 16%|█▋        | 48920/300000 [2:37:20<14:08:53,  4.93it/s]

지금 다 먹고 18750번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 
지금 다 먹고 18751번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 16%|█▋        | 48922/300000 [2:37:20<14:42:37,  4.74it/s]

지금 다 먹고 18752번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 
지금 다 먹고 18753번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 16%|█▋        | 48924/300000 [2:37:20<13:33:37,  5.14it/s]

지금 다 먹고 18754번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 18755번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 16%|█▋        | 48926/300000 [2:37:21<12:53:48,  5.41it/s]

지금 다 먹고 18756번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 16%|█▋        | 48928/300000 [2:37:21<14:14:08,  4.90it/s]

지금 다 먹고 18757번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 18758번째 도착완료 
  그리고 총 보상은 : 27.0 


 16%|█▋        | 48931/300000 [2:37:22<15:16:56,  4.56it/s]

지금 다 먹고 18759번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 18760번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 16%|█▋        | 48933/300000 [2:37:22<13:47:51,  5.05it/s]

지금 다 먹고 18761번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 16%|█▋        | 48935/300000 [2:37:23<14:31:02,  4.80it/s]

지금 다 먹고 18762번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 16%|█▋        | 48937/300000 [2:37:23<14:34:50,  4.78it/s]

지금 다 먹고 18763번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 18764번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 16%|█▋        | 48939/300000 [2:37:24<15:59:48,  4.36it/s]

지금 다 먹고 18765번째 도착완료 
  그리고 총 보상은 : 11.500000000000032 


 16%|█▋        | 48940/300000 [2:37:24<15:28:49,  4.50it/s]

지금 다 먹고 18766번째 도착완료 
  그리고 총 보상은 : 21.5 
지금 다 먹고 18767번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 48942/300000 [2:37:24<13:44:19,  5.08it/s]

지금 다 먹고 18768번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 18769번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 16%|█▋        | 48946/300000 [2:37:25<15:14:21,  4.58it/s]

지금 다 먹고 18770번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 18771번째 도착완료 
  그리고 총 보상은 : 25.6 


 16%|█▋        | 48948/300000 [2:37:25<14:07:07,  4.94it/s]

지금 다 먹고 18772번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 18773번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 48950/300000 [2:37:26<12:54:22,  5.40it/s]

지금 다 먹고 18774번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 18775번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 16%|█▋        | 48952/300000 [2:37:26<12:34:00,  5.55it/s]

지금 다 먹고 18776번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 16%|█▋        | 48954/300000 [2:37:27<13:27:24,  5.18it/s]

지금 다 먹고 18777번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 48955/300000 [2:37:27<13:49:33,  5.04it/s]

지금 다 먹고 18778번째 도착완료 
  그리고 총 보상은 : 17.300000000000015 
지금 다 먹고 18779번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 48957/300000 [2:37:27<13:39:16,  5.11it/s]

지금 다 먹고 18780번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 
지금 다 먹고 18781번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 

 16%|█▋        | 48958/300000 [2:37:27<13:32:39,  5.15it/s]


지금 다 먹고 18782번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 16%|█▋        | 48960/300000 [2:37:28<13:02:55,  5.34it/s]

지금 다 먹고 18783번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 18784번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 16%|█▋        | 48963/300000 [2:37:28<14:31:39,  4.80it/s]

지금 다 먹고 18785번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 18786번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 16%|█▋        | 48965/300000 [2:37:29<13:31:27,  5.16it/s]

지금 다 먹고 18787번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 18788번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 


 16%|█▋        | 48967/300000 [2:37:29<12:45:14,  5.47it/s]

지금 다 먹고 18789번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 18790번째 도착완료 
  그리고 총 보상은 : 23.0 


 16%|█▋        | 48969/300000 [2:37:29<12:35:56,  5.53it/s]

지금 다 먹고 18791번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 16%|█▋        | 48971/300000 [2:37:30<14:08:32,  4.93it/s]

지금 다 먹고 18792번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▋        | 48972/300000 [2:37:30<14:25:29,  4.83it/s]

지금 다 먹고 18793번째 도착완료 
  그리고 총 보상은 : 14.800000000000011 
지금 다 먹고 18794번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 16%|█▋        | 48974/300000 [2:37:31<14:44:08,  4.73it/s]

지금 다 먹고 18795번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 


 16%|█▋        | 48975/300000 [2:37:31<14:03:29,  4.96it/s]

지금 다 먹고 18796번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 18797번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 16%|█▋        | 48977/300000 [2:37:31<12:54:51,  5.40it/s]

지금 다 먹고 18798번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 18799번째 도착완료 
  그리고 총 보상은 : 12.500000000000002 


 16%|█▋        | 48980/300000 [2:37:32<13:43:51,  5.08it/s]

지금 다 먹고 18800번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 18801번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 16%|█▋        | 48982/300000 [2:37:32<12:51:56,  5.42it/s]

지금 다 먹고 18802번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 18803번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 16%|█▋        | 48984/300000 [2:37:32<13:43:32,  5.08it/s]

지금 다 먹고 18804번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 16%|█▋        | 48986/300000 [2:37:33<15:09:58,  4.60it/s]

지금 다 먹고 18805번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 48987/300000 [2:37:33<15:39:01,  4.46it/s]

지금 다 먹고 18806번째 도착완료 
  그리고 총 보상은 : -10.500000000000021 
지금 다 먹고 18807번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 16%|█▋        | 48989/300000 [2:37:34<16:28:55,  4.23it/s]

지금 다 먹고 18808번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 16%|█▋        | 48990/300000 [2:37:34<15:24:11,  4.53it/s]

지금 다 먹고 18809번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 18810번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 16%|█▋        | 48992/300000 [2:37:34<13:54:52,  5.01it/s]

지금 다 먹고 18811번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 18812번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 16%|█▋        | 48994/300000 [2:37:35<14:50:25,  4.70it/s]

지금 다 먹고 18813번째 도착완료 
  그리고 총 보상은 : 27.6 


 16%|█▋        | 48995/300000 [2:37:35<13:56:20,  5.00it/s]

지금 다 먹고 18814번째 도착완료 
  그리고 총 보상은 : 28.6 


 16%|█▋        | 48997/300000 [2:37:35<14:41:25,  4.75it/s]

지금 다 먹고 18815번째 도착완료 
  그리고 총 보상은 : 24.200000000000014 


 16%|█▋        | 48999/300000 [2:37:36<16:54:26,  4.12it/s]

지금 다 먹고 18816번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 16%|█▋        | 49000/300000 [2:37:36<17:08:23,  4.07it/s]

지금 다 먹고 18817번째 도착완료 
  그리고 총 보상은 : 19.900000000000006 


 16%|█▋        | 49001/300000 [2:37:36<17:41:53,  3.94it/s]

지금 다 먹고 18818번째 도착완료 
  그리고 총 보상은 : 20.300000000000008 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :20.300000000000008
 end : True
 clear : True
episode :6, score = 15.902000000001221, n_buffer :100000 , eps : 25.5


 16%|█▋        | 49002/300000 [2:37:37<18:49:18,  3.70it/s]

지금 다 먹고 18819번째 도착완료 
  그리고 총 보상은 : 3.8999999999999773 
지금 다 먹고 18820번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 16%|█▋        | 49005/300000 [2:37:37<16:11:52,  4.30it/s]

지금 다 먹고 18821번째 도착완료 
  그리고 총 보상은 : 17.500000000000004 
지금 다 먹고 18822번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 16%|█▋        | 49007/300000 [2:37:38<15:18:52,  4.55it/s]

지금 다 먹고 18823번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 


 16%|█▋        | 49008/300000 [2:37:38<15:27:34,  4.51it/s]

지금 다 먹고 18824번째 도착완료 
  그리고 총 보상은 : 24.700000000000014 


 16%|█▋        | 49010/300000 [2:37:39<17:30:42,  3.98it/s]

지금 다 먹고 18825번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 


 16%|█▋        | 49011/300000 [2:37:39<16:27:29,  4.24it/s]

지금 다 먹고 18826번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 18827번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 16%|█▋        | 49014/300000 [2:37:39<15:07:05,  4.61it/s]

지금 다 먹고 18828번째 도착완료 
  그리고 총 보상은 : 17.2 
지금 다 먹고 18829번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49016/300000 [2:37:40<14:43:10,  4.74it/s]

지금 다 먹고 18830번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 
지금 다 먹고 18831번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 49019/300000 [2:37:40<14:59:48,  4.65it/s]

지금 다 먹고 18832번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 16%|█▋        | 49020/300000 [2:37:41<15:15:09,  4.57it/s]

지금 다 먹고 18833번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 16%|█▋        | 49021/300000 [2:37:41<15:20:27,  4.54it/s]

지금 다 먹고 18834번째 도착완료 
  그리고 총 보상은 : 10.900000000000002 
지금 다 먹고 18835번째 도착완료 
  그리고 총 보상은 : 21.6 


 16%|█▋        | 49023/300000 [2:37:41<14:38:00,  4.76it/s]

지금 다 먹고 18836번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 18837번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 16%|█▋        | 49025/300000 [2:37:42<13:30:19,  5.16it/s]

지금 다 먹고 18838번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 18839번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 16%|█▋        | 49027/300000 [2:37:42<12:45:33,  5.46it/s]

지금 다 먹고 18840번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 18841번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 49029/300000 [2:37:42<12:19:01,  5.66it/s]

지금 다 먹고 18842번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 16%|█▋        | 49030/300000 [2:37:42<13:02:00,  5.35it/s]

지금 다 먹고 18843번째 도착완료 
  그리고 총 보상은 : 16.600000000000012 
지금 다 먹고 18844번째 도착완료 
  그리고 총 보상은 : 28.6 


 16%|█▋        | 49032/300000 [2:37:43<12:37:59,  5.52it/s]

지금 다 먹고 18845번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 18846번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 16%|█▋        | 49034/300000 [2:37:43<12:36:35,  5.53it/s]

지금 다 먹고 18847번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 
지금 다 먹고 18848번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 16%|█▋        | 49037/300000 [2:37:44<13:44:32,  5.07it/s]

지금 다 먹고 18849번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 18850번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 16%|█▋        | 49040/300000 [2:37:44<14:56:20,  4.67it/s]

지금 다 먹고 18851번째 도착완료 
  그리고 총 보상은 : 15.200000000000012 
지금 다 먹고 18852번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 16%|█▋        | 49042/300000 [2:37:45<14:36:47,  4.77it/s]

지금 다 먹고 18853번째 도착완료 
  그리고 총 보상은 : 15.700000000000003 


 16%|█▋        | 49043/300000 [2:37:45<15:25:43,  4.52it/s]

지금 다 먹고 18854번째 도착완료 
  그리고 총 보상은 : 1.59999999999987 
지금 다 먹고 18855번째 도착완료 
  그리고 총 보상은 : 14.600000000000005 


 16%|█▋        | 49045/300000 [2:37:46<15:02:34,  4.63it/s]

지금 다 먹고 18856번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 
지금 다 먹고 18857번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▋        | 49049/300000 [2:37:46<15:01:33,  4.64it/s]

지금 다 먹고 18858번째 도착완료 
  그리고 총 보상은 : 15.7 
지금 다 먹고 18859번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 16%|█▋        | 49051/300000 [2:37:47<13:54:38,  5.01it/s]

지금 다 먹고 18860번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 
지금 다 먹고 18861번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 16%|█▋        | 49053/300000 [2:37:47<12:50:59,  5.42it/s]

지금 다 먹고 18862번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 18863번째 도착완료 
  그리고 총 보상은 : 26.6 


 16%|█▋        | 49055/300000 [2:37:47<12:26:57,  5.60it/s]

지금 다 먹고 18864번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 16%|█▋        | 49056/300000 [2:37:48<13:47:18,  5.06it/s]

지금 다 먹고 18865번째 도착완료 
  그리고 총 보상은 : 13.700000000000006 


 16%|█▋        | 49059/300000 [2:37:48<15:04:11,  4.63it/s]

지금 다 먹고 18866번째 도착완료 
  그리고 총 보상은 : 23.300000000000015 
지금 다 먹고 18867번째 도착완료 
  그리고 총 보상은 : 25.00000000000001 


 16%|█▋        | 49061/300000 [2:37:49<13:58:44,  4.99it/s]

지금 다 먹고 18868번째 도착완료 
  그리고 총 보상은 : 13.40000000000001 
지금 다 먹고 18869번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 16%|█▋        | 49063/300000 [2:37:49<12:55:42,  5.39it/s]

지금 다 먹고 18870번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 16%|█▋        | 49064/300000 [2:37:49<14:17:23,  4.88it/s]

지금 다 먹고 18871번째 도착완료 
  그리고 총 보상은 : 4.699999999999985 
지금 다 먹고 18872번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▋        | 49066/300000 [2:37:50<13:05:51,  5.32it/s]

지금 다 먹고 18873번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 18874번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 


 16%|█▋        | 49069/300000 [2:37:50<13:39:45,  5.10it/s]

지금 다 먹고 18875번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▋        | 49070/300000 [2:37:51<14:03:54,  4.96it/s]

지금 다 먹고 18876번째 도착완료 
  그리고 총 보상은 : 3.300000000000015 
지금 다 먹고 18877번째 도착완료 
  그리고 총 보상은 : 21.800000000000008 


 16%|█▋        | 49072/300000 [2:37:51<13:23:53,  5.20it/s]

지금 다 먹고 18878번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 18879번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 16%|█▋        | 49074/300000 [2:37:51<12:57:16,  5.38it/s]

지금 다 먹고 18880번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 
지금 다 먹고 18881번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 


 16%|█▋        | 49076/300000 [2:37:52<13:04:36,  5.33it/s]

지금 다 먹고 18882번째 도착완료 
  그리고 총 보상은 : 21.80000000000001 


 16%|█▋        | 49077/300000 [2:37:52<14:34:42,  4.78it/s]

지금 다 먹고 18883번째 도착완료 
  그리고 총 보상은 : 10.000000000000025 


 16%|█▋        | 49078/300000 [2:37:52<14:58:20,  4.66it/s]

지금 다 먹고 18884번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 16%|█▋        | 49079/300000 [2:37:52<14:54:15,  4.68it/s]

지금 다 먹고 18885번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 18886번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 49082/300000 [2:37:53<14:06:54,  4.94it/s]

지금 다 먹고 18887번째 도착완료 
  그리고 총 보상은 : 28.0 
지금 다 먹고 18888번째 도착완료 
  그리고 총 보상은 : 27.1 


 16%|█▋        | 49084/300000 [2:37:53<13:16:42,  5.25it/s]

지금 다 먹고 18889번째 도착완료 
  그리고 총 보상은 : 23.700000000000014 
지금 다 먹고 18890번째 도착완료 
  그리고 총 보상은 : 12.40000000000001 


 16%|█▋        | 49086/300000 [2:37:54<12:54:27,  5.40it/s]

지금 다 먹고 18891번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▋        | 49087/300000 [2:37:54<15:00:52,  4.64it/s]

지금 다 먹고 18892번째 도착완료 
  그리고 총 보상은 : 0.29999999999990834 


 16%|█▋        | 49088/300000 [2:37:54<15:13:05,  4.58it/s]

지금 다 먹고 18893번째 도착완료 
  그리고 총 보상은 : 23.40000000000001 


 16%|█▋        | 49089/300000 [2:37:54<15:02:17,  4.63it/s]

지금 다 먹고 18894번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 49090/300000 [2:37:55<15:33:31,  4.48it/s]

지금 다 먹고 18895번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 


 16%|█▋        | 49091/300000 [2:37:55<14:51:04,  4.69it/s]

지금 다 먹고 18896번째 도착완료 
  그리고 총 보상은 : 23.700000000000014 
지금 다 먹고 18897번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 16%|█▋        | 49093/300000 [2:37:55<14:37:25,  4.77it/s]

지금 다 먹고 18898번째 도착완료 
  그리고 총 보상은 : 18.60000000000001 
지금 다 먹고 18899번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 16%|█▋        | 49095/300000 [2:37:56<13:20:17,  5.23it/s]

지금 다 먹고 18900번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 18901번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▋        | 49097/300000 [2:37:56<12:27:09,  5.60it/s]

지금 다 먹고 18902번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 16%|█▋        | 49099/300000 [2:37:56<13:35:12,  5.13it/s]

지금 다 먹고 18903번째 도착완료 
  그리고 총 보상은 : 23.10000000000001 
지금 다 먹고 18904번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49101/300000 [2:37:57<13:37:05,  5.12it/s]

지금 다 먹고 18905번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :23.100000000000012
 end : True
 clear : True
episode :4, score = 16.04800000000083, n_buffer :100000 , eps : 25.45


 16%|█▋        | 49103/300000 [2:37:57<14:06:55,  4.94it/s]

지금 다 먹고 18906번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 49105/300000 [2:37:58<15:59:08,  4.36it/s]

지금 다 먹고 18907번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 16%|█▋        | 49106/300000 [2:37:58<15:36:21,  4.47it/s]

지금 다 먹고 18908번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49107/300000 [2:37:58<15:37:20,  4.46it/s]

지금 다 먹고 18909번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 49108/300000 [2:37:58<15:23:17,  4.53it/s]

지금 다 먹고 18910번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 16%|█▋        | 49109/300000 [2:37:59<14:55:05,  4.67it/s]

지금 다 먹고 18911번째 도착완료 
  그리고 총 보상은 : 17.0 
지금 다 먹고 18912번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 16%|█▋        | 49111/300000 [2:37:59<13:54:02,  5.01it/s]

지금 다 먹고 18913번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 18914번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 16%|█▋        | 49113/300000 [2:37:59<13:23:29,  5.20it/s]

지금 다 먹고 18915번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 18916번째 도착완료 
  그리고 총 보상은 : 28.1 


 16%|█▋        | 49115/300000 [2:38:00<13:35:52,  5.13it/s]

지금 다 먹고 18917번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 18918번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 16%|█▋        | 49117/300000 [2:38:00<12:24:39,  5.62it/s]

지금 다 먹고 18919번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 18920번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 16%|█▋        | 49119/300000 [2:38:00<12:30:08,  5.57it/s]

지금 다 먹고 18921번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 18922번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 16%|█▋        | 49121/300000 [2:38:01<14:19:15,  4.87it/s]

지금 다 먹고 18923번째 도착완료 
  그리고 총 보상은 : 13.500000000000007 


 16%|█▋        | 49123/300000 [2:38:01<14:54:11,  4.68it/s]

지금 다 먹고 18924번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 16%|█▋        | 49124/300000 [2:38:01<15:05:57,  4.62it/s]

지금 다 먹고 18925번째 도착완료 
  그리고 총 보상은 : 14.700000000000017 
지금 다 먹고 18926번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▋        | 49126/300000 [2:38:02<14:37:54,  4.76it/s]

지금 다 먹고 18927번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 16%|█▋        | 49127/300000 [2:38:02<14:45:00,  4.72it/s]

지금 다 먹고 18928번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▋        | 49128/300000 [2:38:02<16:30:43,  4.22it/s]

지금 다 먹고 18929번째 도착완료 
  그리고 총 보상은 : 10.700000000000028 


 16%|█▋        | 49129/300000 [2:38:03<15:50:16,  4.40it/s]

지금 다 먹고 18930번째 도착완료 
  그리고 총 보상은 : 14.100000000000005 
지금 다 먹고 18931번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 16%|█▋        | 49131/300000 [2:38:03<13:54:57,  5.01it/s]

지금 다 먹고 18932번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 16%|█▋        | 49133/300000 [2:38:03<14:29:41,  4.81it/s]

지금 다 먹고 18933번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49135/300000 [2:38:04<14:54:08,  4.68it/s]

지금 다 먹고 18934번째 도착완료 
  그리고 총 보상은 : 20.50000000000001 
지금 다 먹고 18935번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 16%|█▋        | 49137/300000 [2:38:04<13:59:32,  4.98it/s]

지금 다 먹고 18936번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 18937번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 16%|█▋        | 49140/300000 [2:38:05<16:29:13,  4.23it/s]

지금 다 먹고 18938번째 도착완료 
  그리고 총 보상은 : 15.000000000000034 
지금 다 먹고 18939번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 16%|█▋        | 49142/300000 [2:38:05<15:51:48,  4.39it/s]

지금 다 먹고 18940번째 도착완료 
  그리고 총 보상은 : 11.800000000000027 
지금 다 먹고 18941번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 16%|█▋        | 49144/300000 [2:38:06<14:25:13,  4.83it/s]

지금 다 먹고 18942번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 49145/300000 [2:38:06<14:14:17,  4.89it/s]

지금 다 먹고 18943번째 도착완료 
  그리고 총 보상은 : 17.700000000000006 
지금 다 먹고 18944번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 16%|█▋        | 49147/300000 [2:38:06<12:52:23,  5.41it/s]

지금 다 먹고 18945번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▋        | 49150/300000 [2:38:07<14:19:08,  4.87it/s]

지금 다 먹고 18946번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 18947번째 도착완료 
  그리고 총 보상은 : 26.6 


 16%|█▋        | 49152/300000 [2:38:07<13:50:48,  5.03it/s]

지금 다 먹고 18948번째 도착완료 
  그리고 총 보상은 : 17.000000000000007 
지금 다 먹고 18949번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 


 16%|█▋        | 49154/300000 [2:38:08<13:03:36,  5.34it/s]

지금 다 먹고 18950번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 18951번째 도착완료 
  그리고 총 보상은 : 21.300000000000008 


 16%|█▋        | 49156/300000 [2:38:08<13:34:53,  5.13it/s]

지금 다 먹고 18952번째 도착완료 
  그리고 총 보상은 : 19.50000000000001 
지금 다 먹고 18953번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 16%|█▋        | 49158/300000 [2:38:09<13:15:40,  5.25it/s]

지금 다 먹고 18954번째 도착완료 
  그리고 총 보상은 : 24.200000000000014 


 16%|█▋        | 49161/300000 [2:38:09<15:28:22,  4.50it/s]

지금 다 먹고 18955번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 
지금 다 먹고 18956번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 16%|█▋        | 49163/300000 [2:38:10<14:05:30,  4.94it/s]

지금 다 먹고 18957번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 18958번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 16%|█▋        | 49165/300000 [2:38:10<13:00:00,  5.36it/s]

지금 다 먹고 18959번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▋        | 49166/300000 [2:38:10<13:42:39,  5.08it/s]

지금 다 먹고 18960번째 도착완료 
  그리고 총 보상은 : 15.20000000000002 
지금 다 먹고 18961번째 도착완료 
  그리고 총 보상은 : 28.6 


 16%|█▋        | 49168/300000 [2:38:11<12:48:27,  5.44it/s]

지금 다 먹고 18962번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 18963번째 도착완료 
  그리고 총 보상은 : 22.600000000000012 


 16%|█▋        | 49170/300000 [2:38:11<13:01:01,  5.35it/s]

지금 다 먹고 18964번째 도착완료 
  그리고 총 보상은 : 21.400000000000013 
지금 다 먹고 18965번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 16%|█▋        | 49173/300000 [2:38:12<14:26:57,  4.82it/s]

지금 다 먹고 18966번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 16%|█▋        | 49174/300000 [2:38:12<14:40:41,  4.75it/s]

지금 다 먹고 18967번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 16%|█▋        | 49175/300000 [2:38:12<15:29:39,  4.50it/s]

지금 다 먹고 18968번째 도착완료 
  그리고 총 보상은 : 12.900000000000015 


 16%|█▋        | 49176/300000 [2:38:12<16:34:11,  4.20it/s]

지금 다 먹고 18969번째 도착완료 
  그리고 총 보상은 : 13.900000000000013 


 16%|█▋        | 49177/300000 [2:38:13<16:18:24,  4.27it/s]

지금 다 먹고 18970번째 도착완료 
  그리고 총 보상은 : 23.00000000000001 


 16%|█▋        | 49178/300000 [2:38:13<15:57:47,  4.36it/s]

지금 다 먹고 18971번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 
지금 다 먹고 18972번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 16%|█▋        | 49180/300000 [2:38:13<13:49:51,  5.04it/s]

지금 다 먹고 18973번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 18974번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 49182/300000 [2:38:13<13:02:45,  5.34it/s]

지금 다 먹고 18975번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 18976번째 도착완료 
  그리고 총 보상은 : 13.80000000000001 


 16%|█▋        | 49184/300000 [2:38:14<12:55:40,  5.39it/s]

지금 다 먹고 18977번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 16%|█▋        | 49185/300000 [2:38:14<14:21:17,  4.85it/s]

지금 다 먹고 18978번째 도착완료 
  그리고 총 보상은 : -0.10000000000001563 


 16%|█▋        | 49186/300000 [2:38:14<14:02:17,  4.96it/s]

지금 다 먹고 18979번째 도착완료 
  그리고 총 보상은 : 23.20000000000001 
지금 다 먹고 18980번째 도착완료 
  그리고 총 보상은 : 19.10000000000001 

 16%|█▋        | 49187/300000 [2:38:14<14:20:28,  4.86it/s]




 16%|█▋        | 49188/300000 [2:38:15<15:22:53,  4.53it/s]

지금 다 먹고 18981번째 도착완료 
  그리고 총 보상은 : 12.000000000000021 


 16%|█▋        | 49190/300000 [2:38:15<15:47:11,  4.41it/s]

지금 다 먹고 18982번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 16%|█▋        | 49191/300000 [2:38:15<15:27:17,  4.51it/s]

지금 다 먹고 18983번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 16%|█▋        | 49192/300000 [2:38:16<15:23:01,  4.53it/s]

지금 다 먹고 18984번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 


 16%|█▋        | 49193/300000 [2:38:16<15:20:15,  4.54it/s]

지금 다 먹고 18985번째 도착완료 
  그리고 총 보상은 : 17.0 
지금 다 먹고 18986번째 도착완료 
  그리고 총 보상은 : 22.500000000000014 


 16%|█▋        | 49195/300000 [2:38:16<15:56:32,  4.37it/s]

지금 다 먹고 18987번째 도착완료 
  그리고 총 보상은 : 19.800000000000004 


 16%|█▋        | 49196/300000 [2:38:17<15:34:09,  4.47it/s]

지금 다 먹고 18988번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 16%|█▋        | 49198/300000 [2:38:17<13:49:06,  5.04it/s]

지금 다 먹고 18989번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 18990번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 18991번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 16%|█▋        | 49200/300000 [2:38:17<14:14:57,  4.89it/s]

지금 다 먹고 18992번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 16%|█▋        | 49201/300000 [2:38:18<14:25:36,  4.83it/s]

지금 다 먹고 18993번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.000000000000004
 end : True
 clear : True
episode :2, score = 16.87300000000109, n_buffer :100000 , eps : 25.4


 16%|█▋        | 49202/300000 [2:38:18<13:51:39,  5.03it/s]

지금 다 먹고 18994번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 18995번째 도착완료 
  그리고 총 보상은 : 23.600000000000016 


 16%|█▋        | 49204/300000 [2:38:18<13:06:39,  5.31it/s]

지금 다 먹고 18996번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49206/300000 [2:38:19<15:41:28,  4.44it/s]

지금 다 먹고 18997번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 16%|█▋        | 49207/300000 [2:38:19<14:46:20,  4.72it/s]

지금 다 먹고 18998번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 18999번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 16%|█▋        | 49209/300000 [2:38:19<14:40:12,  4.75it/s]

지금 다 먹고 19000번째 도착완료 
  그리고 총 보상은 : 19.500000000000007 
지금 다 먹고 19001번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 16%|█▋        | 49211/300000 [2:38:20<13:09:46,  5.29it/s]

지금 다 먹고 19002번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 19003번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 16%|█▋        | 49214/300000 [2:38:20<13:38:43,  5.11it/s]

지금 다 먹고 19004번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 19005번째 도착완료 
  그리고 총 보상은 : 22.1 


 16%|█▋        | 49216/300000 [2:38:21<13:20:33,  5.22it/s]

지금 다 먹고 19006번째 도착완료 
  그리고 총 보상은 : 18.40000000000001 


 16%|█▋        | 49218/300000 [2:38:21<13:55:12,  5.00it/s]

지금 다 먹고 19007번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 19008번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 49220/300000 [2:38:21<14:16:31,  4.88it/s]

지금 다 먹고 19009번째 도착완료 
  그리고 총 보상은 : 8.400000000000025 
지금 다 먹고 19010번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 16%|█▋        | 49222/300000 [2:38:22<13:46:45,  5.06it/s]

지금 다 먹고 19011번째 도착완료 
  그리고 총 보상은 : 20.999999999999996 


 16%|█▋        | 49223/300000 [2:38:22<14:35:31,  4.77it/s]

지금 다 먹고 19012번째 도착완료 
  그리고 총 보상은 : 15.600000000000012 
지금 다 먹고 19013번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 

 16%|█▋        | 49224/300000 [2:38:22<14:12:24,  4.90it/s]




 16%|█▋        | 49225/300000 [2:38:22<15:05:46,  4.61it/s]

지금 다 먹고 19014번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 


 16%|█▋        | 49226/300000 [2:38:23<14:55:44,  4.67it/s]

지금 다 먹고 19015번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 16%|█▋        | 49227/300000 [2:38:23<15:35:34,  4.47it/s]

지금 다 먹고 19016번째 도착완료 
  그리고 총 보상은 : 23.50000000000001 


 16%|█▋        | 49228/300000 [2:38:23<16:53:11,  4.13it/s]

지금 다 먹고 19017번째 도착완료 
  그리고 총 보상은 : 16.800000000000004 


 16%|█▋        | 49229/300000 [2:38:23<16:28:41,  4.23it/s]

지금 다 먹고 19018번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 16%|█▋        | 49230/300000 [2:38:24<16:09:16,  4.31it/s]

지금 다 먹고 19019번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 


 16%|█▋        | 49231/300000 [2:38:24<16:34:36,  4.20it/s]

지금 다 먹고 19020번째 도착완료 
  그리고 총 보상은 : 20.00000000000001 


 16%|█▋        | 49232/300000 [2:38:24<16:07:38,  4.32it/s]

지금 다 먹고 19021번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 16%|█▋        | 49233/300000 [2:38:24<16:49:42,  4.14it/s]

지금 다 먹고 19022번째 도착완료 
  그리고 총 보상은 : 6.7999999999999705 
지금 다 먹고 19023번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▋        | 49235/300000 [2:38:25<14:10:11,  4.92it/s]

지금 다 먹고 19024번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 19025번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 16%|█▋        | 49239/300000 [2:38:26<14:50:48,  4.69it/s]

지금 다 먹고 19026번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 
지금 다 먹고 19027번째 도착완료 
  그리고 총 보상은 : 19.600000000000005 


 16%|█▋        | 49241/300000 [2:38:26<16:32:23,  4.21it/s]

지금 다 먹고 19028번째 도착완료 
  그리고 총 보상은 : 7.600000000000026 


 16%|█▋        | 49243/300000 [2:38:27<17:24:01,  4.00it/s]

지금 다 먹고 19029번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 16%|█▋        | 49244/300000 [2:38:27<16:43:11,  4.17it/s]

지금 다 먹고 19030번째 도착완료 
  그리고 총 보상은 : 18.300000000000004 
지금 다 먹고 19031번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 16%|█▋        | 49246/300000 [2:38:27<15:03:39,  4.62it/s]

지금 다 먹고 19032번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 16%|█▋        | 49247/300000 [2:38:27<16:10:03,  4.31it/s]

지금 다 먹고 19033번째 도착완료 
  그리고 총 보상은 : 12.20000000000002 
지금 다 먹고 19034번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49249/300000 [2:38:28<15:25:05,  4.52it/s]

지금 다 먹고 19035번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 16%|█▋        | 49250/300000 [2:38:28<15:27:04,  4.51it/s]

지금 다 먹고 19036번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▋        | 49251/300000 [2:38:28<16:38:27,  4.19it/s]

지금 다 먹고 19037번째 도착완료 
  그리고 총 보상은 : 6.799999999999969 
지금 다 먹고 19038번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 16%|█▋        | 49253/300000 [2:38:29<14:59:35,  4.65it/s]

지금 다 먹고 19039번째 도착완료 
  그리고 총 보상은 : 17.700000000000014 
지금 다 먹고 19040번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 16%|█▋        | 49255/300000 [2:38:29<13:46:15,  5.06it/s]

지금 다 먹고 19041번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 16%|█▋        | 49256/300000 [2:38:29<15:00:05,  4.64it/s]

지금 다 먹고 19042번째 도착완료 
  그리고 총 보상은 : 11.70000000000002 


 16%|█▋        | 49258/300000 [2:38:30<16:04:13,  4.33it/s]

지금 다 먹고 19043번째 도착완료 
  그리고 총 보상은 : 7.800000000000027 
지금 다 먹고 19044번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 16%|█▋        | 49260/300000 [2:38:30<14:23:43,  4.84it/s]

지금 다 먹고 19045번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 19046번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 16%|█▋        | 49262/300000 [2:38:31<13:07:08,  5.31it/s]

지금 다 먹고 19047번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 
지금 다 먹고 19048번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 16%|█▋        | 49265/300000 [2:38:31<13:43:50,  5.07it/s]

지금 다 먹고 19049번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 19050번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▋        | 49267/300000 [2:38:32<14:19:06,  4.86it/s]

지금 다 먹고 19051번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 16%|█▋        | 49268/300000 [2:38:32<14:15:19,  4.89it/s]

지금 다 먹고 19052번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 19053번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 16%|█▋        | 49271/300000 [2:38:33<16:49:54,  4.14it/s]

지금 다 먹고 19054번째 도착완료 
  그리고 총 보상은 : 17.70000000000001 


 16%|█▋        | 49272/300000 [2:38:33<17:15:49,  4.03it/s]

지금 다 먹고 19055번째 도착완료 
  그리고 총 보상은 : 7.000000000000032 
지금 다 먹고 19056번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 16%|█▋        | 49274/300000 [2:38:33<15:04:20,  4.62it/s]

지금 다 먹고 19057번째 도착완료 
  그리고 총 보상은 : 17.000000000000014 
지금 다 먹고 19058번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 16%|█▋        | 49277/300000 [2:38:34<16:20:33,  4.26it/s]

지금 다 먹고 19059번째 도착완료 
  그리고 총 보상은 : 21.30000000000001 
지금 다 먹고 19060번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 


 16%|█▋        | 49279/300000 [2:38:34<15:43:23,  4.43it/s]

지금 다 먹고 19061번째 도착완료 
  그리고 총 보상은 : 18.800000000000015 


 16%|█▋        | 49280/300000 [2:38:35<15:50:42,  4.40it/s]

지금 다 먹고 19062번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 


 16%|█▋        | 49281/300000 [2:38:35<14:56:00,  4.66it/s]

지금 다 먹고 19063번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 19064번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▋        | 49283/300000 [2:38:35<13:19:48,  5.22it/s]

지금 다 먹고 19065번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 19066번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 16%|█▋        | 49286/300000 [2:38:36<16:42:20,  4.17it/s]

지금 다 먹고 19067번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 


 16%|█▋        | 49288/300000 [2:38:36<16:09:10,  4.31it/s]

지금 다 먹고 19068번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49289/300000 [2:38:37<16:05:51,  4.33it/s]

지금 다 먹고 19069번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 


 16%|█▋        | 49290/300000 [2:38:37<15:59:40,  4.35it/s]

지금 다 먹고 19070번째 도착완료 
  그리고 총 보상은 : 13.200000000000006 


 16%|█▋        | 49291/300000 [2:38:37<15:38:25,  4.45it/s]

지금 다 먹고 19071번째 도착완료 
  그리고 총 보상은 : 17.400000000000013 
지금 다 먹고 19072번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 16%|█▋        | 49293/300000 [2:38:37<14:20:56,  4.85it/s]

지금 다 먹고 19073번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▋        | 49294/300000 [2:38:38<15:25:35,  4.51it/s]

지금 다 먹고 19074번째 도착완료 
  그리고 총 보상은 : 16.6 


 16%|█▋        | 49296/300000 [2:38:38<16:10:31,  4.31it/s]

지금 다 먹고 19075번째 도착완료 
  그리고 총 보상은 : 10.400000000000025 
지금 다 먹고 19076번째 도착완료 
  그리고 총 보상은 : 23.200000000000014 


 16%|█▋        | 49298/300000 [2:38:39<16:22:02,  4.25it/s]

지금 다 먹고 19077번째 도착완료 
  그리고 총 보상은 : 21.800000000000008 


 16%|█▋        | 49299/300000 [2:38:39<15:04:47,  4.62it/s]

지금 다 먹고 19078번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 49300/300000 [2:38:39<15:44:58,  4.42it/s]

지금 다 먹고 19079번째 도착완료 
  그리고 총 보상은 : 8.200000000000015 
지금 다 먹고 19080번째 도착완료 
  그리고 총 보상은 : 25.1 


 16%|█▋        | 49301/300000 [2:38:39<14:44:22,  4.72it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.1
 end : True
 clear : True
episode :0, score = 16.029000000002036, n_buffer :100000 , eps : 25.35
지금 다 먹고 19081번째 도착완료 
  그리고 총 보상은 : 17.200000000000014 


 16%|█▋        | 49303/300000 [2:38:40<13:41:28,  5.09it/s]

지금 다 먹고 19082번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19083번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 16%|█▋        | 49305/300000 [2:38:40<14:06:30,  4.94it/s]

지금 다 먹고 19084번째 도착완료 
  그리고 총 보상은 : 13.400000000000013 
지금 다 먹고 19085번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 


 16%|█▋        | 49307/300000 [2:38:40<12:57:29,  5.37it/s]

지금 다 먹고 19086번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 19087번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 16%|█▋        | 49309/300000 [2:38:41<13:09:44,  5.29it/s]

지금 다 먹고 19088번째 도착완료 
  그리고 총 보상은 : 22.500000000000014 


 16%|█▋        | 49310/300000 [2:38:41<14:12:47,  4.90it/s]

지금 다 먹고 19089번째 도착완료 
  그리고 총 보상은 : 9.699999999999996 


 16%|█▋        | 49311/300000 [2:38:41<14:42:41,  4.73it/s]

지금 다 먹고 19090번째 도착완료 
  그리고 총 보상은 : 15.200000000000014 
지금 다 먹고 19091번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 16%|█▋        | 49313/300000 [2:38:42<14:34:51,  4.78it/s]

지금 다 먹고 19092번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 16%|█▋        | 49314/300000 [2:38:42<15:49:03,  4.40it/s]

지금 다 먹고 19093번째 도착완료 
  그리고 총 보상은 : 9.10000000000003 
지금 다 먹고 19094번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 


 16%|█▋        | 49316/300000 [2:38:42<14:04:36,  4.95it/s]

지금 다 먹고 19095번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 16%|█▋        | 49318/300000 [2:38:43<14:07:53,  4.93it/s]

지금 다 먹고 19096번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 19097번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 


 16%|█▋        | 49320/300000 [2:38:43<13:36:59,  5.11it/s]

지금 다 먹고 19098번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 19099번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▋        | 49322/300000 [2:38:43<13:05:46,  5.32it/s]

지금 다 먹고 19100번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 16%|█▋        | 49324/300000 [2:38:44<14:08:09,  4.93it/s]

지금 다 먹고 19101번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 19102번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 16%|█▋        | 49326/300000 [2:38:44<13:27:05,  5.18it/s]

지금 다 먹고 19103번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 19104번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 16%|█▋        | 49328/300000 [2:38:45<13:08:19,  5.30it/s]

지금 다 먹고 19105번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 16%|█▋        | 49329/300000 [2:38:45<13:17:07,  5.24it/s]

지금 다 먹고 19106번째 도착완료 
  그리고 총 보상은 : 21.00000000000001 
지금 다 먹고 19107번째 도착완료 
  그리고 총 보상은 : 21.500000000000007 


 16%|█▋        | 49332/300000 [2:38:45<14:21:17,  4.85it/s]

지금 다 먹고 19108번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 16%|█▋        | 49333/300000 [2:38:46<14:27:36,  4.82it/s]

지금 다 먹고 19109번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 16%|█▋        | 49334/300000 [2:38:46<13:54:04,  5.01it/s]

지금 다 먹고 19110번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19111번째 도착완료 
  그리고 총 보상은 : 18.500000000000007 


 16%|█▋        | 49335/300000 [2:38:46<14:26:42,  4.82it/s]

지금 다 먹고 19112번째 도착완료 
  그리고 총 보상은 : 18.300000000000015 


 16%|█▋        | 49338/300000 [2:38:47<17:24:48,  4.00it/s]

지금 다 먹고 19113번째 도착완료 
  그리고 총 보상은 : 12.100000000000025 
지금 다 먹고 19114번째 도착완료 
  그리고 총 보상은 : 24.00000000000001 


 16%|█▋        | 49341/300000 [2:38:48<15:30:43,  4.49it/s]

지금 다 먹고 19115번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 19116번째 도착완료 
  그리고 총 보상은 : 24.1 


 16%|█▋        | 49343/300000 [2:38:48<13:57:50,  4.99it/s]

지금 다 먹고 19117번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 16%|█▋        | 49344/300000 [2:38:48<15:17:54,  4.55it/s]

지금 다 먹고 19118번째 도착완료 
  그리고 총 보상은 : 17.600000000000012 


 16%|█▋        | 49345/300000 [2:38:48<14:53:32,  4.68it/s]

지금 다 먹고 19119번째 도착완료 
  그리고 총 보상은 : 21.40000000000001 


 16%|█▋        | 49346/300000 [2:38:49<16:05:37,  4.33it/s]

지금 다 먹고 19120번째 도착완료 
  그리고 총 보상은 : 13.200000000000014 


 16%|█▋        | 49348/300000 [2:38:49<17:05:13,  4.07it/s]

지금 다 먹고 19121번째 도착완료 
  그리고 총 보상은 : 10.400000000000022 


 16%|█▋        | 49349/300000 [2:38:49<17:22:52,  4.01it/s]

지금 다 먹고 19122번째 도착완료 
  그리고 총 보상은 : 7.200000000000028 
지금 다 먹고 19123번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 16%|█▋        | 49352/300000 [2:38:50<16:03:29,  4.34it/s]

지금 다 먹고 19124번째 도착완료 
  그리고 총 보상은 : 28.6 


 16%|█▋        | 49353/300000 [2:38:50<16:03:44,  4.33it/s]

지금 다 먹고 19125번째 도착완료 
  그리고 총 보상은 : 10.500000000000032 
지금 다 먹고 19126번째 도착완료 
  그리고 총 보상은 : 21.400000000000013 


 16%|█▋        | 49355/300000 [2:38:51<14:20:32,  4.85it/s]

지금 다 먹고 19127번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 19128번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 16%|█▋        | 49357/300000 [2:38:51<13:11:50,  5.28it/s]

지금 다 먹고 19129번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 19130번째 도착완료 
  그리고 총 보상은 : 27.6 


 16%|█▋        | 49359/300000 [2:38:51<13:57:10,  4.99it/s]

지금 다 먹고 19131번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 16%|█▋        | 49360/300000 [2:38:52<13:23:37,  5.20it/s]

지금 다 먹고 19132번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 19133번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 16%|█▋        | 49362/300000 [2:38:52<12:36:05,  5.52it/s]

지금 다 먹고 19134번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 19135번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▋        | 49364/300000 [2:38:52<13:11:16,  5.28it/s]

지금 다 먹고 19136번째 도착완료 
  그리고 총 보상은 : 17.60000000000001 


 16%|█▋        | 49365/300000 [2:38:53<14:07:16,  4.93it/s]

지금 다 먹고 19137번째 도착완료 
  그리고 총 보상은 : 14.000000000000018 
지금 다 먹고 19138번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 16%|█▋        | 49367/300000 [2:38:53<13:23:18,  5.20it/s]

지금 다 먹고 19139번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▋        | 49369/300000 [2:38:53<15:01:41,  4.63it/s]

지금 다 먹고 19140번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 16%|█▋        | 49370/300000 [2:38:54<15:07:16,  4.60it/s]

지금 다 먹고 19141번째 도착완료 
  그리고 총 보상은 : 20.700000000000006 
지금 다 먹고 19142번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 16%|█▋        | 49372/300000 [2:38:54<13:40:17,  5.09it/s]

지금 다 먹고 19143번째 도착완료 
  그리고 총 보상은 : 11.000000000000004 
지금 다 먹고 19144번째 도착완료 
  그리고 총 보상은 : 21.900000000000013 


 16%|█▋        | 49374/300000 [2:38:54<13:13:27,  5.26it/s]

지금 다 먹고 19145번째 도착완료 
  그리고 총 보상은 : 27.1 


 16%|█▋        | 49376/300000 [2:38:55<14:03:33,  4.95it/s]

지금 다 먹고 19146번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 49378/300000 [2:38:55<14:34:24,  4.78it/s]

지금 다 먹고 19147번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 16%|█▋        | 49379/300000 [2:38:55<14:39:44,  4.75it/s]

지금 다 먹고 19148번째 도착완료 
  그리고 총 보상은 : 20.400000000000013 
지금 다 먹고 19149번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▋        | 49382/300000 [2:38:56<16:45:50,  4.15it/s]

지금 다 먹고 19150번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 16%|█▋        | 49383/300000 [2:38:57<17:28:38,  3.98it/s]

지금 다 먹고 19151번째 도착완료 
  그리고 총 보상은 : 16.80000000000001 
지금 다 먹고 19152번째 도착완료 
  그리고 총 보상은 : 24.0 


 16%|█▋        | 49385/300000 [2:38:57<14:30:12,  4.80it/s]

지금 다 먹고 19153번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 16%|█▋        | 49387/300000 [2:38:57<15:23:11,  4.52it/s]

지금 다 먹고 19154번째 도착완료 
  그리고 총 보상은 : 16.500000000000018 
지금 다 먹고 19155번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 16%|█▋        | 49389/300000 [2:38:58<14:05:55,  4.94it/s]

지금 다 먹고 19156번째 도착완료 
  그리고 총 보상은 : 21.3 
지금 다 먹고 19157번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 16%|█▋        | 49391/300000 [2:38:58<13:48:25,  5.04it/s]

지금 다 먹고 19158번째 도착완료 
  그리고 총 보상은 : 17.000000000000007 
지금 다 먹고 19159번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 16%|█▋        | 49393/300000 [2:38:59<14:34:46,  4.77it/s]

지금 다 먹고 19160번째 도착완료 
  그리고 총 보상은 : 21.1 
지금 다 먹고 19161번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 16%|█▋        | 49396/300000 [2:38:59<14:50:32,  4.69it/s]

지금 다 먹고 19162번째 도착완료 
  그리고 총 보상은 : 16.000000000000007 


 16%|█▋        | 49399/300000 [2:39:00<15:31:56,  4.48it/s]

지금 다 먹고 19163번째 도착완료 
  그리고 총 보상은 : 22.800000000000008 
지금 다 먹고 19164번째 도착완료 
  그리고 총 보상은 : 23.800000000000015 


 16%|█▋        | 49402/300000 [2:39:01<15:04:33,  4.62it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [200.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0. 100.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.5
 총 받은 보상 :-29.700000000000085
 end : True
 clear : True
episode :15, score = 15.446000000002204, n_buffer :100000 , eps : 25.3
지금 다 먹고 19165번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 16%|█▋        | 49403/300000 [2:39:01<15:32:17,  4.48it/s]

지금 다 먹고 19166번째 도착완료 
  그리고 총 보상은 : 11.200000000000015 


 16%|█▋        | 49405/300000 [2:39:01<16:14:55,  4.28it/s]

지금 다 먹고 19167번째 도착완료 
  그리고 총 보상은 : 7.500000000000016 
지금 다 먹고 19168번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 16%|█▋        | 49408/300000 [2:39:02<15:04:48,  4.62it/s]

지금 다 먹고 19169번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 16%|█▋        | 49409/300000 [2:39:02<15:28:18,  4.50it/s]

지금 다 먹고 19170번째 도착완료 
  그리고 총 보상은 : -0.8000000000000078 


 16%|█▋        | 49410/300000 [2:39:02<16:25:37,  4.24it/s]

지금 다 먹고 19171번째 도착완료 
  그리고 총 보상은 : 2.899999999999956 


 16%|█▋        | 49411/300000 [2:39:03<17:02:08,  4.09it/s]

지금 다 먹고 19172번째 도착완료 
  그리고 총 보상은 : 9.700000000000022 


 16%|█▋        | 49413/300000 [2:39:03<15:45:18,  4.42it/s]

지금 다 먹고 19173번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▋        | 49417/300000 [2:39:04<16:31:30,  4.21it/s]

지금 다 먹고 19174번째 도착완료 
  그리고 총 보상은 : 14.60000000000001 
지금 다 먹고 19175번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 16%|█▋        | 49419/300000 [2:39:04<14:17:45,  4.87it/s]

지금 다 먹고 19176번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 19177번째 도착완료 
  그리고 총 보상은 : 28.1 


 16%|█▋        | 49421/300000 [2:39:05<13:32:20,  5.14it/s]

지금 다 먹고 19178번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 19179번째 도착완료 
  그리고 총 보상은 : 23.3 


 16%|█▋        | 49423/300000 [2:39:05<14:22:58,  4.84it/s]

지금 다 먹고 19180번째 도착완료 
  그리고 총 보상은 : 0.09999999999989839 


 16%|█▋        | 49424/300000 [2:39:05<14:36:42,  4.76it/s]

지금 다 먹고 19181번째 도착완료 
  그리고 총 보상은 : 12.60000000000001 


 16%|█▋        | 49425/300000 [2:39:06<15:24:43,  4.52it/s]

지금 다 먹고 19182번째 도착완료 
  그리고 총 보상은 : 7.000000000000027 
지금 다 먹고 19183번째 도착완료 
  그리고 총 보상은 : 26.1 


 16%|█▋        | 49428/300000 [2:39:06<14:14:41,  4.89it/s]

지금 다 먹고 19184번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 19185번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 16%|█▋        | 49431/300000 [2:39:07<14:29:56,  4.80it/s]

지금 다 먹고 19186번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 
지금 다 먹고 19187번째 도착완료 
  그리고 총 보상은 : 22.20000000000001 


 16%|█▋        | 49433/300000 [2:39:07<13:38:38,  5.10it/s]

지금 다 먹고 19188번째 도착완료 
  그리고 총 보상은 : 22.50000000000001 


 16%|█▋        | 49434/300000 [2:39:07<13:59:20,  4.98it/s]

지금 다 먹고 19189번째 도착완료 
  그리고 총 보상은 : 14.90000000000001 
지금 다 먹고 19190번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 16%|█▋        | 49436/300000 [2:39:08<12:54:15,  5.39it/s]

지금 다 먹고 19191번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 19192번째 도착완료 
  그리고 총 보상은 : 26.6 


 16%|█▋        | 49439/300000 [2:39:08<14:31:56,  4.79it/s]

지금 다 먹고 19193번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 16%|█▋        | 49440/300000 [2:39:09<14:10:55,  4.91it/s]

지금 다 먹고 19194번째 도착완료 
  그리고 총 보상은 : 23.4 


 16%|█▋        | 49441/300000 [2:39:09<15:07:37,  4.60it/s]

지금 다 먹고 19195번째 도착완료 
  그리고 총 보상은 : 7.600000000000033 


 16%|█▋        | 49442/300000 [2:39:09<15:09:21,  4.59it/s]

지금 다 먹고 19196번째 도착완료 
  그리고 총 보상은 : 13.900000000000016 
지금 다 먹고 19197번째 도착완료 
  그리고 총 보상은 : 27.5 


 16%|█▋        | 49445/300000 [2:39:10<14:46:37,  4.71it/s]

지금 다 먹고 19198번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 19199번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 16%|█▋        | 49448/300000 [2:39:10<14:29:26,  4.80it/s]

지금 다 먹고 19200번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 16%|█▋        | 49450/300000 [2:39:11<15:56:54,  4.36it/s]

지금 다 먹고 19201번째 도착완료 
  그리고 총 보상은 : 14.900000000000015 
지금 다 먹고 19202번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 16%|█▋        | 49452/300000 [2:39:11<14:47:45,  4.70it/s]

지금 다 먹고 19203번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 16%|█▋        | 49453/300000 [2:39:11<14:25:57,  4.82it/s]

지금 다 먹고 19204번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 16%|█▋        | 49456/300000 [2:39:12<15:37:15,  4.46it/s]

지금 다 먹고 19205번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 19206번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 16%|█▋        | 49458/300000 [2:39:13<13:41:43,  5.08it/s]

지금 다 먹고 19207번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 19208번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 16%|█▋        | 49460/300000 [2:39:13<12:38:12,  5.51it/s]

지금 다 먹고 19209번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 19210번째 도착완료 
  그리고 총 보상은 : 19.600000000000005 


 16%|█▋        | 49462/300000 [2:39:13<12:36:55,  5.52it/s]

지금 다 먹고 19211번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▋        | 49464/300000 [2:39:14<14:57:47,  4.65it/s]

지금 다 먹고 19212번째 도착완료 
  그리고 총 보상은 : 12.40000000000001 


 16%|█▋        | 49465/300000 [2:39:14<15:47:19,  4.41it/s]

지금 다 먹고 19213번째 도착완료 
  그리고 총 보상은 : 19.900000000000006 


 16%|█▋        | 49466/300000 [2:39:14<15:50:13,  4.39it/s]

지금 다 먹고 19214번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 


 16%|█▋        | 49467/300000 [2:39:14<15:33:13,  4.47it/s]

지금 다 먹고 19215번째 도착완료 
  그리고 총 보상은 : 16.400000000000006 
지금 다 먹고 19216번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 16%|█▋        | 49469/300000 [2:39:15<14:01:52,  4.96it/s]

지금 다 먹고 19217번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 19218번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 16%|█▋        | 49471/300000 [2:39:15<13:16:43,  5.24it/s]

지금 다 먹고 19219번째 도착완료 
  그리고 총 보상은 : 27.1 


 16%|█▋        | 49473/300000 [2:39:16<13:47:47,  5.04it/s]

지금 다 먹고 19220번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 16%|█▋        | 49475/300000 [2:39:16<14:30:00,  4.80it/s]

지금 다 먹고 19221번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 
지금 다 먹고 19222번째 도착완료 
  그리고 총 보상은 : 23.700000000000014 


 16%|█▋        | 49477/300000 [2:39:16<13:57:23,  4.99it/s]

지금 다 먹고 19223번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 19224번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 16%|█▋        | 49479/300000 [2:39:17<13:38:45,  5.10it/s]

지금 다 먹고 19225번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 19226번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 16%|█▋        | 49481/300000 [2:39:17<13:22:57,  5.20it/s]

지금 다 먹고 19227번째 도착완료 
  그리고 총 보상은 : 19.300000000000008 
지금 다 먹고 19228번째 도착완료 
  그리고 총 보상은 : 18.000000000000007 

 16%|█▋        | 49482/300000 [2:39:17<13:34:24,  5.13it/s]




 16%|█▋        | 49484/300000 [2:39:18<15:21:49,  4.53it/s]

지금 다 먹고 19229번째 도착완료 
  그리고 총 보상은 : 20.50000000000001 


 16%|█▋        | 49485/300000 [2:39:18<15:52:29,  4.38it/s]

지금 다 먹고 19230번째 도착완료 
  그리고 총 보상은 : 21.800000000000015 


 16%|█▋        | 49486/300000 [2:39:18<15:06:47,  4.60it/s]

지금 다 먹고 19231번째 도착완료 
  그리고 총 보상은 : 20.799999999999997 
지금 다 먹고 19232번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 16%|█▋        | 49488/300000 [2:39:19<13:39:58,  5.09it/s]

지금 다 먹고 19233번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 49490/300000 [2:39:19<14:00:49,  4.97it/s]

지금 다 먹고 19234번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49492/300000 [2:39:20<16:18:37,  4.27it/s]

지금 다 먹고 19235번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 16%|█▋        | 49493/300000 [2:39:20<16:38:25,  4.18it/s]

지금 다 먹고 19236번째 도착완료 
  그리고 총 보상은 : 16.20000000000001 
지금 다 먹고 19237번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 16%|█▋        | 49496/300000 [2:39:21<16:36:14,  4.19it/s]

지금 다 먹고 19238번째 도착완료 
  그리고 총 보상은 : 5.800000000000015 
지금 다 먹고 19239번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 16%|█▋        | 49498/300000 [2:39:21<14:47:19,  4.71it/s]

지금 다 먹고 19240번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 
지금 다 먹고 19241번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 16%|█▋        | 49500/300000 [2:39:21<13:28:06,  5.17it/s]

지금 다 먹고 19242번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 19243번째 도착완료 
  그리고 총 보상은 : 26.00000000000001 


 17%|█▋        | 49502/300000 [2:39:22<13:22:26,  5.20it/s]

epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.00000000000001
 end : True
 clear : True
episode :13, score = 11.97500000000016, n_buffer :100000 , eps : 25.25
지금 다 먹고 19244번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 


 17%|█▋        | 49503/300000 [2:39:22<12:56:43,  5.38it/s]

지금 다 먹고 19245번째 도착완료 
  그리고 총 보상은 : 25.3 
지금 다 먹고 19246번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 49505/300000 [2:39:22<12:25:40,  5.60it/s]

지금 다 먹고 19247번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49507/300000 [2:39:23<13:15:48,  5.25it/s]

지금 다 먹고 19248번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 49509/300000 [2:39:23<14:49:47,  4.69it/s]

지금 다 먹고 19249번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 17%|█▋        | 49510/300000 [2:39:23<14:29:09,  4.80it/s]

지금 다 먹고 19250번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 
지금 다 먹고 19251번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 49513/300000 [2:39:24<16:20:42,  4.26it/s]

지금 다 먹고 19252번째 도착완료 
  그리고 총 보상은 : 20.7 


 17%|█▋        | 49514/300000 [2:39:24<16:17:37,  4.27it/s]

지금 다 먹고 19253번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 17%|█▋        | 49515/300000 [2:39:25<16:35:37,  4.19it/s]

지금 다 먹고 19254번째 도착완료 
  그리고 총 보상은 : 22.80000000000001 


 17%|█▋        | 49516/300000 [2:39:25<15:50:50,  4.39it/s]

지금 다 먹고 19255번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 


 17%|█▋        | 49517/300000 [2:39:25<15:24:53,  4.51it/s]

지금 다 먹고 19256번째 도착완료 
  그리고 총 보상은 : 20.00000000000001 
지금 다 먹고 19257번째 도착완료 
  그리고 총 보상은 : 23.10000000000001 


 17%|█▋        | 49519/300000 [2:39:25<16:08:26,  4.31it/s]

지금 다 먹고 19258번째 도착완료 
  그리고 총 보상은 : 15.500000000000014 


 17%|█▋        | 49520/300000 [2:39:26<15:58:25,  4.36it/s]

지금 다 먹고 19259번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 49521/300000 [2:39:26<15:17:09,  4.55it/s]

지금 다 먹고 19260번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 19261번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 49524/300000 [2:39:26<14:25:42,  4.82it/s]

지금 다 먹고 19262번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 49526/300000 [2:39:27<14:46:56,  4.71it/s]

지금 다 먹고 19263번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 17%|█▋        | 49527/300000 [2:39:27<14:24:32,  4.83it/s]

지금 다 먹고 19264번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 19265번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 49530/300000 [2:39:28<15:36:07,  4.46it/s]

지금 다 먹고 19266번째 도착완료 
  그리고 총 보상은 : 18.40000000000001 
지금 다 먹고 19267번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 49532/300000 [2:39:28<14:10:19,  4.91it/s]

지금 다 먹고 19268번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 


 17%|█▋        | 49533/300000 [2:39:28<15:14:39,  4.56it/s]

지금 다 먹고 19269번째 도착완료 
  그리고 총 보상은 : 10.800000000000022 
지금 다 먹고 19270번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 49535/300000 [2:39:29<14:38:17,  4.75it/s]

지금 다 먹고 19271번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 19272번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49537/300000 [2:39:29<13:22:46,  5.20it/s]

지금 다 먹고 19273번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 19274번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 49539/300000 [2:39:30<12:45:37,  5.45it/s]

지금 다 먹고 19275번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 49541/300000 [2:39:30<13:35:27,  5.12it/s]

지금 다 먹고 19276번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 19277번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 49543/300000 [2:39:30<13:07:03,  5.30it/s]

지금 다 먹고 19278번째 도착완료 
  그리고 총 보상은 : 21.50000000000001 


 17%|█▋        | 49544/300000 [2:39:31<13:33:32,  5.13it/s]

지금 다 먹고 19279번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 
지금 다 먹고 19280번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 49547/300000 [2:39:31<14:20:48,  4.85it/s]

지금 다 먹고 19281번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 
지금 다 먹고 19282번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 49549/300000 [2:39:32<14:08:51,  4.92it/s]

지금 다 먹고 19283번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 49551/300000 [2:39:32<15:03:59,  4.62it/s]

지금 다 먹고 19284번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 19285번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 49553/300000 [2:39:32<13:37:31,  5.11it/s]

지금 다 먹고 19286번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 49555/300000 [2:39:33<14:24:23,  4.83it/s]

지금 다 먹고 19287번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 17%|█▋        | 49558/300000 [2:39:33<14:39:30,  4.75it/s]

지금 다 먹고 19288번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 49560/300000 [2:39:34<14:50:49,  4.69it/s]

지금 다 먹고 19289번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 49561/300000 [2:39:34<16:31:28,  4.21it/s]

지금 다 먹고 19290번째 도착완료 
  그리고 총 보상은 : 10.400000000000015 


 17%|█▋        | 49564/300000 [2:39:35<16:48:42,  4.14it/s]

지금 다 먹고 19291번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 19292번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 49567/300000 [2:39:36<16:05:13,  4.32it/s]

지금 다 먹고 19293번째 도착완료 
  그리고 총 보상은 : 8.500000000000028 
지금 다 먹고 19294번째 도착완료 
  그리고 총 보상은 : 17.90000000000001 


 17%|█▋        | 49569/300000 [2:39:36<15:39:26,  4.44it/s]

지금 다 먹고 19295번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 49570/300000 [2:39:36<16:05:38,  4.32it/s]

지금 다 먹고 19296번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 
지금 다 먹고 19297번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 49572/300000 [2:39:37<13:52:00,  5.02it/s]

지금 다 먹고 19298번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 19299번째 도착완료 
  그리고 총 보상은 : 24.6 


 17%|█▋        | 49575/300000 [2:39:37<14:48:53,  4.70it/s]

지금 다 먹고 19300번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 19301번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 49577/300000 [2:39:38<13:47:30,  5.04it/s]

지금 다 먹고 19302번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 
지금 다 먹고 19303번째 도착완료 
  그리고 총 보상은 : 23.20000000000001 


 17%|█▋        | 49579/300000 [2:39:38<13:48:28,  5.04it/s]

지금 다 먹고 19304번째 도착완료 
  그리고 총 보상은 : 22.799999999999997 


 17%|█▋        | 49581/300000 [2:39:39<14:48:10,  4.70it/s]

지금 다 먹고 19305번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 
지금 다 먹고 19306번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 49583/300000 [2:39:39<13:10:20,  5.28it/s]

지금 다 먹고 19307번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 19308번째 도착완료 
  그리고 총 보상은 : 20.900000000000006 


 17%|█▋        | 49585/300000 [2:39:39<13:12:49,  5.26it/s]

지금 다 먹고 19309번째 도착완료 
  그리고 총 보상은 : 21.20000000000001 
지금 다 먹고 19310번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 49587/300000 [2:39:40<13:52:25,  5.01it/s]

지금 다 먹고 19311번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 49588/300000 [2:39:40<13:36:55,  5.11it/s]

지금 다 먹고 19312번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 
지금 다 먹고 19313번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 49592/300000 [2:39:41<14:33:13,  4.78it/s]

지금 다 먹고 19314번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 19315번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 49594/300000 [2:39:41<13:06:57,  5.30it/s]

지금 다 먹고 19316번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 19317번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49596/300000 [2:39:41<12:39:55,  5.49it/s]

지금 다 먹고 19318번째 도착완료 
  그리고 총 보상은 : 8.600000000000009 


 17%|█▋        | 49599/300000 [2:39:42<14:25:44,  4.82it/s]

지금 다 먹고 19319번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 19320번째 도착완료 
  그리고 총 보상은 : 26.00000000000001 


 17%|█▋        | 49601/300000 [2:39:43<14:03:05,  4.95it/s]

지금 다 먹고 19321번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
epi = 11
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :23.000000000000004
 end : True
 clear : True
episode :11, score = 12.38900000000001, n_buffer :100000 , eps : 25.2


 17%|█▋        | 49602/300000 [2:39:43<13:59:13,  4.97it/s]

지금 다 먹고 19322번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 19323번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 49604/300000 [2:39:43<13:05:58,  5.31it/s]

지금 다 먹고 19324번째 도착완료 
  그리고 총 보상은 : 22.800000000000008 


 17%|█▋        | 49606/300000 [2:39:44<14:34:24,  4.77it/s]

지금 다 먹고 19325번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 49607/300000 [2:39:44<14:13:21,  4.89it/s]

지금 다 먹고 19326번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 49608/300000 [2:39:44<14:16:14,  4.87it/s]

지금 다 먹고 19327번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 
지금 다 먹고 19328번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 49610/300000 [2:39:44<16:15:39,  4.28it/s]

지금 다 먹고 19329번째 도착완료 
  그리고 총 보상은 : 6.499999999999984 


 17%|█▋        | 49612/300000 [2:39:45<15:57:26,  4.36it/s]

지금 다 먹고 19330번째 도착완료 
  그리고 총 보상은 : 16.1 
지금 다 먹고 19331번째 도착완료 
  그리고 총 보상은 : 6.5000000000000036 


 17%|█▋        | 49614/300000 [2:39:45<14:38:02,  4.75it/s]

지금 다 먹고 19332번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 
지금 다 먹고 19333번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 17%|█▋        | 49616/300000 [2:39:46<14:26:41,  4.81it/s]

지금 다 먹고 19334번째 도착완료 
  그리고 총 보상은 : 22.5 


 17%|█▋        | 49618/300000 [2:39:46<16:16:05,  4.28it/s]

지금 다 먹고 19335번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 17%|█▋        | 49619/300000 [2:39:46<15:57:55,  4.36it/s]

지금 다 먹고 19336번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 17%|█▋        | 49621/300000 [2:39:47<16:08:30,  4.31it/s]

지금 다 먹고 19337번째 도착완료 
  그리고 총 보상은 : 22.80000000000001 
지금 다 먹고 19338번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 49623/300000 [2:39:47<13:57:42,  4.98it/s]

지금 다 먹고 19339번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 49626/300000 [2:39:48<16:14:13,  4.28it/s]

지금 다 먹고 19340번째 도착완료 
  그리고 총 보상은 : 28.0 
지금 다 먹고 19341번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 49629/300000 [2:39:49<14:36:46,  4.76it/s]

지금 다 먹고 19342번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 
지금 다 먹고 19343번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49631/300000 [2:39:49<13:20:30,  5.21it/s]

지금 다 먹고 19344번째 도착완료 
  그리고 총 보상은 : 25.1 


 17%|█▋        | 49633/300000 [2:39:50<13:56:00,  4.99it/s]

지금 다 먹고 19345번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 49634/300000 [2:39:50<14:00:04,  4.97it/s]

지금 다 먹고 19346번째 도착완료 
  그리고 총 보상은 : 22.000000000000014 
지금 다 먹고 19347번째 도착완료 
  그리고 총 보상은 : 16.299999999999997 


 17%|█▋        | 49636/300000 [2:39:50<13:16:01,  5.24it/s]

지금 다 먹고 19348번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 17%|█▋        | 49638/300000 [2:39:51<13:59:25,  4.97it/s]

지금 다 먹고 19349번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 19350번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49640/300000 [2:39:51<13:17:45,  5.23it/s]

지금 다 먹고 19351번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 19352번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 49643/300000 [2:39:51<13:30:09,  5.15it/s]

지금 다 먹고 19353번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 19354번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 49645/300000 [2:39:52<14:24:05,  4.83it/s]

지금 다 먹고 19355번째 도착완료 
  그리고 총 보상은 : 6.10000000000003 


 17%|█▋        | 49647/300000 [2:39:52<14:21:10,  4.85it/s]

지금 다 먹고 19356번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 49648/300000 [2:39:53<14:46:05,  4.71it/s]

지금 다 먹고 19357번째 도착완료 
  그리고 총 보상은 : 15.100000000000016 


 17%|█▋        | 49650/300000 [2:39:53<14:18:28,  4.86it/s]

지금 다 먹고 19358번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 19359번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 


 17%|█▋        | 49652/300000 [2:39:53<14:03:24,  4.95it/s]

지금 다 먹고 19360번째 도착완료 
  그리고 총 보상은 : 18.30000000000001 


 17%|█▋        | 49653/300000 [2:39:54<14:19:59,  4.85it/s]

지금 다 먹고 19361번째 도착완료 
  그리고 총 보상은 : 14.500000000000021 
지금 다 먹고 19362번째 도착완료 
  그리고 총 보상은 : 16.800000000000008 


 17%|█▋        | 49656/300000 [2:39:54<14:12:10,  4.90it/s]

지금 다 먹고 19363번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 19364번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 49658/300000 [2:39:55<13:27:29,  5.17it/s]

지금 다 먹고 19365번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 19366번째 도착완료 
  그리고 총 보상은 : 21.6 


 17%|█▋        | 49660/300000 [2:39:55<14:38:38,  4.75it/s]

지금 다 먹고 19367번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 49661/300000 [2:39:55<15:23:21,  4.52it/s]

지금 다 먹고 19368번째 도착완료 
  그리고 총 보상은 : 4.599999999999978 


 17%|█▋        | 49662/300000 [2:39:56<15:31:21,  4.48it/s]

지금 다 먹고 19369번째 도착완료 
  그리고 총 보상은 : 16.10000000000001 


 17%|█▋        | 49664/300000 [2:39:56<15:17:19,  4.55it/s]

지금 다 먹고 19370번째 도착완료 
  그리고 총 보상은 : -2.300000000000015 


 17%|█▋        | 49666/300000 [2:39:56<16:23:12,  4.24it/s]

지금 다 먹고 19371번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 


 17%|█▋        | 49668/300000 [2:39:57<15:35:12,  4.46it/s]

지금 다 먹고 19372번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 19373번째 도착완료 
  그리고 총 보상은 : 17.500000000000004 


 17%|█▋        | 49670/300000 [2:39:57<14:39:36,  4.74it/s]

지금 다 먹고 19374번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 
지금 다 먹고 19375번째 도착완료 
  그리고 총 보상은 : 19.800000000000004 


 17%|█▋        | 49673/300000 [2:39:58<14:35:31,  4.77it/s]

지금 다 먹고 19376번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 49675/300000 [2:39:58<15:37:31,  4.45it/s]

지금 다 먹고 19377번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 49676/300000 [2:39:59<15:34:42,  4.46it/s]

지금 다 먹고 19378번째 도착완료 
  그리고 총 보상은 : 19.100000000000012 
지금 다 먹고 19379번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 49678/300000 [2:39:59<13:30:00,  5.15it/s]

지금 다 먹고 19380번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 49679/300000 [2:39:59<14:05:38,  4.93it/s]

지금 다 먹고 19381번째 도착완료 
  그리고 총 보상은 : 15.100000000000007 
지금 다 먹고 19382번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 17%|█▋        | 49681/300000 [2:40:00<12:49:36,  5.42it/s]

지금 다 먹고 19383번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49683/300000 [2:40:00<13:51:30,  5.02it/s]

지금 다 먹고 19384번째 도착완료 
  그리고 총 보상은 : 22.60000000000001 
지금 다 먹고 19385번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49685/300000 [2:40:00<14:02:24,  4.95it/s]

지금 다 먹고 19386번째 도착완료 
  그리고 총 보상은 : 15.20000000000001 


 17%|█▋        | 49687/300000 [2:40:01<15:10:24,  4.58it/s]

지금 다 먹고 19387번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 


 17%|█▋        | 49689/300000 [2:40:01<16:13:54,  4.28it/s]

지금 다 먹고 19388번째 도착완료 
  그리고 총 보상은 : 9.600000000000028 
지금 다 먹고 19389번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 49691/300000 [2:40:02<13:54:06,  5.00it/s]

지금 다 먹고 19390번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 19391번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 49694/300000 [2:40:02<13:44:26,  5.06it/s]

지금 다 먹고 19392번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 19393번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49696/300000 [2:40:03<13:29:40,  5.15it/s]

지금 다 먹고 19394번째 도착완료 
  그리고 총 보상은 : 19.000000000000007 


 17%|█▋        | 49697/300000 [2:40:03<13:47:11,  5.04it/s]

지금 다 먹고 19395번째 도착완료 
  그리고 총 보상은 : 20.200000000000014 
지금 다 먹고 19396번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 17%|█▋        | 49699/300000 [2:40:03<16:11:46,  4.29it/s]

지금 다 먹고 19397번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 49701/300000 [2:40:04<15:45:02,  4.41it/s]

지금 다 먹고 19398번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.000000000000004
 end : True
 clear : True
episode :9, score = 12.888000000000279, n_buffer :100000 , eps : 25.15


 17%|█▋        | 49703/300000 [2:40:04<15:55:34,  4.37it/s]

지금 다 먹고 19399번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 49704/300000 [2:40:05<15:46:25,  4.41it/s]

지금 다 먹고 19400번째 도착완료 
  그리고 총 보상은 : 17.500000000000018 
지금 다 먹고 19401번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 49706/300000 [2:40:05<13:48:37,  5.03it/s]

지금 다 먹고 19402번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 19403번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 49708/300000 [2:40:05<12:44:57,  5.45it/s]

지금 다 먹고 19404번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 19405번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 49711/300000 [2:40:06<13:37:34,  5.10it/s]

지금 다 먹고 19406번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 19407번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 49713/300000 [2:40:06<12:41:47,  5.48it/s]

지금 다 먹고 19408번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 49715/300000 [2:40:07<14:02:50,  4.95it/s]

지금 다 먹고 19409번째 도착완료 
  그리고 총 보상은 : 6.0000000000000036 
지금 다 먹고 19410번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 17%|█▋        | 49717/300000 [2:40:07<13:22:26,  5.20it/s]

지금 다 먹고 19411번째 도착완료 
  그리고 총 보상은 : 8.200000000000008 
지금 다 먹고 19412번째 도착완료 
  그리고 총 보상은 : 22.800000000000008 


 17%|█▋        | 49719/300000 [2:40:07<12:58:30,  5.36it/s]

지금 다 먹고 19413번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 17%|█▋        | 49721/300000 [2:40:08<14:42:03,  4.73it/s]

지금 다 먹고 19414번째 도착완료 
  그리고 총 보상은 : 16.50000000000001 


 17%|█▋        | 49722/300000 [2:40:08<14:57:56,  4.65it/s]

지금 다 먹고 19415번째 도착완료 
  그리고 총 보상은 : 18.500000000000004 
지금 다 먹고 19416번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 17%|█▋        | 49723/300000 [2:40:08<14:25:52,  4.82it/s]

지금 다 먹고 19417번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 49725/300000 [2:40:09<14:05:43,  4.93it/s]

지금 다 먹고 19418번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 19419번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 49728/300000 [2:40:09<13:49:26,  5.03it/s]

지금 다 먹고 19420번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 19421번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 49730/300000 [2:40:10<13:48:06,  5.04it/s]

지금 다 먹고 19422번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 


 17%|█▋        | 49731/300000 [2:40:10<14:37:01,  4.76it/s]

지금 다 먹고 19423번째 도착완료 
  그리고 총 보상은 : 21.100000000000012 


 17%|█▋        | 49732/300000 [2:40:10<14:32:42,  4.78it/s]

지금 다 먹고 19424번째 도착완료 
  그리고 총 보상은 : 17.300000000000015 


 17%|█▋        | 49734/300000 [2:40:11<16:19:51,  4.26it/s]

지금 다 먹고 19425번째 도착완료 
  그리고 총 보상은 : 15.000000000000004 
지금 다 먹고 19426번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 49736/300000 [2:40:11<14:49:11,  4.69it/s]

지금 다 먹고 19427번째 도착완료 
  그리고 총 보상은 : 17.10000000000001 
지금 다 먹고 19428번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 49738/300000 [2:40:11<15:39:12,  4.44it/s]

지금 다 먹고 19429번째 도착완료 
  그리고 총 보상은 : 7.700000000000028 


 17%|█▋        | 49740/300000 [2:40:12<15:09:30,  4.59it/s]

지금 다 먹고 19430번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19431번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49742/300000 [2:40:12<13:49:13,  5.03it/s]

지금 다 먹고 19432번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 19433번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 49744/300000 [2:40:13<14:01:13,  4.96it/s]

지금 다 먹고 19434번째 도착완료 
  그리고 총 보상은 : 12.600000000000023 
지금 다 먹고 19435번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 49746/300000 [2:40:13<12:37:05,  5.51it/s]

지금 다 먹고 19436번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 49747/300000 [2:40:13<13:44:51,  5.06it/s]

지금 다 먹고 19437번째 도착완료 
  그리고 총 보상은 : 14.500000000000009 


 17%|█▋        | 49749/300000 [2:40:14<15:42:14,  4.43it/s]

지금 다 먹고 19438번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 19439번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 49751/300000 [2:40:14<14:29:58,  4.79it/s]

지금 다 먹고 19440번째 도착완료 
  그리고 총 보상은 : 18.700000000000006 
지금 다 먹고 19441번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 49753/300000 [2:40:15<14:46:07,  4.71it/s]

지금 다 먹고 19442번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 17%|█▋        | 49754/300000 [2:40:15<15:31:18,  4.48it/s]

지금 다 먹고 19443번째 도착완료 
  그리고 총 보상은 : 14.40000000000001 


 17%|█▋        | 49756/300000 [2:40:15<15:08:18,  4.59it/s]

지금 다 먹고 19444번째 도착완료 
  그리고 총 보상은 : 25.1 


 17%|█▋        | 49757/300000 [2:40:15<15:19:35,  4.54it/s]

지금 다 먹고 19445번째 도착완료 
  그리고 총 보상은 : 23.10000000000001 


 17%|█▋        | 49758/300000 [2:40:16<15:20:39,  4.53it/s]

지금 다 먹고 19446번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 49759/300000 [2:40:16<14:48:20,  4.69it/s]

지금 다 먹고 19447번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 19448번째 도착완료 
  그리고 총 보상은 : 18.900000000000002 


 17%|█▋        | 49762/300000 [2:40:17<14:28:49,  4.80it/s]

지금 다 먹고 19449번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 49764/300000 [2:40:17<16:02:21,  4.33it/s]

지금 다 먹고 19450번째 도착완료 
  그리고 총 보상은 : 11.100000000000023 
지금 다 먹고 19451번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 49766/300000 [2:40:17<13:59:10,  4.97it/s]

지금 다 먹고 19452번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 49767/300000 [2:40:18<14:48:59,  4.69it/s]

지금 다 먹고 19453번째 도착완료 
  그리고 총 보상은 : 12.500000000000028 
지금 다 먹고 19454번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 17%|█▋        | 49769/300000 [2:40:18<13:57:11,  4.98it/s]

지금 다 먹고 19455번째 도착완료 
  그리고 총 보상은 : 18.600000000000012 


 17%|█▋        | 49773/300000 [2:40:19<16:37:49,  4.18it/s]

지금 다 먹고 19456번째 도착완료 
  그리고 총 보상은 : 21.800000000000015 
지금 다 먹고 19457번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 


 17%|█▋        | 49775/300000 [2:40:19<15:40:39,  4.43it/s]

지금 다 먹고 19458번째 도착완료 
  그리고 총 보상은 : 20.00000000000001 


 17%|█▋        | 49776/300000 [2:40:20<16:05:24,  4.32it/s]

지금 다 먹고 19459번째 도착완료 
  그리고 총 보상은 : 19.30000000000001 


 17%|█▋        | 49777/300000 [2:40:20<15:39:18,  4.44it/s]

지금 다 먹고 19460번째 도착완료 
  그리고 총 보상은 : 11.400000000000004 


 17%|█▋        | 49779/300000 [2:40:20<15:17:04,  4.55it/s]

지금 다 먹고 19461번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49780/300000 [2:40:21<15:22:46,  4.52it/s]

지금 다 먹고 19462번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 17%|█▋        | 49781/300000 [2:40:21<14:32:43,  4.78it/s]

지금 다 먹고 19463번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 19464번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 49783/300000 [2:40:21<13:29:44,  5.15it/s]

지금 다 먹고 19465번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 49785/300000 [2:40:22<17:08:51,  4.05it/s]

지금 다 먹고 19466번째 도착완료 
  그리고 총 보상은 : 3.400000000000002 


 17%|█▋        | 49786/300000 [2:40:22<16:15:11,  4.28it/s]

지금 다 먹고 19467번째 도착완료 
  그리고 총 보상은 : 21.900000000000013 
지금 다 먹고 19468번째 도착완료 
  그리고 총 보상은 : 24.900000000000013 


 17%|█▋        | 49789/300000 [2:40:23<16:37:09,  4.18it/s]

지금 다 먹고 19469번째 도착완료 
  그리고 총 보상은 : 10.200000000000019 


 17%|█▋        | 49791/300000 [2:40:23<15:44:45,  4.41it/s]

지금 다 먹고 19470번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 17%|█▋        | 49793/300000 [2:40:24<15:08:47,  4.59it/s]

지금 다 먹고 19471번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19472번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 49796/300000 [2:40:24<14:19:25,  4.85it/s]

지금 다 먹고 19473번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19474번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 49798/300000 [2:40:25<14:22:50,  4.83it/s]

지금 다 먹고 19475번째 도착완료 
  그리고 총 보상은 : 10.70000000000002 
지금 다 먹고 19476번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 49800/300000 [2:40:25<13:34:57,  5.12it/s]

지금 다 먹고 19477번째 도착완료 
  그리고 총 보상은 : 17.60000000000001 
지금 다 먹고 19478번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 49802/300000 [2:40:25<13:25:48,  5.17it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.900000000000006
 end : True
 clear : True
episode :7, score = 12.553000000000653, n_buffer :100000 , eps : 25.1
지금 다 먹고 19479번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 


 17%|█▋        | 49803/300000 [2:40:25<13:34:17,  5.12it/s]

지금 다 먹고 19480번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 49805/300000 [2:40:26<14:11:53,  4.89it/s]

지금 다 먹고 19481번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 49807/300000 [2:40:26<15:29:01,  4.49it/s]

지금 다 먹고 19482번째 도착완료 
  그리고 총 보상은 : 13.70000000000001 


 17%|█▋        | 49809/300000 [2:40:27<15:12:27,  4.57it/s]

지금 다 먹고 19483번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 19484번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 17%|█▋        | 49810/300000 [2:40:27<14:38:58,  4.74it/s]

지금 다 먹고 19485번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 49812/300000 [2:40:27<14:18:29,  4.86it/s]

지금 다 먹고 19486번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 
지금 다 먹고 19487번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 49814/300000 [2:40:28<13:14:33,  5.25it/s]

지금 다 먹고 19488번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 19489번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 17%|█▋        | 49816/300000 [2:40:28<13:56:28,  4.98it/s]

지금 다 먹고 19490번째 도착완료 
  그리고 총 보상은 : 16.30000000000001 
지금 다 먹고 19491번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 49818/300000 [2:40:29<13:06:18,  5.30it/s]

지금 다 먹고 19492번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 19493번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 17%|█▋        | 49820/300000 [2:40:29<12:54:26,  5.38it/s]

지금 다 먹고 19494번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 19495번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 49823/300000 [2:40:30<15:04:43,  4.61it/s]

지금 다 먹고 19496번째 도착완료 
  그리고 총 보상은 : 23.000000000000014 
지금 다 먹고 19497번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 49825/300000 [2:40:30<14:12:29,  4.89it/s]

지금 다 먹고 19498번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 
지금 다 먹고 19499번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 49827/300000 [2:40:30<13:16:56,  5.23it/s]

지금 다 먹고 19500번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 19501번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 49829/300000 [2:40:31<13:08:01,  5.29it/s]

지금 다 먹고 19502번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 
지금 다 먹고 19503번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 49830/300000 [2:40:31<12:48:19,  5.43it/s]

지금 다 먹고 19504번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 49833/300000 [2:40:32<15:09:18,  4.59it/s]

지금 다 먹고 19505번째 도착완료 
  그리고 총 보상은 : 25.5 
지금 다 먹고 19506번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 49835/300000 [2:40:32<13:44:35,  5.06it/s]

지금 다 먹고 19507번째 도착완료 
  그리고 총 보상은 : 23.5 
지금 다 먹고 19508번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 49837/300000 [2:40:32<13:18:03,  5.22it/s]

지금 다 먹고 19509번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 19510번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 49839/300000 [2:40:33<14:34:14,  4.77it/s]

지금 다 먹고 19511번째 도착완료 
  그리고 총 보상은 : 21.3 


 17%|█▋        | 49844/300000 [2:40:34<18:24:38,  3.77it/s]

지금 다 먹고 19512번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 17%|█▋        | 49845/300000 [2:40:34<16:44:26,  4.15it/s]

지금 다 먹고 19513번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 49846/300000 [2:40:35<17:21:29,  4.00it/s]

지금 다 먹고 19514번째 도착완료 
  그리고 총 보상은 : 6.699999999999967 
지금 다 먹고 19515번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 17%|█▋        | 49848/300000 [2:40:35<14:36:58,  4.75it/s]

지금 다 먹고 19516번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 
지금 다 먹고 19517번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 49851/300000 [2:40:36<14:21:52,  4.84it/s]

지금 다 먹고 19518번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 19519번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 49854/300000 [2:40:36<13:57:47,  4.98it/s]

지금 다 먹고 19520번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 49855/300000 [2:40:37<14:27:16,  4.81it/s]

지금 다 먹고 19521번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 


 17%|█▋        | 49856/300000 [2:40:37<14:54:24,  4.66it/s]

지금 다 먹고 19522번째 도착완료 
  그리고 총 보상은 : 0.099999999999973 


 17%|█▋        | 49857/300000 [2:40:37<15:17:10,  4.55it/s]

지금 다 먹고 19523번째 도착완료 
  그리고 총 보상은 : 11.000000000000023 


 17%|█▋        | 49858/300000 [2:40:37<15:49:08,  4.39it/s]

지금 다 먹고 19524번째 도착완료 
  그리고 총 보상은 : 9.100000000000044 


 17%|█▋        | 49860/300000 [2:40:38<17:07:06,  4.06it/s]

지금 다 먹고 19525번째 도착완료 
  그리고 총 보상은 : 10.90000000000002 
지금 다 먹고 19526번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 49862/300000 [2:40:38<14:29:18,  4.80it/s]

지금 다 먹고 19527번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 19528번째 도착완료 
  그리고 총 보상은 : 23.3 


 17%|█▋        | 49864/300000 [2:40:38<13:45:52,  5.05it/s]

지금 다 먹고 19529번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 19530번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 49866/300000 [2:40:39<12:58:59,  5.35it/s]

지금 다 먹고 19531번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 49867/300000 [2:40:39<13:30:19,  5.14it/s]

지금 다 먹고 19532번째 도착완료 
  그리고 총 보상은 : -3.907985046680551e-14 
지금 다 먹고 19533번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 49869/300000 [2:40:39<12:37:16,  5.51it/s]

지금 다 먹고 19534번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 19535번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49871/300000 [2:40:40<12:22:32,  5.61it/s]

지금 다 먹고 19536번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 19537번째 도착완료 
  그리고 총 보상은 : 19.5 


 17%|█▋        | 49873/300000 [2:40:40<12:37:20,  5.50it/s]

지금 다 먹고 19538번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 19539번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 


 17%|█▋        | 49875/300000 [2:40:40<12:52:02,  5.40it/s]

지금 다 먹고 19540번째 도착완료 
  그리고 총 보상은 : 23.00000000000001 
지금 다 먹고 19541번째 도착완료 
  그리고 총 보상은 : 25.100000000000012 


 17%|█▋        | 49878/300000 [2:40:41<13:27:04,  5.17it/s]

지금 다 먹고 19542번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 49880/300000 [2:40:42<15:18:43,  4.54it/s]

지금 다 먹고 19543번째 도착완료 
  그리고 총 보상은 : 16.900000000000013 
지금 다 먹고 19544번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 17%|█▋        | 49883/300000 [2:40:42<14:15:19,  4.87it/s]

지금 다 먹고 19545번째 도착완료 
  그리고 총 보상은 : 24.5 


 17%|█▋        | 49886/300000 [2:40:43<16:54:06,  4.11it/s]

지금 다 먹고 19546번째 도착완료 
  그리고 총 보상은 : 15.40000000000002 


 17%|█▋        | 49887/300000 [2:40:43<15:42:42,  4.42it/s]

지금 다 먹고 19547번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 19548번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 49889/300000 [2:40:44<14:14:23,  4.88it/s]

지금 다 먹고 19549번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 17%|█▋        | 49891/300000 [2:40:44<16:53:44,  4.11it/s]

지금 다 먹고 19550번째 도착완료 
  그리고 총 보상은 : 13.500000000000007 


 17%|█▋        | 49894/300000 [2:40:45<15:49:06,  4.39it/s]

지금 다 먹고 19551번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 19552번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 17%|█▋        | 49898/300000 [2:40:46<14:49:56,  4.68it/s]

지금 다 먹고 19553번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 19554번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 17%|█▋        | 49900/300000 [2:40:46<13:54:22,  5.00it/s]

지금 다 먹고 19555번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 19556번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 49901/300000 [2:40:46<14:21:02,  4.84it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.1
 end : True
 clear : True
episode :5, score = 13.612000000001844, n_buffer :100000 , eps : 25.05
지금 다 먹고 19557번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 


 17%|█▋        | 49903/300000 [2:40:47<16:14:44,  4.28it/s]

지금 다 먹고 19558번째 도착완료 
  그리고 총 보상은 : 5.700000000000031 
지금 다 먹고 19559번째 도착완료 
  그리고 총 보상은 : 21.70000000000001 


 17%|█▋        | 49905/300000 [2:40:47<14:24:36,  4.82it/s]

지금 다 먹고 19560번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 49907/300000 [2:40:48<14:24:17,  4.82it/s]

지금 다 먹고 19561번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 19562번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 


 17%|█▋        | 49909/300000 [2:40:48<13:43:26,  5.06it/s]

지금 다 먹고 19563번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 
지금 다 먹고 19564번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 49911/300000 [2:40:48<12:44:36,  5.45it/s]

지금 다 먹고 19565번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 19566번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 49915/300000 [2:40:49<14:08:25,  4.91it/s]

지금 다 먹고 19567번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 49917/300000 [2:40:50<14:40:12,  4.74it/s]

지금 다 먹고 19568번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 49919/300000 [2:40:50<14:31:08,  4.78it/s]

지금 다 먹고 19569번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 19570번째 도착완료 
  그리고 총 보상은 : 20.300000000000008 


 17%|█▋        | 49921/300000 [2:40:50<13:42:25,  5.07it/s]

지금 다 먹고 19571번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 19572번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49923/300000 [2:40:51<13:25:06,  5.18it/s]

지금 다 먹고 19573번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 19574번째 도착완료 
  그리고 총 보상은 : 20.099999999999998 


 17%|█▋        | 49925/300000 [2:40:51<13:30:51,  5.14it/s]

지금 다 먹고 19575번째 도착완료 
  그리고 총 보상은 : 20.90000000000001 
지금 다 먹고 19576번째 도착완료 
  그리고 총 보상은 : 20.400000000000006 


 17%|█▋        | 49927/300000 [2:40:52<13:26:42,  5.17it/s]

지금 다 먹고 19577번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 
지금 다 먹고 19578번째 도착완료 
  그리고 총 보상은 : 20.9 


 17%|█▋        | 49929/300000 [2:40:52<13:02:38,  5.33it/s]

지금 다 먹고 19579번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 19580번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 49931/300000 [2:40:52<12:29:30,  5.56it/s]

지금 다 먹고 19581번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 19582번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 49933/300000 [2:40:53<12:25:32,  5.59it/s]

지금 다 먹고 19583번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 19584번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 17%|█▋        | 49935/300000 [2:40:53<13:25:14,  5.18it/s]

지금 다 먹고 19585번째 도착완료 
  그리고 총 보상은 : 12.300000000000033 
지금 다 먹고 19586번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49937/300000 [2:40:53<14:08:34,  4.91it/s]

지금 다 먹고 19587번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 17%|█▋        | 49938/300000 [2:40:54<15:53:06,  4.37it/s]

지금 다 먹고 19588번째 도착완료 
  그리고 총 보상은 : 12.000000000000012 


 17%|█▋        | 49939/300000 [2:40:54<15:24:22,  4.51it/s]

지금 다 먹고 19589번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 49940/300000 [2:40:54<15:24:47,  4.51it/s]

지금 다 먹고 19590번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 17%|█▋        | 49942/300000 [2:40:55<16:47:44,  4.14it/s]

지금 다 먹고 19591번째 도착완료 
  그리고 총 보상은 : 9.600000000000023 


 17%|█▋        | 49943/300000 [2:40:55<16:45:09,  4.15it/s]

지금 다 먹고 19592번째 도착완료 
  그리고 총 보상은 : 15.2 
지금 다 먹고 19593번째 도착완료 
  그리고 총 보상은 : 17.1 


 17%|█▋        | 49945/300000 [2:40:55<14:59:15,  4.63it/s]

지금 다 먹고 19594번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 19595번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 17%|█▋        | 49947/300000 [2:40:56<13:34:30,  5.12it/s]

지금 다 먹고 19596번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 19597번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 49949/300000 [2:40:56<12:50:34,  5.41it/s]

지금 다 먹고 19598번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 19599번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 49951/300000 [2:40:56<13:31:28,  5.14it/s]

지금 다 먹고 19600번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 49952/300000 [2:40:57<13:50:38,  5.02it/s]

지금 다 먹고 19601번째 도착완료 
  그리고 총 보상은 : 11.100000000000005 
지금 다 먹고 19602번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 49954/300000 [2:40:57<12:48:39,  5.42it/s]

지금 다 먹고 19603번째 도착완료 
  그리고 총 보상은 : 23.2 
지금 다 먹고 19604번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 49956/300000 [2:40:57<12:18:09,  5.65it/s]

지금 다 먹고 19605번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 49957/300000 [2:40:58<12:59:30,  5.35it/s]

지금 다 먹고 19606번째 도착완료 
  그리고 총 보상은 : 18.399999999999995 
지금 다 먹고 19607번째 도착완료 
  그리고 총 보상은 : 12.700000000000006 


 17%|█▋        | 49959/300000 [2:40:58<13:04:25,  5.31it/s]

지금 다 먹고 19608번째 도착완료 
  그리고 총 보상은 : 18.8 


 17%|█▋        | 49961/300000 [2:40:58<15:33:16,  4.47it/s]

지금 다 먹고 19609번째 도착완료 
  그리고 총 보상은 : 21.8 


 17%|█▋        | 49962/300000 [2:40:59<15:00:01,  4.63it/s]

지금 다 먹고 19610번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 19611번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 49964/300000 [2:40:59<13:04:59,  5.31it/s]

지금 다 먹고 19612번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 49966/300000 [2:40:59<14:36:39,  4.75it/s]

지금 다 먹고 19613번째 도착완료 
  그리고 총 보상은 : 27.0 


 17%|█▋        | 49967/300000 [2:41:00<14:30:40,  4.79it/s]

지금 다 먹고 19614번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 49968/300000 [2:41:00<14:56:31,  4.65it/s]

지금 다 먹고 19615번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 17%|█▋        | 49969/300000 [2:41:00<14:27:46,  4.80it/s]

지금 다 먹고 19616번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 19617번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 17%|█▋        | 49971/300000 [2:41:00<13:27:55,  5.16it/s]

지금 다 먹고 19618번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 49972/300000 [2:41:01<13:52:12,  5.01it/s]

지금 다 먹고 19619번째 도착완료 
  그리고 총 보상은 : 18.60000000000001 
지금 다 먹고 19620번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 49974/300000 [2:41:01<13:56:39,  4.98it/s]

지금 다 먹고 19621번째 도착완료 
  그리고 총 보상은 : 16.1 
지금 다 먹고 19622번째 도착완료 
  그리고 총 보상은 : 21.299999999999997 


 17%|█▋        | 49976/300000 [2:41:01<13:34:19,  5.12it/s]

지금 다 먹고 19623번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 


 17%|█▋        | 49977/300000 [2:41:02<14:02:52,  4.94it/s]

지금 다 먹고 19624번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 19625번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 49979/300000 [2:41:02<12:51:52,  5.40it/s]

지금 다 먹고 19626번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 49981/300000 [2:41:02<13:36:13,  5.11it/s]

지금 다 먹고 19627번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 19628번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 49983/300000 [2:41:03<12:35:01,  5.52it/s]

지금 다 먹고 19629번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 19630번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 49985/300000 [2:41:03<13:36:31,  5.10it/s]

지금 다 먹고 19631번째 도착완료 
  그리고 총 보상은 : 10.30000000000002 
지금 다 먹고 19632번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 17%|█▋        | 49987/300000 [2:41:03<13:06:50,  5.30it/s]

지금 다 먹고 19633번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 49988/300000 [2:41:04<13:49:23,  5.02it/s]

지금 다 먹고 19634번째 도착완료 
  그리고 총 보상은 : 18.600000000000005 
지금 다 먹고 19635번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 49990/300000 [2:41:04<13:58:02,  4.97it/s]

지금 다 먹고 19636번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 49991/300000 [2:41:04<15:53:15,  4.37it/s]

지금 다 먹고 19637번째 도착완료 
  그리고 총 보상은 : 11.80000000000001 


 17%|█▋        | 49993/300000 [2:41:05<16:49:52,  4.13it/s]

지금 다 먹고 19638번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 19639번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 49995/300000 [2:41:05<15:38:07,  4.44it/s]

지금 다 먹고 19640번째 도착완료 
  그리고 총 보상은 : 17.30000000000001 


 17%|█▋        | 49996/300000 [2:41:06<15:46:15,  4.40it/s]

지금 다 먹고 19641번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 17%|█▋        | 49997/300000 [2:41:06<15:11:58,  4.57it/s]

지금 다 먹고 19642번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 19643번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 49999/300000 [2:41:06<14:39:44,  4.74it/s]

지금 다 먹고 19644번째 도착완료 
  그리고 총 보상은 : 8.699999999999992 
지금 다 먹고 19645번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50001/300000 [2:41:07<14:48:15,  4.69it/s]

지금 다 먹고 19646번째 도착완료 
  그리고 총 보상은 : 25.0 
epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.0
 end : True
 clear : True
episode :3, score = 17.940000000001636, n_buffer :100000 , eps : 25.0


 17%|█▋        | 50002/300000 [2:41:07<14:04:33,  4.93it/s]

지금 다 먹고 19647번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 
지금 다 먹고 19648번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 50005/300000 [2:41:07<15:13:00,  4.56it/s]

지금 다 먹고 19649번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 17%|█▋        | 50007/300000 [2:41:08<15:52:00,  4.38it/s]

지금 다 먹고 19650번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 19651번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 50009/300000 [2:41:08<14:11:01,  4.90it/s]

지금 다 먹고 19652번째 도착완료 
  그리고 총 보상은 : 17.2 
지금 다 먹고 19653번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 17%|█▋        | 50011/300000 [2:41:09<14:44:05,  4.71it/s]

지금 다 먹고 19654번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 50012/300000 [2:41:09<14:17:52,  4.86it/s]

지금 다 먹고 19655번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 
지금 다 먹고 19656번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 50014/300000 [2:41:09<13:40:14,  5.08it/s]

지금 다 먹고 19657번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50015/300000 [2:41:10<16:09:36,  4.30it/s]

지금 다 먹고 19658번째 도착완료 
  그리고 총 보상은 : 5.4999999999999805 


 17%|█▋        | 50016/300000 [2:41:10<16:11:28,  4.29it/s]

지금 다 먹고 19659번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 50017/300000 [2:41:10<14:53:29,  4.66it/s]

지금 다 먹고 19660번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 19661번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50019/300000 [2:41:10<14:16:40,  4.86it/s]

지금 다 먹고 19662번째 도착완료 
  그리고 총 보상은 : 22.1 


 17%|█▋        | 50020/300000 [2:41:11<14:10:06,  4.90it/s]

지금 다 먹고 19663번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 19664번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50022/300000 [2:41:11<13:03:33,  5.32it/s]

지금 다 먹고 19665번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 19666번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 


 17%|█▋        | 50024/300000 [2:41:11<12:38:17,  5.49it/s]

지금 다 먹고 19667번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 19668번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50026/300000 [2:41:12<13:56:12,  4.98it/s]

지금 다 먹고 19669번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 19670번째 도착완료 
  그리고 총 보상은 : 22.600000000000012 


 17%|█▋        | 50028/300000 [2:41:12<13:14:42,  5.24it/s]

지금 다 먹고 19671번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 
지금 다 먹고 19672번째 도착완료 
  그리고 총 보상은 : 23.40000000000001 


 17%|█▋        | 50030/300000 [2:41:12<12:46:48,  5.43it/s]

지금 다 먹고 19673번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 19674번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 50032/300000 [2:41:13<12:21:21,  5.62it/s]

지금 다 먹고 19675번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50033/300000 [2:41:13<13:57:39,  4.97it/s]

지금 다 먹고 19676번째 도착완료 
  그리고 총 보상은 : 5.19999999999996 
지금 다 먹고 19677번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50035/300000 [2:41:13<13:28:32,  5.15it/s]

지금 다 먹고 19678번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 50036/300000 [2:41:14<14:34:25,  4.76it/s]

지금 다 먹고 19679번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 17%|█▋        | 50037/300000 [2:41:14<14:28:50,  4.79it/s]

지금 다 먹고 19680번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 19681번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 50040/300000 [2:41:15<15:42:33,  4.42it/s]

지금 다 먹고 19682번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50041/300000 [2:41:15<14:57:55,  4.64it/s]

지금 다 먹고 19683번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 19684번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 50043/300000 [2:41:15<13:44:32,  5.05it/s]

지금 다 먹고 19685번째 도착완료 
  그리고 총 보상은 : 17.6 
지금 다 먹고 19686번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 50045/300000 [2:41:15<13:18:56,  5.21it/s]

지금 다 먹고 19687번째 도착완료 
  그리고 총 보상은 : 25.200000000000014 
지금 다 먹고 19688번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 


 17%|█▋        | 50047/300000 [2:41:16<13:36:00,  5.11it/s]

지금 다 먹고 19689번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 
지금 다 먹고 19690번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 17%|█▋        | 50049/300000 [2:41:16<13:23:07,  5.19it/s]

지금 다 먹고 19691번째 도착완료 
  그리고 총 보상은 : 17.100000000000005 


 17%|█▋        | 50051/300000 [2:41:17<14:33:28,  4.77it/s]

지금 다 먹고 19692번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 19693번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 50053/300000 [2:41:17<13:28:37,  5.15it/s]

지금 다 먹고 19694번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 50054/300000 [2:41:17<14:09:34,  4.90it/s]

지금 다 먹고 19695번째 도착완료 
  그리고 총 보상은 : 14.200000000000024 
지금 다 먹고 19696번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50057/300000 [2:41:18<14:51:08,  4.67it/s]

지금 다 먹고 19697번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 19698번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50059/300000 [2:41:18<13:24:12,  5.18it/s]

지금 다 먹고 19699번째 도착완료 
  그리고 총 보상은 : 23.70000000000001 


 17%|█▋        | 50060/300000 [2:41:19<14:02:20,  4.95it/s]

지금 다 먹고 19700번째 도착완료 
  그리고 총 보상은 : -0.3000000000000185 
지금 다 먹고 19701번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 50062/300000 [2:41:19<12:52:57,  5.39it/s]

지금 다 먹고 19702번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 19703번째 도착완료 
  그리고 총 보상은 : 18.1 


 17%|█▋        | 50064/300000 [2:41:19<12:31:35,  5.54it/s]

지금 다 먹고 19704번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 50066/300000 [2:41:20<14:02:55,  4.94it/s]

지금 다 먹고 19705번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50068/300000 [2:41:20<14:05:31,  4.93it/s]

지금 다 먹고 19706번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 19707번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 17%|█▋        | 50070/300000 [2:41:21<13:21:52,  5.19it/s]

지금 다 먹고 19708번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 
지금 다 먹고 19709번째 도착완료 
  그리고 총 보상은 : 13.200000000000003 


 17%|█▋        | 50072/300000 [2:41:21<12:40:32,  5.48it/s]

지금 다 먹고 19710번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50074/300000 [2:41:21<13:39:21,  5.08it/s]

지금 다 먹고 19711번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 19712번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50076/300000 [2:41:22<13:51:31,  5.01it/s]

지금 다 먹고 19713번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 17%|█▋        | 50077/300000 [2:41:22<14:12:51,  4.88it/s]

지금 다 먹고 19714번째 도착완료 
  그리고 총 보상은 : 15.600000000000012 


 17%|█▋        | 50078/300000 [2:41:22<15:00:36,  4.63it/s]

지금 다 먹고 19715번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 


 17%|█▋        | 50079/300000 [2:41:22<15:31:22,  4.47it/s]

지금 다 먹고 19716번째 도착완료 
  그리고 총 보상은 : 16.90000000000001 
지금 다 먹고 19717번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 17%|█▋        | 50081/300000 [2:41:23<13:44:10,  5.05it/s]

지금 다 먹고 19718번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 19719번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 50083/300000 [2:41:23<12:59:27,  5.34it/s]

지금 다 먹고 19720번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 19721번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50085/300000 [2:41:23<12:12:57,  5.68it/s]

지금 다 먹고 19722번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50086/300000 [2:41:24<13:41:16,  5.07it/s]

지금 다 먹고 19723번째 도착완료 
  그리고 총 보상은 : 4.899999999999986 
지금 다 먹고 19724번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50088/300000 [2:41:24<13:39:32,  5.08it/s]

지금 다 먹고 19725번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50089/300000 [2:41:24<14:34:35,  4.76it/s]

지금 다 먹고 19726번째 도착완료 
  그리고 총 보상은 : 11.400000000000004 


 17%|█▋        | 50090/300000 [2:41:24<14:09:15,  4.90it/s]

지금 다 먹고 19727번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 19728번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 50092/300000 [2:41:25<12:48:41,  5.42it/s]

지금 다 먹고 19729번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 19730번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50094/300000 [2:41:25<12:57:45,  5.36it/s]

지금 다 먹고 19731번째 도착완료 
  그리고 총 보상은 : 14.300000000000004 


 17%|█▋        | 50095/300000 [2:41:25<12:56:50,  5.36it/s]

지금 다 먹고 19732번째 도착완료 
  그리고 총 보상은 : 22.20000000000001 
지금 다 먹고 19733번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50097/300000 [2:41:26<13:09:15,  5.28it/s]

지금 다 먹고 19734번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 50099/300000 [2:41:26<14:04:42,  4.93it/s]

지금 다 먹고 19735번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 19736번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 50101/300000 [2:41:27<16:02:08,  4.33it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0. 100.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-28.100000000000062
 end : True
 clear : True
episode :1, score = 18.10900000000191, n_buffer :100000 , eps : 24.95
지금 다 먹고 19737번째 도착완료 
  그리고 총 보상은 : 25.5 


 17%|█▋        | 50103/300000 [2:41:27<15:39:15,  4.43it/s]

지금 다 먹고 19738번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50104/300000 [2:41:27<15:37:55,  4.44it/s]

지금 다 먹고 19739번째 도착완료 
  그리고 총 보상은 : 22.3 


 17%|█▋        | 50106/300000 [2:41:28<14:53:20,  4.66it/s]

지금 다 먹고 19740번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 19741번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 17%|█▋        | 50108/300000 [2:41:28<13:44:15,  5.05it/s]

지금 다 먹고 19742번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 19743번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50110/300000 [2:41:29<13:29:02,  5.15it/s]

지금 다 먹고 19744번째 도착완료 
  그리고 총 보상은 : 22.8 


 17%|█▋        | 50111/300000 [2:41:29<13:30:55,  5.14it/s]

지금 다 먹고 19745번째 도착완료 
  그리고 총 보상은 : 21.3 
지금 다 먹고 19746번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 


 17%|█▋        | 50113/300000 [2:41:29<12:51:07,  5.40it/s]

지금 다 먹고 19747번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 19748번째 도착완료 
  그리고 총 보상은 : 18.100000000000012 

 17%|█▋        | 50114/300000 [2:41:29<13:23:22,  5.18it/s]


지금 다 먹고 19749번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 17%|█▋        | 50116/300000 [2:41:30<13:24:36,  5.18it/s]

지금 다 먹고 19750번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 19751번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 17%|█▋        | 50119/300000 [2:41:30<13:27:16,  5.16it/s]

지금 다 먹고 19752번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 19753번째 도착완료 
  그리고 총 보상은 : 23.5 


 17%|█▋        | 50121/300000 [2:41:31<13:26:52,  5.16it/s]

지금 다 먹고 19754번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 19755번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 50123/300000 [2:41:31<13:34:31,  5.11it/s]

지금 다 먹고 19756번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 19757번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 50125/300000 [2:41:31<12:56:11,  5.37it/s]

지금 다 먹고 19758번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 19759번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 50127/300000 [2:41:32<12:56:06,  5.37it/s]

지금 다 먹고 19760번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 19761번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 17%|█▋        | 50129/300000 [2:41:32<12:27:15,  5.57it/s]

지금 다 먹고 19762번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 
지금 다 먹고 19763번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50131/300000 [2:41:33<13:52:15,  5.00it/s]

지금 다 먹고 19764번째 도착완료 
  그리고 총 보상은 : 15.900000000000016 
지금 다 먹고 19765번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50133/300000 [2:41:33<13:09:02,  5.28it/s]

지금 다 먹고 19766번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50134/300000 [2:41:33<14:18:45,  4.85it/s]

지금 다 먹고 19767번째 도착완료 
  그리고 총 보상은 : 13.400000000000027 


 17%|█▋        | 50136/300000 [2:41:34<14:23:48,  4.82it/s]

지금 다 먹고 19768번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 19769번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 50138/300000 [2:41:34<12:57:15,  5.36it/s]

지금 다 먹고 19770번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50140/300000 [2:41:34<13:59:36,  4.96it/s]

지금 다 먹고 19771번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 50142/300000 [2:41:35<14:46:22,  4.70it/s]

지금 다 먹고 19772번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 19773번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50144/300000 [2:41:35<13:19:50,  5.21it/s]

지금 다 먹고 19774번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 19775번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 17%|█▋        | 50146/300000 [2:41:36<13:18:16,  5.22it/s]

지금 다 먹고 19776번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 19777번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 

 17%|█▋        | 50147/300000 [2:41:36<13:14:01,  5.24it/s]


지금 다 먹고 19778번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50149/300000 [2:41:36<13:07:48,  5.29it/s]

지금 다 먹고 19779번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50150/300000 [2:41:36<13:49:47,  5.02it/s]

지금 다 먹고 19780번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 19781번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50153/300000 [2:41:37<14:50:58,  4.67it/s]

지금 다 먹고 19782번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 50155/300000 [2:41:38<14:52:03,  4.67it/s]

지금 다 먹고 19783번째 도착완료 
  그리고 총 보상은 : 22.5 


 17%|█▋        | 50157/300000 [2:41:38<15:15:10,  4.55it/s]

지금 다 먹고 19784번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19785번째 도착완료 
  그리고 총 보상은 : 18.40000000000001 


 17%|█▋        | 50159/300000 [2:41:38<15:18:47,  4.53it/s]

지금 다 먹고 19786번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 50160/300000 [2:41:39<14:57:03,  4.64it/s]

지금 다 먹고 19787번째 도착완료 
  그리고 총 보상은 : 26.3 
지금 다 먹고 19788번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 17%|█▋        | 50163/300000 [2:41:39<14:40:46,  4.73it/s]

지금 다 먹고 19789번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 17%|█▋        | 50164/300000 [2:41:39<15:14:15,  4.55it/s]

지금 다 먹고 19790번째 도착완료 
  그리고 총 보상은 : 9.09999999999999 
지금 다 먹고 19791번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 17%|█▋        | 50166/300000 [2:41:40<13:49:47,  5.02it/s]

지금 다 먹고 19792번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 19793번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50168/300000 [2:41:40<12:54:34,  5.38it/s]

지금 다 먹고 19794번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50170/300000 [2:41:41<13:38:19,  5.09it/s]

지금 다 먹고 19795번째 도착완료 
  그리고 총 보상은 : 25.5 
지금 다 먹고 19796번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50172/300000 [2:41:41<12:57:15,  5.36it/s]

지금 다 먹고 19797번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50174/300000 [2:41:42<15:11:33,  4.57it/s]

지금 다 먹고 19798번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50176/300000 [2:41:42<17:08:02,  4.05it/s]

지금 다 먹고 19799번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 50177/300000 [2:41:42<15:43:00,  4.42it/s]

지금 다 먹고 19800번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 19801번째 도착완료 
  그리고 총 보상은 : 25.1 


 17%|█▋        | 50179/300000 [2:41:43<14:36:50,  4.75it/s]

지금 다 먹고 19802번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 19803번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 17%|█▋        | 50181/300000 [2:41:43<13:57:38,  4.97it/s]

지금 다 먹고 19804번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 19805번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 17%|█▋        | 50183/300000 [2:41:43<13:24:59,  5.17it/s]

지금 다 먹고 19806번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 19807번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 50185/300000 [2:41:44<12:46:06,  5.43it/s]

지금 다 먹고 19808번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50187/300000 [2:41:44<14:19:43,  4.84it/s]

지금 다 먹고 19809번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 50188/300000 [2:41:44<13:46:46,  5.04it/s]

지금 다 먹고 19810번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50190/300000 [2:41:45<14:33:58,  4.76it/s]

지금 다 먹고 19811번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 19812번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 50192/300000 [2:41:45<13:52:21,  5.00it/s]

지금 다 먹고 19813번째 도착완료 
  그리고 총 보상은 : 18.10000000000001 
지금 다 먹고 19814번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50194/300000 [2:41:46<12:48:45,  5.42it/s]

지금 다 먹고 19815번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 19816번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 50196/300000 [2:41:46<13:04:34,  5.31it/s]

지금 다 먹고 19817번째 도착완료 
  그리고 총 보상은 : 14.600000000000001 
지금 다 먹고 19818번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 50198/300000 [2:41:46<12:51:19,  5.40it/s]

지금 다 먹고 19819번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 19820번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50200/300000 [2:41:47<12:32:10,  5.54it/s]

지금 다 먹고 19821번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 


 17%|█▋        | 50201/300000 [2:41:47<13:22:48,  5.19it/s]

지금 다 먹고 19822번째 도착완료 
  그리고 총 보상은 : 15.800000000000018 
epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :15.800000000000018
 end : True
 clear : True
episode :16, score = 16.941000000001576, n_buffer :100000 , eps : 24.9
지금 다 먹고 19823번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50203/300000 [2:41:47<13:54:09,  4.99it/s]

지금 다 먹고 19824번째 도착완료 
  그리고 총 보상은 : 13.60000000000003 
지금 다 먹고 19825번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 17%|█▋        | 50205/300000 [2:41:48<13:16:45,  5.23it/s]

지금 다 먹고 19826번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 19827번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 


 17%|█▋        | 50208/300000 [2:41:48<14:01:18,  4.95it/s]

지금 다 먹고 19828번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 19829번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 17%|█▋        | 50210/300000 [2:41:49<13:35:50,  5.10it/s]

지금 다 먹고 19830번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 19831번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50212/300000 [2:41:49<13:08:15,  5.28it/s]

지금 다 먹고 19832번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 
지금 다 먹고 19833번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 50214/300000 [2:41:49<12:49:42,  5.41it/s]

지금 다 먹고 19834번째 도착완료 
  그리고 총 보상은 : 22.000000000000014 
지금 다 먹고 19835번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50216/300000 [2:41:50<12:41:26,  5.47it/s]

지금 다 먹고 19836번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 19837번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50218/300000 [2:41:50<12:34:43,  5.52it/s]

지금 다 먹고 19838번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 19839번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50221/300000 [2:41:51<13:21:42,  5.19it/s]

지금 다 먹고 19840번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 19841번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 50223/300000 [2:41:51<12:43:03,  5.46it/s]

지금 다 먹고 19842번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 50224/300000 [2:41:51<13:45:46,  5.04it/s]

지금 다 먹고 19843번째 도착완료 
  그리고 총 보상은 : 12.300000000000034 
지금 다 먹고 19844번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50227/300000 [2:41:52<14:24:16,  4.82it/s]

지금 다 먹고 19845번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 19846번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50229/300000 [2:41:52<13:33:24,  5.12it/s]

지금 다 먹고 19847번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 19848번째 도착완료 
  그리고 총 보상은 : 8.000000000000004 


 17%|█▋        | 50231/300000 [2:41:53<13:02:12,  5.32it/s]

지금 다 먹고 19849번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 19850번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 50233/300000 [2:41:53<12:41:10,  5.47it/s]

지금 다 먹고 19851번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 19852번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50236/300000 [2:41:54<13:57:43,  4.97it/s]

지금 다 먹고 19853번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50238/300000 [2:41:54<14:35:30,  4.75it/s]

지금 다 먹고 19854번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 19855번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50242/300000 [2:41:55<15:34:27,  4.45it/s]

지금 다 먹고 19856번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50245/300000 [2:41:56<17:18:08,  4.01it/s]

지금 다 먹고 19857번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 19858번째 도착완료 
  그리고 총 보상은 : 23.1 


 17%|█▋        | 50247/300000 [2:41:56<15:07:56,  4.58it/s]

지금 다 먹고 19859번째 도착완료 
  그리고 총 보상은 : 18.9 
지금 다 먹고 19860번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 50249/300000 [2:41:57<13:32:59,  5.12it/s]

지금 다 먹고 19861번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 50250/300000 [2:41:57<14:32:31,  4.77it/s]

지금 다 먹고 19862번째 도착완료 
  그리고 총 보상은 : 6.800000000000013 
지금 다 먹고 19863번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50253/300000 [2:41:58<15:36:54,  4.44it/s]

지금 다 먹고 19864번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50254/300000 [2:41:58<15:23:17,  4.51it/s]

지금 다 먹고 19865번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 19866번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50256/300000 [2:41:58<13:32:07,  5.13it/s]

지금 다 먹고 19867번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50257/300000 [2:41:58<14:24:13,  4.82it/s]

지금 다 먹고 19868번째 도착완료 
  그리고 총 보상은 : 20.400000000000006 


 17%|█▋        | 50259/300000 [2:41:59<15:05:16,  4.60it/s]

지금 다 먹고 19869번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 50261/300000 [2:41:59<14:52:01,  4.67it/s]

지금 다 먹고 19870번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 19871번째 도착완료 
  그리고 총 보상은 : 13.200000000000008 


 17%|█▋        | 50263/300000 [2:42:00<13:22:57,  5.18it/s]

지금 다 먹고 19872번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 19873번째 도착완료 
  그리고 총 보상은 : 13.200000000000006 


 17%|█▋        | 50265/300000 [2:42:00<13:17:49,  5.22it/s]

지금 다 먹고 19874번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 
지금 다 먹고 19875번째 도착완료 
  그리고 총 보상은 : 12.500000000000012 


 17%|█▋        | 50267/300000 [2:42:00<13:17:07,  5.22it/s]

지금 다 먹고 19876번째 도착완료 
  그리고 총 보상은 : 26.40000000000001 


 17%|█▋        | 50269/300000 [2:42:01<13:54:09,  4.99it/s]

지금 다 먹고 19877번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 19878번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 50271/300000 [2:42:01<13:43:54,  5.05it/s]

지금 다 먹고 19879번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50272/300000 [2:42:01<13:28:05,  5.15it/s]

지금 다 먹고 19880번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 19881번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50274/300000 [2:42:02<12:52:40,  5.39it/s]

지금 다 먹고 19882번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50275/300000 [2:42:02<14:17:26,  4.85it/s]

지금 다 먹고 19883번째 도착완료 
  그리고 총 보상은 : 7.79999999999999 


 17%|█▋        | 50276/300000 [2:42:02<14:03:52,  4.93it/s]

지금 다 먹고 19884번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50278/300000 [2:42:03<15:55:49,  4.35it/s]

지금 다 먹고 19885번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 
지금 다 먹고 19886번째 도착완료 
  그리고 총 보상은 : 16.300000000000004 


 17%|█▋        | 50280/300000 [2:42:03<13:59:52,  4.96it/s]

지금 다 먹고 19887번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50281/300000 [2:42:03<14:50:30,  4.67it/s]

지금 다 먹고 19888번째 도착완료 
  그리고 총 보상은 : 17.600000000000012 
지금 다 먹고 19889번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50283/300000 [2:42:04<13:18:59,  5.21it/s]

지금 다 먹고 19890번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 19891번째 도착완료 
  그리고 총 보상은 : 26.0 


 17%|█▋        | 50285/300000 [2:42:04<13:27:54,  5.15it/s]

지금 다 먹고 19892번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50286/300000 [2:42:04<14:02:20,  4.94it/s]

지금 다 먹고 19893번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 19894번째 도착완료 
  그리고 총 보상은 : 24.40000000000001 


 17%|█▋        | 50289/300000 [2:42:05<13:48:44,  5.02it/s]

지금 다 먹고 19895번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 19896번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 50291/300000 [2:42:05<12:57:55,  5.35it/s]

지금 다 먹고 19897번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50292/300000 [2:42:06<14:02:50,  4.94it/s]

지금 다 먹고 19898번째 도착완료 
  그리고 총 보상은 : 11.400000000000034 
지금 다 먹고 19899번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50295/300000 [2:42:06<15:10:20,  4.57it/s]

지금 다 먹고 19900번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 19901번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50297/300000 [2:42:07<13:43:37,  5.05it/s]

지금 다 먹고 19902번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 19903번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 50299/300000 [2:42:07<12:41:55,  5.46it/s]

지금 다 먹고 19904번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 19905번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 50301/300000 [2:42:07<12:21:30,  5.61it/s]

지금 다 먹고 19906번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.200000000000003
 end : True
 clear : True
episode :14, score = 15.022000000000382, n_buffer :100000 , eps : 24.85
지금 다 먹고 19907번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50303/300000 [2:42:08<12:45:33,  5.44it/s]

지금 다 먹고 19908번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 19909번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 50306/300000 [2:42:08<13:24:00,  5.18it/s]

지금 다 먹고 19910번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 19911번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50308/300000 [2:42:09<13:55:49,  4.98it/s]

지금 다 먹고 19912번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 17%|█▋        | 50309/300000 [2:42:09<15:03:22,  4.61it/s]

지금 다 먹고 19913번째 도착완료 
  그리고 총 보상은 : -13.400000000000034 
지금 다 먹고 19914번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 50312/300000 [2:42:09<14:53:49,  4.66it/s]

지금 다 먹고 19915번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 


 17%|█▋        | 50314/300000 [2:42:10<15:39:42,  4.43it/s]

지금 다 먹고 19916번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 17%|█▋        | 50315/300000 [2:42:10<15:18:37,  4.53it/s]

지금 다 먹고 19917번째 도착완료 
  그리고 총 보상은 : 7.000000000000018 
지금 다 먹고 19918번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 50317/300000 [2:42:11<13:26:36,  5.16it/s]

지금 다 먹고 19919번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 19920번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 50319/300000 [2:42:11<12:42:41,  5.46it/s]

지금 다 먹고 19921번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 19922번째 도착완료 
  그리고 총 보상은 : 18.8 


 17%|█▋        | 50321/300000 [2:42:11<12:11:38,  5.69it/s]

지금 다 먹고 19923번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50323/300000 [2:42:12<14:06:28,  4.92it/s]

지금 다 먹고 19924번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 19925번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 50325/300000 [2:42:12<13:11:51,  5.26it/s]

지금 다 먹고 19926번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 17%|█▋        | 50327/300000 [2:42:12<13:42:16,  5.06it/s]

지금 다 먹고 19927번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50329/300000 [2:42:13<14:29:56,  4.78it/s]

지금 다 먹고 19928번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 19929번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 17%|█▋        | 50331/300000 [2:42:13<13:34:43,  5.11it/s]

지금 다 먹고 19930번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 19931번째 도착완료 
  그리고 총 보상은 : 18.099999999999998 


 17%|█▋        | 50333/300000 [2:42:14<14:04:09,  4.93it/s]

지금 다 먹고 19932번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50334/300000 [2:42:14<14:23:36,  4.82it/s]

지금 다 먹고 19933번째 도착완료 
  그리고 총 보상은 : 18.800000000000008 
지금 다 먹고 19934번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 50336/300000 [2:42:14<14:12:46,  4.88it/s]

지금 다 먹고 19935번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 


 17%|█▋        | 50338/300000 [2:42:15<14:26:49,  4.80it/s]

지금 다 먹고 19936번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 50340/300000 [2:42:15<15:16:31,  4.54it/s]

지금 다 먹고 19937번째 도착완료 
  그리고 총 보상은 : 17.800000000000015 


 17%|█▋        | 50341/300000 [2:42:15<14:48:56,  4.68it/s]

지금 다 먹고 19938번째 도착완료 
  그리고 총 보상은 : 22.00000000000001 
지금 다 먹고 19939번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 50343/300000 [2:42:16<14:45:57,  4.70it/s]

지금 다 먹고 19940번째 도착완료 
  그리고 총 보상은 : 7.599999999999987 
지금 다 먹고 19941번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50346/300000 [2:42:16<14:05:11,  4.92it/s]

지금 다 먹고 19942번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 19943번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50348/300000 [2:42:17<13:04:33,  5.30it/s]

지금 다 먹고 19944번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 19945번째 도착완료 
  그리고 총 보상은 : 18.0 


 17%|█▋        | 50350/300000 [2:42:17<13:01:54,  5.32it/s]

지금 다 먹고 19946번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 19947번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 50352/300000 [2:42:18<13:58:34,  4.96it/s]

지금 다 먹고 19948번째 도착완료 
  그리고 총 보상은 : 18.700000000000017 
지금 다 먹고 19949번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 

 17%|█▋        | 50353/300000 [2:42:18<13:35:27,  5.10it/s]


지금 다 먹고 19950번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 50355/300000 [2:42:18<12:36:48,  5.50it/s]

지금 다 먹고 19951번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50357/300000 [2:42:19<13:29:44,  5.14it/s]

지금 다 먹고 19952번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 19953번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50359/300000 [2:42:19<12:52:10,  5.39it/s]

지금 다 먹고 19954번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 19955번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 50361/300000 [2:42:19<13:20:16,  5.20it/s]

지금 다 먹고 19956번째 도착완료 
  그리고 총 보상은 : 18.700000000000006 


 17%|█▋        | 50363/300000 [2:42:20<14:38:30,  4.74it/s]

지금 다 먹고 19957번째 도착완료 
  그리고 총 보상은 : 19.600000000000012 
지금 다 먹고 19958번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 50365/300000 [2:42:20<13:36:19,  5.10it/s]

지금 다 먹고 19959번째 도착완료 
  그리고 총 보상은 : 19.3 
지금 다 먹고 19960번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 


 17%|█▋        | 50367/300000 [2:42:21<13:22:54,  5.18it/s]

지금 다 먹고 19961번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50369/300000 [2:42:21<14:34:13,  4.76it/s]

지금 다 먹고 19962번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 19963번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50372/300000 [2:42:22<14:33:11,  4.76it/s]

지금 다 먹고 19964번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 50373/300000 [2:42:22<15:33:50,  4.46it/s]

지금 다 먹고 19965번째 도착완료 
  그리고 총 보상은 : 16.900000000000006 


 17%|█▋        | 50374/300000 [2:42:22<15:23:58,  4.50it/s]

지금 다 먹고 19966번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 50377/300000 [2:42:23<16:05:21,  4.31it/s]

지금 다 먹고 19967번째 도착완료 
  그리고 총 보상은 : 12.800000000000026 
지금 다 먹고 19968번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50379/300000 [2:42:23<13:58:20,  4.96it/s]

지금 다 먹고 19969번째 도착완료 
  그리고 총 보상은 : 23.099999999999998 
지금 다 먹고 19970번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 50381/300000 [2:42:23<12:46:31,  5.43it/s]

지금 다 먹고 19971번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 19972번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50383/300000 [2:42:24<12:41:36,  5.46it/s]

지금 다 먹고 19973번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 19974번째 도착완료 
  그리고 총 보상은 : 23.8 


 17%|█▋        | 50385/300000 [2:42:24<13:24:50,  5.17it/s]

지금 다 먹고 19975번째 도착완료 
  그리고 총 보상은 : 14.500000000000016 
지금 다 먹고 19976번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50387/300000 [2:42:25<12:58:25,  5.34it/s]

지금 다 먹고 19977번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50388/300000 [2:42:25<13:36:16,  5.10it/s]

지금 다 먹고 19978번째 도착완료 
  그리고 총 보상은 : 16.100000000000016 
지금 다 먹고 19979번째 도착완료 
  그리고 총 보상은 : 27.0 


 17%|█▋        | 50391/300000 [2:42:25<13:48:27,  5.02it/s]

지금 다 먹고 19980번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 19981번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 50393/300000 [2:42:26<14:19:21,  4.84it/s]

지금 다 먹고 19982번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 50395/300000 [2:42:26<15:56:24,  4.35it/s]

지금 다 먹고 19983번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 50397/300000 [2:42:27<15:27:10,  4.49it/s]

지금 다 먹고 19984번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 19985번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50399/300000 [2:42:27<14:16:59,  4.85it/s]

지금 다 먹고 19986번째 도착완료 
  그리고 총 보상은 : 17.700000000000017 


 17%|█▋        | 50401/300000 [2:42:28<15:00:58,  4.62it/s]

지금 다 먹고 19987번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.500000000000007
 end : True
 clear : True
episode :12, score = 13.428000000000461, n_buffer :100000 , eps : 24.8


 17%|█▋        | 50402/300000 [2:42:28<16:47:31,  4.13it/s]

지금 다 먹고 19988번째 도착완료 
  그리고 총 보상은 : 8.600000000000009 


 17%|█▋        | 50403/300000 [2:42:28<18:01:53,  3.85it/s]

지금 다 먹고 19989번째 도착완료 
  그리고 총 보상은 : 9.099999999999989 


 17%|█▋        | 50406/300000 [2:42:29<16:33:00,  4.19it/s]

지금 다 먹고 19990번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 50408/300000 [2:42:29<15:41:07,  4.42it/s]

지금 다 먹고 19991번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 19992번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 17%|█▋        | 50410/300000 [2:42:30<13:46:02,  5.04it/s]

지금 다 먹고 19993번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 50411/300000 [2:42:30<14:10:27,  4.89it/s]

지금 다 먹고 19994번째 도착완료 
  그리고 총 보상은 : 14.500000000000012 
지금 다 먹고 19995번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50414/300000 [2:42:31<15:25:36,  4.49it/s]

지금 다 먹고 19996번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 19997번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 50416/300000 [2:42:31<13:25:40,  5.16it/s]

지금 다 먹고 19998번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 50418/300000 [2:42:32<15:35:38,  4.45it/s]

지금 다 먹고 19999번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 17%|█▋        | 50419/300000 [2:42:32<14:50:01,  4.67it/s]

지금 다 먹고 20000번째 도착완료 
  그리고 총 보상은 : 5.500000000000007 
지금 다 먹고 20001번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50421/300000 [2:42:32<14:48:06,  4.68it/s]

지금 다 먹고 20002번째 도착완료 
  그리고 총 보상은 : 13.200000000000017 


 17%|█▋        | 50422/300000 [2:42:32<15:01:02,  4.62it/s]

지금 다 먹고 20003번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 17%|█▋        | 50423/300000 [2:42:33<14:57:08,  4.64it/s]

지금 다 먹고 20004번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 50425/300000 [2:42:33<16:06:49,  4.30it/s]

지금 다 먹고 20005번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 


 17%|█▋        | 50426/300000 [2:42:33<15:14:37,  4.55it/s]

지금 다 먹고 20006번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 50427/300000 [2:42:34<15:59:14,  4.34it/s]

지금 다 먹고 20007번째 도착완료 
  그리고 총 보상은 : 5.200000000000028 


 17%|█▋        | 50428/300000 [2:42:34<15:17:42,  4.53it/s]

지금 다 먹고 20008번째 도착완료 
  그리고 총 보상은 : 21.9 
지금 다 먹고 20009번째 도착완료 
  그리고 총 보상은 : 25.5 


 17%|█▋        | 50431/300000 [2:42:34<14:22:55,  4.82it/s]

지금 다 먹고 20010번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 20011번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 17%|█▋        | 50433/300000 [2:42:35<13:23:51,  5.17it/s]

지금 다 먹고 20012번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50434/300000 [2:42:35<15:05:42,  4.59it/s]

지금 다 먹고 20013번째 도착완료 
  그리고 총 보상은 : 1.1999999999999957 
지금 다 먹고 20014번째 도착완료 
  그리고 총 보상은 : 16.900000000000016 


 17%|█▋        | 50436/300000 [2:42:36<16:15:31,  4.26it/s]

지금 다 먹고 20015번째 도착완료 
  그리고 총 보상은 : 22.8 


 17%|█▋        | 50437/300000 [2:42:36<16:09:53,  4.29it/s]

지금 다 먹고 20016번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 


 17%|█▋        | 50438/300000 [2:42:36<15:54:37,  4.36it/s]

지금 다 먹고 20017번째 도착완료 
  그리고 총 보상은 : 13.700000000000028 


 17%|█▋        | 50439/300000 [2:42:36<15:47:53,  4.39it/s]

지금 다 먹고 20018번째 도착완료 
  그리고 총 보상은 : 18.100000000000016 
지금 다 먹고 20019번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 50442/300000 [2:42:37<15:20:37,  4.52it/s]

지금 다 먹고 20020번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 20021번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50444/300000 [2:42:37<14:23:18,  4.82it/s]

지금 다 먹고 20022번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 


 17%|█▋        | 50445/300000 [2:42:38<15:14:43,  4.55it/s]

지금 다 먹고 20023번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 


 17%|█▋        | 50448/300000 [2:42:38<16:44:28,  4.14it/s]

지금 다 먹고 20024번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50449/300000 [2:42:39<16:05:17,  4.31it/s]

지금 다 먹고 20025번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20026번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 50452/300000 [2:42:39<15:06:30,  4.59it/s]

지금 다 먹고 20027번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 20028번째 도착완료 
  그리고 총 보상은 : 24.6 


 17%|█▋        | 50454/300000 [2:42:40<14:07:56,  4.90it/s]

지금 다 먹고 20029번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 20030번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 50456/300000 [2:42:40<13:58:07,  4.96it/s]

지금 다 먹고 20031번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 20032번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50458/300000 [2:42:40<12:54:17,  5.37it/s]

지금 다 먹고 20033번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 20034번째 도착완료 
  그리고 총 보상은 : 26.30000000000001 


 17%|█▋        | 50460/300000 [2:42:41<12:36:36,  5.50it/s]

지금 다 먹고 20035번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 20036번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 50463/300000 [2:42:41<14:12:39,  4.88it/s]

지금 다 먹고 20037번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50465/300000 [2:42:42<15:38:58,  4.43it/s]

지금 다 먹고 20038번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 20039번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50467/300000 [2:42:42<14:54:38,  4.65it/s]

지금 다 먹고 20040번째 도착완료 
  그리고 총 보상은 : 18.600000000000012 
지금 다 먹고 20041번째 도착완료 
  그리고 총 보상은 : 9.700000000000005 


 17%|█▋        | 50469/300000 [2:42:43<13:50:48,  5.01it/s]

지금 다 먹고 20042번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 20043번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50471/300000 [2:42:43<14:10:46,  4.89it/s]

지금 다 먹고 20044번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 17%|█▋        | 50472/300000 [2:42:43<14:03:58,  4.93it/s]

지금 다 먹고 20045번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 50474/300000 [2:42:44<15:06:35,  4.59it/s]

지금 다 먹고 20046번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50476/300000 [2:42:44<15:39:00,  4.43it/s]

지금 다 먹고 20047번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 20048번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 50478/300000 [2:42:45<14:01:16,  4.94it/s]

지금 다 먹고 20049번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 20050번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 17%|█▋        | 50480/300000 [2:42:45<13:06:12,  5.29it/s]

지금 다 먹고 20051번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50481/300000 [2:42:45<13:14:41,  5.23it/s]

지금 다 먹고 20052번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 


 17%|█▋        | 50482/300000 [2:42:45<13:49:18,  5.01it/s]

지금 다 먹고 20053번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 20054번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50484/300000 [2:42:46<14:32:11,  4.77it/s]

지금 다 먹고 20055번째 도착완료 
  그리고 총 보상은 : 13.800000000000027 
지금 다 먹고 20056번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 17%|█▋        | 50486/300000 [2:42:46<14:13:57,  4.87it/s]

지금 다 먹고 20057번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 20058번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 


 17%|█▋        | 50488/300000 [2:42:47<13:54:43,  4.98it/s]

지금 다 먹고 20059번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 20060번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 50490/300000 [2:42:47<12:50:48,  5.39it/s]

지금 다 먹고 20061번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 20062번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 50493/300000 [2:42:47<14:03:54,  4.93it/s]

지금 다 먹고 20063번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 20064번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50495/300000 [2:42:48<14:18:26,  4.84it/s]

지금 다 먹고 20065번째 도착완료 
  그리고 총 보상은 : 22.3 


 17%|█▋        | 50496/300000 [2:42:48<15:35:30,  4.45it/s]

지금 다 먹고 20066번째 도착완료 
  그리고 총 보상은 : 9.200000000000038 
지금 다 먹고 20067번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50499/300000 [2:42:49<14:49:35,  4.67it/s]

지금 다 먹고 20068번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 20069번째 도착완료 
  그리고 총 보상은 : 26.5 


 17%|█▋        | 50501/300000 [2:42:49<16:41:27,  4.15it/s]

epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1. 100.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 200.   0.   0.   0.   0.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :-16.000000000000096
 end : True
 clear : True
episode :10, score = 13.60400000000047, n_buffer :100000 , eps : 24.75
지금 다 먹고 20070번째 도착완료 
  그리고 총 보상은 : 9.30000000000005 


 17%|█▋        | 50503/300000 [2:42:50<18:20:01,  3.78it/s]

지금 다 먹고 20071번째 도착완료 
  그리고 총 보상은 : 5.499999999999986 


 17%|█▋        | 50504/300000 [2:42:50<17:27:05,  3.97it/s]

지금 다 먹고 20072번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 
지금 다 먹고 20073번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 50506/300000 [2:42:51<16:05:23,  4.31it/s]

지금 다 먹고 20074번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 50508/300000 [2:42:51<15:43:52,  4.41it/s]

지금 다 먹고 20075번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50510/300000 [2:42:51<15:24:02,  4.50it/s]

지금 다 먹고 20076번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 20077번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 50514/300000 [2:42:52<15:44:02,  4.40it/s]

지금 다 먹고 20078번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 50517/300000 [2:42:53<16:57:39,  4.09it/s]

지금 다 먹고 20079번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 20080번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 50519/300000 [2:42:54<16:12:28,  4.28it/s]

지금 다 먹고 20081번째 도착완료 
  그리고 총 보상은 : 16.20000000000002 


 17%|█▋        | 50520/300000 [2:42:54<16:16:22,  4.26it/s]

지금 다 먹고 20082번째 도착완료 
  그리고 총 보상은 : 13.500000000000028 


 17%|█▋        | 50521/300000 [2:42:54<16:47:28,  4.13it/s]

지금 다 먹고 20083번째 도착완료 
  그리고 총 보상은 : 13.800000000000038 
지금 다 먹고 20084번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50523/300000 [2:42:55<15:23:59,  4.50it/s]

지금 다 먹고 20085번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 


 17%|█▋        | 50524/300000 [2:42:55<16:39:46,  4.16it/s]

지금 다 먹고 20086번째 도착완료 
  그리고 총 보상은 : 9.499999999999995 


 17%|█▋        | 50527/300000 [2:42:56<17:29:04,  3.96it/s]

지금 다 먹고 20087번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50529/300000 [2:42:56<17:30:38,  3.96it/s]

지금 다 먹고 20088번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 


 17%|█▋        | 50531/300000 [2:42:57<16:42:38,  4.15it/s]

지금 다 먹고 20089번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50533/300000 [2:42:57<15:57:58,  4.34it/s]

지금 다 먹고 20090번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 20091번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50535/300000 [2:42:58<14:41:03,  4.72it/s]

지금 다 먹고 20092번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 20093번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 50538/300000 [2:42:58<15:51:20,  4.37it/s]

지금 다 먹고 20094번째 도착완료 
  그리고 총 보상은 : 13.900000000000027 


 17%|█▋        | 50539/300000 [2:42:58<16:20:47,  4.24it/s]

지금 다 먹고 20095번째 도착완료 
  그리고 총 보상은 : 14.800000000000027 


 17%|█▋        | 50540/300000 [2:42:59<16:06:28,  4.30it/s]

지금 다 먹고 20096번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 17%|█▋        | 50542/300000 [2:42:59<16:29:44,  4.20it/s]

지금 다 먹고 20097번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 20098번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 50544/300000 [2:43:00<14:31:01,  4.77it/s]

지금 다 먹고 20099번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 50546/300000 [2:43:00<14:25:53,  4.80it/s]

지금 다 먹고 20100번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 20101번째 도착완료 
  그리고 총 보상은 : 2.5999999999999766 


 17%|█▋        | 50548/300000 [2:43:00<13:35:52,  5.10it/s]

지금 다 먹고 20102번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 50550/300000 [2:43:01<14:25:42,  4.80it/s]

지금 다 먹고 20103번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20104번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50552/300000 [2:43:01<14:25:18,  4.80it/s]

지금 다 먹고 20105번째 도착완료 
  그리고 총 보상은 : 16.00000000000002 
지금 다 먹고 20106번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50554/300000 [2:43:02<14:07:53,  4.90it/s]

지금 다 먹고 20107번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 50555/300000 [2:43:02<14:28:20,  4.79it/s]

지금 다 먹고 20108번째 도착완료 
  그리고 총 보상은 : 18.30000000000001 


 17%|█▋        | 50557/300000 [2:43:02<14:55:56,  4.64it/s]

지금 다 먹고 20109번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 50558/300000 [2:43:03<15:32:39,  4.46it/s]

지금 다 먹고 20110번째 도착완료 
  그리고 총 보상은 : 14.500000000000025 
지금 다 먹고 20111번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50561/300000 [2:43:03<15:06:22,  4.59it/s]

지금 다 먹고 20112번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 20113번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50563/300000 [2:43:04<14:21:32,  4.83it/s]

지금 다 먹고 20114번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 50564/300000 [2:43:04<15:42:04,  4.41it/s]

지금 다 먹고 20115번째 도착완료 
  그리고 총 보상은 : 8.499999999999996 
지금 다 먹고 20116번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 50567/300000 [2:43:05<15:40:06,  4.42it/s]

지금 다 먹고 20117번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 50568/300000 [2:43:05<15:54:05,  4.36it/s]

지금 다 먹고 20118번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 50569/300000 [2:43:05<16:01:58,  4.32it/s]

지금 다 먹고 20119번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 17%|█▋        | 50570/300000 [2:43:05<15:43:42,  4.41it/s]

지금 다 먹고 20120번째 도착완료 
  그리고 총 보상은 : 16.20000000000001 
지금 다 먹고 20121번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 50572/300000 [2:43:06<14:23:09,  4.82it/s]

지금 다 먹고 20122번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 20123번째 도착완료 
  그리고 총 보상은 : 23.1 


 17%|█▋        | 50574/300000 [2:43:06<14:11:08,  4.88it/s]

지금 다 먹고 20124번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 
지금 다 먹고 20125번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50576/300000 [2:43:06<13:23:06,  5.18it/s]

지금 다 먹고 20126번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50578/300000 [2:43:07<14:06:43,  4.91it/s]

지금 다 먹고 20127번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 20128번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50582/300000 [2:43:08<14:51:38,  4.66it/s]

지금 다 먹고 20129번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50584/300000 [2:43:08<15:17:18,  4.53it/s]

지금 다 먹고 20130번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 


 17%|█▋        | 50589/300000 [2:43:09<16:52:58,  4.10it/s]

지금 다 먹고 20131번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 17%|█▋        | 50593/300000 [2:43:10<16:18:24,  4.25it/s]

지금 다 먹고 20132번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50595/300000 [2:43:11<15:54:40,  4.35it/s]

지금 다 먹고 20133번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 20134번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 50597/300000 [2:43:11<15:16:36,  4.53it/s]

지금 다 먹고 20135번째 도착완료 
  그리고 총 보상은 : 14.300000000000026 


 17%|█▋        | 50599/300000 [2:43:12<15:42:04,  4.41it/s]

지금 다 먹고 20136번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 50601/300000 [2:43:12<16:39:53,  4.16it/s]

지금 다 먹고 20137번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :20.800000000000008
 end : True
 clear : True
episode :8, score = 6.550999999998992, n_buffer :100000 , eps : 24.7
지금 다 먹고 20138번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50603/300000 [2:43:13<14:42:06,  4.71it/s]

지금 다 먹고 20139번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 17%|█▋        | 50604/300000 [2:43:13<14:59:33,  4.62it/s]

지금 다 먹고 20140번째 도착완료 
  그리고 총 보상은 : 16.00000000000001 
지금 다 먹고 20141번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 50606/300000 [2:43:13<14:10:28,  4.89it/s]

지금 다 먹고 20142번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 20143번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50608/300000 [2:43:14<14:05:25,  4.92it/s]

지금 다 먹고 20144번째 도착완료 
  그리고 총 보상은 : 5.199999999999976 
지금 다 먹고 20145번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50610/300000 [2:43:14<14:05:00,  4.92it/s]

지금 다 먹고 20146번째 도착완료 
  그리고 총 보상은 : 16.000000000000014 


 17%|█▋        | 50612/300000 [2:43:15<14:31:19,  4.77it/s]

지금 다 먹고 20147번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 20148번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50614/300000 [2:43:15<13:35:14,  5.10it/s]

지금 다 먹고 20149번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 50615/300000 [2:43:15<14:22:54,  4.82it/s]

지금 다 먹고 20150번째 도착완료 
  그리고 총 보상은 : 17.10000000000002 
지금 다 먹고 20151번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 50618/300000 [2:43:16<15:22:06,  4.51it/s]

지금 다 먹고 20152번째 도착완료 
  그리고 총 보상은 : 9.500000000000004 
지금 다 먹고 20153번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50620/300000 [2:43:16<15:29:17,  4.47it/s]

지금 다 먹고 20154번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 


 17%|█▋        | 50621/300000 [2:43:17<16:10:40,  4.28it/s]

지금 다 먹고 20155번째 도착완료 
  그리고 총 보상은 : 10.900000000000027 
지금 다 먹고 20156번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50623/300000 [2:43:17<14:38:35,  4.73it/s]

지금 다 먹고 20157번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 20158번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 50625/300000 [2:43:17<14:06:04,  4.91it/s]

지금 다 먹고 20159번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 
지금 다 먹고 20160번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 17%|█▋        | 50628/300000 [2:43:18<14:36:25,  4.74it/s]

지금 다 먹고 20161번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20162번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 50630/300000 [2:43:18<13:39:43,  5.07it/s]

지금 다 먹고 20163번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 20164번째 도착완료 
  그리고 총 보상은 : 23.6 


 17%|█▋        | 50632/300000 [2:43:19<13:19:07,  5.20it/s]

지금 다 먹고 20165번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 20166번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 50635/300000 [2:43:19<14:06:29,  4.91it/s]

지금 다 먹고 20167번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 20168번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50637/300000 [2:43:20<14:49:09,  4.67it/s]

지금 다 먹고 20169번째 도착완료 
  그리고 총 보상은 : 15.800000000000018 


 17%|█▋        | 50638/300000 [2:43:20<14:49:00,  4.67it/s]

지금 다 먹고 20170번째 도착완료 
  그리고 총 보상은 : 16.900000000000013 


 17%|█▋        | 50639/300000 [2:43:20<14:53:54,  4.65it/s]

지금 다 먹고 20171번째 도착완료 
  그리고 총 보상은 : 19.100000000000012 
지금 다 먹고 20172번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 50641/300000 [2:43:21<13:53:37,  4.99it/s]

지금 다 먹고 20173번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 20174번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 50644/300000 [2:43:21<14:54:05,  4.65it/s]

지금 다 먹고 20175번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50645/300000 [2:43:22<15:47:03,  4.39it/s]

지금 다 먹고 20176번째 도착완료 
  그리고 총 보상은 : 10.299999999999997 
지금 다 먹고 20177번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50647/300000 [2:43:22<14:14:07,  4.87it/s]

지금 다 먹고 20178번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 20179번째 도착완료 
  그리고 총 보상은 : 23.1 


 17%|█▋        | 50650/300000 [2:43:23<14:52:57,  4.65it/s]

지금 다 먹고 20180번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50652/300000 [2:43:23<15:04:59,  4.59it/s]

지금 다 먹고 20181번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 20182번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50654/300000 [2:43:23<14:38:36,  4.73it/s]

지금 다 먹고 20183번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50656/300000 [2:43:24<15:16:44,  4.53it/s]

지금 다 먹고 20184번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 20185번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 50658/300000 [2:43:24<14:37:31,  4.74it/s]

지금 다 먹고 20186번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50659/300000 [2:43:24<14:07:06,  4.91it/s]

지금 다 먹고 20187번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 20188번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 50661/300000 [2:43:25<13:12:35,  5.24it/s]

지금 다 먹고 20189번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50663/300000 [2:43:25<13:50:20,  5.00it/s]

지금 다 먹고 20190번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 20191번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 50665/300000 [2:43:26<13:38:47,  5.08it/s]

지금 다 먹고 20192번째 도착완료 
  그리고 총 보상은 : 20.8 
지금 다 먹고 20193번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50667/300000 [2:43:26<12:47:05,  5.42it/s]

지금 다 먹고 20194번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 50669/300000 [2:43:27<14:31:41,  4.77it/s]

지금 다 먹고 20195번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20196번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50671/300000 [2:43:27<13:48:54,  5.01it/s]

지금 다 먹고 20197번째 도착완료 
  그리고 총 보상은 : 22.8 


 17%|█▋        | 50672/300000 [2:43:27<14:13:53,  4.87it/s]

지금 다 먹고 20198번째 도착완료 
  그리고 총 보상은 : -5.0000000000000355 
지금 다 먹고 20199번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 50674/300000 [2:43:28<14:10:10,  4.89it/s]

지금 다 먹고 20200번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 20201번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50676/300000 [2:43:28<13:03:40,  5.30it/s]

지금 다 먹고 20202번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 50678/300000 [2:43:28<14:28:37,  4.78it/s]

지금 다 먹고 20203번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50680/300000 [2:43:29<14:54:22,  4.65it/s]

지금 다 먹고 20204번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 20205번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 50682/300000 [2:43:29<13:50:12,  5.01it/s]

지금 다 먹고 20206번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 20207번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 50684/300000 [2:43:30<14:13:20,  4.87it/s]

지금 다 먹고 20208번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 17%|█▋        | 50686/300000 [2:43:30<14:35:31,  4.75it/s]

지금 다 먹고 20209번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 20210번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 50688/300000 [2:43:30<13:22:21,  5.18it/s]

지금 다 먹고 20211번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 20212번째 도착완료 
  그리고 총 보상은 : 19.300000000000008 

 17%|█▋        | 50689/300000 [2:43:31<14:00:56,  4.94it/s]


지금 다 먹고 20213번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 50691/300000 [2:43:31<13:09:58,  5.26it/s]

지금 다 먹고 20214번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 20215번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 


 17%|█▋        | 50693/300000 [2:43:31<12:57:32,  5.34it/s]

지금 다 먹고 20216번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 50694/300000 [2:43:32<14:16:00,  4.85it/s]

지금 다 먹고 20217번째 도착완료 
  그리고 총 보상은 : 10.500000000000037 
지금 다 먹고 20218번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 50697/300000 [2:43:32<14:23:18,  4.81it/s]

지금 다 먹고 20219번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 20220번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50699/300000 [2:43:33<13:02:15,  5.31it/s]

지금 다 먹고 20221번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 20222번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 50701/300000 [2:43:33<12:39:53,  5.47it/s]

지금 다 먹고 20223번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.400000000000006
 end : True
 clear : True
episode :6, score = 16.293000000001204, n_buffer :100000 , eps : 24.65


 17%|█▋        | 50703/300000 [2:43:33<13:43:02,  5.05it/s]

지금 다 먹고 20224번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 20225번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 50705/300000 [2:43:34<13:26:18,  5.15it/s]

지금 다 먹고 20226번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 
지금 다 먹고 20227번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 50707/300000 [2:43:34<13:30:57,  5.12it/s]

지금 다 먹고 20228번째 도착완료 
  그리고 총 보상은 : 16.90000000000002 


 17%|█▋        | 50708/300000 [2:43:34<13:57:18,  4.96it/s]

지금 다 먹고 20229번째 도착완료 
  그리고 총 보상은 : 15.700000000000017 
지금 다 먹고 20230번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 50710/300000 [2:43:35<13:10:38,  5.26it/s]

지금 다 먹고 20231번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 20232번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 50712/300000 [2:43:35<13:02:05,  5.31it/s]

지금 다 먹고 20233번째 도착완료 
  그리고 총 보상은 : 28.0 


 17%|█▋        | 50714/300000 [2:43:36<13:49:04,  5.01it/s]

지금 다 먹고 20234번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 20235번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 50716/300000 [2:43:36<13:30:48,  5.12it/s]

지금 다 먹고 20236번째 도착완료 
  그리고 총 보상은 : 14.200000000000005 
지금 다 먹고 20237번째 도착완료 
  그리고 총 보상은 : 21.3 


 17%|█▋        | 50718/300000 [2:43:36<13:20:49,  5.19it/s]

지금 다 먹고 20238번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 17%|█▋        | 50720/300000 [2:43:37<14:56:03,  4.64it/s]

지금 다 먹고 20239번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 
지금 다 먹고 20240번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 50722/300000 [2:43:37<13:16:12,  5.22it/s]

지금 다 먹고 20241번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 20242번째 도착완료 
  그리고 총 보상은 : 24.6 


 17%|█▋        | 50724/300000 [2:43:37<13:40:46,  5.06it/s]

지금 다 먹고 20243번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 50725/300000 [2:43:38<14:28:49,  4.78it/s]

지금 다 먹고 20244번째 도착완료 
  그리고 총 보상은 : 18.500000000000014 
지금 다 먹고 20245번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 50727/300000 [2:43:38<13:50:19,  5.00it/s]

지금 다 먹고 20246번째 도착완료 
  그리고 총 보상은 : 21.5 


 17%|█▋        | 50729/300000 [2:43:39<14:42:17,  4.71it/s]

지금 다 먹고 20247번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 50731/300000 [2:43:39<15:26:18,  4.49it/s]

지금 다 먹고 20248번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 20249번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50733/300000 [2:43:39<13:41:03,  5.06it/s]

지금 다 먹고 20250번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 20251번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 50735/300000 [2:43:40<13:15:33,  5.22it/s]

지금 다 먹고 20252번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 50737/300000 [2:43:40<14:23:28,  4.81it/s]

지금 다 먹고 20253번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 20254번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 50739/300000 [2:43:41<13:17:53,  5.21it/s]

지금 다 먹고 20255번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 20256번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 17%|█▋        | 50741/300000 [2:43:41<13:20:49,  5.19it/s]

지금 다 먹고 20257번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 50742/300000 [2:43:41<13:47:11,  5.02it/s]

지금 다 먹고 20258번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50743/300000 [2:43:41<14:11:16,  4.88it/s]

지금 다 먹고 20259번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 


 17%|█▋        | 50744/300000 [2:43:42<14:01:03,  4.94it/s]

지금 다 먹고 20260번째 도착완료 
  그리고 총 보상은 : 14.200000000000005 
지금 다 먹고 20261번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 17%|█▋        | 50746/300000 [2:43:42<13:27:15,  5.15it/s]

지금 다 먹고 20262번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50748/300000 [2:43:42<15:07:01,  4.58it/s]

지금 다 먹고 20263번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 
지금 다 먹고 20264번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 50750/300000 [2:43:43<13:38:13,  5.08it/s]

지금 다 먹고 20265번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 20266번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 50752/300000 [2:43:43<13:02:43,  5.31it/s]

지금 다 먹고 20267번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50754/300000 [2:43:44<14:58:43,  4.62it/s]

지금 다 먹고 20268번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 20269번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 50756/300000 [2:43:44<13:45:09,  5.03it/s]

지금 다 먹고 20270번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 20271번째 도착완료 
  그리고 총 보상은 : 23.5 


 17%|█▋        | 50758/300000 [2:43:44<13:22:07,  5.18it/s]

지금 다 먹고 20272번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20273번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50760/300000 [2:43:45<13:02:24,  5.31it/s]

지금 다 먹고 20274번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 20275번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 50762/300000 [2:43:45<12:54:57,  5.36it/s]

지금 다 먹고 20276번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 20277번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 50765/300000 [2:43:46<14:15:02,  4.86it/s]

지금 다 먹고 20278번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 20279번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50767/300000 [2:43:46<13:43:31,  5.04it/s]

지금 다 먹고 20280번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 20281번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 17%|█▋        | 50769/300000 [2:43:47<13:36:20,  5.09it/s]

지금 다 먹고 20282번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50771/300000 [2:43:47<14:42:42,  4.71it/s]

지금 다 먹고 20283번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 
지금 다 먹고 20284번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 50773/300000 [2:43:47<14:03:27,  4.92it/s]

지금 다 먹고 20285번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 17%|█▋        | 50774/300000 [2:43:48<14:38:36,  4.73it/s]

지금 다 먹고 20286번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 50775/300000 [2:43:48<14:26:46,  4.79it/s]

지금 다 먹고 20287번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 20288번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 50777/300000 [2:43:48<13:26:10,  5.15it/s]

지금 다 먹고 20289번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 20290번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 50779/300000 [2:43:49<13:31:06,  5.12it/s]

지금 다 먹고 20291번째 도착완료 
  그리고 총 보상은 : 24.1 


 17%|█▋        | 50782/300000 [2:43:49<15:18:31,  4.52it/s]

지금 다 먹고 20292번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 17%|█▋        | 50783/300000 [2:43:50<14:30:55,  4.77it/s]

지금 다 먹고 20293번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 20294번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50785/300000 [2:43:50<13:51:11,  5.00it/s]

지금 다 먹고 20295번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 20296번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50788/300000 [2:43:51<14:40:45,  4.72it/s]

지금 다 먹고 20297번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 20298번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50790/300000 [2:43:51<13:39:44,  5.07it/s]

지금 다 먹고 20299번째 도착완료 
  그리고 총 보상은 : 23.3 
지금 다 먹고 20300번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 50792/300000 [2:43:51<13:11:19,  5.25it/s]

지금 다 먹고 20301번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20302번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 17%|█▋        | 50794/300000 [2:43:52<13:05:23,  5.29it/s]

지금 다 먹고 20303번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 20304번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 50796/300000 [2:43:52<12:46:52,  5.42it/s]

지금 다 먹고 20305번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 50799/300000 [2:43:53<14:33:01,  4.76it/s]

지금 다 먹고 20306번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 20307번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 17%|█▋        | 50801/300000 [2:43:53<14:39:30,  4.72it/s]

지금 다 먹고 20308번째 도착완료 
  그리고 총 보상은 : 11.800000000000027 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :11.800000000000027
 end : True
 clear : True
episode :4, score = 16.538000000001794, n_buffer :100000 , eps : 24.6
지금 다 먹고 20309번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50803/300000 [2:43:54<14:06:49,  4.90it/s]

지금 다 먹고 20310번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50805/300000 [2:43:54<14:45:55,  4.69it/s]

지금 다 먹고 20311번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50806/300000 [2:43:54<14:29:13,  4.78it/s]

지금 다 먹고 20312번째 도착완료 
  그리고 총 보상은 : 9.60000000000002 
지금 다 먹고 20313번째 도착완료 
  그리고 총 보상은 : 6.5999999999999925 


 17%|█▋        | 50808/300000 [2:43:55<15:02:08,  4.60it/s]

지금 다 먹고 20314번째 도착완료 
  그리고 총 보상은 : 3.3000000000000007 
지금 다 먹고 20315번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 50810/300000 [2:43:55<13:55:20,  4.97it/s]

지금 다 먹고 20316번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 
지금 다 먹고 20317번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 50812/300000 [2:43:55<13:27:02,  5.15it/s]

지금 다 먹고 20318번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50813/300000 [2:43:56<14:10:03,  4.89it/s]

지금 다 먹고 20319번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 


 17%|█▋        | 50816/300000 [2:43:56<15:06:47,  4.58it/s]

지금 다 먹고 20320번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 20321번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50818/300000 [2:43:57<13:48:06,  5.02it/s]

지금 다 먹고 20322번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 50822/300000 [2:43:58<15:55:10,  4.35it/s]

지금 다 먹고 20323번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 20324번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 17%|█▋        | 50824/300000 [2:43:58<14:17:04,  4.85it/s]

지금 다 먹고 20325번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 50826/300000 [2:43:59<15:02:42,  4.60it/s]

지금 다 먹고 20326번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 50827/300000 [2:43:59<15:45:52,  4.39it/s]

지금 다 먹고 20327번째 도착완료 
  그리고 총 보상은 : 11.000000000000043 
지금 다 먹고 20328번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 50829/300000 [2:43:59<13:44:26,  5.04it/s]

지금 다 먹고 20329번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20330번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 50831/300000 [2:44:00<13:15:11,  5.22it/s]

지금 다 먹고 20331번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 50833/300000 [2:44:00<14:26:58,  4.79it/s]

지금 다 먹고 20332번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 50834/300000 [2:44:00<14:48:10,  4.68it/s]

지금 다 먹고 20333번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 50835/300000 [2:44:00<15:02:40,  4.60it/s]

지금 다 먹고 20334번째 도착완료 
  그리고 총 보상은 : 18.500000000000014 
지금 다 먹고 20335번째 도착완료 
  그리고 총 보상은 : 18.700000000000006 


 17%|█▋        | 50837/300000 [2:44:01<14:20:23,  4.83it/s]

지금 다 먹고 20336번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 17%|█▋        | 50839/300000 [2:44:01<14:50:00,  4.67it/s]

지금 다 먹고 20337번째 도착완료 
  그리고 총 보상은 : 22.3 
지금 다 먹고 20338번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 50841/300000 [2:44:02<13:34:19,  5.10it/s]

지금 다 먹고 20339번째 도착완료 
  그리고 총 보상은 : 25.1 


 17%|█▋        | 50842/300000 [2:44:02<14:18:18,  4.84it/s]

지금 다 먹고 20340번째 도착완료 
  그리고 총 보상은 : 3.7000000000000206 
지금 다 먹고 20341번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 

 17%|█▋        | 50843/300000 [2:44:02<14:09:03,  4.89it/s]


지금 다 먹고 20342번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 


 17%|█▋        | 50845/300000 [2:44:03<13:25:58,  5.15it/s]

지금 다 먹고 20343번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 20344번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 50848/300000 [2:44:03<13:42:42,  5.05it/s]

지금 다 먹고 20345번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 50849/300000 [2:44:03<13:51:25,  4.99it/s]

지금 다 먹고 20346번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 
지금 다 먹고 20347번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50851/300000 [2:44:04<13:00:46,  5.32it/s]

지금 다 먹고 20348번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 20349번째 도착완료 
  그리고 총 보상은 : 13.600000000000009 


 17%|█▋        | 50853/300000 [2:44:04<13:55:13,  4.97it/s]

지금 다 먹고 20350번째 도착완료 
  그리고 총 보상은 : -2.4000000000000767 


 17%|█▋        | 50856/300000 [2:44:05<15:09:05,  4.57it/s]

지금 다 먹고 20351번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 20352번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50858/300000 [2:44:05<13:26:34,  5.15it/s]

지금 다 먹고 20353번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20354번째 도착완료 
  그리고 총 보상은 : 9.800000000000008 


 17%|█▋        | 50860/300000 [2:44:06<13:20:15,  5.19it/s]

지금 다 먹고 20355번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 20356번째 도착완료 
  그리고 총 보상은 : 22.0 


 17%|█▋        | 50862/300000 [2:44:06<13:06:36,  5.28it/s]

지금 다 먹고 20357번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 20358번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50864/300000 [2:44:06<12:56:32,  5.35it/s]

지금 다 먹고 20359번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 20360번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 17%|█▋        | 50867/300000 [2:44:07<14:14:54,  4.86it/s]

지금 다 먹고 20361번째 도착완료 
  그리고 총 보상은 : 23.400000000000016 
지금 다 먹고 20362번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 17%|█▋        | 50869/300000 [2:44:07<14:00:52,  4.94it/s]

지금 다 먹고 20363번째 도착완료 
  그리고 총 보상은 : 19.200000000000014 
지금 다 먹고 20364번째 도착완료 
  그리고 총 보상은 : 22.8 


 17%|█▋        | 50873/300000 [2:44:08<15:14:55,  4.54it/s]

지금 다 먹고 20365번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 20366번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50875/300000 [2:44:09<13:45:45,  5.03it/s]

지금 다 먹고 20367번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 20368번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 50877/300000 [2:44:09<13:06:38,  5.28it/s]

지금 다 먹고 20369번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 20370번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 17%|█▋        | 50879/300000 [2:44:09<12:50:22,  5.39it/s]

지금 다 먹고 20371번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 20372번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50881/300000 [2:44:10<12:16:23,  5.64it/s]

지금 다 먹고 20373번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 20374번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 50884/300000 [2:44:10<13:27:54,  5.14it/s]

지금 다 먹고 20375번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 20376번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50886/300000 [2:44:11<13:03:51,  5.30it/s]

지금 다 먹고 20377번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 
지금 다 먹고 20378번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 17%|█▋        | 50890/300000 [2:44:12<17:26:10,  3.97it/s]

지금 다 먹고 20379번째 도착완료 
  그리고 총 보상은 : 8.799999999999994 
지금 다 먹고 20380번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 

 17%|█▋        | 50891/300000 [2:44:12<16:32:24,  4.18it/s]




 17%|█▋        | 50892/300000 [2:44:12<15:34:19,  4.44it/s]

지금 다 먹고 20381번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 50894/300000 [2:44:13<15:18:26,  4.52it/s]

지금 다 먹고 20382번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 20383번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 50896/300000 [2:44:13<13:38:23,  5.07it/s]

지금 다 먹고 20384번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 20385번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 17%|█▋        | 50898/300000 [2:44:13<13:37:24,  5.08it/s]

지금 다 먹고 20386번째 도착완료 
  그리고 총 보상은 : 17.9 
지금 다 먹고 20387번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 50901/300000 [2:44:14<13:56:56,  4.96it/s]

지금 다 먹고 20388번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.200000000000003
 end : True
 clear : True
episode :2, score = 12.188000000000507, n_buffer :100000 , eps : 24.55
지금 다 먹고 20389번째 도착완료 
  그리고 총 보상은 : 16.2 


 17%|█▋        | 50903/300000 [2:44:14<13:54:14,  4.98it/s]

지금 다 먹고 20390번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 17%|█▋        | 50907/300000 [2:44:15<15:34:50,  4.44it/s]

지금 다 먹고 20391번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 20392번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 50909/300000 [2:44:16<13:57:45,  4.96it/s]

지금 다 먹고 20393번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 20394번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50911/300000 [2:44:16<13:01:31,  5.31it/s]

지금 다 먹고 20395번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50912/300000 [2:44:16<13:24:26,  5.16it/s]

지금 다 먹고 20396번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 
지금 다 먹고 20397번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 50914/300000 [2:44:17<13:06:39,  5.28it/s]

지금 다 먹고 20398번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 20399번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 50916/300000 [2:44:17<12:57:51,  5.34it/s]

지금 다 먹고 20400번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 50918/300000 [2:44:17<14:30:56,  4.77it/s]

지금 다 먹고 20401번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 20402번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 50920/300000 [2:44:18<13:43:39,  5.04it/s]

지금 다 먹고 20403번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50921/300000 [2:44:18<14:29:48,  4.77it/s]

지금 다 먹고 20404번째 도착완료 
  그리고 총 보상은 : 12.300000000000027 
지금 다 먹고 20405번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 50924/300000 [2:44:19<15:08:02,  4.57it/s]

지금 다 먹고 20406번째 도착완료 
  그리고 총 보상은 : 1.7999999999999865 
지금 다 먹고 20407번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 17%|█▋        | 50926/300000 [2:44:19<13:30:32,  5.12it/s]

지금 다 먹고 20408번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 20409번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 50928/300000 [2:44:19<13:18:12,  5.20it/s]

지금 다 먹고 20410번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 20411번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 50930/300000 [2:44:20<12:49:09,  5.40it/s]

지금 다 먹고 20412번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20413번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 17%|█▋        | 50932/300000 [2:44:20<12:41:47,  5.45it/s]

지금 다 먹고 20414번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 50935/300000 [2:44:21<14:24:00,  4.80it/s]

지금 다 먹고 20415번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 20416번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50937/300000 [2:44:21<13:04:06,  5.29it/s]

지금 다 먹고 20417번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 20418번째 도착완료 
  그리고 총 보상은 : 18.100000000000012 

 17%|█▋        | 50938/300000 [2:44:21<13:26:11,  5.15it/s]


지금 다 먹고 20419번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 50941/300000 [2:44:22<14:31:34,  4.76it/s]

지금 다 먹고 20420번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 20421번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 50943/300000 [2:44:22<13:14:41,  5.22it/s]

지금 다 먹고 20422번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 20423번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50945/300000 [2:44:23<12:23:32,  5.58it/s]

지금 다 먹고 20424번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 20425번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 50947/300000 [2:44:23<12:05:43,  5.72it/s]

지금 다 먹고 20426번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 20427번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50950/300000 [2:44:24<13:10:34,  5.25it/s]

지금 다 먹고 20428번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 50952/300000 [2:44:24<13:42:39,  5.05it/s]

지금 다 먹고 20429번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 20430번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50954/300000 [2:44:24<12:58:04,  5.33it/s]

지금 다 먹고 20431번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 50956/300000 [2:44:25<13:59:14,  4.95it/s]

지금 다 먹고 20432번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50958/300000 [2:44:25<14:35:24,  4.74it/s]

지금 다 먹고 20433번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 20434번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50960/300000 [2:44:26<13:13:05,  5.23it/s]

지금 다 먹고 20435번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 20436번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 50962/300000 [2:44:26<12:39:21,  5.47it/s]

지금 다 먹고 20437번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20438번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 50964/300000 [2:44:26<12:22:53,  5.59it/s]

지금 다 먹고 20439번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 20440번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 50966/300000 [2:44:27<12:06:46,  5.71it/s]

지금 다 먹고 20441번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 20442번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 50968/300000 [2:44:27<13:45:20,  5.03it/s]

지금 다 먹고 20443번째 도착완료 
  그리고 총 보상은 : 10.600000000000026 
지금 다 먹고 20444번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 50971/300000 [2:44:28<14:14:40,  4.86it/s]

지금 다 먹고 20445번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 50973/300000 [2:44:28<14:36:04,  4.74it/s]

지금 다 먹고 20446번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 50975/300000 [2:44:29<15:05:06,  4.59it/s]

지금 다 먹고 20447번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 20448번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 50977/300000 [2:44:29<13:41:16,  5.05it/s]

지금 다 먹고 20449번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 20450번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 50979/300000 [2:44:29<12:56:30,  5.34it/s]

지금 다 먹고 20451번째 도착완료 
  그리고 총 보상은 : 25.5 


 17%|█▋        | 50980/300000 [2:44:30<13:46:50,  5.02it/s]

지금 다 먹고 20452번째 도착완료 
  그리고 총 보상은 : 13.700000000000022 
지금 다 먹고 20453번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 17%|█▋        | 50982/300000 [2:44:30<13:12:56,  5.23it/s]

지금 다 먹고 20454번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 20455번째 도착완료 
  그리고 총 보상은 : 20.4 


 17%|█▋        | 50984/300000 [2:44:30<13:15:48,  5.22it/s]

지금 다 먹고 20456번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50986/300000 [2:44:31<14:24:15,  4.80it/s]

지금 다 먹고 20457번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 20458번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 50988/300000 [2:44:31<13:28:06,  5.14it/s]

지금 다 먹고 20459번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 50989/300000 [2:44:31<14:09:39,  4.88it/s]

지금 다 먹고 20460번째 도착완료 
  그리고 총 보상은 : 17.70000000000001 
지금 다 먹고 20461번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 50992/300000 [2:44:32<14:20:28,  4.82it/s]

지금 다 먹고 20462번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 20463번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 50994/300000 [2:44:32<13:42:04,  5.05it/s]

지금 다 먹고 20464번째 도착완료 
  그리고 총 보상은 : 24.1 


 17%|█▋        | 50996/300000 [2:44:33<14:14:46,  4.86it/s]

지금 다 먹고 20465번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 20466번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 50998/300000 [2:44:33<13:12:45,  5.23it/s]

지금 다 먹고 20467번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 20468번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51000/300000 [2:44:34<12:46:33,  5.41it/s]

지금 다 먹고 20469번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 20470번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 51001/300000 [2:44:34<12:58:06,  5.33it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.900000000000002
 end : True
 clear : True
episode :0, score = 14.860000000000518, n_buffer :100000 , eps : 24.5


 17%|█▋        | 51003/300000 [2:44:34<14:01:24,  4.93it/s]

지금 다 먹고 20471번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 20472번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51005/300000 [2:44:35<13:34:02,  5.10it/s]

지금 다 먹고 20473번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 20474번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 51007/300000 [2:44:35<12:45:17,  5.42it/s]

지금 다 먹고 20475번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51009/300000 [2:44:36<14:59:02,  4.62it/s]

지금 다 먹고 20476번째 도착완료 
  그리고 총 보상은 : 17.100000000000016 
지금 다 먹고 20477번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51011/300000 [2:44:36<13:32:47,  5.11it/s]

지금 다 먹고 20478번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 20479번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 17%|█▋        | 51013/300000 [2:44:36<13:19:37,  5.19it/s]

지금 다 먹고 20480번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 20481번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 17%|█▋        | 51015/300000 [2:44:37<13:12:46,  5.23it/s]

지금 다 먹고 20482번째 도착완료 
  그리고 총 보상은 : 24.0 
지금 다 먹고 20483번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 17%|█▋        | 51017/300000 [2:44:37<14:04:06,  4.92it/s]

지금 다 먹고 20484번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 
지금 다 먹고 20485번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 51020/300000 [2:44:38<14:41:05,  4.71it/s]

지금 다 먹고 20486번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20487번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 51022/300000 [2:44:38<13:36:43,  5.08it/s]

지금 다 먹고 20488번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 20489번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 17%|█▋        | 51024/300000 [2:44:38<13:21:11,  5.18it/s]

지금 다 먹고 20490번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 17%|█▋        | 51026/300000 [2:44:39<14:22:06,  4.81it/s]

지금 다 먹고 20491번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51027/300000 [2:44:39<14:45:26,  4.69it/s]

지금 다 먹고 20492번째 도착완료 
  그리고 총 보상은 : 13.500000000000025 
지금 다 먹고 20493번째 도착완료 
  그리고 총 보상은 : 16.1 


 17%|█▋        | 51032/300000 [2:44:40<16:20:36,  4.23it/s]

지금 다 먹고 20494번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 17%|█▋        | 51034/300000 [2:44:41<15:47:24,  4.38it/s]

지금 다 먹고 20495번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51037/300000 [2:44:42<16:24:31,  4.21it/s]

지금 다 먹고 20496번째 도착완료 
  그리고 총 보상은 : 22.2 
지금 다 먹고 20497번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 51039/300000 [2:44:42<14:50:07,  4.66it/s]

지금 다 먹고 20498번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 
지금 다 먹고 20499번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 51041/300000 [2:44:42<13:27:00,  5.14it/s]

지금 다 먹고 20500번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51043/300000 [2:44:43<14:22:36,  4.81it/s]

지금 다 먹고 20501번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 20502번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 51045/300000 [2:44:43<13:55:46,  4.96it/s]

지금 다 먹고 20503번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 20504번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 17%|█▋        | 51047/300000 [2:44:44<13:49:23,  5.00it/s]

지금 다 먹고 20505번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51048/300000 [2:44:44<13:44:38,  5.03it/s]

지금 다 먹고 20506번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 51049/300000 [2:44:44<13:56:42,  4.96it/s]

지금 다 먹고 20507번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 20508번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 51051/300000 [2:44:44<13:18:32,  5.20it/s]

지금 다 먹고 20509번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20510번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 51054/300000 [2:44:45<14:18:33,  4.83it/s]

지금 다 먹고 20511번째 도착완료 
  그리고 총 보상은 : 13.800000000000006 


 17%|█▋        | 51056/300000 [2:44:45<14:39:37,  4.72it/s]

지금 다 먹고 20512번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 20513번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51058/300000 [2:44:46<13:30:48,  5.12it/s]

지금 다 먹고 20514번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 51060/300000 [2:44:46<14:31:08,  4.76it/s]

지금 다 먹고 20515번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 20516번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51062/300000 [2:44:47<13:16:23,  5.21it/s]

지금 다 먹고 20517번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 51063/300000 [2:44:47<13:48:14,  5.01it/s]

지금 다 먹고 20518번째 도착완료 
  그리고 총 보상은 : 20.1 
지금 다 먹고 20519번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51065/300000 [2:44:47<13:12:58,  5.23it/s]

지금 다 먹고 20520번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 20521번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51067/300000 [2:44:48<13:37:46,  5.07it/s]

지금 다 먹고 20522번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 51068/300000 [2:44:48<13:28:45,  5.13it/s]

지금 다 먹고 20523번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 20524번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 51071/300000 [2:44:48<13:41:58,  5.05it/s]

지금 다 먹고 20525번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 20526번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51073/300000 [2:44:49<14:12:49,  4.86it/s]

지금 다 먹고 20527번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20528번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51075/300000 [2:44:49<13:07:37,  5.27it/s]

지금 다 먹고 20529번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51077/300000 [2:44:50<14:35:15,  4.74it/s]

지금 다 먹고 20530번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 20531번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51079/300000 [2:44:50<13:57:47,  4.95it/s]

지금 다 먹고 20532번째 도착완료 
  그리고 총 보상은 : 8.200000000000001 
지금 다 먹고 20533번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51081/300000 [2:44:50<13:30:42,  5.12it/s]

지금 다 먹고 20534번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51082/300000 [2:44:51<14:13:15,  4.86it/s]

지금 다 먹고 20535번째 도착완료 
  그리고 총 보상은 : 13.500000000000023 
지금 다 먹고 20536번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51084/300000 [2:44:51<13:07:14,  5.27it/s]

지금 다 먹고 20537번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 51086/300000 [2:44:51<13:43:55,  5.04it/s]

지금 다 먹고 20538번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 51088/300000 [2:44:52<14:39:45,  4.72it/s]

지금 다 먹고 20539번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 20540번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51090/300000 [2:44:52<13:38:10,  5.07it/s]

지금 다 먹고 20541번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 20542번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51092/300000 [2:44:53<13:20:55,  5.18it/s]

지금 다 먹고 20543번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51094/300000 [2:44:53<14:36:27,  4.73it/s]

지금 다 먹고 20544번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 
지금 다 먹고 20545번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51096/300000 [2:44:53<13:32:21,  5.11it/s]

지금 다 먹고 20546번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51097/300000 [2:44:54<14:14:37,  4.85it/s]

지금 다 먹고 20547번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 


 17%|█▋        | 51098/300000 [2:44:54<14:10:35,  4.88it/s]

지금 다 먹고 20548번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 20549번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51100/300000 [2:44:54<14:22:17,  4.81it/s]

지금 다 먹고 20550번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 20551번째 도착완료 
  그리고 총 보상은 : 24.0 


 17%|█▋        | 51102/300000 [2:44:55<13:54:08,  4.97it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.0
 end : True
 clear : True
episode :15, score = 14.145000000000259, n_buffer :100000 , eps : 24.45
지금 다 먹고 20552번째 도착완료 
  그리고 총 보상은 : 21.6 


 17%|█▋        | 51103/300000 [2:44:55<13:22:58,  5.17it/s]

지금 다 먹고 20553번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51105/300000 [2:44:55<14:17:11,  4.84it/s]

지금 다 먹고 20554번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 20555번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51107/300000 [2:44:56<14:08:15,  4.89it/s]

지금 다 먹고 20556번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 20557번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51109/300000 [2:44:56<13:18:06,  5.20it/s]

지금 다 먹고 20558번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 51111/300000 [2:44:57<14:19:59,  4.82it/s]

지금 다 먹고 20559번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 51113/300000 [2:44:57<14:41:23,  4.71it/s]

지금 다 먹고 20560번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 20561번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 


 17%|█▋        | 51115/300000 [2:44:57<14:05:08,  4.91it/s]

지금 다 먹고 20562번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51116/300000 [2:44:58<15:32:50,  4.45it/s]

지금 다 먹고 20563번째 도착완료 
  그리고 총 보상은 : 10.600000000000016 


 17%|█▋        | 51117/300000 [2:44:58<14:52:16,  4.65it/s]

지금 다 먹고 20564번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 20565번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 51119/300000 [2:44:58<13:56:05,  4.96it/s]

지금 다 먹고 20566번째 도착완료 
  그리고 총 보상은 : 19.400000000000002 
지금 다 먹고 20567번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 17%|█▋        | 51122/300000 [2:44:59<14:17:58,  4.83it/s]

지금 다 먹고 20568번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 20569번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51125/300000 [2:45:00<14:19:20,  4.83it/s]

지금 다 먹고 20570번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20571번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51128/300000 [2:45:00<14:05:49,  4.90it/s]

지금 다 먹고 20572번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 20573번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51130/300000 [2:45:00<13:21:36,  5.17it/s]

지금 다 먹고 20574번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 17%|█▋        | 51131/300000 [2:45:01<13:46:32,  5.02it/s]

지금 다 먹고 20575번째 도착완료 
  그리고 총 보상은 : 2.099999999999973 
지금 다 먹고 20576번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51133/300000 [2:45:01<13:32:46,  5.10it/s]

지금 다 먹고 20577번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 
지금 다 먹고 20578번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 51135/300000 [2:45:01<13:14:19,  5.22it/s]

지금 다 먹고 20579번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51136/300000 [2:45:02<13:25:46,  5.15it/s]

지금 다 먹고 20580번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 20581번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 51139/300000 [2:45:02<13:46:39,  5.02it/s]

지금 다 먹고 20582번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20583번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51141/300000 [2:45:03<13:03:45,  5.29it/s]

지금 다 먹고 20584번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 20585번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 51143/300000 [2:45:03<12:42:23,  5.44it/s]

지금 다 먹고 20586번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51145/300000 [2:45:03<14:44:03,  4.69it/s]

지금 다 먹고 20587번째 도착완료 
  그리고 총 보상은 : -0.9000000000000519 
지금 다 먹고 20588번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51147/300000 [2:45:04<14:00:14,  4.94it/s]

지금 다 먹고 20589번째 도착완료 
  그리고 총 보상은 : 17.900000000000013 
지금 다 먹고 20590번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51149/300000 [2:45:04<13:03:38,  5.29it/s]

지금 다 먹고 20591번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 20592번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51151/300000 [2:45:05<12:32:53,  5.51it/s]

지금 다 먹고 20593번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 20594번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51153/300000 [2:45:05<12:20:59,  5.60it/s]

지금 다 먹고 20595번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 20596번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51156/300000 [2:45:06<13:24:25,  5.16it/s]

지금 다 먹고 20597번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 20598번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 51158/300000 [2:45:06<13:17:36,  5.20it/s]

지금 다 먹고 20599번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 51159/300000 [2:45:06<15:04:10,  4.59it/s]

지금 다 먹고 20600번째 도착완료 
  그리고 총 보상은 : 2.999999999999943 
지금 다 먹고 20601번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 51162/300000 [2:45:07<14:21:36,  4.81it/s]

지금 다 먹고 20602번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 20603번째 도착완료 
  그리고 총 보상은 : 27.0 


 17%|█▋        | 51164/300000 [2:45:07<13:10:44,  5.24it/s]

지금 다 먹고 20604번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20605번째 도착완료 
  그리고 총 보상은 : 22.3 


 17%|█▋        | 51166/300000 [2:45:08<13:24:48,  5.15it/s]

지금 다 먹고 20606번째 도착완료 
  그리고 총 보상은 : 17.500000000000004 
지금 다 먹고 20607번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 17%|█▋        | 51168/300000 [2:45:08<13:27:53,  5.13it/s]

지금 다 먹고 20608번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 20609번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51170/300000 [2:45:08<13:10:27,  5.25it/s]

지금 다 먹고 20610번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 20611번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51173/300000 [2:45:09<14:45:43,  4.68it/s]

지금 다 먹고 20612번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 20613번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51175/300000 [2:45:09<14:50:05,  4.66it/s]

지금 다 먹고 20614번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 17%|█▋        | 51176/300000 [2:45:10<14:20:07,  4.82it/s]

지금 다 먹고 20615번째 도착완료 
  그리고 총 보상은 : 13.900000000000006 
지금 다 먹고 20616번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51179/300000 [2:45:10<16:13:36,  4.26it/s]

지금 다 먹고 20617번째 도착완료 
  그리고 총 보상은 : 20.100000000000012 


 17%|█▋        | 51180/300000 [2:45:11<15:47:31,  4.38it/s]

지금 다 먹고 20618번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51181/300000 [2:45:11<14:46:17,  4.68it/s]

지금 다 먹고 20619번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 20620번째 도착완료 
  그리고 총 보상은 : 22.8 


 17%|█▋        | 51183/300000 [2:45:11<14:45:48,  4.68it/s]

지금 다 먹고 20621번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51184/300000 [2:45:11<15:00:07,  4.61it/s]

지금 다 먹고 20622번째 도착완료 
  그리고 총 보상은 : 19.000000000000007 
지금 다 먹고 20623번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 

 17%|█▋        | 51185/300000 [2:45:12<14:45:09,  4.68it/s]


지금 다 먹고 20624번째 도착완료 
  그리고 총 보상은 : 24.1 


 17%|█▋        | 51187/300000 [2:45:12<14:36:25,  4.73it/s]

지금 다 먹고 20625번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 51188/300000 [2:45:12<14:12:02,  4.87it/s]

지금 다 먹고 20626번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 51190/300000 [2:45:13<15:10:16,  4.56it/s]

지금 다 먹고 20627번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 20628번째 도착완료 
  그리고 총 보상은 : 22.3 


 17%|█▋        | 51192/300000 [2:45:13<13:58:10,  4.95it/s]

지금 다 먹고 20629번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 20630번째 도착완료 
  그리고 총 보상은 : 4.799999999999997 


 17%|█▋        | 51194/300000 [2:45:13<13:32:11,  5.11it/s]

지금 다 먹고 20631번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51196/300000 [2:45:14<16:39:54,  4.15it/s]

지금 다 먹고 20632번째 도착완료 
  그리고 총 보상은 : 8.699999999999982 
지금 다 먹고 20633번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 17%|█▋        | 51198/300000 [2:45:14<14:36:07,  4.73it/s]

지금 다 먹고 20634번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 20635번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 17%|█▋        | 51200/300000 [2:45:15<13:34:24,  5.09it/s]

지금 다 먹고 20636번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 20637번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 51202/300000 [2:45:15<12:56:46,  5.34it/s]

epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.000000000000007
 end : True
 clear : True
episode :13, score = 16.082000000000995, n_buffer :100000 , eps : 24.4
지금 다 먹고 20638번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 51203/300000 [2:45:15<12:55:47,  5.35it/s]

지금 다 먹고 20639번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 20640번째 도착완료 
  그리고 총 보상은 : 13.400000000000006 


 17%|█▋        | 51205/300000 [2:45:16<12:57:21,  5.33it/s]

지금 다 먹고 20641번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 17%|█▋        | 51207/300000 [2:45:16<13:56:07,  4.96it/s]

지금 다 먹고 20642번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 20643번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 51209/300000 [2:45:16<13:35:32,  5.08it/s]

지금 다 먹고 20644번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 20645번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51211/300000 [2:45:17<12:45:01,  5.42it/s]

지금 다 먹고 20646번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51213/300000 [2:45:17<13:47:21,  5.01it/s]

지금 다 먹고 20647번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 
지금 다 먹고 20648번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 51215/300000 [2:45:18<13:01:43,  5.30it/s]

지금 다 먹고 20649번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 51217/300000 [2:45:18<13:42:56,  5.04it/s]

지금 다 먹고 20650번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 20651번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51219/300000 [2:45:18<13:45:40,  5.02it/s]

지금 다 먹고 20652번째 도착완료 
  그리고 총 보상은 : 19.6 
지금 다 먹고 20653번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 51221/300000 [2:45:19<12:55:05,  5.35it/s]

지금 다 먹고 20654번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 20655번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 51224/300000 [2:45:19<13:27:15,  5.14it/s]

지금 다 먹고 20656번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 20657번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 51226/300000 [2:45:20<13:41:51,  5.04it/s]

지금 다 먹고 20658번째 도착완료 
  그리고 총 보상은 : 5.899999999999997 
지금 다 먹고 20659번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51228/300000 [2:45:20<13:13:08,  5.23it/s]

지금 다 먹고 20660번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51230/300000 [2:45:21<13:57:46,  4.95it/s]

지금 다 먹고 20661번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 51232/300000 [2:45:21<14:04:19,  4.91it/s]

지금 다 먹고 20662번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 20663번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51234/300000 [2:45:21<13:36:16,  5.08it/s]

지금 다 먹고 20664번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 20665번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 51236/300000 [2:45:22<12:58:33,  5.33it/s]

지금 다 먹고 20666번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20667번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51238/300000 [2:45:22<12:25:14,  5.56it/s]

지금 다 먹고 20668번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 20669번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 51241/300000 [2:45:23<13:34:25,  5.09it/s]

지금 다 먹고 20670번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20671번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51243/300000 [2:45:23<14:00:16,  4.93it/s]

지금 다 먹고 20672번째 도착완료 
  그리고 총 보상은 : 12.300000000000038 
지금 다 먹고 20673번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 17%|█▋        | 51245/300000 [2:45:24<13:54:29,  4.97it/s]

지금 다 먹고 20674번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51247/300000 [2:45:24<15:08:21,  4.56it/s]

지금 다 먹고 20675번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 20676번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51249/300000 [2:45:24<13:48:27,  5.00it/s]

지금 다 먹고 20677번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 20678번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 51251/300000 [2:45:25<12:57:55,  5.33it/s]

지금 다 먹고 20679번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 51252/300000 [2:45:25<13:30:25,  5.12it/s]

지금 다 먹고 20680번째 도착완료 
  그리고 총 보상은 : 9.70000000000001 
지금 다 먹고 20681번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 51254/300000 [2:45:25<12:43:08,  5.43it/s]

지금 다 먹고 20682번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 20683번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 17%|█▋        | 51256/300000 [2:45:26<12:22:56,  5.58it/s]

지금 다 먹고 20684번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 51258/300000 [2:45:26<13:29:34,  5.12it/s]

지금 다 먹고 20685번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 20686번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51260/300000 [2:45:26<12:57:41,  5.33it/s]

지금 다 먹고 20687번째 도착완료 
  그리고 총 보상은 : 23.6 


 17%|█▋        | 51262/300000 [2:45:27<13:45:12,  5.02it/s]

지금 다 먹고 20688번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 51264/300000 [2:45:27<14:34:48,  4.74it/s]

지금 다 먹고 20689번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 20690번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51266/300000 [2:45:28<13:54:22,  4.97it/s]

지금 다 먹고 20691번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20692번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51268/300000 [2:45:28<12:56:27,  5.34it/s]

지금 다 먹고 20693번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20694번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51270/300000 [2:45:28<12:34:41,  5.49it/s]

지금 다 먹고 20695번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 20696번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51272/300000 [2:45:29<12:25:01,  5.56it/s]

지금 다 먹고 20697번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 20698번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 51275/300000 [2:45:29<14:09:11,  4.88it/s]

지금 다 먹고 20699번째 도착완료 
  그리고 총 보상은 : 24.6 


 17%|█▋        | 51277/300000 [2:45:30<15:20:53,  4.50it/s]

지금 다 먹고 20700번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 20701번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51279/300000 [2:45:30<13:36:59,  5.07it/s]

지금 다 먹고 20702번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51280/300000 [2:45:31<14:07:25,  4.89it/s]

지금 다 먹고 20703번째 도착완료 
  그리고 총 보상은 : 5.100000000000014 
지금 다 먹고 20704번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 51282/300000 [2:45:31<12:59:56,  5.31it/s]

지금 다 먹고 20705번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20706번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51284/300000 [2:45:31<12:29:11,  5.53it/s]

지금 다 먹고 20707번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 20708번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 17%|█▋        | 51286/300000 [2:45:32<13:23:29,  5.16it/s]

지금 다 먹고 20709번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51287/300000 [2:45:32<13:04:34,  5.28it/s]

지금 다 먹고 20710번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 20711번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 17%|█▋        | 51289/300000 [2:45:32<13:30:55,  5.11it/s]

지금 다 먹고 20712번째 도착완료 
  그리고 총 보상은 : 23.6 


 17%|█▋        | 51290/300000 [2:45:32<13:28:23,  5.13it/s]

지금 다 먹고 20713번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51291/300000 [2:45:33<14:48:03,  4.67it/s]

지금 다 먹고 20714번째 도착완료 
  그리고 총 보상은 : 10.600000000000012 
지금 다 먹고 20715번째 도착완료 
  그리고 총 보상은 : 25.8 


 17%|█▋        | 51293/300000 [2:45:33<13:37:11,  5.07it/s]

지금 다 먹고 20716번째 도착완료 
  그리고 총 보상은 : 15.100000000000003 
지금 다 먹고 20717번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51295/300000 [2:45:33<13:29:30,  5.12it/s]

지금 다 먹고 20718번째 도착완료 
  그리고 총 보상은 : 4.599999999999991 
지금 다 먹고 20719번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 

 17%|█▋        | 51296/300000 [2:45:34<13:55:18,  4.96it/s]




 17%|█▋        | 51298/300000 [2:45:34<14:41:16,  4.70it/s]

지금 다 먹고 20720번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 20721번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51300/300000 [2:45:34<13:45:04,  5.02it/s]

지금 다 먹고 20722번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 20723번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 51301/300000 [2:45:35<14:04:40,  4.91it/s]

epi = 11
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.100000000000005
 end : True
 clear : True
episode :11, score = 17.06400000000089, n_buffer :100000 , eps : 24.349999999999998
지금 다 먹고 20724번째 도착완료 
  그리고 총 보상은 : 8.400000000000007 


 17%|█▋        | 51303/300000 [2:45:35<13:24:58,  5.15it/s]

지금 다 먹고 20725번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 20726번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 51305/300000 [2:45:35<14:03:14,  4.92it/s]

지금 다 먹고 20727번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 20728번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51307/300000 [2:45:36<13:16:31,  5.20it/s]

지금 다 먹고 20729번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51309/300000 [2:45:36<13:50:06,  4.99it/s]

지금 다 먹고 20730번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20731번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51311/300000 [2:45:37<13:16:21,  5.20it/s]

지금 다 먹고 20732번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 17%|█▋        | 51314/300000 [2:45:37<15:16:53,  4.52it/s]

지금 다 먹고 20733번째 도착완료 
  그리고 총 보상은 : 23.20000000000001 


 17%|█▋        | 51315/300000 [2:45:38<15:12:47,  4.54it/s]

지금 다 먹고 20734번째 도착완료 
  그리고 총 보상은 : 23.700000000000014 
지금 다 먹고 20735번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51317/300000 [2:45:38<14:01:19,  4.93it/s]

지금 다 먹고 20736번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 20737번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 51319/300000 [2:45:38<13:16:05,  5.21it/s]

지금 다 먹고 20738번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 20739번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 17%|█▋        | 51321/300000 [2:45:39<13:23:23,  5.16it/s]

지금 다 먹고 20740번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 51322/300000 [2:45:39<14:33:52,  4.74it/s]

지금 다 먹고 20741번째 도착완료 
  그리고 총 보상은 : 10.900000000000015 
지금 다 먹고 20742번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 51324/300000 [2:45:39<13:38:33,  5.06it/s]

지금 다 먹고 20743번째 도착완료 
  그리고 총 보상은 : 20.5 
지금 다 먹고 20744번째 도착완료 
  그리고 총 보상은 : 9.20000000000001 


 17%|█▋        | 51326/300000 [2:45:40<13:39:38,  5.06it/s]

지금 다 먹고 20745번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 20746번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51328/300000 [2:45:40<12:56:05,  5.34it/s]

지금 다 먹고 20747번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 20748번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51331/300000 [2:45:41<14:20:57,  4.81it/s]

지금 다 먹고 20749번째 도착완료 
  그리고 총 보상은 : -2.9000000000000306 
지금 다 먹고 20750번째 도착완료 
  그리고 총 보상은 : 15.799999999999999 


 17%|█▋        | 51333/300000 [2:45:41<13:25:02,  5.15it/s]

지금 다 먹고 20751번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 20752번째 도착완료 
  그리고 총 보상은 : 10.600000000000007 


 17%|█▋        | 51336/300000 [2:45:42<14:08:40,  4.88it/s]

지금 다 먹고 20753번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20754번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51338/300000 [2:45:42<13:14:10,  5.22it/s]

지금 다 먹고 20755번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20756번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51340/300000 [2:45:42<12:29:22,  5.53it/s]

지금 다 먹고 20757번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 20758번째 도착완료 
  그리고 총 보상은 : 20.6 


 17%|█▋        | 51343/300000 [2:45:43<13:30:34,  5.11it/s]

지금 다 먹고 20759번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 20760번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 51345/300000 [2:45:43<12:58:55,  5.32it/s]

지금 다 먹고 20761번째 도착완료 
  그리고 총 보상은 : 23.80000000000001 
지금 다 먹고 20762번째 도착완료 
  그리고 총 보상은 : 6.8999999999999915 


 17%|█▋        | 51347/300000 [2:45:44<13:24:29,  5.15it/s]

지금 다 먹고 20763번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51349/300000 [2:45:44<14:03:06,  4.92it/s]

지금 다 먹고 20764번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 
지금 다 먹고 20765번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 51351/300000 [2:45:45<14:13:57,  4.85it/s]

지금 다 먹고 20766번째 도착완료 
  그리고 총 보상은 : 17.60000000000001 


 17%|█▋        | 51352/300000 [2:45:45<14:06:23,  4.90it/s]

지금 다 먹고 20767번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 
지금 다 먹고 20768번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51354/300000 [2:45:45<13:16:09,  5.21it/s]

지금 다 먹고 20769번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 17%|█▋        | 51355/300000 [2:45:46<14:26:19,  4.78it/s]

지금 다 먹고 20770번째 도착완료 
  그리고 총 보상은 : 10.600000000000007 


 17%|█▋        | 51356/300000 [2:45:46<14:39:14,  4.71it/s]

지금 다 먹고 20771번째 도착완료 
  그리고 총 보상은 : 14.900000000000022 
지금 다 먹고 20772번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 


 17%|█▋        | 51359/300000 [2:45:46<15:09:35,  4.56it/s]

지금 다 먹고 20773번째 도착완료 
  그리고 총 보상은 : 8.000000000000005 
지금 다 먹고 20774번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 51361/300000 [2:45:47<13:31:04,  5.11it/s]

지금 다 먹고 20775번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 20776번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 51363/300000 [2:45:47<13:21:26,  5.17it/s]

지금 다 먹고 20777번째 도착완료 
  그리고 총 보상은 : 15.300000000000004 
지금 다 먹고 20778번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51366/300000 [2:45:48<14:18:20,  4.83it/s]

지금 다 먹고 20779번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 
지금 다 먹고 20780번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51368/300000 [2:45:48<13:20:28,  5.18it/s]

지금 다 먹고 20781번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 20782번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51370/300000 [2:45:48<12:37:29,  5.47it/s]

지금 다 먹고 20783번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 20784번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 17%|█▋        | 51372/300000 [2:45:49<13:01:45,  5.30it/s]

지금 다 먹고 20785번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 
지금 다 먹고 20786번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51374/300000 [2:45:49<12:58:18,  5.32it/s]

지금 다 먹고 20787번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 20788번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51377/300000 [2:45:50<13:27:40,  5.13it/s]

지금 다 먹고 20789번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 20790번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 51379/300000 [2:45:50<12:39:23,  5.46it/s]

지금 다 먹고 20791번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 20792번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 17%|█▋        | 51381/300000 [2:45:51<12:29:34,  5.53it/s]

지금 다 먹고 20793번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20794번째 도착완료 
  그리고 총 보상은 : 19.5 


 17%|█▋        | 51383/300000 [2:45:51<14:17:34,  4.83it/s]

지금 다 먹고 20795번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 
지금 다 먹고 20796번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 

 17%|█▋        | 51384/300000 [2:45:51<13:40:33,  5.05it/s]


지금 다 먹고 20797번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 51386/300000 [2:45:52<12:57:24,  5.33it/s]

지금 다 먹고 20798번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 20799번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 51388/300000 [2:45:52<12:33:10,  5.50it/s]

지금 다 먹고 20800번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20801번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 17%|█▋        | 51390/300000 [2:45:52<12:21:34,  5.59it/s]

지금 다 먹고 20802번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 51392/300000 [2:45:53<14:05:18,  4.90it/s]

지금 다 먹고 20803번째 도착완료 
  그리고 총 보상은 : 22.9 


 17%|█▋        | 51394/300000 [2:45:53<14:25:12,  4.79it/s]

지금 다 먹고 20804번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 20805번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51396/300000 [2:45:54<13:38:25,  5.06it/s]

지금 다 먹고 20806번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 51397/300000 [2:45:54<13:52:32,  4.98it/s]

지금 다 먹고 20807번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 
지금 다 먹고 20808번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51399/300000 [2:45:54<13:26:10,  5.14it/s]

지금 다 먹고 20809번째 도착완료 
  그리고 총 보상은 : 9.500000000000016 
지금 다 먹고 20810번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 17%|█▋        | 51401/300000 [2:45:54<12:43:34,  5.43it/s]

지금 다 먹고 20811번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.200000000000003
 end : True
 clear : True
episode :9, score = 16.985000000000774, n_buffer :100000 , eps : 24.3
지금 다 먹고 20812번째 도착완료 
  그리고 총 보상은 : 21.50000000000001 

 17%|█▋        | 51402/300000 [2:45:55<13:04:20,  5.28it/s]




 17%|█▋        | 51403/300000 [2:45:55<13:55:28,  4.96it/s]

지금 다 먹고 20813번째 도착완료 
  그리고 총 보상은 : 13.000000000000028 
지금 다 먹고 20814번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 


 17%|█▋        | 51405/300000 [2:45:55<13:24:42,  5.15it/s]

지금 다 먹고 20815번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 
지금 다 먹고 20816번째 도착완료 
  그리고 총 보상은 : 19.000000000000004 


 17%|█▋        | 51407/300000 [2:45:56<13:07:57,  5.26it/s]

지금 다 먹고 20817번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51408/300000 [2:45:56<13:32:29,  5.10it/s]

지금 다 먹고 20818번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 20819번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 51411/300000 [2:45:56<13:55:48,  4.96it/s]

지금 다 먹고 20820번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 20821번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 17%|█▋        | 51413/300000 [2:45:57<13:39:49,  5.05it/s]

지금 다 먹고 20822번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 
지금 다 먹고 20823번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51417/300000 [2:45:58<14:57:33,  4.62it/s]

지금 다 먹고 20824번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 20825번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 51419/300000 [2:45:58<13:31:00,  5.11it/s]

지금 다 먹고 20826번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 20827번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51421/300000 [2:45:58<12:44:30,  5.42it/s]

지금 다 먹고 20828번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 20829번째 도착완료 
  그리고 총 보상은 : 22.6 


 17%|█▋        | 51423/300000 [2:45:59<12:53:17,  5.36it/s]

지금 다 먹고 20830번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 
지금 다 먹고 20831번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 51425/300000 [2:45:59<12:19:43,  5.60it/s]

지금 다 먹고 20832번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 20833번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51428/300000 [2:46:00<13:21:26,  5.17it/s]

지금 다 먹고 20834번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20835번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51430/300000 [2:46:00<12:23:57,  5.57it/s]

지금 다 먹고 20836번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 51432/300000 [2:46:01<13:34:22,  5.09it/s]

지금 다 먹고 20837번째 도착완료 
  그리고 총 보상은 : 26.5 
지금 다 먹고 20838번째 도착완료 
  그리고 총 보상은 : 23.2 


 17%|█▋        | 51434/300000 [2:46:01<13:11:29,  5.23it/s]

지금 다 먹고 20839번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 20840번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51436/300000 [2:46:01<12:38:53,  5.46it/s]

지금 다 먹고 20841번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 51438/300000 [2:46:02<14:04:37,  4.90it/s]

지금 다 먹고 20842번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 20843번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 51440/300000 [2:46:02<13:09:48,  5.25it/s]

지금 다 먹고 20844번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 20845번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 51442/300000 [2:46:02<12:50:19,  5.38it/s]

지금 다 먹고 20846번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 20847번째 도착완료 
  그리고 총 보상은 : 27.0 


 17%|█▋        | 51444/300000 [2:46:03<14:15:36,  4.84it/s]

지금 다 먹고 20848번째 도착완료 
  그리고 총 보상은 : 4.200000000000003 
지금 다 먹고 20849번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 51446/300000 [2:46:03<14:00:48,  4.93it/s]

지금 다 먹고 20850번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 20851번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 51449/300000 [2:46:04<14:26:59,  4.78it/s]

지금 다 먹고 20852번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 20853번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 17%|█▋        | 51451/300000 [2:46:04<13:32:13,  5.10it/s]

지금 다 먹고 20854번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 20855번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51453/300000 [2:46:05<13:53:40,  4.97it/s]

지금 다 먹고 20856번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51455/300000 [2:46:05<15:08:34,  4.56it/s]

지금 다 먹고 20857번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 20858번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51457/300000 [2:46:06<15:11:50,  4.54it/s]

지금 다 먹고 20859번째 도착완료 
  그리고 총 보상은 : 4.099999999999982 
지금 다 먹고 20860번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 51459/300000 [2:46:06<13:30:01,  5.11it/s]

지금 다 먹고 20861번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 20862번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51461/300000 [2:46:06<13:14:50,  5.21it/s]

지금 다 먹고 20863번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 20864번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 51463/300000 [2:46:07<12:39:33,  5.45it/s]

지금 다 먹고 20865번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 20866번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 51465/300000 [2:46:07<12:22:07,  5.58it/s]

지금 다 먹고 20867번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 20868번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51467/300000 [2:46:07<12:14:40,  5.64it/s]

지금 다 먹고 20869번째 도착완료 
  그리고 총 보상은 : 17.0 
지금 다 먹고 20870번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 51469/300000 [2:46:08<12:08:33,  5.69it/s]

지금 다 먹고 20871번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20872번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51472/300000 [2:46:08<15:09:54,  4.55it/s]

지금 다 먹고 20873번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 51473/300000 [2:46:09<14:57:32,  4.61it/s]

지금 다 먹고 20874번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 
지금 다 먹고 20875번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51475/300000 [2:46:09<13:45:51,  5.02it/s]

지금 다 먹고 20876번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 
지금 다 먹고 20877번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 


 17%|█▋        | 51477/300000 [2:46:09<13:27:51,  5.13it/s]

지금 다 먹고 20878번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 20879번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51479/300000 [2:46:10<12:55:40,  5.34it/s]

지금 다 먹고 20880번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 20881번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51482/300000 [2:46:10<13:57:29,  4.95it/s]

지금 다 먹고 20882번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 20883번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 51484/300000 [2:46:11<13:27:18,  5.13it/s]

지금 다 먹고 20884번째 도착완료 
  그리고 총 보상은 : 15.600000000000001 


 17%|█▋        | 51486/300000 [2:46:11<14:11:02,  4.87it/s]

지금 다 먹고 20885번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 20886번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51489/300000 [2:46:12<14:24:49,  4.79it/s]

지금 다 먹고 20887번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 20888번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 17%|█▋        | 51491/300000 [2:46:12<13:48:56,  5.00it/s]

지금 다 먹고 20889번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 20890번째 도착완료 
  그리고 총 보상은 : 25.1 


 17%|█▋        | 51493/300000 [2:46:13<13:07:15,  5.26it/s]

지금 다 먹고 20891번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 20892번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51496/300000 [2:46:13<13:38:46,  5.06it/s]

지금 다 먹고 20893번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 20894번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51498/300000 [2:46:14<12:37:39,  5.47it/s]

지금 다 먹고 20895번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51500/300000 [2:46:14<13:33:49,  5.09it/s]

지금 다 먹고 20896번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 20897번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 17%|█▋        | 51502/300000 [2:46:14<13:03:14,  5.29it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :22.000000000000004
 end : True
 clear : True
episode :7, score = 17.039000000001426, n_buffer :100000 , eps : 24.25
지금 다 먹고 20898번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 20899번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 51506/300000 [2:46:15<14:45:24,  4.68it/s]

지금 다 먹고 20900번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 20901번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51508/300000 [2:46:16<14:19:48,  4.82it/s]

지금 다 먹고 20902번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 
지금 다 먹고 20903번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51510/300000 [2:46:16<13:46:46,  5.01it/s]

지금 다 먹고 20904번째 도착완료 
  그리고 총 보상은 : 20.000000000000007 
지금 다 먹고 20905번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 51512/300000 [2:46:16<12:55:20,  5.34it/s]

지금 다 먹고 20906번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 20907번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 51514/300000 [2:46:17<12:30:41,  5.52it/s]

지금 다 먹고 20908번째 도착완료 
  그리고 총 보상은 : 23.3 
지금 다 먹고 20909번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 17%|█▋        | 51517/300000 [2:46:17<13:55:49,  4.95it/s]

지금 다 먹고 20910번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51518/300000 [2:46:18<14:58:39,  4.61it/s]

지금 다 먹고 20911번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 17%|█▋        | 51519/300000 [2:46:18<14:17:03,  4.83it/s]

지금 다 먹고 20912번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 51520/300000 [2:46:18<14:11:10,  4.87it/s]

지금 다 먹고 20913번째 도착완료 
  그리고 총 보상은 : 18.100000000000012 
지금 다 먹고 20914번째 도착완료 
  그리고 총 보상은 : 23.3 


 17%|█▋        | 51523/300000 [2:46:19<15:05:20,  4.57it/s]

지금 다 먹고 20915번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 20916번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 51525/300000 [2:46:19<15:22:36,  4.49it/s]

지금 다 먹고 20917번째 도착완료 
  그리고 총 보상은 : 6.799999999999988 
지금 다 먹고 20918번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 51527/300000 [2:46:20<14:20:07,  4.81it/s]

지금 다 먹고 20919번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 20920번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51529/300000 [2:46:20<13:50:14,  4.99it/s]

지금 다 먹고 20921번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 20922번째 도착완료 
  그리고 총 보상은 : 26.0 


 17%|█▋        | 51532/300000 [2:46:21<14:05:18,  4.90it/s]

지금 다 먹고 20923번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 20924번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51534/300000 [2:46:21<12:53:23,  5.35it/s]

지금 다 먹고 20925번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 20926번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 51536/300000 [2:46:21<13:05:15,  5.27it/s]

지금 다 먹고 20927번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 20928번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 17%|█▋        | 51538/300000 [2:46:22<14:08:21,  4.88it/s]

지금 다 먹고 20929번째 도착완료 
  그리고 총 보상은 : 14.100000000000026 


 17%|█▋        | 51540/300000 [2:46:22<14:41:30,  4.70it/s]

지금 다 먹고 20930번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 51542/300000 [2:46:23<15:04:16,  4.58it/s]

지금 다 먹고 20931번째 도착완료 
  그리고 총 보상은 : 20.200000000000003 
지금 다 먹고 20932번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 51544/300000 [2:46:23<13:25:27,  5.14it/s]

지금 다 먹고 20933번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 20934번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 51547/300000 [2:46:24<14:25:08,  4.79it/s]

지금 다 먹고 20935번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 51549/300000 [2:46:24<15:32:53,  4.44it/s]

지금 다 먹고 20936번째 도착완료 
  그리고 총 보상은 : 21.6 


 17%|█▋        | 51551/300000 [2:46:25<15:05:19,  4.57it/s]

지금 다 먹고 20937번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 51553/300000 [2:46:25<14:44:14,  4.68it/s]

지금 다 먹고 20938번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 20939번째 도착완료 
  그리고 총 보상은 : 26.5 


 17%|█▋        | 51555/300000 [2:46:25<14:48:18,  4.66it/s]

지금 다 먹고 20940번째 도착완료 
  그리고 총 보상은 : 11.900000000000036 


 17%|█▋        | 51557/300000 [2:46:26<16:20:03,  4.23it/s]

지금 다 먹고 20941번째 도착완료 
  그리고 총 보상은 : 18.000000000000014 
지금 다 먹고 20942번째 도착완료 
  그리고 총 보상은 : 24.90000000000001 


 17%|█▋        | 51559/300000 [2:46:26<14:05:25,  4.90it/s]

지금 다 먹고 20943번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 
지금 다 먹고 20944번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51561/300000 [2:46:27<13:22:11,  5.16it/s]

지금 다 먹고 20945번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 20946번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51563/300000 [2:46:27<12:45:52,  5.41it/s]

지금 다 먹고 20947번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 20948번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51565/300000 [2:46:27<12:20:40,  5.59it/s]

지금 다 먹고 20949번째 도착완료 
  그리고 총 보상은 : 14.200000000000006 


 17%|█▋        | 51567/300000 [2:46:28<14:34:15,  4.74it/s]

지금 다 먹고 20950번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 20951번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 51570/300000 [2:46:28<14:12:10,  4.86it/s]

지금 다 먹고 20952번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51572/300000 [2:46:29<14:36:37,  4.72it/s]

지금 다 먹고 20953번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51574/300000 [2:46:29<14:31:34,  4.75it/s]

지금 다 먹고 20954번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 20955번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 17%|█▋        | 51576/300000 [2:46:30<13:14:54,  5.21it/s]

지금 다 먹고 20956번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 20957번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 17%|█▋        | 51579/300000 [2:46:30<13:34:15,  5.08it/s]

지금 다 먹고 20958번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 20959번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 51581/300000 [2:46:31<13:51:34,  4.98it/s]

지금 다 먹고 20960번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51582/300000 [2:46:31<14:24:13,  4.79it/s]

지금 다 먹고 20961번째 도착완료 
  그리고 총 보상은 : 21.20000000000001 
지금 다 먹고 20962번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51585/300000 [2:46:32<14:34:32,  4.73it/s]

지금 다 먹고 20963번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 20964번째 도착완료 
  그리고 총 보상은 : 17.799999999999997 


 17%|█▋        | 51587/300000 [2:46:32<13:45:54,  5.01it/s]

지금 다 먹고 20965번째 도착완료 
  그리고 총 보상은 : 22.3 


 17%|█▋        | 51589/300000 [2:46:32<14:07:27,  4.89it/s]

지금 다 먹고 20966번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51591/300000 [2:46:33<15:33:12,  4.44it/s]

지금 다 먹고 20967번째 도착완료 
  그리고 총 보상은 : 19.8 


 17%|█▋        | 51593/300000 [2:46:33<15:37:45,  4.41it/s]

지금 다 먹고 20968번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 
지금 다 먹고 20969번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51595/300000 [2:46:34<14:46:30,  4.67it/s]

지금 다 먹고 20970번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 20971번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 17%|█▋        | 51597/300000 [2:46:34<13:49:13,  4.99it/s]

지금 다 먹고 20972번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 20973번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51599/300000 [2:46:35<13:37:08,  5.07it/s]

지금 다 먹고 20974번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 20975번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51602/300000 [2:46:35<13:56:10,  4.95it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [200.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0. 100.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-26.90000000000009
 end : True
 clear : True
episode :5, score = 12.326000000000297, n_buffer :100000 , eps : 24.2
지금 다 먹고 20976번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51603/300000 [2:46:35<13:35:14,  5.08it/s]

지금 다 먹고 20977번째 도착완료 
  그리고 총 보상은 : 18.3 
지금 다 먹고 20978번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51606/300000 [2:46:36<14:36:17,  4.72it/s]

지금 다 먹고 20979번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 51608/300000 [2:46:36<14:32:15,  4.75it/s]

지금 다 먹고 20980번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 20981번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 17%|█▋        | 51610/300000 [2:46:37<13:53:04,  4.97it/s]

지금 다 먹고 20982번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 20983번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51612/300000 [2:46:37<13:07:59,  5.25it/s]

지금 다 먹고 20984번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 20985번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 51614/300000 [2:46:38<12:33:10,  5.50it/s]

지금 다 먹고 20986번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 20987번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51616/300000 [2:46:38<12:58:29,  5.32it/s]

지금 다 먹고 20988번째 도착완료 
  그리고 총 보상은 : 19.800000000000008 
지금 다 먹고 20989번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 51618/300000 [2:46:38<12:47:54,  5.39it/s]

지금 다 먹고 20990번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 20991번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51620/300000 [2:46:39<12:33:43,  5.49it/s]

지금 다 먹고 20992번째 도착완료 
  그리고 총 보상은 : 17.9 
지금 다 먹고 20993번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 51622/300000 [2:46:39<12:27:25,  5.54it/s]

지금 다 먹고 20994번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 20995번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 17%|█▋        | 51624/300000 [2:46:39<12:41:14,  5.44it/s]

지금 다 먹고 20996번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 20997번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 17%|█▋        | 51626/300000 [2:46:40<13:13:06,  5.22it/s]

지금 다 먹고 20998번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 20999번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51628/300000 [2:46:40<13:20:53,  5.17it/s]

지금 다 먹고 21000번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 17%|█▋        | 51629/300000 [2:46:40<13:49:59,  4.99it/s]

지금 다 먹고 21001번째 도착완료 
  그리고 총 보상은 : 17.90000000000002 
지금 다 먹고 21002번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 17%|█▋        | 51632/300000 [2:46:41<14:11:29,  4.86it/s]

지금 다 먹고 21003번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51634/300000 [2:46:41<14:36:35,  4.72it/s]

지금 다 먹고 21004번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 17%|█▋        | 51636/300000 [2:46:42<15:32:00,  4.44it/s]

지금 다 먹고 21005번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51638/300000 [2:46:42<15:43:12,  4.39it/s]

지금 다 먹고 21006번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 21007번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51640/300000 [2:46:43<14:01:38,  4.92it/s]

지금 다 먹고 21008번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 17%|█▋        | 51642/300000 [2:46:43<14:41:08,  4.70it/s]

지금 다 먹고 21009번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 21010번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51644/300000 [2:46:44<14:05:21,  4.90it/s]

지금 다 먹고 21011번째 도착완료 
  그리고 총 보상은 : 18.900000000000013 
지금 다 먹고 21012번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51646/300000 [2:46:44<13:14:11,  5.21it/s]

지금 다 먹고 21013번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 21014번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51651/300000 [2:46:45<16:24:29,  4.20it/s]

지금 다 먹고 21015번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 17%|█▋        | 51652/300000 [2:46:45<15:39:24,  4.41it/s]

지금 다 먹고 21016번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 21017번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 51655/300000 [2:46:46<15:12:57,  4.53it/s]

지금 다 먹고 21018번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 21019번째 도착완료 
  그리고 총 보상은 : 6.900000000000006 


 17%|█▋        | 51657/300000 [2:46:46<13:56:10,  4.95it/s]

지금 다 먹고 21020번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51659/300000 [2:46:47<14:39:40,  4.71it/s]

지금 다 먹고 21021번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 21022번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 51661/300000 [2:46:47<13:55:54,  4.95it/s]

지금 다 먹고 21023번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 51663/300000 [2:46:48<15:06:00,  4.57it/s]

지금 다 먹고 21024번째 도착완료 
  그리고 총 보상은 : 24.90000000000001 
지금 다 먹고 21025번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51666/300000 [2:46:48<14:31:50,  4.75it/s]

지금 다 먹고 21026번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 21027번째 도착완료 
  그리고 총 보상은 : 24.6 


 17%|█▋        | 51668/300000 [2:46:49<13:43:29,  5.03it/s]

지금 다 먹고 21028번째 도착완료 
  그리고 총 보상은 : 20.000000000000004 
지금 다 먹고 21029번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51670/300000 [2:46:49<12:31:01,  5.51it/s]

지금 다 먹고 21030번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 51672/300000 [2:46:50<13:43:00,  5.03it/s]

지금 다 먹고 21031번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 21032번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 51674/300000 [2:46:50<13:40:36,  5.04it/s]

지금 다 먹고 21033번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 
지금 다 먹고 21034번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 17%|█▋        | 51676/300000 [2:46:50<13:00:30,  5.30it/s]

지금 다 먹고 21035번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 21036번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 51678/300000 [2:46:51<12:26:04,  5.55it/s]

지금 다 먹고 21037번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 51680/300000 [2:46:51<13:36:46,  5.07it/s]

지금 다 먹고 21038번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21039번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51683/300000 [2:46:52<14:39:42,  4.70it/s]

지금 다 먹고 21040번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 21041번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51685/300000 [2:46:52<13:37:44,  5.06it/s]

지금 다 먹고 21042번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51687/300000 [2:46:53<14:12:29,  4.85it/s]

지금 다 먹고 21043번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 21044번째 도착완료 
  그리고 총 보상은 : 12.800000000000004 


 17%|█▋        | 51689/300000 [2:46:53<13:31:30,  5.10it/s]

지금 다 먹고 21045번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 21046번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51691/300000 [2:46:53<12:48:10,  5.39it/s]

지금 다 먹고 21047번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21048번째 도착완료 
  그리고 총 보상은 : 23.1 


 17%|█▋        | 51693/300000 [2:46:54<12:41:07,  5.44it/s]

지금 다 먹고 21049번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 21050번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 17%|█▋        | 51695/300000 [2:46:54<12:41:29,  5.43it/s]

지금 다 먹고 21051번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 
지금 다 먹고 21052번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 17%|█▋        | 51697/300000 [2:46:54<12:30:45,  5.51it/s]

지금 다 먹고 21053번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 51698/300000 [2:46:55<13:09:45,  5.24it/s]

지금 다 먹고 21054번째 도착완료 
  그리고 총 보상은 : 17.500000000000014 


 17%|█▋        | 51700/300000 [2:46:55<13:38:41,  5.05it/s]

지금 다 먹고 21055번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 51701/300000 [2:46:55<15:04:46,  4.57it/s]

지금 다 먹고 21056번째 도착완료 
  그리고 총 보상은 : 6.39999999999999 
epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :6.39999999999999
 end : True
 clear : True
episode :3, score = 14.083000000000533, n_buffer :100000 , eps : 24.15
지금 다 먹고 21057번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 17%|█▋        | 51704/300000 [2:46:56<15:15:12,  4.52it/s]

지금 다 먹고 21058번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51706/300000 [2:46:57<15:47:32,  4.37it/s]

지금 다 먹고 21059번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 17%|█▋        | 51707/300000 [2:46:57<14:56:12,  4.62it/s]

지금 다 먹고 21060번째 도착완료 
  그리고 총 보상은 : 19.5 
지금 다 먹고 21061번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 17%|█▋        | 51710/300000 [2:46:57<14:45:09,  4.68it/s]

지금 다 먹고 21062번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 51713/300000 [2:46:58<14:58:44,  4.60it/s]

지금 다 먹고 21063번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21064번째 도착완료 
  그리고 총 보상은 : 17.70000000000001 


 17%|█▋        | 51715/300000 [2:46:58<13:43:14,  5.03it/s]

지금 다 먹고 21065번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 51717/300000 [2:46:59<14:10:53,  4.86it/s]

지금 다 먹고 21066번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 21067번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 51720/300000 [2:46:59<14:10:17,  4.87it/s]

지금 다 먹고 21068번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 21069번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51724/300000 [2:47:00<14:34:16,  4.73it/s]

지금 다 먹고 21070번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 51725/300000 [2:47:01<14:33:16,  4.74it/s]

지금 다 먹고 21071번째 도착완료 
  그리고 총 보상은 : 19.300000000000015 


 17%|█▋        | 51727/300000 [2:47:01<14:48:19,  4.66it/s]

지금 다 먹고 21072번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 21073번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 


 17%|█▋        | 51730/300000 [2:47:02<14:49:27,  4.65it/s]

지금 다 먹고 21074번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 21075번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51732/300000 [2:47:02<13:19:06,  5.18it/s]

지금 다 먹고 21076번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 21077번째 도착완료 
  그리고 총 보상은 : 17.700000000000006 


 17%|█▋        | 51734/300000 [2:47:02<13:02:17,  5.29it/s]

지금 다 먹고 21078번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21079번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 51737/300000 [2:47:03<13:58:04,  4.94it/s]

지금 다 먹고 21080번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 21081번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 17%|█▋        | 51740/300000 [2:47:04<14:12:16,  4.85it/s]

지금 다 먹고 21082번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 21083번째 도착완료 
  그리고 총 보상은 : 15.899999999999999 


 17%|█▋        | 51742/300000 [2:47:04<14:47:04,  4.66it/s]

지금 다 먹고 21084번째 도착완료 
  그리고 총 보상은 : -8.200000000000074 


 17%|█▋        | 51744/300000 [2:47:05<14:48:35,  4.66it/s]

지금 다 먹고 21085번째 도착완료 
  그리고 총 보상은 : 24.600000000000012 


 17%|█▋        | 51746/300000 [2:47:05<14:53:25,  4.63it/s]

지금 다 먹고 21086번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21087번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51748/300000 [2:47:05<13:17:35,  5.19it/s]

지금 다 먹고 21088번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 21089번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 


 17%|█▋        | 51750/300000 [2:47:06<13:04:06,  5.28it/s]

지금 다 먹고 21090번째 도착완료 
  그리고 총 보상은 : 23.000000000000007 
지금 다 먹고 21091번째 도착완료 
  그리고 총 보상은 : 25.8 


 17%|█▋        | 51752/300000 [2:47:06<14:40:40,  4.70it/s]

지금 다 먹고 21092번째 도착완료 
  그리고 총 보상은 : 6.99999999999997 


 17%|█▋        | 51755/300000 [2:47:07<16:02:14,  4.30it/s]

지금 다 먹고 21093번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51757/300000 [2:47:07<16:42:36,  4.13it/s]

지금 다 먹고 21094번째 도착완료 
  그리고 총 보상은 : 6.899999999999981 
지금 다 먹고 21095번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 51759/300000 [2:47:08<14:26:01,  4.78it/s]

지금 다 먹고 21096번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 21097번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 51761/300000 [2:47:08<14:07:44,  4.88it/s]

지금 다 먹고 21098번째 도착완료 
  그리고 총 보상은 : 16.100000000000016 
지금 다 먹고 21099번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 51763/300000 [2:47:09<13:18:27,  5.18it/s]

지금 다 먹고 21100번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 21101번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 51765/300000 [2:47:09<13:30:47,  5.10it/s]

지금 다 먹고 21102번째 도착완료 
  그리고 총 보상은 : 16.000000000000014 
지금 다 먹고 21103번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51767/300000 [2:47:09<12:32:59,  5.49it/s]

지금 다 먹고 21104번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 21105번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51769/300000 [2:47:10<12:26:35,  5.54it/s]

지금 다 먹고 21106번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 21107번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 17%|█▋        | 51771/300000 [2:47:10<12:44:19,  5.41it/s]

지금 다 먹고 21108번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 21109번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 51773/300000 [2:47:10<12:56:14,  5.33it/s]

지금 다 먹고 21110번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 
지금 다 먹고 21111번째 도착완료 
  그리고 총 보상은 : 24.1 


 17%|█▋        | 51775/300000 [2:47:11<12:39:44,  5.45it/s]

지금 다 먹고 21112번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 21113번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 17%|█▋        | 51777/300000 [2:47:11<12:52:27,  5.36it/s]

지금 다 먹고 21114번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 21115번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 51779/300000 [2:47:12<13:12:30,  5.22it/s]

지금 다 먹고 21116번째 도착완료 
  그리고 총 보상은 : 16.000000000000014 
지금 다 먹고 21117번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 


 17%|█▋        | 51783/300000 [2:47:12<14:48:11,  4.66it/s]

지금 다 먹고 21118번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 51785/300000 [2:47:13<14:42:49,  4.69it/s]

지금 다 먹고 21119번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51786/300000 [2:47:13<14:40:31,  4.70it/s]

지금 다 먹고 21120번째 도착완료 
  그리고 총 보상은 : 19.10000000000001 
지금 다 먹고 21121번째 도착완료 
  그리고 총 보상은 : 25.30000000000001 


 17%|█▋        | 51789/300000 [2:47:14<14:04:45,  4.90it/s]

지금 다 먹고 21122번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 21123번째 도착완료 
  그리고 총 보상은 : 15.5 


 17%|█▋        | 51791/300000 [2:47:14<13:25:37,  5.13it/s]

지금 다 먹고 21124번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 21125번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 51793/300000 [2:47:14<12:56:38,  5.33it/s]

지금 다 먹고 21126번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 51795/300000 [2:47:15<14:44:26,  4.68it/s]

지금 다 먹고 21127번째 도착완료 
  그리고 총 보상은 : 6.100000000000012 
지금 다 먹고 21128번째 도착완료 
  그리고 총 보상은 : 22.5 


 17%|█▋        | 51797/300000 [2:47:15<14:00:43,  4.92it/s]

지금 다 먹고 21129번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 
지금 다 먹고 21130번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51800/300000 [2:47:16<14:12:14,  4.85it/s]

지금 다 먹고 21131번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 17%|█▋        | 51802/300000 [2:47:16<14:48:31,  4.66it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0. 100.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-27.30000000000009
 end : True
 clear : True
episode :1, score = 10.175999999999483, n_buffer :100000 , eps : 24.099999999999998
지금 다 먹고 21132번째 도착완료 
  그리고 총 보상은 : 22.80000000000001 


 17%|█▋        | 51803/300000 [2:47:17<15:38:11,  4.41it/s]

지금 다 먹고 21133번째 도착완료 
  그리고 총 보상은 : 7.100000000000026 
지금 다 먹고 21134번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 


 17%|█▋        | 51805/300000 [2:47:17<14:48:21,  4.66it/s]

지금 다 먹고 21135번째 도착완료 
  그리고 총 보상은 : 19.50000000000001 
지금 다 먹고 21136번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 51809/300000 [2:47:18<15:23:00,  4.48it/s]

지금 다 먹고 21137번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51810/300000 [2:47:18<15:18:48,  4.50it/s]

지금 다 먹고 21138번째 도착완료 
  그리고 총 보상은 : 14.300000000000011 


 17%|█▋        | 51812/300000 [2:47:19<15:15:10,  4.52it/s]

지금 다 먹고 21139번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 21140번째 도착완료 
  그리고 총 보상은 : 25.30000000000001 


 17%|█▋        | 51814/300000 [2:47:19<14:27:56,  4.77it/s]

지금 다 먹고 21141번째 도착완료 
  그리고 총 보상은 : 17.500000000000007 
지금 다 먹고 21142번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 51816/300000 [2:47:19<14:19:57,  4.81it/s]

지금 다 먹고 21143번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 21144번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 51818/300000 [2:47:20<14:18:21,  4.82it/s]

지금 다 먹고 21145번째 도착완료 
  그리고 총 보상은 : 15.8 
지금 다 먹고 21146번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 51820/300000 [2:47:20<13:03:55,  5.28it/s]

지금 다 먹고 21147번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 21148번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 51822/300000 [2:47:21<13:34:14,  5.08it/s]

지금 다 먹고 21149번째 도착완료 
  그리고 총 보상은 : 8.3 
지금 다 먹고 21150번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 51825/300000 [2:47:21<15:14:21,  4.52it/s]

지금 다 먹고 21151번째 도착완료 
  그리고 총 보상은 : 14.800000000000006 
지금 다 먹고 21152번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51827/300000 [2:47:22<13:57:20,  4.94it/s]

지금 다 먹고 21153번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 21154번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 51829/300000 [2:47:22<13:24:24,  5.14it/s]

지금 다 먹고 21155번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 17%|█▋        | 51830/300000 [2:47:22<13:58:01,  4.94it/s]

지금 다 먹고 21156번째 도착완료 
  그리고 총 보상은 : -9.600000000000005 
지금 다 먹고 21157번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 17%|█▋        | 51832/300000 [2:47:23<13:14:37,  5.21it/s]

지금 다 먹고 21158번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 21159번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 17%|█▋        | 51834/300000 [2:47:23<12:50:06,  5.37it/s]

지금 다 먹고 21160번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 21161번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 51836/300000 [2:47:23<12:15:03,  5.63it/s]

지금 다 먹고 21162번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 51837/300000 [2:47:24<13:09:38,  5.24it/s]

지금 다 먹고 21163번째 도착완료 
  그리고 총 보상은 : 19.50000000000001 
지금 다 먹고 21164번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 51840/300000 [2:47:24<13:47:16,  5.00it/s]

지금 다 먹고 21165번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51841/300000 [2:47:24<14:12:39,  4.85it/s]

지금 다 먹고 21166번째 도착완료 
  그리고 총 보상은 : 12.60000000000003 
지금 다 먹고 21167번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 17%|█▋        | 51843/300000 [2:47:25<13:22:09,  5.16it/s]

지금 다 먹고 21168번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 21169번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 51845/300000 [2:47:25<13:00:40,  5.30it/s]

지금 다 먹고 21170번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 17%|█▋        | 51846/300000 [2:47:25<13:42:58,  5.03it/s]

지금 다 먹고 21171번째 도착완료 
  그리고 총 보상은 : 8.700000000000014 


 17%|█▋        | 51847/300000 [2:47:26<14:15:05,  4.84it/s]

지금 다 먹고 21172번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 17%|█▋        | 51848/300000 [2:47:26<14:21:14,  4.80it/s]

지금 다 먹고 21173번째 도착완료 
  그리고 총 보상은 : 21.1 
지금 다 먹고 21174번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 17%|█▋        | 51850/300000 [2:47:26<13:42:18,  5.03it/s]

지금 다 먹고 21175번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 21176번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 51852/300000 [2:47:27<13:55:28,  4.95it/s]

지금 다 먹고 21177번째 도착완료 
  그리고 총 보상은 : 6.700000000000003 
지금 다 먹고 21178번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51854/300000 [2:47:27<13:55:51,  4.95it/s]

지금 다 먹고 21179번째 도착완료 
  그리고 총 보상은 : 14.900000000000029 
지금 다 먹고 21180번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 51857/300000 [2:47:28<14:19:36,  4.81it/s]

지금 다 먹고 21181번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 21182번째 도착완료 
  그리고 총 보상은 : 23.2 


 17%|█▋        | 51860/300000 [2:47:28<14:27:04,  4.77it/s]

지금 다 먹고 21183번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 51861/300000 [2:47:28<14:06:50,  4.88it/s]

지금 다 먹고 21184번째 도착완료 
  그리고 총 보상은 : 17.7 
지금 다 먹고 21185번째 도착완료 
  그리고 총 보상은 : 13.200000000000012 


 17%|█▋        | 51863/300000 [2:47:29<14:02:15,  4.91it/s]

지금 다 먹고 21186번째 도착완료 
  그리고 총 보상은 : 12.300000000000008 
지금 다 먹고 21187번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 

 17%|█▋        | 51864/300000 [2:47:29<13:56:29,  4.94it/s]


지금 다 먹고 21188번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 51866/300000 [2:47:29<13:07:17,  5.25it/s]

지금 다 먹고 21189번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 51868/300000 [2:47:30<13:51:17,  4.97it/s]

지금 다 먹고 21190번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 51870/300000 [2:47:30<14:10:37,  4.86it/s]

지금 다 먹고 21191번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 21192번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51872/300000 [2:47:31<13:07:19,  5.25it/s]

지금 다 먹고 21193번째 도착완료 
  그리고 총 보상은 : 24.1 


 17%|█▋        | 51874/300000 [2:47:31<13:52:30,  4.97it/s]

지금 다 먹고 21194번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 21195번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 51876/300000 [2:47:31<13:03:22,  5.28it/s]

지금 다 먹고 21196번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 21197번째 도착완료 
  그리고 총 보상은 : -1.6000000000000085 


 17%|█▋        | 51878/300000 [2:47:32<13:30:49,  5.10it/s]

지금 다 먹고 21198번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 21199번째 도착완료 
  그리고 총 보상은 : 26.1 


 17%|█▋        | 51880/300000 [2:47:32<12:44:13,  5.41it/s]

지금 다 먹고 21200번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 21201번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 51882/300000 [2:47:32<12:19:15,  5.59it/s]

지금 다 먹고 21202번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51884/300000 [2:47:33<13:48:26,  4.99it/s]

지금 다 먹고 21203번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 51885/300000 [2:47:33<15:18:53,  4.50it/s]

지금 다 먹고 21204번째 도착완료 
  그리고 총 보상은 : 6.099999999999946 


 17%|█▋        | 51887/300000 [2:47:34<14:44:25,  4.68it/s]

지금 다 먹고 21205번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 21206번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 51889/300000 [2:47:34<13:07:29,  5.25it/s]

지금 다 먹고 21207번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51891/300000 [2:47:34<13:41:52,  5.03it/s]

지금 다 먹고 21208번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 21209번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 51893/300000 [2:47:35<13:00:02,  5.30it/s]

지금 다 먹고 21210번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 21211번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 51895/300000 [2:47:35<12:34:34,  5.48it/s]

지금 다 먹고 21212번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 51897/300000 [2:47:36<13:49:11,  4.99it/s]

지금 다 먹고 21213번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 21214번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 51899/300000 [2:47:36<13:20:43,  5.16it/s]

지금 다 먹고 21215번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 21216번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 51901/300000 [2:47:36<12:59:40,  5.30it/s]

지금 다 먹고 21217번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.900000000000006
 end : True
 clear : True
episode :16, score = 14.921000000001138, n_buffer :100000 , eps : 24.05
지금 다 먹고 21218번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 


 17%|█▋        | 51904/300000 [2:47:37<15:10:10,  4.54it/s]

지금 다 먹고 21219번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 51905/300000 [2:47:37<15:16:04,  4.51it/s]

지금 다 먹고 21220번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 


 17%|█▋        | 51908/300000 [2:47:38<15:49:10,  4.36it/s]

지금 다 먹고 21221번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 21222번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 51911/300000 [2:47:39<14:56:10,  4.61it/s]

지금 다 먹고 21223번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 21224번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 51913/300000 [2:47:39<13:50:21,  4.98it/s]

지금 다 먹고 21225번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 


 17%|█▋        | 51916/300000 [2:47:40<15:30:14,  4.44it/s]

지금 다 먹고 21226번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 17%|█▋        | 51918/300000 [2:47:40<15:13:40,  4.53it/s]

지금 다 먹고 21227번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21228번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 51920/300000 [2:47:41<13:30:03,  5.10it/s]

지금 다 먹고 21229번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 21230번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 51922/300000 [2:47:41<12:56:38,  5.32it/s]

지금 다 먹고 21231번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 51925/300000 [2:47:42<15:08:36,  4.55it/s]

지금 다 먹고 21232번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 21233번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 17%|█▋        | 51927/300000 [2:47:42<14:14:27,  4.84it/s]

지금 다 먹고 21234번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 
지금 다 먹고 21235번째 도착완료 
  그리고 총 보상은 : 14.700000000000003 


 17%|█▋        | 51929/300000 [2:47:42<13:39:21,  5.05it/s]

지금 다 먹고 21236번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 51931/300000 [2:47:43<14:29:18,  4.76it/s]

지금 다 먹고 21237번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 17%|█▋        | 51933/300000 [2:47:43<15:11:30,  4.54it/s]

지금 다 먹고 21238번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 21239번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 51935/300000 [2:47:44<13:48:28,  4.99it/s]

지금 다 먹고 21240번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 21241번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51937/300000 [2:47:44<13:09:25,  5.24it/s]

지금 다 먹고 21242번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 21243번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 51939/300000 [2:47:44<12:22:40,  5.57it/s]

지금 다 먹고 21244번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 21245번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 51941/300000 [2:47:45<12:33:52,  5.48it/s]

지금 다 먹고 21246번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 21247번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 51943/300000 [2:47:45<13:22:27,  5.15it/s]

지금 다 먹고 21248번째 도착완료 
  그리고 총 보상은 : 19.20000000000001 
지금 다 먹고 21249번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 51945/300000 [2:47:46<12:37:44,  5.46it/s]

지금 다 먹고 21250번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 21251번째 도착완료 
  그리고 총 보상은 : 27.1 


 17%|█▋        | 51948/300000 [2:47:46<14:00:03,  4.92it/s]

지금 다 먹고 21252번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 51950/300000 [2:47:47<15:03:32,  4.58it/s]

지금 다 먹고 21253번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 17%|█▋        | 51952/300000 [2:47:47<15:51:40,  4.34it/s]

지금 다 먹고 21254번째 도착완료 
  그리고 총 보상은 : -1.1000000000000654 
지금 다 먹고 21255번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51955/300000 [2:47:48<14:50:21,  4.64it/s]

지금 다 먹고 21256번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 21257번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 51959/300000 [2:47:49<15:23:25,  4.48it/s]

지금 다 먹고 21258번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 21259번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 51961/300000 [2:47:49<13:55:55,  4.95it/s]

지금 다 먹고 21260번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21261번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 51963/300000 [2:47:49<12:59:28,  5.30it/s]

지금 다 먹고 21262번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 51965/300000 [2:47:50<14:06:13,  4.89it/s]

지금 다 먹고 21263번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 17%|█▋        | 51967/300000 [2:47:50<14:40:36,  4.69it/s]

지금 다 먹고 21264번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 51969/300000 [2:47:51<15:26:00,  4.46it/s]

지금 다 먹고 21265번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 21266번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 51971/300000 [2:47:51<13:32:46,  5.09it/s]

지금 다 먹고 21267번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21268번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 51978/300000 [2:47:53<17:21:02,  3.97it/s]

지금 다 먹고 21269번째 도착완료 
  그리고 총 보상은 : 11.500000000000025 
지금 다 먹고 21270번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 51980/300000 [2:47:53<14:56:25,  4.61it/s]

지금 다 먹고 21271번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 51982/300000 [2:47:54<15:30:07,  4.44it/s]

지금 다 먹고 21272번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 17%|█▋        | 51985/300000 [2:47:54<15:35:12,  4.42it/s]

지금 다 먹고 21273번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 51986/300000 [2:47:55<15:17:03,  4.51it/s]

지금 다 먹고 21274번째 도착완료 
  그리고 총 보상은 : 15.800000000000015 
지금 다 먹고 21275번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 51988/300000 [2:47:55<13:36:40,  5.06it/s]

지금 다 먹고 21276번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 21277번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51990/300000 [2:47:55<13:01:00,  5.29it/s]

지금 다 먹고 21278번째 도착완료 
  그리고 총 보상은 : 13.80000000000001 


 17%|█▋        | 51992/300000 [2:47:56<14:17:45,  4.82it/s]

지금 다 먹고 21279번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21280번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 51994/300000 [2:47:56<14:28:09,  4.76it/s]

지금 다 먹고 21281번째 도착완료 
  그리고 총 보상은 : 14.900000000000018 
지금 다 먹고 21282번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 


 17%|█▋        | 51996/300000 [2:47:57<14:11:05,  4.86it/s]

지금 다 먹고 21283번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 21284번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 17%|█▋        | 52001/300000 [2:47:58<16:42:52,  4.12it/s]

지금 다 먹고 21285번째 도착완료 
  그리고 총 보상은 : 20.100000000000005 
epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :20.100000000000005
 end : True
 clear : True
episode :14, score = 6.411999999998908, n_buffer :100000 , eps : 24.0
지금 다 먹고 21286번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52003/300000 [2:47:58<14:41:10,  4.69it/s]

지금 다 먹고 21287번째 도착완료 
  그리고 총 보상은 : 23.3 
지금 다 먹고 21288번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52005/300000 [2:47:59<14:17:13,  4.82it/s]

지금 다 먹고 21289번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 21290번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 52007/300000 [2:47:59<12:58:33,  5.31it/s]

지금 다 먹고 21291번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 52010/300000 [2:48:00<15:39:27,  4.40it/s]

지금 다 먹고 21292번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 
지금 다 먹고 21293번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 52012/300000 [2:48:00<13:53:51,  4.96it/s]

지금 다 먹고 21294번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21295번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 52014/300000 [2:48:00<12:58:44,  5.31it/s]

지금 다 먹고 21296번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52016/300000 [2:48:01<13:56:47,  4.94it/s]

지금 다 먹고 21297번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 21298번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 17%|█▋        | 52018/300000 [2:48:01<13:05:34,  5.26it/s]

지금 다 먹고 21299번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 21300번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 52020/300000 [2:48:02<13:31:20,  5.09it/s]

지금 다 먹고 21301번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 21302번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52022/300000 [2:48:02<12:35:52,  5.47it/s]

지금 다 먹고 21303번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 21304번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 52024/300000 [2:48:02<12:15:13,  5.62it/s]

지금 다 먹고 21305번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 52026/300000 [2:48:03<13:48:35,  4.99it/s]

지금 다 먹고 21306번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 21307번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52028/300000 [2:48:03<12:59:35,  5.30it/s]

지금 다 먹고 21308번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 21309번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52030/300000 [2:48:04<12:57:18,  5.32it/s]

지금 다 먹고 21310번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 21311번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 52033/300000 [2:48:04<16:31:42,  4.17it/s]

지금 다 먹고 21312번째 도착완료 
  그리고 총 보상은 : 9.90000000000003 
지금 다 먹고 21313번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 17%|█▋        | 52035/300000 [2:48:05<15:34:11,  4.42it/s]

지금 다 먹고 21314번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 17%|█▋        | 52036/300000 [2:48:05<15:45:30,  4.37it/s]

지금 다 먹고 21315번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 17%|█▋        | 52037/300000 [2:48:05<14:57:31,  4.60it/s]

지금 다 먹고 21316번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21317번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52039/300000 [2:48:06<13:57:06,  4.94it/s]

지금 다 먹고 21318번째 도착완료 
  그리고 총 보상은 : 17.70000000000001 
지금 다 먹고 21319번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52041/300000 [2:48:06<12:43:07,  5.42it/s]

지금 다 먹고 21320번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 21321번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 52043/300000 [2:48:06<12:30:23,  5.51it/s]

지금 다 먹고 21322번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 21323번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 17%|█▋        | 52045/300000 [2:48:07<13:05:32,  5.26it/s]

지금 다 먹고 21324번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 21325번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 52047/300000 [2:48:07<13:20:59,  5.16it/s]

지금 다 먹고 21326번째 도착완료 
  그리고 총 보상은 : 15.100000000000021 


 17%|█▋        | 52048/300000 [2:48:07<14:28:35,  4.76it/s]

지금 다 먹고 21327번째 도착완료 
  그리고 총 보상은 : 9.100000000000007 


 17%|█▋        | 52050/300000 [2:48:08<15:01:52,  4.58it/s]

지금 다 먹고 21328번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 52051/300000 [2:48:08<15:34:36,  4.42it/s]

지금 다 먹고 21329번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 17%|█▋        | 52052/300000 [2:48:08<15:09:39,  4.54it/s]

지금 다 먹고 21330번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 17%|█▋        | 52054/300000 [2:48:09<15:54:58,  4.33it/s]

지금 다 먹고 21331번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 21332번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 52056/300000 [2:48:09<13:48:12,  4.99it/s]

지금 다 먹고 21333번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 21334번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52058/300000 [2:48:09<12:34:26,  5.48it/s]

지금 다 먹고 21335번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 21336번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 52061/300000 [2:48:10<13:37:22,  5.06it/s]

지금 다 먹고 21337번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 52063/300000 [2:48:10<13:57:53,  4.93it/s]

지금 다 먹고 21338번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 21339번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 52066/300000 [2:48:11<14:34:23,  4.73it/s]

지금 다 먹고 21340번째 도착완료 
  그리고 총 보상은 : 18.000000000000014 
지금 다 먹고 21341번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 52069/300000 [2:48:12<14:49:04,  4.65it/s]

지금 다 먹고 21342번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 52070/300000 [2:48:12<14:28:52,  4.76it/s]

지금 다 먹고 21343번째 도착완료 
  그리고 총 보상은 : 19.10000000000001 
지금 다 먹고 21344번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 52072/300000 [2:48:12<14:04:11,  4.89it/s]

지금 다 먹고 21345번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 17%|█▋        | 52073/300000 [2:48:12<13:27:29,  5.12it/s]

지금 다 먹고 21346번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 21347번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52075/300000 [2:48:13<12:46:30,  5.39it/s]

지금 다 먹고 21348번째 도착완료 
  그리고 총 보상은 : 24.3 
지금 다 먹고 21349번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 


 17%|█▋        | 52077/300000 [2:48:13<13:11:29,  5.22it/s]

지금 다 먹고 21350번째 도착완료 
  그리고 총 보상은 : 21.0 
지금 다 먹고 21351번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 17%|█▋        | 52079/300000 [2:48:14<13:07:27,  5.25it/s]

지금 다 먹고 21352번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 21353번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 17%|█▋        | 52081/300000 [2:48:14<13:20:44,  5.16it/s]

지금 다 먹고 21354번째 도착완료 
  그리고 총 보상은 : 18.600000000000016 
지금 다 먹고 21355번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 52084/300000 [2:48:15<14:56:25,  4.61it/s]

지금 다 먹고 21356번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 17%|█▋        | 52085/300000 [2:48:15<14:20:48,  4.80it/s]

지금 다 먹고 21357번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 17%|█▋        | 52086/300000 [2:48:15<15:19:57,  4.49it/s]

지금 다 먹고 21358번째 도착완료 
  그리고 총 보상은 : 7.899999999999997 
지금 다 먹고 21359번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 52088/300000 [2:48:15<13:46:02,  5.00it/s]

지금 다 먹고 21360번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 52089/300000 [2:48:16<14:09:00,  4.87it/s]

지금 다 먹고 21361번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 21362번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 17%|█▋        | 52091/300000 [2:48:16<13:06:50,  5.25it/s]

지금 다 먹고 21363번째 도착완료 
  그리고 총 보상은 : 27.0 


 17%|█▋        | 52092/300000 [2:48:16<13:27:14,  5.12it/s]

지금 다 먹고 21364번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 21365번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 52095/300000 [2:48:17<13:57:30,  4.93it/s]

지금 다 먹고 21366번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 21367번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 17%|█▋        | 52097/300000 [2:48:17<14:13:32,  4.84it/s]

지금 다 먹고 21368번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 21369번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 52099/300000 [2:48:18<14:00:31,  4.92it/s]

지금 다 먹고 21370번째 도착완료 
  그리고 총 보상은 : 17.900000000000006 


 17%|█▋        | 52101/300000 [2:48:18<14:25:19,  4.77it/s]

지금 다 먹고 21371번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.000000000000007
 end : True
 clear : True
episode :12, score = 17.25700000000211, n_buffer :100000 , eps : 23.95


 17%|█▋        | 52102/300000 [2:48:18<14:13:49,  4.84it/s]

지금 다 먹고 21372번째 도착완료 
  그리고 총 보상은 : 20.100000000000005 
지금 다 먹고 21373번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 52104/300000 [2:48:19<13:08:28,  5.24it/s]

지금 다 먹고 21374번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 21375번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 52107/300000 [2:48:19<14:15:54,  4.83it/s]

지금 다 먹고 21376번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 21377번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 52112/300000 [2:48:21<15:28:25,  4.45it/s]

지금 다 먹고 21378번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 52114/300000 [2:48:21<15:22:13,  4.48it/s]

지금 다 먹고 21379번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 21380번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 52116/300000 [2:48:21<14:18:36,  4.81it/s]

지금 다 먹고 21381번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 21382번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 52118/300000 [2:48:22<13:04:21,  5.27it/s]

지금 다 먹고 21383번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 52120/300000 [2:48:22<13:56:23,  4.94it/s]

지금 다 먹고 21384번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 52122/300000 [2:48:23<14:09:52,  4.86it/s]

지금 다 먹고 21385번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21386번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 52124/300000 [2:48:23<13:20:58,  5.16it/s]

지금 다 먹고 21387번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 
지금 다 먹고 21388번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 52126/300000 [2:48:23<13:12:45,  5.21it/s]

지금 다 먹고 21389번째 도착완료 
  그리고 총 보상은 : 23.8 


 17%|█▋        | 52128/300000 [2:48:24<14:32:53,  4.73it/s]

지금 다 먹고 21390번째 도착완료 
  그리고 총 보상은 : 18.000000000000007 
지금 다 먹고 21391번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 52130/300000 [2:48:24<13:55:00,  4.95it/s]

지금 다 먹고 21392번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 17%|█▋        | 52131/300000 [2:48:24<14:07:53,  4.87it/s]

지금 다 먹고 21393번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 21394번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 52133/300000 [2:48:25<13:23:22,  5.14it/s]

지금 다 먹고 21395번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 21396번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 52135/300000 [2:48:25<12:59:06,  5.30it/s]

지금 다 먹고 21397번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 


 17%|█▋        | 52137/300000 [2:48:26<14:04:42,  4.89it/s]

지금 다 먹고 21398번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 21399번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 52139/300000 [2:48:26<13:05:19,  5.26it/s]

지금 다 먹고 21400번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 21401번째 도착완료 
  그리고 총 보상은 : 27.6 


 17%|█▋        | 52141/300000 [2:48:26<12:58:15,  5.31it/s]

지금 다 먹고 21402번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 
지금 다 먹고 21403번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 17%|█▋        | 52143/300000 [2:48:27<12:41:26,  5.43it/s]

지금 다 먹고 21404번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 17%|█▋        | 52145/300000 [2:48:27<13:54:23,  4.95it/s]

지금 다 먹고 21405번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 21406번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 17%|█▋        | 52147/300000 [2:48:27<13:19:21,  5.17it/s]

지금 다 먹고 21407번째 도착완료 
  그리고 총 보상은 : 18.700000000000003 
지금 다 먹고 21408번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 17%|█▋        | 52149/300000 [2:48:28<12:39:59,  5.44it/s]

지금 다 먹고 21409번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 21410번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 17%|█▋        | 52151/300000 [2:48:28<12:40:09,  5.43it/s]

지금 다 먹고 21411번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 21412번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 17%|█▋        | 52153/300000 [2:48:29<12:31:45,  5.49it/s]

지금 다 먹고 21413번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 21414번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 17%|█▋        | 52155/300000 [2:48:29<12:31:57,  5.49it/s]

지금 다 먹고 21415번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 21416번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 52157/300000 [2:48:29<12:07:49,  5.68it/s]

지금 다 먹고 21417번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 21418번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 52159/300000 [2:48:30<12:15:33,  5.62it/s]

지금 다 먹고 21419번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 21420번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 52163/300000 [2:48:31<14:10:58,  4.85it/s]

지금 다 먹고 21421번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 21422번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 52165/300000 [2:48:31<13:35:40,  5.06it/s]

지금 다 먹고 21423번째 도착완료 
  그리고 총 보상은 : 22.7 
지금 다 먹고 21424번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 


 17%|█▋        | 52167/300000 [2:48:31<13:12:34,  5.21it/s]

지금 다 먹고 21425번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21426번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 52169/300000 [2:48:32<12:53:24,  5.34it/s]

지금 다 먹고 21427번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 17%|█▋        | 52171/300000 [2:48:32<13:52:08,  4.96it/s]

지금 다 먹고 21428번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 21429번째 도착완료 
  그리고 총 보상은 : 21.800000000000008 


 17%|█▋        | 52173/300000 [2:48:32<13:13:21,  5.21it/s]

지금 다 먹고 21430번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 17%|█▋        | 52174/300000 [2:48:33<13:46:06,  5.00it/s]

지금 다 먹고 21431번째 도착완료 
  그리고 총 보상은 : 14.40000000000002 
지금 다 먹고 21432번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 52176/300000 [2:48:33<13:13:05,  5.21it/s]

지금 다 먹고 21433번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52177/300000 [2:48:33<13:54:55,  4.95it/s]

지금 다 먹고 21434번째 도착완료 
  그리고 총 보상은 : 17.000000000000014 


 17%|█▋        | 52180/300000 [2:48:34<14:54:15,  4.62it/s]

지금 다 먹고 21435번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 21436번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 52182/300000 [2:48:34<13:49:00,  4.98it/s]

지금 다 먹고 21437번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 21438번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52184/300000 [2:48:35<12:55:29,  5.33it/s]

지금 다 먹고 21439번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 21440번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 52186/300000 [2:48:35<12:47:10,  5.38it/s]

지금 다 먹고 21441번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 21442번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 17%|█▋        | 52188/300000 [2:48:35<12:41:12,  5.43it/s]

지금 다 먹고 21443번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 21444번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 17%|█▋        | 52190/300000 [2:48:36<12:24:20,  5.55it/s]

지금 다 먹고 21445번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 21446번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 52192/300000 [2:48:36<12:34:56,  5.47it/s]

지금 다 먹고 21447번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 21448번째 도착완료 
  그리고 총 보상은 : 28.0 


 17%|█▋        | 52194/300000 [2:48:36<12:11:07,  5.65it/s]

지금 다 먹고 21449번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52197/300000 [2:48:37<14:30:18,  4.75it/s]

지금 다 먹고 21450번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 21451번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 17%|█▋        | 52199/300000 [2:48:38<13:45:53,  5.00it/s]

지금 다 먹고 21452번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 17%|█▋        | 52200/300000 [2:48:38<14:25:14,  4.77it/s]

지금 다 먹고 21453번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 17%|█▋        | 52201/300000 [2:48:38<14:21:20,  4.79it/s]

지금 다 먹고 21454번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.300000000000004
 end : True
 clear : True
episode :10, score = 15.650000000001295, n_buffer :100000 , eps : 23.9


 17%|█▋        | 52203/300000 [2:48:38<14:53:54,  4.62it/s]

지금 다 먹고 21455번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52205/300000 [2:48:39<16:12:35,  4.25it/s]

지금 다 먹고 21456번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 


 17%|█▋        | 52206/300000 [2:48:39<15:55:46,  4.32it/s]

지금 다 먹고 21457번째 도착완료 
  그리고 총 보상은 : 22.4 
지금 다 먹고 21458번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 52208/300000 [2:48:40<14:11:03,  4.85it/s]

지금 다 먹고 21459번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21460번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 52210/300000 [2:48:40<13:44:03,  5.01it/s]

지금 다 먹고 21461번째 도착완료 
  그리고 총 보상은 : 17.0 


 17%|█▋        | 52211/300000 [2:48:40<13:51:54,  4.96it/s]

지금 다 먹고 21462번째 도착완료 
  그리고 총 보상은 : 9.80000000000001 


 17%|█▋        | 52214/300000 [2:48:41<14:33:12,  4.73it/s]

지금 다 먹고 21463번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 21464번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 52216/300000 [2:48:41<13:25:15,  5.13it/s]

지금 다 먹고 21465번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 21466번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 


 17%|█▋        | 52218/300000 [2:48:42<12:52:55,  5.34it/s]

지금 다 먹고 21467번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52220/300000 [2:48:42<15:12:46,  4.52it/s]

지금 다 먹고 21468번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 17%|█▋        | 52222/300000 [2:48:43<15:44:47,  4.37it/s]

지금 다 먹고 21469번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 21470번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52224/300000 [2:48:43<13:51:36,  4.97it/s]

지금 다 먹고 21471번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 21472번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 52226/300000 [2:48:43<12:53:43,  5.34it/s]

지금 다 먹고 21473번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 21474번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52231/300000 [2:48:44<14:35:39,  4.72it/s]

지금 다 먹고 21475번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 21476번째 도착완료 
  그리고 총 보상은 : 15.60000000000002 


 17%|█▋        | 52233/300000 [2:48:45<14:15:12,  4.83it/s]

지금 다 먹고 21477번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 
지금 다 먹고 21478번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52235/300000 [2:48:45<13:08:48,  5.24it/s]

지금 다 먹고 21479번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52237/300000 [2:48:46<13:59:10,  4.92it/s]

지금 다 먹고 21480번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 


 17%|█▋        | 52239/300000 [2:48:46<14:27:11,  4.76it/s]

지금 다 먹고 21481번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 21482번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 52241/300000 [2:48:46<13:42:12,  5.02it/s]

지금 다 먹고 21483번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 21484번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 52243/300000 [2:48:47<12:48:13,  5.38it/s]

지금 다 먹고 21485번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 17%|█▋        | 52245/300000 [2:48:47<14:12:40,  4.84it/s]

지금 다 먹고 21486번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 
지금 다 먹고 21487번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 52248/300000 [2:48:48<14:31:28,  4.74it/s]

지금 다 먹고 21488번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 
지금 다 먹고 21489번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 17%|█▋        | 52250/300000 [2:48:48<13:43:50,  5.01it/s]

지금 다 먹고 21490번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 21491번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 17%|█▋        | 52252/300000 [2:48:49<12:59:51,  5.29it/s]

지금 다 먹고 21492번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 17%|█▋        | 52254/300000 [2:48:49<13:54:58,  4.95it/s]

지금 다 먹고 21493번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 17%|█▋        | 52256/300000 [2:48:50<14:38:12,  4.70it/s]

지금 다 먹고 21494번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 21495번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52258/300000 [2:48:50<13:24:26,  5.13it/s]

지금 다 먹고 21496번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 21497번째 도착완료 
  그리고 총 보상은 : 17.900000000000002 


 17%|█▋        | 52260/300000 [2:48:50<13:19:20,  5.17it/s]

지금 다 먹고 21498번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 21499번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 52262/300000 [2:48:51<12:37:37,  5.45it/s]

지금 다 먹고 21500번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 52264/300000 [2:48:51<13:39:18,  5.04it/s]

지금 다 먹고 21501번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21502번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 52267/300000 [2:48:52<14:17:21,  4.82it/s]

지금 다 먹고 21503번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 21504번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 


 17%|█▋        | 52269/300000 [2:48:52<13:35:27,  5.06it/s]

지금 다 먹고 21505번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 17%|█▋        | 52271/300000 [2:48:53<15:01:54,  4.58it/s]

지금 다 먹고 21506번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 17%|█▋        | 52273/300000 [2:48:53<15:08:59,  4.54it/s]

지금 다 먹고 21507번째 도착완료 
  그리고 총 보상은 : 23.70000000000001 
지금 다 먹고 21508번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 52275/300000 [2:48:53<14:29:42,  4.75it/s]

지금 다 먹고 21509번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 17%|█▋        | 52276/300000 [2:48:54<14:35:17,  4.72it/s]

지금 다 먹고 21510번째 도착완료 
  그리고 총 보상은 : 25.400000000000013 
지금 다 먹고 21511번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 52278/300000 [2:48:54<14:29:22,  4.75it/s]

지금 다 먹고 21512번째 도착완료 
  그리고 총 보상은 : 20.20000000000001 
지금 다 먹고 21513번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 52282/300000 [2:48:55<15:32:39,  4.43it/s]

지금 다 먹고 21514번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 21515번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52284/300000 [2:48:55<14:19:19,  4.80it/s]

지금 다 먹고 21516번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 21517번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 52286/300000 [2:48:56<13:57:40,  4.93it/s]

지금 다 먹고 21518번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 52288/300000 [2:48:56<14:48:24,  4.65it/s]

지금 다 먹고 21519번째 도착완료 
  그리고 총 보상은 : 20.1 
지금 다 먹고 21520번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 52290/300000 [2:48:57<14:30:04,  4.74it/s]

지금 다 먹고 21521번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 
지금 다 먹고 21522번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 52292/300000 [2:48:57<13:20:28,  5.16it/s]

지금 다 먹고 21523번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 21524번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52294/300000 [2:48:57<12:33:23,  5.48it/s]

지금 다 먹고 21525번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 21526번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 52296/300000 [2:48:58<12:45:40,  5.39it/s]

지금 다 먹고 21527번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52298/300000 [2:48:58<14:29:57,  4.75it/s]

지금 다 먹고 21528번째 도착완료 
  그리고 총 보상은 : 17.800000000000015 
지금 다 먹고 21529번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52300/300000 [2:48:59<14:44:33,  4.67it/s]

지금 다 먹고 21530번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 52301/300000 [2:48:59<14:12:48,  4.84it/s]

지금 다 먹고 21531번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.400000000000006
 end : True
 clear : True
episode :8, score = 12.250999999999463, n_buffer :100000 , eps : 23.849999999999998
지금 다 먹고 21532번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52303/300000 [2:48:59<13:42:45,  5.02it/s]

지금 다 먹고 21533번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 52305/300000 [2:49:00<14:29:58,  4.75it/s]

지금 다 먹고 21534번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 21535번째 도착완료 
  그리고 총 보상은 : 23.200000000000006 


 17%|█▋        | 52307/300000 [2:49:00<14:37:25,  4.70it/s]

지금 다 먹고 21536번째 도착완료 
  그리고 총 보상은 : 13.40000000000003 
지금 다 먹고 21537번째 도착완료 
  그리고 총 보상은 : 3.7999999999999794 


 17%|█▋        | 52309/300000 [2:49:01<14:37:10,  4.71it/s]

지금 다 먹고 21538번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 
지금 다 먹고 21539번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 52311/300000 [2:49:01<13:38:47,  5.04it/s]

지금 다 먹고 21540번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 21541번째 도착완료 
  그리고 총 보상은 : 27.5 


 17%|█▋        | 52313/300000 [2:49:01<13:11:09,  5.22it/s]

지금 다 먹고 21542번째 도착완료 
  그리고 총 보상은 : 10.600000000000005 


 17%|█▋        | 52315/300000 [2:49:02<14:05:07,  4.88it/s]

지금 다 먹고 21543번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 21544번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 17%|█▋        | 52317/300000 [2:49:02<13:25:06,  5.13it/s]

지금 다 먹고 21545번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 17%|█▋        | 52318/300000 [2:49:02<14:09:51,  4.86it/s]

지금 다 먹고 21546번째 도착완료 
  그리고 총 보상은 : 20.000000000000004 
지금 다 먹고 21547번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 52320/300000 [2:49:03<14:35:57,  4.71it/s]

지금 다 먹고 21548번째 도착완료 
  그리고 총 보상은 : 15.700000000000022 


 17%|█▋        | 52324/300000 [2:49:04<17:16:16,  3.98it/s]

지금 다 먹고 21549번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 17%|█▋        | 52325/300000 [2:49:04<15:51:14,  4.34it/s]

지금 다 먹고 21550번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 
지금 다 먹고 21551번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 17%|█▋        | 52327/300000 [2:49:04<13:40:57,  5.03it/s]

지금 다 먹고 21552번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 21553번째 도착완료 
  그리고 총 보상은 : 16.3 


 17%|█▋        | 52329/300000 [2:49:05<13:21:17,  5.15it/s]

지금 다 먹고 21554번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52330/300000 [2:49:05<14:29:41,  4.75it/s]

지금 다 먹고 21555번째 도착완료 
  그리고 총 보상은 : 3.000000000000025 


 17%|█▋        | 52331/300000 [2:49:05<15:12:56,  4.52it/s]

지금 다 먹고 21556번째 도착완료 
  그리고 총 보상은 : 15.800000000000002 


 17%|█▋        | 52332/300000 [2:49:05<14:59:32,  4.59it/s]

지금 다 먹고 21557번째 도착완료 
  그리고 총 보상은 : 10.000000000000016 
지금 다 먹고 21558번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 52334/300000 [2:49:06<14:02:59,  4.90it/s]

지금 다 먹고 21559번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 21560번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 17%|█▋        | 52336/300000 [2:49:06<13:10:08,  5.22it/s]

지금 다 먹고 21561번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 21562번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 17%|█▋        | 52338/300000 [2:49:07<13:43:55,  5.01it/s]

지금 다 먹고 21563번째 도착완료 
  그리고 총 보상은 : 21.5 


 17%|█▋        | 52339/300000 [2:49:07<13:38:39,  5.04it/s]

지금 다 먹고 21564번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 


 17%|█▋        | 52341/300000 [2:49:07<14:43:36,  4.67it/s]

지금 다 먹고 21565번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 17%|█▋        | 52342/300000 [2:49:07<14:56:58,  4.60it/s]

지금 다 먹고 21566번째 도착완료 
  그리고 총 보상은 : -9.100000000000044 
지금 다 먹고 21567번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 52344/300000 [2:49:08<13:27:38,  5.11it/s]

지금 다 먹고 21568번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 52346/300000 [2:49:08<14:22:22,  4.79it/s]

지금 다 먹고 21569번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 21570번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 17%|█▋        | 52348/300000 [2:49:09<13:26:24,  5.12it/s]

지금 다 먹고 21571번째 도착완료 
  그리고 총 보상은 : 22.3 


 17%|█▋        | 52350/300000 [2:49:09<14:12:55,  4.84it/s]

지금 다 먹고 21572번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52351/300000 [2:49:09<15:06:15,  4.55it/s]

지금 다 먹고 21573번째 도착완료 
  그리고 총 보상은 : 18.100000000000012 


 17%|█▋        | 52352/300000 [2:49:10<15:24:04,  4.47it/s]

지금 다 먹고 21574번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 
지금 다 먹고 21575번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 52354/300000 [2:49:10<13:57:21,  4.93it/s]

지금 다 먹고 21576번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 17%|█▋        | 52356/300000 [2:49:10<15:11:28,  4.53it/s]

지금 다 먹고 21577번째 도착완료 
  그리고 총 보상은 : 19.700000000000003 


 17%|█▋        | 52358/300000 [2:49:11<16:26:48,  4.18it/s]

지금 다 먹고 21578번째 도착완료 
  그리고 총 보상은 : 2.2999999999999403 
지금 다 먹고 21579번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 17%|█▋        | 52361/300000 [2:49:12<14:58:35,  4.59it/s]

지금 다 먹고 21580번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 17%|█▋        | 52362/300000 [2:49:12<15:48:52,  4.35it/s]

지금 다 먹고 21581번째 도착완료 
  그리고 총 보상은 : 6.499999999999972 
지금 다 먹고 21582번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 17%|█▋        | 52364/300000 [2:49:12<13:58:22,  4.92it/s]

지금 다 먹고 21583번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 52367/300000 [2:49:13<15:10:24,  4.53it/s]

지금 다 먹고 21584번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 17%|█▋        | 52368/300000 [2:49:13<15:09:57,  4.54it/s]

지금 다 먹고 21585번째 도착완료 
  그리고 총 보상은 : 16.600000000000012 
지금 다 먹고 21586번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52370/300000 [2:49:13<13:18:55,  5.17it/s]

지금 다 먹고 21587번째 도착완료 
  그리고 총 보상은 : 26.6 


 17%|█▋        | 52371/300000 [2:49:14<13:40:33,  5.03it/s]

지금 다 먹고 21588번째 도착완료 
  그리고 총 보상은 : 17.900000000000013 


 17%|█▋        | 52373/300000 [2:49:14<14:29:11,  4.75it/s]

지금 다 먹고 21589번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 17%|█▋        | 52374/300000 [2:49:14<14:34:49,  4.72it/s]

지금 다 먹고 21590번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 21591번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 17%|█▋        | 52376/300000 [2:49:15<13:36:18,  5.06it/s]

지금 다 먹고 21592번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 21593번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 17%|█▋        | 52378/300000 [2:49:15<12:47:52,  5.37it/s]

지금 다 먹고 21594번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 21595번째 도착완료 
  그리고 총 보상은 : 21.500000000000007 


 17%|█▋        | 52380/300000 [2:49:15<12:36:20,  5.46it/s]

지금 다 먹고 21596번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 21597번째 도착완료 
  그리고 총 보상은 : 25.6 


 17%|█▋        | 52384/300000 [2:49:16<14:50:47,  4.63it/s]

지금 다 먹고 21598번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 21599번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 17%|█▋        | 52386/300000 [2:49:17<14:54:00,  4.62it/s]

지금 다 먹고 21600번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 
지금 다 먹고 21601번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 17%|█▋        | 52388/300000 [2:49:17<13:29:11,  5.10it/s]

지금 다 먹고 21602번째 도착완료 
  그리고 총 보상은 : 23.8 


 17%|█▋        | 52390/300000 [2:49:18<14:12:50,  4.84it/s]

지금 다 먹고 21603번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 17%|█▋        | 52391/300000 [2:49:18<15:07:34,  4.55it/s]

지금 다 먹고 21604번째 도착완료 
  그리고 총 보상은 : 6.600000000000028 
지금 다 먹고 21605번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 17%|█▋        | 52394/300000 [2:49:19<14:57:49,  4.60it/s]

지금 다 먹고 21606번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 21607번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 17%|█▋        | 52396/300000 [2:49:19<13:24:08,  5.13it/s]

지금 다 먹고 21608번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 21609번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 17%|█▋        | 52398/300000 [2:49:19<13:11:03,  5.22it/s]

지금 다 먹고 21610번째 도착완료 
  그리고 총 보상은 : 9.600000000000005 


 17%|█▋        | 52400/300000 [2:49:20<15:18:11,  4.49it/s]

지금 다 먹고 21611번째 도착완료 
  그리고 총 보상은 : 16.000000000000004 
지금 다 먹고 21612번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 52402/300000 [2:49:20<13:57:46,  4.93it/s]

epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.400000000000002
 end : True
 clear : True
episode :6, score = 12.439000000000178, n_buffer :100000 , eps : 23.799999999999997
지금 다 먹고 21613번째 도착완료 
  그리고 총 보상은 : 23.40000000000001 


 17%|█▋        | 52403/300000 [2:49:20<13:43:01,  5.01it/s]

지금 다 먹고 21614번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 17%|█▋        | 52405/300000 [2:49:21<14:55:05,  4.61it/s]

지금 다 먹고 21615번째 도착완료 
  그리고 총 보상은 : 15.600000000000005 


 17%|█▋        | 52407/300000 [2:49:21<15:06:58,  4.55it/s]

지금 다 먹고 21616번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 17%|█▋        | 52409/300000 [2:49:22<15:13:02,  4.52it/s]

지금 다 먹고 21617번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 21618번째 도착완료 
  그리고 총 보상은 : 21.9 


 17%|█▋        | 52411/300000 [2:49:22<13:56:33,  4.93it/s]

지금 다 먹고 21619번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52412/300000 [2:49:22<14:02:43,  4.90it/s]

지금 다 먹고 21620번째 도착완료 
  그리고 총 보상은 : 18.300000000000015 
지금 다 먹고 21621번째 도착완료 
  그리고 총 보상은 : 22.60000000000001 


 17%|█▋        | 52415/300000 [2:49:23<15:05:43,  4.56it/s]

지금 다 먹고 21622번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52418/300000 [2:49:24<15:47:21,  4.36it/s]

지금 다 먹고 21623번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 21624번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 17%|█▋        | 52420/300000 [2:49:24<14:15:34,  4.82it/s]

지금 다 먹고 21625번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 21626번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 17%|█▋        | 52422/300000 [2:49:24<13:29:25,  5.10it/s]

지금 다 먹고 21627번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 17%|█▋        | 52424/300000 [2:49:25<14:43:18,  4.67it/s]

지금 다 먹고 21628번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 17%|█▋        | 52426/300000 [2:49:25<15:46:48,  4.36it/s]

지금 다 먹고 21629번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 
지금 다 먹고 21630번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 17%|█▋        | 52428/300000 [2:49:26<13:57:23,  4.93it/s]

지금 다 먹고 21631번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 21632번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 52430/300000 [2:49:26<12:50:57,  5.35it/s]

지금 다 먹고 21633번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 17%|█▋        | 52432/300000 [2:49:27<14:51:08,  4.63it/s]

지금 다 먹고 21634번째 도착완료 
  그리고 총 보상은 : 14.100000000000003 


 17%|█▋        | 52435/300000 [2:49:27<15:14:45,  4.51it/s]

지금 다 먹고 21635번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 21636번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 17%|█▋        | 52437/300000 [2:49:28<14:17:24,  4.81it/s]

지금 다 먹고 21637번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 17%|█▋        | 52438/300000 [2:49:28<14:15:27,  4.82it/s]

지금 다 먹고 21638번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 
지금 다 먹고 21639번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 52441/300000 [2:49:29<14:19:26,  4.80it/s]

지금 다 먹고 21640번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 21641번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 17%|█▋        | 52443/300000 [2:49:29<13:56:36,  4.93it/s]

지금 다 먹고 21642번째 도착완료 
  그리고 총 보상은 : 20.10000000000001 


 17%|█▋        | 52445/300000 [2:49:29<14:23:39,  4.78it/s]

지금 다 먹고 21643번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21644번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52447/300000 [2:49:30<13:18:20,  5.17it/s]

지금 다 먹고 21645번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 21646번째 도착완료 
  그리고 총 보상은 : 28.1 


 17%|█▋        | 52452/300000 [2:49:31<15:11:51,  4.52it/s]

지금 다 먹고 21647번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21648번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 17%|█▋        | 52454/300000 [2:49:31<13:45:48,  5.00it/s]

지금 다 먹고 21649번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21650번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 17%|█▋        | 52456/300000 [2:49:32<13:14:03,  5.20it/s]

지금 다 먹고 21651번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 17%|█▋        | 52458/300000 [2:49:32<14:07:47,  4.87it/s]

지금 다 먹고 21652번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 17%|█▋        | 52459/300000 [2:49:32<14:50:10,  4.63it/s]

지금 다 먹고 21653번째 도착완료 
  그리고 총 보상은 : 15.500000000000007 
지금 다 먹고 21654번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 17%|█▋        | 52462/300000 [2:49:33<14:31:46,  4.73it/s]

지금 다 먹고 21655번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 21656번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52464/300000 [2:49:33<13:20:57,  5.15it/s]

지금 다 먹고 21657번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 21658번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 17%|█▋        | 52466/300000 [2:49:34<12:38:03,  5.44it/s]

지금 다 먹고 21659번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21660번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 17%|█▋        | 52469/300000 [2:49:34<13:42:35,  5.02it/s]

지금 다 먹고 21661번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 21662번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 17%|█▋        | 52471/300000 [2:49:35<12:39:35,  5.43it/s]

지금 다 먹고 21663번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 21664번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 17%|█▋        | 52473/300000 [2:49:35<12:30:54,  5.49it/s]

지금 다 먹고 21665번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 


 17%|█▋        | 52475/300000 [2:49:35<13:37:41,  5.05it/s]

지금 다 먹고 21666번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52477/300000 [2:49:36<14:21:47,  4.79it/s]

지금 다 먹고 21667번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 
지금 다 먹고 21668번째 도착완료 
  그리고 총 보상은 : 23.500000000000014 


 17%|█▋        | 52479/300000 [2:49:36<14:01:39,  4.90it/s]

지금 다 먹고 21669번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 21670번째 도착완료 
  그리고 총 보상은 : 28.6 


 17%|█▋        | 52481/300000 [2:49:37<14:12:41,  4.84it/s]

지금 다 먹고 21671번째 도착완료 
  그리고 총 보상은 : 22.200000000000014 
지금 다 먹고 21672번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 17%|█▋        | 52483/300000 [2:49:37<13:21:15,  5.15it/s]

지금 다 먹고 21673번째 도착완료 
  그리고 총 보상은 : 23.099999999999998 


 17%|█▋        | 52486/300000 [2:49:38<15:21:26,  4.48it/s]

지금 다 먹고 21674번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 17%|█▋        | 52487/300000 [2:49:38<15:54:09,  4.32it/s]

지금 다 먹고 21675번째 도착완료 
  그리고 총 보상은 : 16.200000000000017 
지금 다 먹고 21676번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 17%|█▋        | 52489/300000 [2:49:38<15:33:45,  4.42it/s]

지금 다 먹고 21677번째 도착완료 
  그리고 총 보상은 : -7.000000000000163 
지금 다 먹고 21678번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 17%|█▋        | 52492/300000 [2:49:39<14:47:21,  4.65it/s]

지금 다 먹고 21679번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 17%|█▋        | 52494/300000 [2:49:40<14:44:54,  4.66it/s]

지금 다 먹고 21680번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 21681번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 17%|█▋        | 52496/300000 [2:49:40<13:42:53,  5.01it/s]

지금 다 먹고 21682번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 21683번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 17%|█▋        | 52498/300000 [2:49:40<13:44:52,  5.00it/s]

지금 다 먹고 21684번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 21685번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 52500/300000 [2:49:41<12:41:40,  5.42it/s]

지금 다 먹고 21686번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 52501/300000 [2:49:41<14:22:22,  4.78it/s]

epi = 4
 마지막 상태 :
[[  0. 200.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0. 100.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :-29.300000000000075
 end : True
 clear : True
episode :4, score = 10.693999999999264, n_buffer :100000 , eps : 23.75


 18%|█▊        | 52503/300000 [2:49:41<14:55:42,  4.61it/s]

지금 다 먹고 21687번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 18%|█▊        | 52504/300000 [2:49:42<15:26:25,  4.45it/s]

지금 다 먹고 21688번째 도착완료 
  그리고 총 보상은 : 12.80000000000003 


 18%|█▊        | 52505/300000 [2:49:42<15:19:49,  4.48it/s]

지금 다 먹고 21689번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 
지금 다 먹고 21690번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 52507/300000 [2:49:42<14:38:49,  4.69it/s]

지금 다 먹고 21691번째 도착완료 
  그리고 총 보상은 : 23.30000000000001 


 18%|█▊        | 52509/300000 [2:49:43<14:32:37,  4.73it/s]

지금 다 먹고 21692번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 18%|█▊        | 52511/300000 [2:49:43<15:01:20,  4.58it/s]

지금 다 먹고 21693번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 21694번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 52513/300000 [2:49:44<14:11:10,  4.85it/s]

지금 다 먹고 21695번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21696번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52515/300000 [2:49:44<13:22:35,  5.14it/s]

지금 다 먹고 21697번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 21698번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 52517/300000 [2:49:44<12:31:56,  5.49it/s]

지금 다 먹고 21699번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 21700번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 52519/300000 [2:49:45<12:16:30,  5.60it/s]

지금 다 먹고 21701번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 21702번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52521/300000 [2:49:45<12:24:23,  5.54it/s]

지금 다 먹고 21703번째 도착완료 
  그리고 총 보상은 : 21.8 
지금 다 먹고 21704번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 18%|█▊        | 52523/300000 [2:49:45<12:19:48,  5.58it/s]

지금 다 먹고 21705번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 21706번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 18%|█▊        | 52525/300000 [2:49:46<12:24:44,  5.54it/s]

지금 다 먹고 21707번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 
지금 다 먹고 21708번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 52528/300000 [2:49:46<13:58:50,  4.92it/s]

지금 다 먹고 21709번째 도착완료 
  그리고 총 보상은 : 22.60000000000001 
지금 다 먹고 21710번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52530/300000 [2:49:47<13:26:26,  5.11it/s]

지금 다 먹고 21711번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 21712번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 52532/300000 [2:49:47<12:33:39,  5.47it/s]

지금 다 먹고 21713번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21714번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 52534/300000 [2:49:47<13:11:56,  5.21it/s]

지금 다 먹고 21715번째 도착완료 
  그리고 총 보상은 : 14.200000000000006 


 18%|█▊        | 52537/300000 [2:49:48<15:13:25,  4.52it/s]

지금 다 먹고 21716번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 52539/300000 [2:49:49<14:12:57,  4.84it/s]

지금 다 먹고 21717번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 21718번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 21719번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 52541/300000 [2:49:49<13:46:04,  4.99it/s]

지금 다 먹고 21720번째 도착완료 
  그리고 총 보상은 : 18.60000000000001 


 18%|█▊        | 52543/300000 [2:49:49<14:22:45,  4.78it/s]

지금 다 먹고 21721번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 21722번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 18%|█▊        | 52545/300000 [2:49:50<13:16:58,  5.17it/s]

지금 다 먹고 21723번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 18%|█▊        | 52546/300000 [2:49:50<14:25:23,  4.77it/s]

지금 다 먹고 21724번째 도착완료 
  그리고 총 보상은 : 8.400000000000018 
지금 다 먹고 21725번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 52548/300000 [2:49:50<13:48:56,  4.98it/s]

지금 다 먹고 21726번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 21727번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 52550/300000 [2:49:51<12:49:55,  5.36it/s]

지금 다 먹고 21728번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 52552/300000 [2:49:51<14:16:37,  4.81it/s]

지금 다 먹고 21729번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 
지금 다 먹고 21730번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 18%|█▊        | 52554/300000 [2:49:52<14:14:32,  4.83it/s]

지금 다 먹고 21731번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52555/300000 [2:49:52<14:00:18,  4.91it/s]

지금 다 먹고 21732번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 21733번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 52558/300000 [2:49:53<15:42:47,  4.37it/s]

지금 다 먹고 21734번째 도착완료 
  그리고 총 보상은 : 22.6 


 18%|█▊        | 52560/300000 [2:49:53<16:17:40,  4.22it/s]

지금 다 먹고 21735번째 도착완료 
  그리고 총 보상은 : 15.900000000000002 


 18%|█▊        | 52561/300000 [2:49:53<16:04:58,  4.27it/s]

지금 다 먹고 21736번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 


 18%|█▊        | 52562/300000 [2:49:54<15:51:09,  4.34it/s]

지금 다 먹고 21737번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 52563/300000 [2:49:54<15:07:10,  4.55it/s]

지금 다 먹고 21738번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 52564/300000 [2:49:54<15:44:52,  4.36it/s]

지금 다 먹고 21739번째 도착완료 
  그리고 총 보상은 : 17.4 
지금 다 먹고 21740번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 52566/300000 [2:49:54<15:28:18,  4.44it/s]

지금 다 먹고 21741번째 도착완료 
  그리고 총 보상은 : 11.400000000000022 
지금 다 먹고 21742번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 52568/300000 [2:49:55<14:51:42,  4.62it/s]

지금 다 먹고 21743번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52571/300000 [2:49:56<16:07:03,  4.26it/s]

지금 다 먹고 21744번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52572/300000 [2:49:56<16:04:41,  4.27it/s]

지금 다 먹고 21745번째 도착완료 
  그리고 총 보상은 : 17.700000000000003 
지금 다 먹고 21746번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 


 18%|█▊        | 52574/300000 [2:49:56<15:28:06,  4.44it/s]

지금 다 먹고 21747번째 도착완료 
  그리고 총 보상은 : 26.0 


 18%|█▊        | 52575/300000 [2:49:56<15:30:00,  4.43it/s]

지금 다 먹고 21748번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 18%|█▊        | 52577/300000 [2:49:57<15:40:02,  4.39it/s]

지금 다 먹고 21749번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 52578/300000 [2:49:57<15:48:03,  4.35it/s]

지금 다 먹고 21750번째 도착완료 
  그리고 총 보상은 : 10.300000000000008 
지금 다 먹고 21751번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 52580/300000 [2:49:58<13:55:12,  4.94it/s]

지금 다 먹고 21752번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 21753번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 


 18%|█▊        | 52582/300000 [2:49:58<13:35:16,  5.06it/s]

지금 다 먹고 21754번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 21755번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 18%|█▊        | 52585/300000 [2:49:59<15:36:07,  4.40it/s]

지금 다 먹고 21756번째 도착완료 
  그리고 총 보상은 : 17.500000000000014 
지금 다 먹고 21757번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 52588/300000 [2:49:59<15:03:17,  4.56it/s]

지금 다 먹고 21758번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 52589/300000 [2:49:59<14:55:00,  4.61it/s]

지금 다 먹고 21759번째 도착완료 
  그리고 총 보상은 : 20.50000000000001 
지금 다 먹고 21760번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 52591/300000 [2:50:00<14:48:16,  4.64it/s]

지금 다 먹고 21761번째 도착완료 
  그리고 총 보상은 : 10.600000000000009 


 18%|█▊        | 52592/300000 [2:50:00<14:58:49,  4.59it/s]

지금 다 먹고 21762번째 도착완료 
  그리고 총 보상은 : 17.600000000000012 


 18%|█▊        | 52594/300000 [2:50:01<15:28:42,  4.44it/s]

지금 다 먹고 21763번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 18%|█▊        | 52596/300000 [2:50:01<16:32:16,  4.16it/s]

지금 다 먹고 21764번째 도착완료 
  그리고 총 보상은 : 9.70000000000003 
지금 다 먹고 21765번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 18%|█▊        | 52598/300000 [2:50:01<14:51:15,  4.63it/s]

지금 다 먹고 21766번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 21767번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 18%|█▊        | 52600/300000 [2:50:02<13:30:48,  5.09it/s]

지금 다 먹고 21768번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 21769번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 52602/300000 [2:50:02<12:50:58,  5.35it/s]

epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.200000000000003
 end : True
 clear : True
episode :2, score = 14.66900000000177, n_buffer :100000 , eps : 23.7
지금 다 먹고 21770번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 52603/300000 [2:50:02<13:24:38,  5.12it/s]

지금 다 먹고 21771번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 18%|█▊        | 52605/300000 [2:50:03<13:41:57,  5.02it/s]

지금 다 먹고 21772번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 21773번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 18%|█▊        | 52607/300000 [2:50:03<13:10:52,  5.21it/s]

지금 다 먹고 21774번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 21775번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 52609/300000 [2:50:04<13:09:12,  5.22it/s]

지금 다 먹고 21776번째 도착완료 
  그리고 총 보상은 : 18.5 


 18%|█▊        | 52613/300000 [2:50:05<16:34:25,  4.15it/s]

지금 다 먹고 21777번째 도착완료 
  그리고 총 보상은 : 14.100000000000001 


 18%|█▊        | 52614/300000 [2:50:05<15:23:41,  4.46it/s]

지금 다 먹고 21778번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21779번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 52616/300000 [2:50:05<13:56:16,  4.93it/s]

지금 다 먹고 21780번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 52617/300000 [2:50:05<14:31:20,  4.73it/s]

지금 다 먹고 21781번째 도착완료 
  그리고 총 보상은 : 10.500000000000016 
지금 다 먹고 21782번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 52619/300000 [2:50:06<13:43:41,  5.01it/s]

지금 다 먹고 21783번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52622/300000 [2:50:07<15:43:27,  4.37it/s]

지금 다 먹고 21784번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 52623/300000 [2:50:07<15:11:11,  4.52it/s]

지금 다 먹고 21785번째 도착완료 
  그리고 총 보상은 : 19.900000000000006 
지금 다 먹고 21786번째 도착완료 
  그리고 총 보상은 : 21.0 


 18%|█▊        | 52625/300000 [2:50:07<13:59:51,  4.91it/s]

지금 다 먹고 21787번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 21788번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 18%|█▊        | 52628/300000 [2:50:08<14:59:31,  4.58it/s]

지금 다 먹고 21789번째 도착완료 
  그리고 총 보상은 : 19.900000000000013 


 18%|█▊        | 52632/300000 [2:50:09<16:13:42,  4.23it/s]

지금 다 먹고 21790번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21791번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 52634/300000 [2:50:09<14:59:40,  4.58it/s]

지금 다 먹고 21792번째 도착완료 
  그리고 총 보상은 : 5.500000000000007 
지금 다 먹고 21793번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 52636/300000 [2:50:10<13:27:45,  5.10it/s]

지금 다 먹고 21794번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 18%|█▊        | 52640/300000 [2:50:11<15:36:58,  4.40it/s]

지금 다 먹고 21795번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 18%|█▊        | 52641/300000 [2:50:11<15:51:19,  4.33it/s]

지금 다 먹고 21796번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 
지금 다 먹고 21797번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 52643/300000 [2:50:11<14:20:50,  4.79it/s]

지금 다 먹고 21798번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 52645/300000 [2:50:12<14:45:21,  4.66it/s]

지금 다 먹고 21799번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 18%|█▊        | 52647/300000 [2:50:12<14:46:54,  4.65it/s]

지금 다 먹고 21800번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 21801번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 52649/300000 [2:50:12<13:49:08,  4.97it/s]

지금 다 먹고 21802번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 21803번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 52651/300000 [2:50:13<14:07:08,  4.87it/s]

지금 다 먹고 21804번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 


 18%|█▊        | 52653/300000 [2:50:13<14:23:10,  4.78it/s]

지금 다 먹고 21805번째 도착완료 
  그리고 총 보상은 : 27.5 


 18%|█▊        | 52656/300000 [2:50:14<15:36:54,  4.40it/s]

지금 다 먹고 21806번째 도착완료 
  그리고 총 보상은 : 26.40000000000001 
지금 다 먹고 21807번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 18%|█▊        | 52658/300000 [2:50:14<15:18:26,  4.49it/s]

지금 다 먹고 21808번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 18%|█▊        | 52659/300000 [2:50:15<14:43:11,  4.67it/s]

지금 다 먹고 21809번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 21810번째 도착완료 
  그리고 총 보상은 : 22.80000000000001 


 18%|█▊        | 52662/300000 [2:50:15<14:17:07,  4.81it/s]

지금 다 먹고 21811번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 18%|█▊        | 52664/300000 [2:50:16<15:38:23,  4.39it/s]

지금 다 먹고 21812번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 21813번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 52666/300000 [2:50:16<14:31:54,  4.73it/s]

지금 다 먹고 21814번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 21815번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 52668/300000 [2:50:17<14:08:50,  4.86it/s]

지금 다 먹고 21816번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21817번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 52670/300000 [2:50:17<13:02:26,  5.27it/s]

지금 다 먹고 21818번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 52673/300000 [2:50:18<14:34:25,  4.71it/s]

지금 다 먹고 21819번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 21820번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 18%|█▊        | 52675/300000 [2:50:18<13:24:31,  5.12it/s]

지금 다 먹고 21821번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 52676/300000 [2:50:18<14:23:49,  4.77it/s]

지금 다 먹고 21822번째 도착완료 
  그리고 총 보상은 : 10.600000000000009 


 18%|█▊        | 52677/300000 [2:50:18<14:59:38,  4.58it/s]

지금 다 먹고 21823번째 도착완료 
  그리고 총 보상은 : 18.5 


 18%|█▊        | 52679/300000 [2:50:19<15:52:17,  4.33it/s]

지금 다 먹고 21824번째 도착완료 
  그리고 총 보상은 : 14.600000000000005 


 18%|█▊        | 52681/300000 [2:50:19<16:11:50,  4.24it/s]

지금 다 먹고 21825번째 도착완료 
  그리고 총 보상은 : 21.3 


 18%|█▊        | 52682/300000 [2:50:20<15:16:36,  4.50it/s]

지금 다 먹고 21826번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 21827번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 52684/300000 [2:50:20<13:23:43,  5.13it/s]

지금 다 먹고 21828번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 
지금 다 먹고 21829번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 18%|█▊        | 52686/300000 [2:50:20<12:47:49,  5.37it/s]

지금 다 먹고 21830번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 21831번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52690/300000 [2:50:21<14:46:26,  4.65it/s]

지금 다 먹고 21832번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 18%|█▊        | 52691/300000 [2:50:21<14:46:08,  4.65it/s]

지금 다 먹고 21833번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 18%|█▊        | 52692/300000 [2:50:22<15:33:09,  4.42it/s]

지금 다 먹고 21834번째 도착완료 
  그리고 총 보상은 : 15.300000000000022 
지금 다 먹고 21835번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 18%|█▊        | 52694/300000 [2:50:22<13:43:15,  5.01it/s]

지금 다 먹고 21836번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 18%|█▊        | 52696/300000 [2:50:23<15:22:23,  4.47it/s]

지금 다 먹고 21837번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 18%|█▊        | 52697/300000 [2:50:23<15:15:20,  4.50it/s]

지금 다 먹고 21838번째 도착완료 
  그리고 총 보상은 : 23.000000000000007 


 18%|█▊        | 52698/300000 [2:50:23<14:54:32,  4.61it/s]

지금 다 먹고 21839번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 21840번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 52700/300000 [2:50:23<13:26:53,  5.11it/s]

지금 다 먹고 21841번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 21842번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52702/300000 [2:50:24<12:44:48,  5.39it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.700000000000003
 end : True
 clear : True
episode :0, score = 10.142999999998773, n_buffer :100000 , eps : 23.65
지금 다 먹고 21843번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 52703/300000 [2:50:24<12:36:54,  5.45it/s]

지금 다 먹고 21844번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 21845번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 52707/300000 [2:50:25<15:14:48,  4.51it/s]

지금 다 먹고 21846번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 21847번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 52709/300000 [2:50:25<15:08:26,  4.54it/s]

지금 다 먹고 21848번째 도착완료 
  그리고 총 보상은 : 6.5000000000000355 
지금 다 먹고 21849번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 52711/300000 [2:50:26<13:36:30,  5.05it/s]

지금 다 먹고 21850번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 52713/300000 [2:50:26<14:13:54,  4.83it/s]

지금 다 먹고 21851번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 52715/300000 [2:50:27<15:11:05,  4.52it/s]

지금 다 먹고 21852번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 52717/300000 [2:50:27<14:56:01,  4.60it/s]

지금 다 먹고 21853번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21854번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 


 18%|█▊        | 52719/300000 [2:50:27<14:07:17,  4.86it/s]

지금 다 먹고 21855번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 52721/300000 [2:50:28<15:01:45,  4.57it/s]

지금 다 먹고 21856번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 52724/300000 [2:50:29<15:22:04,  4.47it/s]

지금 다 먹고 21857번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 21858번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 52726/300000 [2:50:29<13:50:27,  4.96it/s]

지금 다 먹고 21859번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21860번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 52728/300000 [2:50:29<13:42:53,  5.01it/s]

지금 다 먹고 21861번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 


 18%|█▊        | 52730/300000 [2:50:30<14:43:00,  4.67it/s]

지금 다 먹고 21862번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 


 18%|█▊        | 52734/300000 [2:50:31<15:35:35,  4.40it/s]

지금 다 먹고 21863번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 
지금 다 먹고 21864번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 18%|█▊        | 52736/300000 [2:50:31<13:52:33,  4.95it/s]

지금 다 먹고 21865번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 21866번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 52738/300000 [2:50:31<13:03:10,  5.26it/s]

지금 다 먹고 21867번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 52741/300000 [2:50:32<15:00:17,  4.58it/s]

지금 다 먹고 21868번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 21869번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 52743/300000 [2:50:33<13:46:15,  4.99it/s]

지금 다 먹고 21870번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 21871번째 도착완료 
  그리고 총 보상은 : 12.699999999999996 


 18%|█▊        | 52745/300000 [2:50:33<13:37:20,  5.04it/s]

지금 다 먹고 21872번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 52747/300000 [2:50:33<15:16:13,  4.50it/s]

지금 다 먹고 21873번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 


 18%|█▊        | 52751/300000 [2:50:34<15:54:53,  4.32it/s]

지금 다 먹고 21874번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 21875번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 52753/300000 [2:50:35<13:48:08,  4.98it/s]

지금 다 먹고 21876번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 21877번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 18%|█▊        | 52755/300000 [2:50:35<13:32:09,  5.07it/s]

지금 다 먹고 21878번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 52758/300000 [2:50:36<14:48:14,  4.64it/s]

지금 다 먹고 21879번째 도착완료 
  그리고 총 보상은 : 20.2 


 18%|█▊        | 52760/300000 [2:50:36<15:49:34,  4.34it/s]

지금 다 먹고 21880번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 52761/300000 [2:50:37<15:17:45,  4.49it/s]

지금 다 먹고 21881번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 52762/300000 [2:50:37<15:02:27,  4.57it/s]

지금 다 먹고 21882번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 


 18%|█▊        | 52766/300000 [2:50:38<15:45:04,  4.36it/s]

지금 다 먹고 21883번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 18%|█▊        | 52768/300000 [2:50:38<17:42:53,  3.88it/s]

지금 다 먹고 21884번째 도착완료 
  그리고 총 보상은 : 11.800000000000038 
지금 다 먹고 21885번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52770/300000 [2:50:39<16:11:46,  4.24it/s]

지금 다 먹고 21886번째 도착완료 
  그리고 총 보상은 : 15.9 


 18%|█▊        | 52772/300000 [2:50:39<15:31:28,  4.42it/s]

지금 다 먹고 21887번째 도착완료 
  그리고 총 보상은 : 19.8 


 18%|█▊        | 52775/300000 [2:50:40<15:36:17,  4.40it/s]

지금 다 먹고 21888번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 21889번째 도착완료 
  그리고 총 보상은 : 25.1 


 18%|█▊        | 52777/300000 [2:50:40<14:20:02,  4.79it/s]

지금 다 먹고 21890번째 도착완료 
  그리고 총 보상은 : 20.900000000000006 
지금 다 먹고 21891번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 52781/300000 [2:50:41<15:26:52,  4.45it/s]

지금 다 먹고 21892번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 52783/300000 [2:50:42<17:24:04,  3.95it/s]

지금 다 먹고 21893번째 도착완료 
  그리고 총 보상은 : 13.600000000000007 
지금 다 먹고 21894번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 52785/300000 [2:50:42<14:46:43,  4.65it/s]

지금 다 먹고 21895번째 도착완료 
  그리고 총 보상은 : 22.1 
지금 다 먹고 21896번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 52787/300000 [2:50:43<15:42:02,  4.37it/s]

지금 다 먹고 21897번째 도착완료 
  그리고 총 보상은 : 12.00000000000001 
지금 다 먹고 21898번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52789/300000 [2:50:43<14:05:54,  4.87it/s]

지금 다 먹고 21899번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 18%|█▊        | 52792/300000 [2:50:44<15:45:29,  4.36it/s]

지금 다 먹고 21900번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 21901번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 52794/300000 [2:50:44<13:45:13,  4.99it/s]

지금 다 먹고 21902번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 21903번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 52796/300000 [2:50:45<13:16:10,  5.17it/s]

지금 다 먹고 21904번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 52798/300000 [2:50:45<14:10:49,  4.84it/s]

지금 다 먹고 21905번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 52800/300000 [2:50:45<15:26:36,  4.45it/s]

지금 다 먹고 21906번째 도착완료 
  그리고 총 보상은 : 20.10000000000001 


 18%|█▊        | 52802/300000 [2:50:46<15:50:30,  4.33it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [200.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0. 100.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-31.300000000000068
 end : True
 clear : True
episode :15, score = 5.873999999998805, n_buffer :100000 , eps : 23.599999999999998
지금 다 먹고 21907번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 52803/300000 [2:50:46<14:31:04,  4.73it/s]

지금 다 먹고 21908번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 52804/300000 [2:50:46<14:25:52,  4.76it/s]

지금 다 먹고 21909번째 도착완료 
  그리고 총 보상은 : 16.30000000000001 
지금 다 먹고 21910번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 52806/300000 [2:50:47<13:52:16,  4.95it/s]

지금 다 먹고 21911번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 52809/300000 [2:50:47<14:49:48,  4.63it/s]

지금 다 먹고 21912번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 21913번째 도착완료 
  그리고 총 보상은 : 24.1 


 18%|█▊        | 52811/300000 [2:50:48<14:57:35,  4.59it/s]

지금 다 먹고 21914번째 도착완료 
  그리고 총 보상은 : 21.1 
지금 다 먹고 21915번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 52817/300000 [2:50:49<16:14:06,  4.23it/s]

지금 다 먹고 21916번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 21917번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 52819/300000 [2:50:50<15:25:59,  4.45it/s]

지금 다 먹고 21918번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 21919번째 도착완료 
  그리고 총 보상은 : 26.8 


 18%|█▊        | 52821/300000 [2:50:50<13:31:49,  5.07it/s]

지금 다 먹고 21920번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 21921번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52823/300000 [2:50:50<12:31:58,  5.48it/s]

지금 다 먹고 21922번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 52826/300000 [2:50:51<14:01:26,  4.90it/s]

지금 다 먹고 21923번째 도착완료 
  그리고 총 보상은 : 27.0 
지금 다 먹고 21924번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 52828/300000 [2:50:51<13:27:30,  5.10it/s]

지금 다 먹고 21925번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 18%|█▊        | 52829/300000 [2:50:52<14:40:32,  4.68it/s]

지금 다 먹고 21926번째 도착완료 
  그리고 총 보상은 : 11.500000000000039 


 18%|█▊        | 52830/300000 [2:50:52<14:43:51,  4.66it/s]

지금 다 먹고 21927번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 


 18%|█▊        | 52832/300000 [2:50:52<15:19:13,  4.48it/s]

지금 다 먹고 21928번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 18%|█▊        | 52834/300000 [2:50:53<15:34:15,  4.41it/s]

지금 다 먹고 21929번째 도착완료 
  그리고 총 보상은 : 22.0 


 18%|█▊        | 52836/300000 [2:50:53<15:54:18,  4.32it/s]

지금 다 먹고 21930번째 도착완료 
  그리고 총 보상은 : 17.300000000000015 
지금 다 먹고 21931번째 도착완료 
  그리고 총 보상은 : 25.5 


 18%|█▊        | 52838/300000 [2:50:54<14:14:56,  4.82it/s]

지금 다 먹고 21932번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 21933번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 52840/300000 [2:50:54<12:50:30,  5.35it/s]

지금 다 먹고 21934번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 52843/300000 [2:50:55<14:58:17,  4.59it/s]

지금 다 먹고 21935번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 52844/300000 [2:50:55<15:28:58,  4.43it/s]

지금 다 먹고 21936번째 도착완료 
  그리고 총 보상은 : 13.500000000000037 


 18%|█▊        | 52845/300000 [2:50:55<15:34:48,  4.41it/s]

지금 다 먹고 21937번째 도착완료 
  그리고 총 보상은 : 14.700000000000031 
지금 다 먹고 21938번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 52849/300000 [2:50:56<15:46:58,  4.35it/s]

지금 다 먹고 21939번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 52850/300000 [2:50:57<16:40:54,  4.12it/s]

지금 다 먹고 21940번째 도착완료 
  그리고 총 보상은 : 3.1999999999999424 
지금 다 먹고 21941번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 


 18%|█▊        | 52853/300000 [2:50:57<16:13:03,  4.23it/s]

지금 다 먹고 21942번째 도착완료 
  그리고 총 보상은 : 20.000000000000007 


 18%|█▊        | 52854/300000 [2:50:57<16:15:17,  4.22it/s]

지금 다 먹고 21943번째 도착완료 
  그리고 총 보상은 : 15.90000000000002 


 18%|█▊        | 52855/300000 [2:50:58<15:30:17,  4.43it/s]

지금 다 먹고 21944번째 도착완료 
  그리고 총 보상은 : 21.8 
지금 다 먹고 21945번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 52857/300000 [2:50:58<14:04:01,  4.88it/s]

지금 다 먹고 21946번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52860/300000 [2:50:59<16:31:33,  4.15it/s]

지금 다 먹고 21947번째 도착완료 
  그리고 총 보상은 : 14.800000000000022 


 18%|█▊        | 52861/300000 [2:50:59<16:07:13,  4.26it/s]

지금 다 먹고 21948번째 도착완료 
  그리고 총 보상은 : 17.900000000000013 


 18%|█▊        | 52862/300000 [2:50:59<16:48:08,  4.09it/s]

지금 다 먹고 21949번째 도착완료 
  그리고 총 보상은 : 9.700000000000014 


 18%|█▊        | 52863/300000 [2:51:00<16:29:20,  4.16it/s]

지금 다 먹고 21950번째 도착완료 
  그리고 총 보상은 : 16.800000000000015 


 18%|█▊        | 52864/300000 [2:51:00<16:50:01,  4.08it/s]

지금 다 먹고 21951번째 도착완료 
  그리고 총 보상은 : 9.600000000000025 


 18%|█▊        | 52868/300000 [2:51:01<17:16:02,  3.98it/s]

지금 다 먹고 21952번째 도착완료 
  그리고 총 보상은 : 12.300000000000036 


 18%|█▊        | 52869/300000 [2:51:01<16:20:08,  4.20it/s]

지금 다 먹고 21953번째 도착완료 
  그리고 총 보상은 : -1.6000000000000227 
지금 다 먹고 21954번째 도착완료 
  그리고 총 보상은 : 22.7 


 18%|█▊        | 52871/300000 [2:51:01<14:24:06,  4.77it/s]

지금 다 먹고 21955번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52872/300000 [2:51:02<14:41:06,  4.67it/s]

지금 다 먹고 21956번째 도착완료 
  그리고 총 보상은 : 13.200000000000022 
지금 다 먹고 21957번째 도착완료 
  그리고 총 보상은 : 16.2 


 18%|█▊        | 52874/300000 [2:51:02<14:50:39,  4.62it/s]

지금 다 먹고 21958번째 도착완료 
  그리고 총 보상은 : 18.000000000000014 


 18%|█▊        | 52878/300000 [2:51:03<16:17:24,  4.21it/s]

지금 다 먹고 21959번째 도착완료 
  그리고 총 보상은 : 17.900000000000013 


 18%|█▊        | 52879/300000 [2:51:03<16:03:06,  4.28it/s]

지금 다 먹고 21960번째 도착완료 
  그리고 총 보상은 : 16.900000000000016 
지금 다 먹고 21961번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 52881/300000 [2:51:04<15:48:49,  4.34it/s]

지금 다 먹고 21962번째 도착완료 
  그리고 총 보상은 : 14.000000000000036 


 18%|█▊        | 52883/300000 [2:51:04<16:02:54,  4.28it/s]

지금 다 먹고 21963번째 도착완료 
  그리고 총 보상은 : 19.300000000000015 


 18%|█▊        | 52885/300000 [2:51:05<15:46:21,  4.35it/s]

지금 다 먹고 21964번째 도착완료 
  그리고 총 보상은 : 20.50000000000001 
지금 다 먹고 21965번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 52887/300000 [2:51:05<15:36:32,  4.40it/s]

지금 다 먹고 21966번째 도착완료 
  그리고 총 보상은 : 11.00000000000004 


 18%|█▊        | 52888/300000 [2:51:05<16:15:00,  4.22it/s]

지금 다 먹고 21967번째 도착완료 
  그리고 총 보상은 : 10.199999999999998 
지금 다 먹고 21968번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 52890/300000 [2:51:06<13:59:22,  4.91it/s]

지금 다 먹고 21969번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 21970번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 52894/300000 [2:51:07<14:28:55,  4.74it/s]

지금 다 먹고 21971번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 52897/300000 [2:51:07<15:34:46,  4.41it/s]

지금 다 먹고 21972번째 도착완료 
  그리고 총 보상은 : 19.00000000000001 


 18%|█▊        | 52898/300000 [2:51:08<15:41:02,  4.38it/s]

지금 다 먹고 21973번째 도착완료 
  그리고 총 보상은 : 20.10000000000001 


 18%|█▊        | 52901/300000 [2:51:08<17:43:54,  3.87it/s]

epi = 13
 마지막 상태 :
[[  0.   0. 200.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :-22.90000000000005
 end : True
 clear : True
episode :13, score = 5.90299999999821, n_buffer :100000 , eps : 23.549999999999997


 18%|█▊        | 52905/300000 [2:51:09<16:53:55,  4.06it/s]

지금 다 먹고 21974번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 21975번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 52907/300000 [2:51:10<14:55:09,  4.60it/s]

지금 다 먹고 21976번째 도착완료 
  그리고 총 보상은 : 25.400000000000013 
지금 다 먹고 21977번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 52911/300000 [2:51:11<15:34:24,  4.41it/s]

지금 다 먹고 21978번째 도착완료 
  그리고 총 보상은 : 8.600000000000014 
지금 다 먹고 21979번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 52914/300000 [2:51:11<14:39:27,  4.68it/s]

지금 다 먹고 21980번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 21981번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 18%|█▊        | 52917/300000 [2:51:12<14:37:40,  4.69it/s]

지금 다 먹고 21982번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 18%|█▊        | 52919/300000 [2:51:13<17:19:49,  3.96it/s]

지금 다 먹고 21983번째 도착완료 
  그리고 총 보상은 : 6.900000000000032 
지금 다 먹고 21984번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 52921/300000 [2:51:13<15:15:37,  4.50it/s]

지금 다 먹고 21985번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 
지금 다 먹고 21986번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 52923/300000 [2:51:13<14:00:18,  4.90it/s]

지금 다 먹고 21987번째 도착완료 
  그리고 총 보상은 : 20.000000000000014 
지금 다 먹고 21988번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 52925/300000 [2:51:14<12:54:27,  5.32it/s]

지금 다 먹고 21989번째 도착완료 
  그리고 총 보상은 : 25.5 


 18%|█▊        | 52928/300000 [2:51:14<14:27:56,  4.74it/s]

지금 다 먹고 21990번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 21991번째 도착완료 
  그리고 총 보상은 : 23.0 


 18%|█▊        | 52930/300000 [2:51:15<14:10:41,  4.84it/s]

지금 다 먹고 21992번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 21993번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 52934/300000 [2:51:16<16:08:32,  4.25it/s]

지금 다 먹고 21994번째 도착완료 
  그리고 총 보상은 : 11.600000000000014 


 18%|█▊        | 52936/300000 [2:51:16<15:39:56,  4.38it/s]

지금 다 먹고 21995번째 도착완료 
  그리고 총 보상은 : 21.2 
지금 다 먹고 21996번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 52938/300000 [2:51:16<14:06:33,  4.86it/s]

지금 다 먹고 21997번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 21998번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 52940/300000 [2:51:17<13:50:54,  4.96it/s]

지금 다 먹고 21999번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 18%|█▊        | 52942/300000 [2:51:17<14:26:12,  4.75it/s]

지금 다 먹고 22000번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 18%|█▊        | 52945/300000 [2:51:18<14:59:41,  4.58it/s]

지금 다 먹고 22001번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 52947/300000 [2:51:18<15:00:01,  4.57it/s]

지금 다 먹고 22002번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 22003번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 52949/300000 [2:51:19<13:44:54,  4.99it/s]

지금 다 먹고 22004번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 18%|█▊        | 52951/300000 [2:51:19<14:48:41,  4.63it/s]

지금 다 먹고 22005번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 18%|█▊        | 52954/300000 [2:51:20<15:29:59,  4.43it/s]

지금 다 먹고 22006번째 도착완료 
  그리고 총 보상은 : 18.6 


 18%|█▊        | 52956/300000 [2:51:20<15:00:24,  4.57it/s]

지금 다 먹고 22007번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 22008번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 52958/300000 [2:51:21<13:37:37,  5.04it/s]

지금 다 먹고 22009번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 22010번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 52965/300000 [2:51:23<16:14:09,  4.23it/s]

지금 다 먹고 22011번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 22012번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 


 18%|█▊        | 52970/300000 [2:51:24<15:52:55,  4.32it/s]

지금 다 먹고 22013번째 도착완료 
  그리고 총 보상은 : 19.600000000000005 
지금 다 먹고 22014번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 52973/300000 [2:51:24<14:53:40,  4.61it/s]

지금 다 먹고 22015번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 52974/300000 [2:51:25<15:21:18,  4.47it/s]

지금 다 먹고 22016번째 도착완료 
  그리고 총 보상은 : 17.40000000000002 
지금 다 먹고 22017번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 18%|█▊        | 52976/300000 [2:51:25<13:47:17,  4.98it/s]

지금 다 먹고 22018번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 52979/300000 [2:51:26<15:53:14,  4.32it/s]

지금 다 먹고 22019번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 52982/300000 [2:51:26<16:15:11,  4.22it/s]

지금 다 먹고 22020번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 18%|█▊        | 52985/300000 [2:51:27<17:24:06,  3.94it/s]

지금 다 먹고 22021번째 도착완료 
  그리고 총 보상은 : 11.600000000000042 


 18%|█▊        | 52988/300000 [2:51:28<16:23:23,  4.19it/s]

지금 다 먹고 22022번째 도착완료 
  그리고 총 보상은 : 19.8 


 18%|█▊        | 52990/300000 [2:51:28<16:14:28,  4.22it/s]

지금 다 먹고 22023번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 18%|█▊        | 52992/300000 [2:51:29<15:31:45,  4.42it/s]

지금 다 먹고 22024번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 22025번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 18%|█▊        | 52996/300000 [2:51:30<14:59:17,  4.58it/s]

지금 다 먹고 22026번째 도착완료 
  그리고 총 보상은 : 27.0 


 18%|█▊        | 52999/300000 [2:51:31<15:38:29,  4.39it/s]

지금 다 먹고 22027번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 18%|█▊        | 53001/300000 [2:51:31<17:35:50,  3.90it/s]

epi = 11
 마지막 상태 :
[[200.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :-24.10000000000006
 end : True
 clear : True
episode :11, score = 1.7529999999994168, n_buffer :100000 , eps : 23.5


 18%|█▊        | 53004/300000 [2:51:32<17:48:09,  3.85it/s]

지금 다 먹고 22028번째 도착완료 
  그리고 총 보상은 : 7.300000000000017 


 18%|█▊        | 53007/300000 [2:51:33<17:31:08,  3.92it/s]

지금 다 먹고 22029번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 22030번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53009/300000 [2:51:33<15:08:26,  4.53it/s]

지금 다 먹고 22031번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 22032번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 53013/300000 [2:51:34<14:44:56,  4.65it/s]

지금 다 먹고 22033번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53014/300000 [2:51:34<15:32:55,  4.41it/s]

지금 다 먹고 22034번째 도착완료 
  그리고 총 보상은 : -4.799999999999997 


 18%|█▊        | 53016/300000 [2:51:35<15:46:47,  4.35it/s]

지금 다 먹고 22035번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 22036번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 18%|█▊        | 53019/300000 [2:51:35<16:03:38,  4.27it/s]

지금 다 먹고 22037번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 18%|█▊        | 53022/300000 [2:51:36<17:30:10,  3.92it/s]

지금 다 먹고 22038번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 53024/300000 [2:51:37<16:28:44,  4.16it/s]

지금 다 먹고 22039번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53025/300000 [2:51:37<16:14:38,  4.22it/s]

지금 다 먹고 22040번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 
지금 다 먹고 22041번째 도착완료 
  그리고 총 보상은 : 28.0 


 18%|█▊        | 53027/300000 [2:51:37<14:34:27,  4.71it/s]

지금 다 먹고 22042번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 


 18%|█▊        | 53030/300000 [2:51:38<16:00:32,  4.29it/s]

지금 다 먹고 22043번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53033/300000 [2:51:39<16:04:08,  4.27it/s]

지금 다 먹고 22044번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 18%|█▊        | 53034/300000 [2:51:39<15:13:00,  4.51it/s]

지금 다 먹고 22045번째 도착완료 
  그리고 총 보상은 : 23.10000000000001 


 18%|█▊        | 53038/300000 [2:51:40<17:24:14,  3.94it/s]

지금 다 먹고 22046번째 도착완료 
  그리고 총 보상은 : 15.20000000000001 
지금 다 먹고 22047번째 도착완료 
  그리고 총 보상은 : 25.0 


 18%|█▊        | 53041/300000 [2:51:41<15:51:24,  4.33it/s]

지금 다 먹고 22048번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53042/300000 [2:51:41<16:12:02,  4.23it/s]

지금 다 먹고 22049번째 도착완료 
  그리고 총 보상은 : 9.100000000000005 
지금 다 먹고 22050번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53044/300000 [2:51:41<13:55:35,  4.93it/s]

지금 다 먹고 22051번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53046/300000 [2:51:42<14:44:59,  4.65it/s]

지금 다 먹고 22052번째 도착완료 
  그리고 총 보상은 : 19.1 


 18%|█▊        | 53047/300000 [2:51:42<15:09:42,  4.52it/s]

지금 다 먹고 22053번째 도착완료 
  그리고 총 보상은 : 16.700000000000014 


 18%|█▊        | 53050/300000 [2:51:43<16:35:14,  4.14it/s]

지금 다 먹고 22054번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 53055/300000 [2:51:44<17:26:06,  3.93it/s]

지금 다 먹고 22055번째 도착완료 
  그리고 총 보상은 : 16.60000000000002 


 18%|█▊        | 53058/300000 [2:51:45<17:37:09,  3.89it/s]

지금 다 먹고 22056번째 도착완료 
  그리고 총 보상은 : 18.900000000000013 


 18%|█▊        | 53060/300000 [2:51:45<15:52:36,  4.32it/s]

지금 다 먹고 22057번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 22058번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 18%|█▊        | 53062/300000 [2:51:46<14:47:13,  4.64it/s]

지금 다 먹고 22059번째 도착완료 
  그리고 총 보상은 : 17.60000000000001 


 18%|█▊        | 53064/300000 [2:51:46<14:36:58,  4.69it/s]

지금 다 먹고 22060번째 도착완료 
  그리고 총 보상은 : 25.5 


 18%|█▊        | 53067/300000 [2:51:47<15:07:55,  4.53it/s]

지금 다 먹고 22061번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 53070/300000 [2:51:48<17:56:02,  3.82it/s]

지금 다 먹고 22062번째 도착완료 
  그리고 총 보상은 : 1.4999999999999645 


 18%|█▊        | 53073/300000 [2:51:49<17:04:43,  4.02it/s]

지금 다 먹고 22063번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 


 18%|█▊        | 53075/300000 [2:51:49<15:39:09,  4.38it/s]

지금 다 먹고 22064번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 22065번째 도착완료 
  그리고 총 보상은 : 23.1 


 18%|█▊        | 53077/300000 [2:51:49<14:53:53,  4.60it/s]

지금 다 먹고 22066번째 도착완료 
  그리고 총 보상은 : 23.300000000000015 


 18%|█▊        | 53078/300000 [2:51:50<15:48:25,  4.34it/s]

지금 다 먹고 22067번째 도착완료 
  그리고 총 보상은 : 8.799999999999981 


 18%|█▊        | 53081/300000 [2:51:50<15:49:38,  4.33it/s]

지금 다 먹고 22068번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53084/300000 [2:51:51<16:08:05,  4.25it/s]

지금 다 먹고 22069번째 도착완료 
  그리고 총 보상은 : 18.300000000000015 


 18%|█▊        | 53090/300000 [2:51:53<16:35:59,  4.13it/s]

지금 다 먹고 22070번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 18%|█▊        | 53092/300000 [2:51:53<15:47:55,  4.34it/s]

지금 다 먹고 22071번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 53094/300000 [2:51:54<15:17:24,  4.49it/s]

지금 다 먹고 22072번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53101/300000 [2:51:55<16:20:36,  4.20it/s]

지금 다 먹고 22073번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.300000000000004
 end : True
 clear : True
episode :9, score = -3.5760000000001053, n_buffer :100000 , eps : 23.45


 18%|█▊        | 53106/300000 [2:51:57<17:52:04,  3.84it/s]

지금 다 먹고 22074번째 도착완료 
  그리고 총 보상은 : 8.90000000000004 
지금 다 먹고 22075번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53108/300000 [2:51:57<16:12:35,  4.23it/s]

지금 다 먹고 22076번째 도착완료 
  그리고 총 보상은 : 13.40000000000003 
지금 다 먹고 22077번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53110/300000 [2:51:57<14:15:25,  4.81it/s]

지금 다 먹고 22078번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 22079번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 18%|█▊        | 53112/300000 [2:51:58<13:29:10,  5.09it/s]

지금 다 먹고 22080번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53115/300000 [2:51:59<15:13:36,  4.50it/s]

지금 다 먹고 22081번째 도착완료 
  그리고 총 보상은 : 14.100000000000009 


 18%|█▊        | 53118/300000 [2:51:59<15:22:19,  4.46it/s]

지금 다 먹고 22082번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 53124/300000 [2:52:01<16:47:51,  4.08it/s]

지금 다 먹고 22083번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 18%|█▊        | 53125/300000 [2:52:01<16:52:05,  4.07it/s]

지금 다 먹고 22084번째 도착완료 
  그리고 총 보상은 : 14.600000000000012 
지금 다 먹고 22085번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53128/300000 [2:52:02<17:10:26,  3.99it/s]

지금 다 먹고 22086번째 도착완료 
  그리고 총 보상은 : 5.100000000000032 
지금 다 먹고 22087번째 도착완료 
  그리고 총 보상은 : 22.3 


 18%|█▊        | 53131/300000 [2:52:03<17:26:58,  3.93it/s]

지금 다 먹고 22088번째 도착완료 
  그리고 총 보상은 : 9.200000000000019 
지금 다 먹고 22089번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 18%|█▊        | 53135/300000 [2:52:04<16:20:17,  4.20it/s]

지금 다 먹고 22090번째 도착완료 
  그리고 총 보상은 : 23.5 


 18%|█▊        | 53141/300000 [2:52:05<16:41:41,  4.11it/s]

지금 다 먹고 22091번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 18%|█▊        | 53143/300000 [2:52:06<16:18:46,  4.20it/s]

지금 다 먹고 22092번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 18%|█▊        | 53145/300000 [2:52:06<15:22:48,  4.46it/s]

지금 다 먹고 22093번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 22094번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53149/300000 [2:52:07<15:59:49,  4.29it/s]

지금 다 먹고 22095번째 도착완료 
  그리고 총 보상은 : -8.000000000000043 


 18%|█▊        | 53152/300000 [2:52:08<16:25:21,  4.18it/s]

지금 다 먹고 22096번째 도착완료 
  그리고 총 보상은 : -19.300000000000033 


 18%|█▊        | 53158/300000 [2:52:09<16:12:07,  4.23it/s]

지금 다 먹고 22097번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53160/300000 [2:52:10<15:27:17,  4.44it/s]

지금 다 먹고 22098번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53162/300000 [2:52:10<14:40:44,  4.67it/s]

지금 다 먹고 22099번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 22100번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53166/300000 [2:52:11<14:57:38,  4.58it/s]

지금 다 먹고 22101번째 도착완료 
  그리고 총 보상은 : 19.8 


 18%|█▊        | 53169/300000 [2:52:12<15:00:53,  4.57it/s]

지금 다 먹고 22102번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53177/300000 [2:52:14<17:32:01,  3.91it/s]

지금 다 먹고 22103번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53179/300000 [2:52:14<15:55:07,  4.31it/s]

지금 다 먹고 22104번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 


 18%|█▊        | 53180/300000 [2:52:14<15:58:01,  4.29it/s]

지금 다 먹고 22105번째 도착완료 
  그리고 총 보상은 : 13.200000000000006 


 18%|█▊        | 53183/300000 [2:52:15<15:34:00,  4.40it/s]

지금 다 먹고 22106번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 53186/300000 [2:52:16<15:33:07,  4.41it/s]

지금 다 먹고 22107번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 22108번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 18%|█▊        | 53189/300000 [2:52:17<17:16:08,  3.97it/s]

지금 다 먹고 22109번째 도착완료 
  그리고 총 보상은 : 11.500000000000009 


 18%|█▊        | 53190/300000 [2:52:17<17:35:39,  3.90it/s]

지금 다 먹고 22110번째 도착완료 
  그리고 총 보상은 : 8.800000000000027 


 18%|█▊        | 53192/300000 [2:52:17<16:07:51,  4.25it/s]

지금 다 먹고 22111번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53194/300000 [2:52:18<15:37:45,  4.39it/s]

지금 다 먹고 22112번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53196/300000 [2:52:18<15:00:43,  4.57it/s]

지금 다 먹고 22113번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 22114번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53199/300000 [2:52:19<16:02:53,  4.27it/s]

지금 다 먹고 22115번째 도착완료 
  그리고 총 보상은 : 15.00000000000002 
지금 다 먹고 22116번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53201/300000 [2:52:19<16:19:02,  4.20it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1. 100.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :-23.700000000000056
 end : True
 clear : True
episode :7, score = -4.0850000000011955, n_buffer :100000 , eps : 23.4
지금 다 먹고 22117번째 도착완료 
  그리고 총 보상은 : 9.20000000000002 


 18%|█▊        | 53203/300000 [2:52:20<15:58:44,  4.29it/s]

지금 다 먹고 22118번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 


 18%|█▊        | 53204/300000 [2:52:20<16:15:12,  4.22it/s]

지금 다 먹고 22119번째 도착완료 
  그리고 총 보상은 : 11.800000000000027 


 18%|█▊        | 53208/300000 [2:52:21<18:31:35,  3.70it/s]

지금 다 먹고 22120번째 도착완료 
  그리고 총 보상은 : 11.300000000000015 
지금 다 먹고 22121번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53211/300000 [2:52:22<15:21:30,  4.46it/s]

지금 다 먹고 22122번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53212/300000 [2:52:22<15:04:59,  4.54it/s]

지금 다 먹고 22123번째 도착완료 
  그리고 총 보상은 : 9.8 
지금 다 먹고 22124번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 53214/300000 [2:52:22<13:22:58,  5.12it/s]

지금 다 먹고 22125번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53217/300000 [2:52:23<14:29:31,  4.73it/s]

지금 다 먹고 22126번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53219/300000 [2:52:24<15:04:04,  4.55it/s]

지금 다 먹고 22127번째 도착완료 
  그리고 총 보상은 : 16.60000000000001 


 18%|█▊        | 53223/300000 [2:52:25<16:23:09,  4.18it/s]

지금 다 먹고 22128번째 도착완료 
  그리고 총 보상은 : 17.7 
지금 다 먹고 22129번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53225/300000 [2:52:25<14:40:14,  4.67it/s]

지금 다 먹고 22130번째 도착완료 
  그리고 총 보상은 : 21.300000000000008 
지금 다 먹고 22131번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53227/300000 [2:52:25<14:37:22,  4.69it/s]

지금 다 먹고 22132번째 도착완료 
  그리고 총 보상은 : 11.000000000000037 
지금 다 먹고 22133번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53230/300000 [2:52:26<14:13:42,  4.82it/s]

지금 다 먹고 22134번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 22135번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 18%|█▊        | 53232/300000 [2:52:26<13:26:33,  5.10it/s]

지금 다 먹고 22136번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 18%|█▊        | 53234/300000 [2:52:27<15:02:15,  4.56it/s]

지금 다 먹고 22137번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 18%|█▊        | 53236/300000 [2:52:27<14:59:14,  4.57it/s]

지금 다 먹고 22138번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 


 18%|█▊        | 53237/300000 [2:52:28<15:40:22,  4.37it/s]

지금 다 먹고 22139번째 도착완료 
  그리고 총 보상은 : -0.8000000000000043 
지금 다 먹고 22140번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 18%|█▊        | 53239/300000 [2:52:28<14:26:03,  4.75it/s]

지금 다 먹고 22141번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 18%|█▊        | 53242/300000 [2:52:29<15:41:43,  4.37it/s]

지금 다 먹고 22142번째 도착완료 
  그리고 총 보상은 : 16.400000000000013 
지금 다 먹고 22143번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 53244/300000 [2:52:29<13:59:23,  4.90it/s]

지금 다 먹고 22144번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 22145번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 53247/300000 [2:52:30<13:50:41,  4.95it/s]

지금 다 먹고 22146번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 22147번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 53249/300000 [2:52:30<12:48:37,  5.35it/s]

지금 다 먹고 22148번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 22149번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53251/300000 [2:52:30<12:16:03,  5.59it/s]

지금 다 먹고 22150번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53254/300000 [2:52:31<15:40:53,  4.37it/s]

지금 다 먹고 22151번째 도착완료 
  그리고 총 보상은 : 12.800000000000026 


 18%|█▊        | 53256/300000 [2:52:32<15:17:08,  4.48it/s]

지금 다 먹고 22152번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 18%|█▊        | 53257/300000 [2:52:32<14:51:02,  4.62it/s]

지금 다 먹고 22153번째 도착완료 
  그리고 총 보상은 : 20.400000000000002 


 18%|█▊        | 53260/300000 [2:52:33<15:11:13,  4.51it/s]

지금 다 먹고 22154번째 도착완료 
  그리고 총 보상은 : 26.0 


 18%|█▊        | 53262/300000 [2:52:33<15:26:44,  4.44it/s]

지금 다 먹고 22155번째 도착완료 
  그리고 총 보상은 : 10.4 
지금 다 먹고 22156번째 도착완료 
  그리고 총 보상은 : 23.1 


 18%|█▊        | 53264/300000 [2:52:33<14:00:04,  4.90it/s]

지금 다 먹고 22157번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 53266/300000 [2:52:34<15:26:57,  4.44it/s]

지금 다 먹고 22158번째 도착완료 
  그리고 총 보상은 : 14.500000000000007 


 18%|█▊        | 53267/300000 [2:52:34<15:08:10,  4.53it/s]

지금 다 먹고 22159번째 도착완료 
  그리고 총 보상은 : 19.400000000000013 
지금 다 먹고 22160번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 53269/300000 [2:52:34<14:21:28,  4.77it/s]

지금 다 먹고 22161번째 도착완료 
  그리고 총 보상은 : 17.20000000000001 
지금 다 먹고 22162번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 53271/300000 [2:52:35<13:09:12,  5.21it/s]

지금 다 먹고 22163번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 22164번째 도착완료 
  그리고 총 보상은 : 21.499999999999996 


 18%|█▊        | 53273/300000 [2:52:35<13:03:47,  5.25it/s]

지금 다 먹고 22165번째 도착완료 
  그리고 총 보상은 : 18.6 


 18%|█▊        | 53274/300000 [2:52:35<13:15:43,  5.17it/s]

지금 다 먹고 22166번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 22167번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 18%|█▊        | 53277/300000 [2:52:36<14:47:36,  4.63it/s]

지금 다 먹고 22168번째 도착완료 
  그리고 총 보상은 : 18.10000000000001 


 18%|█▊        | 53279/300000 [2:52:37<16:01:46,  4.28it/s]

지금 다 먹고 22169번째 도착완료 
  그리고 총 보상은 : -9.70000000000006 


 18%|█▊        | 53281/300000 [2:52:37<16:37:26,  4.12it/s]

지금 다 먹고 22170번째 도착완료 
  그리고 총 보상은 : 13.500000000000018 


 18%|█▊        | 53283/300000 [2:52:38<15:40:30,  4.37it/s]

지금 다 먹고 22171번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53285/300000 [2:52:38<15:57:48,  4.29it/s]

지금 다 먹고 22172번째 도착완료 
  그리고 총 보상은 : 13.600000000000016 
지금 다 먹고 22173번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 18%|█▊        | 53288/300000 [2:52:39<15:16:34,  4.49it/s]

지금 다 먹고 22174번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 18%|█▊        | 53291/300000 [2:52:39<16:28:22,  4.16it/s]

지금 다 먹고 22175번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 


 18%|█▊        | 53294/300000 [2:52:40<15:49:12,  4.33it/s]

지금 다 먹고 22176번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53296/300000 [2:52:41<14:52:58,  4.60it/s]

지금 다 먹고 22177번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53298/300000 [2:52:41<16:00:31,  4.28it/s]

지금 다 먹고 22178번째 도착완료 
  그리고 총 보상은 : 8.500000000000034 


 18%|█▊        | 53300/300000 [2:52:42<15:35:35,  4.39it/s]

지금 다 먹고 22179번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 22180번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 18%|█▊        | 53301/300000 [2:52:42<15:11:03,  4.51it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :21.60000000000001
 end : True
 clear : True
episode :5, score = 5.427999999998746, n_buffer :100000 , eps : 23.349999999999998
지금 다 먹고 22181번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 53305/300000 [2:52:43<15:44:14,  4.35it/s]

지금 다 먹고 22182번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53307/300000 [2:52:43<16:35:16,  4.13it/s]

지금 다 먹고 22183번째 도착완료 
  그리고 총 보상은 : 9.300000000000043 


 18%|█▊        | 53309/300000 [2:52:44<16:33:06,  4.14it/s]

지금 다 먹고 22184번째 도착완료 
  그리고 총 보상은 : 20.400000000000002 


 18%|█▊        | 53310/300000 [2:52:44<16:04:25,  4.26it/s]

지금 다 먹고 22185번째 도착완료 
  그리고 총 보상은 : 21.70000000000001 


 18%|█▊        | 53311/300000 [2:52:44<15:47:14,  4.34it/s]

지금 다 먹고 22186번째 도착완료 
  그리고 총 보상은 : 19.900000000000006 


 18%|█▊        | 53313/300000 [2:52:45<16:55:48,  4.05it/s]

지금 다 먹고 22187번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53317/300000 [2:52:46<15:59:36,  4.28it/s]

지금 다 먹고 22188번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 18%|█▊        | 53318/300000 [2:52:46<16:20:00,  4.20it/s]

지금 다 먹고 22189번째 도착완료 
  그리고 총 보상은 : 12.800000000000018 


 18%|█▊        | 53321/300000 [2:52:47<16:37:04,  4.12it/s]

지금 다 먹고 22190번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 
지금 다 먹고 22191번째 도착완료 
  그리고 총 보상은 : 24.3 


 18%|█▊        | 53323/300000 [2:52:47<14:53:40,  4.60it/s]

지금 다 먹고 22192번째 도착완료 
  그리고 총 보상은 : 19.8 


 18%|█▊        | 53324/300000 [2:52:47<15:02:10,  4.56it/s]

지금 다 먹고 22193번째 도착완료 
  그리고 총 보상은 : -9.900000000000055 
지금 다 먹고 22194번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 


 18%|█▊        | 53326/300000 [2:52:48<13:36:04,  5.04it/s]

지금 다 먹고 22195번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 22196번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 18%|█▊        | 53328/300000 [2:52:48<13:02:40,  5.25it/s]

지금 다 먹고 22197번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 18%|█▊        | 53330/300000 [2:52:48<13:29:21,  5.08it/s]

지금 다 먹고 22198번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53332/300000 [2:52:49<14:31:16,  4.72it/s]

지금 다 먹고 22199번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 18%|█▊        | 53334/300000 [2:52:49<14:21:02,  4.77it/s]

지금 다 먹고 22200번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22201번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53336/300000 [2:52:50<15:12:11,  4.51it/s]

지금 다 먹고 22202번째 도착완료 
  그리고 총 보상은 : 18.900000000000013 


 18%|█▊        | 53338/300000 [2:52:50<16:33:12,  4.14it/s]

지금 다 먹고 22203번째 도착완료 
  그리고 총 보상은 : 11.900000000000013 


 18%|█▊        | 53340/300000 [2:52:51<15:55:14,  4.30it/s]

지금 다 먹고 22204번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 22205번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53342/300000 [2:52:51<14:32:13,  4.71it/s]

지금 다 먹고 22206번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 


 18%|█▊        | 53343/300000 [2:52:51<14:31:10,  4.72it/s]

지금 다 먹고 22207번째 도착완료 
  그리고 총 보상은 : 22.400000000000013 
지금 다 먹고 22208번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 18%|█▊        | 53345/300000 [2:52:52<13:49:34,  4.96it/s]

지금 다 먹고 22209번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53347/300000 [2:52:52<14:08:20,  4.85it/s]

지금 다 먹고 22210번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53349/300000 [2:52:53<14:47:26,  4.63it/s]

지금 다 먹고 22211번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53351/300000 [2:52:53<14:49:35,  4.62it/s]

지금 다 먹고 22212번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 22213번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53353/300000 [2:52:54<13:48:28,  4.96it/s]

지금 다 먹고 22214번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53356/300000 [2:52:54<14:53:58,  4.60it/s]

지금 다 먹고 22215번째 도착완료 
  그리고 총 보상은 : 23.4 
지금 다 먹고 22216번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 18%|█▊        | 53358/300000 [2:52:55<13:59:28,  4.90it/s]

지금 다 먹고 22217번째 도착완료 
  그리고 총 보상은 : 22.900000000000013 
지금 다 먹고 22218번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 53360/300000 [2:52:55<13:10:16,  5.20it/s]

지금 다 먹고 22219번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22220번째 도착완료 
  그리고 총 보상은 : 13.10000000000001 


 18%|█▊        | 53362/300000 [2:52:55<12:52:15,  5.32it/s]

지금 다 먹고 22221번째 도착완료 
  그리고 총 보상은 : 19.000000000000004 


 18%|█▊        | 53365/300000 [2:52:56<15:21:50,  4.46it/s]

지금 다 먹고 22222번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 22223번째 도착완료 
  그리고 총 보상은 : 27.20000000000001 


 18%|█▊        | 53368/300000 [2:52:57<14:43:26,  4.65it/s]

지금 다 먹고 22224번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 22225번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 53370/300000 [2:52:57<13:03:53,  5.24it/s]

지금 다 먹고 22226번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53372/300000 [2:52:58<13:34:04,  5.05it/s]

지금 다 먹고 22227번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22228번째 도착완료 
  그리고 총 보상은 : 22.50000000000001 


 18%|█▊        | 53374/300000 [2:52:58<13:22:49,  5.12it/s]

지금 다 먹고 22229번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 22230번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 

 18%|█▊        | 53375/300000 [2:52:58<13:21:50,  5.13it/s]


지금 다 먹고 22231번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 53377/300000 [2:52:58<13:43:47,  4.99it/s]

지금 다 먹고 22232번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 53378/300000 [2:52:59<14:34:13,  4.70it/s]

지금 다 먹고 22233번째 도착완료 
  그리고 총 보상은 : 14.500000000000032 
지금 다 먹고 22234번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 18%|█▊        | 53381/300000 [2:52:59<14:48:44,  4.62it/s]

지금 다 먹고 22235번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53383/300000 [2:53:00<15:08:32,  4.52it/s]

지금 다 먹고 22236번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 22237번째 도착완료 
  그리고 총 보상은 : 24.6 


 18%|█▊        | 53385/300000 [2:53:00<13:45:34,  4.98it/s]

지금 다 먹고 22238번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22239번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 53387/300000 [2:53:01<13:29:42,  5.08it/s]

지금 다 먹고 22240번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 53389/300000 [2:53:01<14:09:53,  4.84it/s]

지금 다 먹고 22241번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 
지금 다 먹고 22242번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 53391/300000 [2:53:01<13:23:58,  5.11it/s]

지금 다 먹고 22243번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 22244번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53393/300000 [2:53:02<12:59:12,  5.27it/s]

지금 다 먹고 22245번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 53394/300000 [2:53:02<13:29:03,  5.08it/s]

지금 다 먹고 22246번째 도착완료 
  그리고 총 보상은 : 16.70000000000001 
지금 다 먹고 22247번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53396/300000 [2:53:02<12:55:09,  5.30it/s]

지금 다 먹고 22248번째 도착완료 
  그리고 총 보상은 : 22.499999999999996 


 18%|█▊        | 53398/300000 [2:53:03<13:47:27,  4.97it/s]

지금 다 먹고 22249번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53400/300000 [2:53:03<14:01:26,  4.88it/s]

지금 다 먹고 22250번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53402/300000 [2:53:04<14:02:54,  4.88it/s]

epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1. 200.]
 [  0. 100.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.5
 총 받은 보상 :-31.700000000000088
 end : True
 clear : True
episode :3, score = 7.956999999999401, n_buffer :100000 , eps : 23.299999999999997
지금 다 먹고 22251번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 22252번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53404/300000 [2:53:04<12:49:33,  5.34it/s]

지금 다 먹고 22253번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 53406/300000 [2:53:05<14:52:49,  4.60it/s]

지금 다 먹고 22254번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 18%|█▊        | 53407/300000 [2:53:05<14:37:28,  4.68it/s]

지금 다 먹고 22255번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53408/300000 [2:53:05<14:25:42,  4.75it/s]

지금 다 먹고 22256번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 22257번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 53410/300000 [2:53:05<13:37:59,  5.02it/s]

지금 다 먹고 22258번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 22259번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53412/300000 [2:53:06<12:41:21,  5.40it/s]

지금 다 먹고 22260번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 22261번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53415/300000 [2:53:06<13:48:21,  4.96it/s]

지금 다 먹고 22262번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 18%|█▊        | 53416/300000 [2:53:07<14:29:47,  4.72it/s]

지금 다 먹고 22263번째 도착완료 
  그리고 총 보상은 : 15.600000000000003 
지금 다 먹고 22264번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53418/300000 [2:53:07<13:45:31,  4.98it/s]

지금 다 먹고 22265번째 도착완료 
  그리고 총 보상은 : 19.900000000000013 
지금 다 먹고 22266번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53420/300000 [2:53:07<12:52:15,  5.32it/s]

지금 다 먹고 22267번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 22268번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53422/300000 [2:53:08<14:30:41,  4.72it/s]

지금 다 먹고 22269번째 도착완료 
  그리고 총 보상은 : 9.2 
지금 다 먹고 22270번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 53424/300000 [2:53:08<13:39:16,  5.02it/s]

지금 다 먹고 22271번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 22272번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 53426/300000 [2:53:09<13:42:38,  5.00it/s]

지금 다 먹고 22273번째 도착완료 
  그리고 총 보상은 : 11.500000000000004 
지금 다 먹고 22274번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 18%|█▊        | 53428/300000 [2:53:09<13:08:19,  5.21it/s]

지금 다 먹고 22275번째 도착완료 
  그리고 총 보상은 : 17.8 
지금 다 먹고 22276번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 53430/300000 [2:53:09<12:22:26,  5.54it/s]

지금 다 먹고 22277번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 22278번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 18%|█▊        | 53432/300000 [2:53:10<12:11:20,  5.62it/s]

지금 다 먹고 22279번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53434/300000 [2:53:10<13:15:35,  5.17it/s]

지금 다 먹고 22280번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 22281번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 


 18%|█▊        | 53436/300000 [2:53:10<12:53:53,  5.31it/s]

지금 다 먹고 22282번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22283번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53438/300000 [2:53:11<12:09:33,  5.63it/s]

지금 다 먹고 22284번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53440/300000 [2:53:11<13:22:55,  5.12it/s]

지금 다 먹고 22285번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 22286번째 도착완료 
  그리고 총 보상은 : 22.799999999999997 


 18%|█▊        | 53442/300000 [2:53:12<12:51:15,  5.33it/s]

지금 다 먹고 22287번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 22288번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53444/300000 [2:53:12<12:52:36,  5.32it/s]

지금 다 먹고 22289번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 22290번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 53446/300000 [2:53:12<12:30:13,  5.48it/s]

지금 다 먹고 22291번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 
지금 다 먹고 22292번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 53448/300000 [2:53:13<12:34:26,  5.45it/s]

지금 다 먹고 22293번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 22294번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53451/300000 [2:53:13<14:48:16,  4.63it/s]

지금 다 먹고 22295번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 22296번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53453/300000 [2:53:14<14:07:30,  4.85it/s]

지금 다 먹고 22297번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22298번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 18%|█▊        | 53455/300000 [2:53:14<13:20:26,  5.13it/s]

지금 다 먹고 22299번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 53457/300000 [2:53:15<14:53:22,  4.60it/s]

지금 다 먹고 22300번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 
지금 다 먹고 22301번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53459/300000 [2:53:15<14:34:25,  4.70it/s]

지금 다 먹고 22302번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53460/300000 [2:53:15<14:04:45,  4.86it/s]

지금 다 먹고 22303번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 22304번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 18%|█▊        | 53462/300000 [2:53:16<14:08:33,  4.84it/s]

지금 다 먹고 22305번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 18%|█▊        | 53463/300000 [2:53:16<13:55:52,  4.92it/s]

지금 다 먹고 22306번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 22307번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53465/300000 [2:53:16<13:50:46,  4.95it/s]

지금 다 먹고 22308번째 도착완료 
  그리고 총 보상은 : 24.100000000000016 
지금 다 먹고 22309번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53468/300000 [2:53:17<14:07:03,  4.85it/s]

지금 다 먹고 22310번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 22311번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53470/300000 [2:53:17<13:08:26,  5.21it/s]

지금 다 먹고 22312번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 22313번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53472/300000 [2:53:18<13:04:41,  5.24it/s]

지금 다 먹고 22314번째 도착완료 
  그리고 총 보상은 : 23.299999999999997 


 18%|█▊        | 53474/300000 [2:53:18<14:31:32,  4.71it/s]

지금 다 먹고 22315번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22316번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 53476/300000 [2:53:18<13:21:12,  5.13it/s]

지금 다 먹고 22317번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 22318번째 도착완료 
  그리고 총 보상은 : 6.400000000000004 

 18%|█▊        | 53477/300000 [2:53:19<13:45:05,  4.98it/s]




 18%|█▊        | 53478/300000 [2:53:19<14:42:28,  4.66it/s]

지금 다 먹고 22319번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 
지금 다 먹고 22320번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 53480/300000 [2:53:19<13:26:33,  5.09it/s]

지금 다 먹고 22321번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 
지금 다 먹고 22322번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53483/300000 [2:53:20<13:43:12,  4.99it/s]

지금 다 먹고 22323번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 53485/300000 [2:53:20<14:04:26,  4.87it/s]

지금 다 먹고 22324번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 22325번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53487/300000 [2:53:21<12:45:28,  5.37it/s]

지금 다 먹고 22326번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 22327번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 53489/300000 [2:53:21<12:31:03,  5.47it/s]

지금 다 먹고 22328번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 18%|█▊        | 53491/300000 [2:53:21<14:01:23,  4.88it/s]

지금 다 먹고 22329번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 22330번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53493/300000 [2:53:22<13:11:36,  5.19it/s]

지금 다 먹고 22331번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22332번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 53495/300000 [2:53:22<12:50:13,  5.33it/s]

지금 다 먹고 22333번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 22334번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 18%|█▊        | 53497/300000 [2:53:22<12:37:50,  5.42it/s]

지금 다 먹고 22335번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22336번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53499/300000 [2:53:23<12:50:19,  5.33it/s]

지금 다 먹고 22337번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 22338번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 53502/300000 [2:53:24<13:53:04,  4.93it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0. 100.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.5
 총 받은 보상 :-30.90000000000011
 end : True
 clear : True
episode :1, score = 18.474000000001872, n_buffer :100000 , eps : 23.25
지금 다 먹고 22339번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 53503/300000 [2:53:24<13:49:35,  4.95it/s]

지금 다 먹고 22340번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 53504/300000 [2:53:24<13:34:34,  5.04it/s]

지금 다 먹고 22341번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 22342번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 53506/300000 [2:53:24<12:51:25,  5.33it/s]

지금 다 먹고 22343번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 53508/300000 [2:53:25<13:54:30,  4.92it/s]

지금 다 먹고 22344번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22345번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 18%|█▊        | 53510/300000 [2:53:25<12:49:07,  5.34it/s]

지금 다 먹고 22346번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22347번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 18%|█▊        | 53512/300000 [2:53:25<12:52:47,  5.32it/s]

지금 다 먹고 22348번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22349번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 53514/300000 [2:53:26<13:25:11,  5.10it/s]

지금 다 먹고 22350번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 18%|█▊        | 53515/300000 [2:53:26<14:09:58,  4.83it/s]

지금 다 먹고 22351번째 도착완료 
  그리고 총 보상은 : 14.700000000000024 
지금 다 먹고 22352번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 53517/300000 [2:53:26<13:12:20,  5.18it/s]

지금 다 먹고 22353번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53519/300000 [2:53:27<14:36:17,  4.69it/s]

지금 다 먹고 22354번째 도착완료 
  그리고 총 보상은 : 8.099999999999996 


 18%|█▊        | 53521/300000 [2:53:27<14:23:02,  4.76it/s]

지금 다 먹고 22355번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 22356번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53523/300000 [2:53:28<13:07:31,  5.22it/s]

지금 다 먹고 22357번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53526/300000 [2:53:28<15:00:16,  4.56it/s]

지금 다 먹고 22358번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 22359번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 18%|█▊        | 53528/300000 [2:53:29<13:56:37,  4.91it/s]

지금 다 먹고 22360번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 22361번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53530/300000 [2:53:29<13:14:34,  5.17it/s]

지금 다 먹고 22362번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 22363번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 53532/300000 [2:53:30<13:21:23,  5.13it/s]

지금 다 먹고 22364번째 도착완료 
  그리고 총 보상은 : 12.600000000000003 
지금 다 먹고 22365번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 53534/300000 [2:53:30<12:42:52,  5.38it/s]

지금 다 먹고 22366번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53536/300000 [2:53:30<13:50:50,  4.94it/s]

지금 다 먹고 22367번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 22368번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 53538/300000 [2:53:31<13:52:34,  4.93it/s]

지금 다 먹고 22369번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 22370번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 53540/300000 [2:53:31<12:56:41,  5.29it/s]

지금 다 먹고 22371번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53542/300000 [2:53:32<13:47:13,  4.97it/s]

지금 다 먹고 22372번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53544/300000 [2:53:32<13:58:34,  4.90it/s]

지금 다 먹고 22373번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 22374번째 도착완료 
  그리고 총 보상은 : 8.800000000000004 


 18%|█▊        | 53546/300000 [2:53:32<13:33:00,  5.05it/s]

지금 다 먹고 22375번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 22376번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53548/300000 [2:53:33<13:10:46,  5.19it/s]

지금 다 먹고 22377번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 22378번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 53550/300000 [2:53:33<12:54:40,  5.30it/s]

지금 다 먹고 22379번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 22380번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53553/300000 [2:53:34<14:01:34,  4.88it/s]

지금 다 먹고 22381번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 
지금 다 먹고 22382번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53555/300000 [2:53:34<13:00:50,  5.26it/s]

지금 다 먹고 22383번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22384번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 18%|█▊        | 53557/300000 [2:53:34<12:25:53,  5.51it/s]

지금 다 먹고 22385번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53559/300000 [2:53:35<13:41:11,  5.00it/s]

지금 다 먹고 22386번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 22387번째 도착완료 
  그리고 총 보상은 : 20.000000000000004 


 18%|█▊        | 53561/300000 [2:53:35<13:11:14,  5.19it/s]

지금 다 먹고 22388번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 22389번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 53563/300000 [2:53:36<13:06:11,  5.22it/s]

지금 다 먹고 22390번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 22391번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 53565/300000 [2:53:36<12:38:59,  5.41it/s]

지금 다 먹고 22392번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 22393번째 도착완료 
  그리고 총 보상은 : 23.5 


 18%|█▊        | 53567/300000 [2:53:36<12:16:45,  5.57it/s]

지금 다 먹고 22394번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 22395번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 53570/300000 [2:53:37<14:14:23,  4.81it/s]

지금 다 먹고 22396번째 도착완료 
  그리고 총 보상은 : 22.0 


 18%|█▊        | 53572/300000 [2:53:38<14:59:09,  4.57it/s]

지금 다 먹고 22397번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 22398번째 도착완료 
  그리고 총 보상은 : 15.7 


 18%|█▊        | 53574/300000 [2:53:38<13:36:12,  5.03it/s]

지금 다 먹고 22399번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53576/300000 [2:53:38<14:28:45,  4.73it/s]

지금 다 먹고 22400번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 53578/300000 [2:53:39<14:56:34,  4.58it/s]

지금 다 먹고 22401번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 22402번째 도착완료 
  그리고 총 보상은 : 16.7 


 18%|█▊        | 53580/300000 [2:53:39<14:00:56,  4.88it/s]

지금 다 먹고 22403번째 도착완료 
  그리고 총 보상은 : 9.0 
지금 다 먹고 22404번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53582/300000 [2:53:40<13:48:46,  4.96it/s]

지금 다 먹고 22405번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 22406번째 도착완료 
  그리고 총 보상은 : 17.099999999999998 


 18%|█▊        | 53584/300000 [2:53:40<13:33:46,  5.05it/s]

지금 다 먹고 22407번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 22408번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53587/300000 [2:53:41<13:41:52,  5.00it/s]

지금 다 먹고 22409번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53589/300000 [2:53:41<13:57:12,  4.91it/s]

지금 다 먹고 22410번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22411번째 도착완료 
  그리고 총 보상은 : 16.5 


 18%|█▊        | 53591/300000 [2:53:41<13:31:02,  5.06it/s]

지금 다 먹고 22412번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 53595/300000 [2:53:42<15:45:25,  4.34it/s]

지금 다 먹고 22413번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22414번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 53597/300000 [2:53:43<13:59:16,  4.89it/s]

지금 다 먹고 22415번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 22416번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53599/300000 [2:53:43<12:58:16,  5.28it/s]

지금 다 먹고 22417번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22418번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53601/300000 [2:53:44<13:11:32,  5.19it/s]

지금 다 먹고 22419번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.700000000000003
 end : True
 clear : True
episode :16, score = 14.226000000001523, n_buffer :100000 , eps : 23.2
지금 다 먹고 22420번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53604/300000 [2:53:44<14:18:37,  4.78it/s]

지금 다 먹고 22421번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53606/300000 [2:53:45<14:48:04,  4.62it/s]

지금 다 먹고 22422번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 22423번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 18%|█▊        | 53608/300000 [2:53:45<13:14:39,  5.17it/s]

지금 다 먹고 22424번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53610/300000 [2:53:45<14:41:27,  4.66it/s]

지금 다 먹고 22425번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53611/300000 [2:53:46<14:37:51,  4.68it/s]

지금 다 먹고 22426번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53612/300000 [2:53:46<14:26:39,  4.74it/s]

지금 다 먹고 22427번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 22428번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 18%|█▊        | 53614/300000 [2:53:46<13:13:09,  5.18it/s]

지금 다 먹고 22429번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 22430번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 18%|█▊        | 53616/300000 [2:53:47<13:36:19,  5.03it/s]

지금 다 먹고 22431번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22432번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 53618/300000 [2:53:47<12:52:26,  5.32it/s]

지금 다 먹고 22433번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 
지금 다 먹고 22434번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53621/300000 [2:53:48<13:49:06,  4.95it/s]

지금 다 먹고 22435번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 22436번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53623/300000 [2:53:48<13:19:18,  5.14it/s]

지금 다 먹고 22437번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 22438번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 53625/300000 [2:53:48<13:59:37,  4.89it/s]

지금 다 먹고 22439번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 


 18%|█▊        | 53627/300000 [2:53:49<14:54:14,  4.59it/s]

지금 다 먹고 22440번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 22441번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53629/300000 [2:53:49<13:09:34,  5.20it/s]

지금 다 먹고 22442번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53631/300000 [2:53:50<14:38:28,  4.67it/s]

지금 다 먹고 22443번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22444번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 


 18%|█▊        | 53633/300000 [2:53:50<13:25:57,  5.09it/s]

지금 다 먹고 22445번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 22446번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 53635/300000 [2:53:50<13:01:05,  5.26it/s]

지금 다 먹고 22447번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 22448번째 도착완료 
  그리고 총 보상은 : 26.5 


 18%|█▊        | 53638/300000 [2:53:51<14:41:06,  4.66it/s]

지금 다 먹고 22449번째 도착완료 
  그리고 총 보상은 : 12.400000000000025 
지금 다 먹고 22450번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53640/300000 [2:53:51<13:12:17,  5.18it/s]

지금 다 먹고 22451번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22452번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 53642/300000 [2:53:52<12:38:25,  5.41it/s]

지금 다 먹고 22453번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 53645/300000 [2:53:53<14:26:06,  4.74it/s]

지금 다 먹고 22454번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22455번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53647/300000 [2:53:53<13:31:38,  5.06it/s]

지금 다 먹고 22456번째 도착완료 
  그리고 총 보상은 : 17.5 
지금 다 먹고 22457번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 18%|█▊        | 53649/300000 [2:53:53<13:13:44,  5.17it/s]

지금 다 먹고 22458번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 22459번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53651/300000 [2:53:54<13:06:39,  5.22it/s]

지금 다 먹고 22460번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 53652/300000 [2:53:54<13:04:31,  5.23it/s]

지금 다 먹고 22461번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 22462번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53655/300000 [2:53:55<13:56:39,  4.91it/s]

지금 다 먹고 22463번째 도착완료 
  그리고 총 보상은 : 20.900000000000006 
지금 다 먹고 22464번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 53657/300000 [2:53:55<13:07:23,  5.21it/s]

지금 다 먹고 22465번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 22466번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 53659/300000 [2:53:55<12:27:16,  5.49it/s]

지금 다 먹고 22467번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 53661/300000 [2:53:56<13:25:31,  5.10it/s]

지금 다 먹고 22468번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22469번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 18%|█▊        | 53663/300000 [2:53:56<13:07:38,  5.21it/s]

지금 다 먹고 22470번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 53664/300000 [2:53:56<13:17:39,  5.15it/s]

지금 다 먹고 22471번째 도착완료 
  그리고 총 보상은 : 2.4999999999999822 
지금 다 먹고 22472번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 53666/300000 [2:53:57<12:59:54,  5.26it/s]

지금 다 먹고 22473번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 22474번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53668/300000 [2:53:57<12:28:55,  5.48it/s]

지금 다 먹고 22475번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 22476번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 53670/300000 [2:53:57<12:24:14,  5.52it/s]

지금 다 먹고 22477번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53671/300000 [2:53:58<13:42:29,  4.99it/s]

지금 다 먹고 22478번째 도착완료 
  그리고 총 보상은 : 3.799999999999958 
지금 다 먹고 22479번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 18%|█▊        | 53673/300000 [2:53:58<12:55:04,  5.30it/s]

지금 다 먹고 22480번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 22481번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 53675/300000 [2:53:58<12:47:33,  5.35it/s]

지금 다 먹고 22482번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 22483번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53678/300000 [2:53:59<13:30:56,  5.06it/s]

지금 다 먹고 22484번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 22485번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 18%|█▊        | 53680/300000 [2:53:59<12:58:56,  5.27it/s]

지금 다 먹고 22486번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22487번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 53682/300000 [2:54:00<12:41:02,  5.39it/s]

지금 다 먹고 22488번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 
지금 다 먹고 22489번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 53684/300000 [2:54:00<12:28:55,  5.48it/s]

지금 다 먹고 22490번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 22491번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 53686/300000 [2:54:00<12:17:15,  5.57it/s]

지금 다 먹고 22492번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 22493번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53689/300000 [2:54:01<13:02:49,  5.24it/s]

지금 다 먹고 22494번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 22495번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 53692/300000 [2:54:02<14:04:09,  4.86it/s]

지금 다 먹고 22496번째 도착완료 
  그리고 총 보상은 : -3.0000000000000213 


 18%|█▊        | 53695/300000 [2:54:02<15:21:54,  4.45it/s]

지금 다 먹고 22497번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 18%|█▊        | 53696/300000 [2:54:03<15:30:34,  4.41it/s]

지금 다 먹고 22498번째 도착완료 
  그리고 총 보상은 : 18.400000000000016 


 18%|█▊        | 53697/300000 [2:54:03<15:58:56,  4.28it/s]

지금 다 먹고 22499번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 18%|█▊        | 53698/300000 [2:54:03<15:08:16,  4.52it/s]

지금 다 먹고 22500번째 도착완료 
  그리고 총 보상은 : 14.900000000000004 
지금 다 먹고 22501번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 53700/300000 [2:54:03<14:31:36,  4.71it/s]

지금 다 먹고 22502번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 53701/300000 [2:54:04<14:02:18,  4.87it/s]

지금 다 먹고 22503번째 도착완료 
  그리고 총 보상은 : 19.400000000000002 
epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :19.400000000000002
 end : True
 clear : True
episode :14, score = 15.143000000001006, n_buffer :100000 , eps : 23.15
지금 다 먹고 22504번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53703/300000 [2:54:04<12:49:32,  5.33it/s]

지금 다 먹고 22505번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 22506번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53706/300000 [2:54:05<14:13:08,  4.81it/s]

지금 다 먹고 22507번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 18%|█▊        | 53708/300000 [2:54:05<14:20:17,  4.77it/s]

지금 다 먹고 22508번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 22509번째 도착완료 
  그리고 총 보상은 : 14.400000000000004 


 18%|█▊        | 53710/300000 [2:54:05<13:18:48,  5.14it/s]

지금 다 먹고 22510번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 53712/300000 [2:54:06<14:23:02,  4.76it/s]

지금 다 먹고 22511번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22512번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53714/300000 [2:54:06<14:03:26,  4.87it/s]

지금 다 먹고 22513번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 18%|█▊        | 53715/300000 [2:54:06<14:15:20,  4.80it/s]

지금 다 먹고 22514번째 도착완료 
  그리고 총 보상은 : 12.600000000000009 


 18%|█▊        | 53717/300000 [2:54:07<15:16:23,  4.48it/s]

지금 다 먹고 22515번째 도착완료 
  그리고 총 보상은 : 13.800000000000018 
지금 다 먹고 22516번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 53719/300000 [2:54:07<13:37:04,  5.02it/s]

지금 다 먹고 22517번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53721/300000 [2:54:08<14:54:45,  4.59it/s]

지금 다 먹고 22518번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53723/300000 [2:54:08<14:36:30,  4.68it/s]

지금 다 먹고 22519번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53725/300000 [2:54:09<14:57:05,  4.58it/s]

지금 다 먹고 22520번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 22521번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 18%|█▊        | 53727/300000 [2:54:09<13:15:26,  5.16it/s]

지금 다 먹고 22522번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 53730/300000 [2:54:10<15:03:09,  4.54it/s]

지금 다 먹고 22523번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 22524번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53733/300000 [2:54:10<14:35:10,  4.69it/s]

지금 다 먹고 22525번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 18%|█▊        | 53734/300000 [2:54:11<14:57:02,  4.58it/s]

지금 다 먹고 22526번째 도착완료 
  그리고 총 보상은 : 14.900000000000023 
지금 다 먹고 22527번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 18%|█▊        | 53736/300000 [2:54:11<13:06:02,  5.22it/s]

지금 다 먹고 22528번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53738/300000 [2:54:11<14:01:36,  4.88it/s]

지금 다 먹고 22529번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 53739/300000 [2:54:12<14:13:26,  4.81it/s]

지금 다 먹고 22530번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 22531번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53741/300000 [2:54:12<13:30:49,  5.06it/s]

지금 다 먹고 22532번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 22533번째 도착완료 
  그리고 총 보상은 : 11.100000000000007 


 18%|█▊        | 53743/300000 [2:54:12<13:46:50,  4.96it/s]

지금 다 먹고 22534번째 도착완료 
  그리고 총 보상은 : 12.600000000000001 


 18%|█▊        | 53747/300000 [2:54:13<17:11:34,  3.98it/s]

지금 다 먹고 22535번째 도착완료 
  그리고 총 보상은 : -33.50000000000003 
지금 다 먹고 22536번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 18%|█▊        | 53749/300000 [2:54:14<14:33:39,  4.70it/s]

지금 다 먹고 22537번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22538번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 53751/300000 [2:54:14<13:21:20,  5.12it/s]

지금 다 먹고 22539번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 22540번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 53753/300000 [2:54:15<13:15:30,  5.16it/s]

지금 다 먹고 22541번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53755/300000 [2:54:15<13:31:58,  5.05it/s]

지금 다 먹고 22542번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53757/300000 [2:54:15<14:32:01,  4.71it/s]

지금 다 먹고 22543번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 22544번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53759/300000 [2:54:16<13:45:43,  4.97it/s]

지금 다 먹고 22545번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 22546번째 도착완료 
  그리고 총 보상은 : 20.1 


 18%|█▊        | 53761/300000 [2:54:16<14:01:37,  4.88it/s]

지금 다 먹고 22547번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53764/300000 [2:54:17<14:51:12,  4.60it/s]

지금 다 먹고 22548번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 22549번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 18%|█▊        | 53766/300000 [2:54:17<13:32:31,  5.05it/s]

지금 다 먹고 22550번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 22551번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53768/300000 [2:54:18<12:49:42,  5.33it/s]

지금 다 먹고 22552번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 22553번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 53770/300000 [2:54:18<12:32:00,  5.46it/s]

지금 다 먹고 22554번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 53772/300000 [2:54:19<14:23:56,  4.75it/s]

지금 다 먹고 22555번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53774/300000 [2:54:19<14:36:04,  4.68it/s]

지금 다 먹고 22556번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 18%|█▊        | 53776/300000 [2:54:19<15:12:24,  4.50it/s]

지금 다 먹고 22557번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 22558번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53778/300000 [2:54:20<14:16:32,  4.79it/s]

지금 다 먹고 22559번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53780/300000 [2:54:20<14:58:35,  4.57it/s]

지금 다 먹고 22560번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 22561번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 53782/300000 [2:54:21<14:02:38,  4.87it/s]

지금 다 먹고 22562번째 도착완료 
  그리고 총 보상은 : 22.6 


 18%|█▊        | 53783/300000 [2:54:21<14:13:30,  4.81it/s]

지금 다 먹고 22563번째 도착완료 
  그리고 총 보상은 : -13.000000000000014 
지금 다 먹고 22564번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 18%|█▊        | 53785/300000 [2:54:21<13:37:00,  5.02it/s]

지금 다 먹고 22565번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 22566번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53787/300000 [2:54:22<13:27:46,  5.08it/s]

지금 다 먹고 22567번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53791/300000 [2:54:23<16:25:32,  4.16it/s]

지금 다 먹고 22568번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 53793/300000 [2:54:23<15:15:00,  4.48it/s]

지금 다 먹고 22569번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 22570번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 18%|█▊        | 53795/300000 [2:54:24<14:35:33,  4.69it/s]

지금 다 먹고 22571번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 53797/300000 [2:54:24<14:54:03,  4.59it/s]

지금 다 먹고 22572번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 22573번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53799/300000 [2:54:24<13:58:27,  4.89it/s]

지금 다 먹고 22574번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 53800/300000 [2:54:25<14:19:00,  4.78it/s]

지금 다 먹고 22575번째 도착완료 
  그리고 총 보상은 : 4.100000000000005 


 18%|█▊        | 53801/300000 [2:54:25<14:25:39,  4.74it/s]

지금 다 먹고 22576번째 도착완료 
  그리고 총 보상은 : 16.400000000000006 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :16.400000000000006
 end : True
 clear : True
episode :12, score = 9.005999999999098, n_buffer :100000 , eps : 23.099999999999998
지금 다 먹고 22577번째 도착완료 
  그리고 총 보상은 : 15.500000000000002 


 18%|█▊        | 53803/300000 [2:54:25<13:11:31,  5.18it/s]

지금 다 먹고 22578번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 22579번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53806/300000 [2:54:26<13:24:20,  5.10it/s]

지금 다 먹고 22580번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 53809/300000 [2:54:27<15:09:05,  4.51it/s]

지금 다 먹고 22581번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53810/300000 [2:54:27<14:27:43,  4.73it/s]

지금 다 먹고 22582번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 22583번째 도착완료 
  그리고 총 보상은 : 17.700000000000003 


 18%|█▊        | 53812/300000 [2:54:27<13:23:17,  5.11it/s]

지금 다 먹고 22584번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53814/300000 [2:54:28<14:46:03,  4.63it/s]

지금 다 먹고 22585번째 도착완료 
  그리고 총 보상은 : 11.499999999999996 


 18%|█▊        | 53816/300000 [2:54:28<15:03:27,  4.54it/s]

지금 다 먹고 22586번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 22587번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 18%|█▊        | 53818/300000 [2:54:28<13:40:17,  5.00it/s]

지금 다 먹고 22588번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 22589번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 53820/300000 [2:54:29<13:29:57,  5.07it/s]

지금 다 먹고 22590번째 도착완료 
  그리고 총 보상은 : 20.1 
지금 다 먹고 22591번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53822/300000 [2:54:29<13:42:49,  4.99it/s]

지금 다 먹고 22592번째 도착완료 
  그리고 총 보상은 : 13.900000000000006 
지금 다 먹고 22593번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 53825/300000 [2:54:30<13:55:29,  4.91it/s]

지금 다 먹고 22594번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 22595번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53827/300000 [2:54:30<14:18:50,  4.78it/s]

지금 다 먹고 22596번째 도착완료 
  그리고 총 보상은 : -2.40000000000002 
지금 다 먹고 22597번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 53829/300000 [2:54:31<13:30:54,  5.06it/s]

지금 다 먹고 22598번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53831/300000 [2:54:31<14:40:56,  4.66it/s]

지금 다 먹고 22599번째 도착완료 
  그리고 총 보상은 : 14.200000000000006 
지금 다 먹고 22600번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 53833/300000 [2:54:32<14:01:39,  4.87it/s]

지금 다 먹고 22601번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 53834/300000 [2:54:32<14:18:09,  4.78it/s]

지금 다 먹고 22602번째 도착완료 
  그리고 총 보상은 : 10.600000000000005 
지금 다 먹고 22603번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 53836/300000 [2:54:32<13:26:49,  5.09it/s]

지금 다 먹고 22604번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53837/300000 [2:54:32<14:37:25,  4.68it/s]

지금 다 먹고 22605번째 도착완료 
  그리고 총 보상은 : 21.90000000000001 


 18%|█▊        | 53838/300000 [2:54:33<14:43:58,  4.64it/s]

지금 다 먹고 22606번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 18%|█▊        | 53839/300000 [2:54:33<14:52:35,  4.60it/s]

지금 다 먹고 22607번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 18%|█▊        | 53840/300000 [2:54:33<16:31:36,  4.14it/s]

지금 다 먹고 22608번째 도착완료 
  그리고 총 보상은 : 22.1 


 18%|█▊        | 53841/300000 [2:54:33<17:18:37,  3.95it/s]

지금 다 먹고 22609번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53843/300000 [2:54:34<17:49:05,  3.84it/s]

지금 다 먹고 22610번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 53845/300000 [2:54:34<16:49:19,  4.06it/s]

지금 다 먹고 22611번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53846/300000 [2:54:35<16:14:53,  4.21it/s]

지금 다 먹고 22612번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 18%|█▊        | 53848/300000 [2:54:35<16:25:37,  4.16it/s]

지금 다 먹고 22613번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 22614번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53850/300000 [2:54:36<15:15:45,  4.48it/s]

지금 다 먹고 22615번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 53851/300000 [2:54:36<15:00:18,  4.56it/s]

지금 다 먹고 22616번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 18%|█▊        | 53852/300000 [2:54:36<14:51:05,  4.60it/s]

지금 다 먹고 22617번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53853/300000 [2:54:36<14:42:29,  4.65it/s]

지금 다 먹고 22618번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 18%|█▊        | 53854/300000 [2:54:36<14:57:10,  4.57it/s]

지금 다 먹고 22619번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53855/300000 [2:54:37<14:34:54,  4.69it/s]

지금 다 먹고 22620번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 53857/300000 [2:54:37<15:19:03,  4.46it/s]

지금 다 먹고 22621번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 53859/300000 [2:54:38<17:01:22,  4.02it/s]

지금 다 먹고 22622번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 53861/300000 [2:54:38<16:25:02,  4.16it/s]

지금 다 먹고 22623번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 22624번째 도착완료 
  그리고 총 보상은 : 13.900000000000006 


 18%|█▊        | 53863/300000 [2:54:39<17:20:29,  3.94it/s]

지금 다 먹고 22625번째 도착완료 
  그리고 총 보상은 : -25.000000000000014 


 18%|█▊        | 53865/300000 [2:54:39<16:26:30,  4.16it/s]

지금 다 먹고 22626번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 22627번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53867/300000 [2:54:40<15:04:09,  4.54it/s]

지금 다 먹고 22628번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 53868/300000 [2:54:40<15:11:29,  4.50it/s]

지금 다 먹고 22629번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 22630번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 18%|█▊        | 53870/300000 [2:54:40<13:37:35,  5.02it/s]

지금 다 먹고 22631번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22632번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53872/300000 [2:54:40<13:32:48,  5.05it/s]

지금 다 먹고 22633번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22634번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 


 18%|█▊        | 53874/300000 [2:54:41<13:26:09,  5.09it/s]

지금 다 먹고 22635번째 도착완료 
  그리고 총 보상은 : 22.800000000000015 


 18%|█▊        | 53876/300000 [2:54:41<13:50:05,  4.94it/s]

지금 다 먹고 22636번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53878/300000 [2:54:42<15:38:29,  4.37it/s]

지금 다 먹고 22637번째 도착완료 
  그리고 총 보상은 : 16.8 
지금 다 먹고 22638번째 도착완료 
  그리고 총 보상은 : 14.700000000000003 


 18%|█▊        | 53880/300000 [2:54:42<13:41:39,  4.99it/s]

지금 다 먹고 22639번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 53882/300000 [2:54:43<14:56:16,  4.58it/s]

지금 다 먹고 22640번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 18%|█▊        | 53884/300000 [2:54:43<15:19:07,  4.46it/s]

지금 다 먹고 22641번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 
지금 다 먹고 22642번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 18%|█▊        | 53886/300000 [2:54:44<14:45:27,  4.63it/s]

지금 다 먹고 22643번째 도착완료 
  그리고 총 보상은 : 10.600000000000001 


 18%|█▊        | 53887/300000 [2:54:44<14:18:03,  4.78it/s]

지금 다 먹고 22644번째 도착완료 
  그리고 총 보상은 : 25.100000000000012 
지금 다 먹고 22645번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 53889/300000 [2:54:44<12:56:42,  5.28it/s]

지금 다 먹고 22646번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 53891/300000 [2:54:45<14:04:31,  4.86it/s]

지금 다 먹고 22647번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 53893/300000 [2:54:45<14:02:00,  4.87it/s]

지금 다 먹고 22648번째 도착완료 
  그리고 총 보상은 : 27.5 


 18%|█▊        | 53895/300000 [2:54:45<14:54:20,  4.59it/s]

지금 다 먹고 22649번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 22650번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53897/300000 [2:54:46<13:27:55,  5.08it/s]

지금 다 먹고 22651번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53899/300000 [2:54:46<14:01:24,  4.87it/s]

지금 다 먹고 22652번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22653번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53901/300000 [2:54:47<13:47:27,  4.96it/s]

지금 다 먹고 22654번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.100000000000005
 end : True
 clear : True
episode :10, score = 11.656000000000072, n_buffer :100000 , eps : 23.049999999999997


 18%|█▊        | 53902/300000 [2:54:47<14:01:01,  4.88it/s]

지금 다 먹고 22655번째 도착완료 
  그리고 총 보상은 : 22.5 


 18%|█▊        | 53903/300000 [2:54:47<14:27:29,  4.73it/s]

지금 다 먹고 22656번째 도착완료 
  그리고 총 보상은 : 13.200000000000006 


 18%|█▊        | 53904/300000 [2:54:47<14:05:43,  4.85it/s]

지금 다 먹고 22657번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 22658번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53906/300000 [2:54:48<13:08:48,  5.20it/s]

지금 다 먹고 22659번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 22660번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 53908/300000 [2:54:48<13:13:01,  5.17it/s]

지금 다 먹고 22661번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53910/300000 [2:54:48<13:47:57,  4.95it/s]

지금 다 먹고 22662번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 18%|█▊        | 53912/300000 [2:54:49<14:49:17,  4.61it/s]

지금 다 먹고 22663번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 22664번째 도착완료 
  그리고 총 보상은 : 16.599999999999998 


 18%|█▊        | 53914/300000 [2:54:49<13:26:07,  5.09it/s]

지금 다 먹고 22665번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 18%|█▊        | 53916/300000 [2:54:50<15:15:07,  4.48it/s]

지금 다 먹고 22666번째 도착완료 
  그리고 총 보상은 : 10.500000000000021 
지금 다 먹고 22667번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 53918/300000 [2:54:50<13:34:23,  5.04it/s]

지금 다 먹고 22668번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 22669번째 도착완료 
  그리고 총 보상은 : 20.999999999999996 


 18%|█▊        | 53920/300000 [2:54:51<13:38:34,  5.01it/s]

지금 다 먹고 22670번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 22671번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 53922/300000 [2:54:51<12:54:14,  5.30it/s]

지금 다 먹고 22672번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22673번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 53924/300000 [2:54:51<12:30:15,  5.47it/s]

지금 다 먹고 22674번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 22675번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 53927/300000 [2:54:52<13:10:36,  5.19it/s]

지금 다 먹고 22676번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 22677번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 18%|█▊        | 53929/300000 [2:54:52<13:24:58,  5.09it/s]

지금 다 먹고 22678번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53930/300000 [2:54:52<13:11:12,  5.18it/s]

지금 다 먹고 22679번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 22680번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53933/300000 [2:54:53<13:32:03,  5.05it/s]

지금 다 먹고 22681번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 22682번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 53935/300000 [2:54:53<12:32:52,  5.45it/s]

지금 다 먹고 22683번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 22684번째 도착완료 
  그리고 총 보상은 : 19.7 


 18%|█▊        | 53937/300000 [2:54:54<13:24:01,  5.10it/s]

지금 다 먹고 22685번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53938/300000 [2:54:54<13:28:49,  5.07it/s]

지금 다 먹고 22686번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 22687번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53940/300000 [2:54:54<12:47:41,  5.34it/s]

지금 다 먹고 22688번째 도착완료 
  그리고 총 보상은 : 17.900000000000002 
지금 다 먹고 22689번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 53942/300000 [2:54:55<12:14:09,  5.59it/s]

지금 다 먹고 22690번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 18%|█▊        | 53946/300000 [2:54:56<16:43:08,  4.09it/s]

지금 다 먹고 22691번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 22692번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 53948/300000 [2:54:56<14:57:17,  4.57it/s]

지금 다 먹고 22693번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 53950/300000 [2:54:57<15:12:39,  4.49it/s]

지금 다 먹고 22694번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 22695번째 도착완료 
  그리고 총 보상은 : 26.0 


 18%|█▊        | 53952/300000 [2:54:57<13:37:09,  5.02it/s]

지금 다 먹고 22696번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22697번째 도착완료 
  그리고 총 보상은 : 6.400000000000009 


 18%|█▊        | 53954/300000 [2:54:57<13:09:01,  5.20it/s]

지금 다 먹고 22698번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22699번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 53956/300000 [2:54:58<13:09:33,  5.19it/s]

지금 다 먹고 22700번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22701번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 53958/300000 [2:54:58<13:03:27,  5.23it/s]

지금 다 먹고 22702번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 53959/300000 [2:54:58<13:39:58,  5.00it/s]

지금 다 먹고 22703번째 도착완료 
  그리고 총 보상은 : 14.200000000000003 


 18%|█▊        | 53961/300000 [2:54:59<14:43:29,  4.64it/s]

지금 다 먹고 22704번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 53963/300000 [2:54:59<14:37:54,  4.67it/s]

지금 다 먹고 22705번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 18%|█▊        | 53964/300000 [2:55:00<15:26:19,  4.43it/s]

지금 다 먹고 22706번째 도착완료 
  그리고 총 보상은 : -22.100000000000023 
지금 다 먹고 22707번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53967/300000 [2:55:00<14:54:54,  4.58it/s]

지금 다 먹고 22708번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 
지금 다 먹고 22709번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 18%|█▊        | 53969/300000 [2:55:01<14:02:44,  4.87it/s]

지금 다 먹고 22710번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 22711번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 18%|█▊        | 53971/300000 [2:55:01<13:25:49,  5.09it/s]

지금 다 먹고 22712번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22713번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 53973/300000 [2:55:01<12:47:28,  5.34it/s]

지금 다 먹고 22714번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 22715번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 53976/300000 [2:55:02<15:15:41,  4.48it/s]

지금 다 먹고 22716번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53978/300000 [2:55:03<14:50:31,  4.60it/s]

지금 다 먹고 22717번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 53980/300000 [2:55:03<15:04:43,  4.53it/s]

지금 다 먹고 22718번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 22719번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 18%|█▊        | 53982/300000 [2:55:03<13:24:25,  5.10it/s]

지금 다 먹고 22720번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 53985/300000 [2:55:04<15:17:58,  4.47it/s]

지금 다 먹고 22721번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 22722번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 18%|█▊        | 53987/300000 [2:55:04<14:18:18,  4.78it/s]

지금 다 먹고 22723번째 도착완료 
  그리고 총 보상은 : -0.3000000000000256 
지금 다 먹고 22724번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 18%|█▊        | 53989/300000 [2:55:05<13:32:06,  5.05it/s]

지금 다 먹고 22725번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 53990/300000 [2:55:05<13:35:46,  5.03it/s]

지금 다 먹고 22726번째 도착완료 
  그리고 총 보상은 : 6.099999999999985 
지금 다 먹고 22727번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 53992/300000 [2:55:05<13:05:15,  5.22it/s]

지금 다 먹고 22728번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 22729번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 53995/300000 [2:55:06<13:17:12,  5.14it/s]

지금 다 먹고 22730번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 53997/300000 [2:55:06<13:55:11,  4.91it/s]

지금 다 먹고 22731번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22732번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 53999/300000 [2:55:07<13:04:27,  5.23it/s]

지금 다 먹고 22733번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54001/300000 [2:55:07<13:50:57,  4.93it/s]

지금 다 먹고 22734번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.100000000000005
 end : True
 clear : True
episode :8, score = 13.280000000001197, n_buffer :100000 , eps : 23.0


 18%|█▊        | 54003/300000 [2:55:08<15:00:19,  4.55it/s]

지금 다 먹고 22735번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 54004/300000 [2:55:08<14:42:33,  4.65it/s]

지금 다 먹고 22736번째 도착완료 
  그리고 총 보상은 : 20.2 
지금 다 먹고 22737번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 54006/300000 [2:55:08<14:02:11,  4.87it/s]

지금 다 먹고 22738번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 22739번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 54008/300000 [2:55:09<12:59:28,  5.26it/s]

지금 다 먹고 22740번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 22741번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54010/300000 [2:55:09<12:23:18,  5.52it/s]

지금 다 먹고 22742번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 18%|█▊        | 54012/300000 [2:55:09<13:22:22,  5.11it/s]

지금 다 먹고 22743번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54014/300000 [2:55:10<14:33:24,  4.69it/s]

지금 다 먹고 22744번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 22745번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54016/300000 [2:55:10<12:59:36,  5.26it/s]

지금 다 먹고 22746번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54018/300000 [2:55:11<13:42:40,  4.98it/s]

지금 다 먹고 22747번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 22748번째 도착완료 
  그리고 총 보상은 : 22.900000000000013 


 18%|█▊        | 54020/300000 [2:55:11<13:02:44,  5.24it/s]

지금 다 먹고 22749번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22750번째 도착완료 
  그리고 총 보상은 : 21.9 


 18%|█▊        | 54022/300000 [2:55:11<12:30:07,  5.47it/s]

지금 다 먹고 22751번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 22752번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 18%|█▊        | 54024/300000 [2:55:12<12:27:46,  5.48it/s]

지금 다 먹고 22753번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 22754번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54026/300000 [2:55:12<12:46:25,  5.35it/s]

지금 다 먹고 22755번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 54027/300000 [2:55:12<12:32:17,  5.45it/s]

지금 다 먹고 22756번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54029/300000 [2:55:13<13:43:14,  4.98it/s]

지금 다 먹고 22757번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 22758번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54031/300000 [2:55:13<14:16:22,  4.79it/s]

지금 다 먹고 22759번째 도착완료 
  그리고 총 보상은 : 9.800000000000006 
지금 다 먹고 22760번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 54033/300000 [2:55:14<13:11:00,  5.18it/s]

지금 다 먹고 22761번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 54035/300000 [2:55:14<14:02:53,  4.86it/s]

지금 다 먹고 22762번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 18%|█▊        | 54037/300000 [2:55:14<14:04:02,  4.86it/s]

지금 다 먹고 22763번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 22764번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 54039/300000 [2:55:15<13:08:05,  5.20it/s]

지금 다 먹고 22765번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 22766번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54041/300000 [2:55:15<12:25:55,  5.50it/s]

지금 다 먹고 22767번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 22768번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54043/300000 [2:55:16<12:15:43,  5.57it/s]

지금 다 먹고 22769번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22770번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 54046/300000 [2:55:16<13:30:02,  5.06it/s]

지금 다 먹고 22771번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 54047/300000 [2:55:16<14:26:21,  4.73it/s]

지금 다 먹고 22772번째 도착완료 
  그리고 총 보상은 : -5.600000000000023 
지금 다 먹고 22773번째 도착완료 
  그리고 총 보상은 : 27.1 

 18%|█▊        | 54048/300000 [2:55:17<13:44:13,  4.97it/s]


지금 다 먹고 22774번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54050/300000 [2:55:17<13:20:46,  5.12it/s]

지금 다 먹고 22775번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 18%|█▊        | 54052/300000 [2:55:17<15:00:20,  4.55it/s]

지금 다 먹고 22776번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54053/300000 [2:55:18<14:43:18,  4.64it/s]

지금 다 먹고 22777번째 도착완료 
  그리고 총 보상은 : -0.300000000000022 
지금 다 먹고 22778번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 18%|█▊        | 54055/300000 [2:55:18<13:36:26,  5.02it/s]

지금 다 먹고 22779번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 22780번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 18%|█▊        | 54057/300000 [2:55:18<13:44:12,  4.97it/s]

지금 다 먹고 22781번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 54058/300000 [2:55:19<13:42:37,  4.98it/s]

지금 다 먹고 22782번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22783번째 도착완료 
  그리고 총 보상은 : 21.1 


 18%|█▊        | 54060/300000 [2:55:19<13:26:19,  5.08it/s]

지금 다 먹고 22784번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 22785번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54063/300000 [2:55:20<13:41:43,  4.99it/s]

지금 다 먹고 22786번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54065/300000 [2:55:20<14:22:24,  4.75it/s]

지금 다 먹고 22787번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 22788번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 18%|█▊        | 54067/300000 [2:55:20<13:17:46,  5.14it/s]

지금 다 먹고 22789번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 54069/300000 [2:55:21<14:32:22,  4.70it/s]

지금 다 먹고 22790번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 54070/300000 [2:55:21<13:55:59,  4.90it/s]

지금 다 먹고 22791번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 22792번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 18%|█▊        | 54072/300000 [2:55:21<13:20:25,  5.12it/s]

지금 다 먹고 22793번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 22794번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 18%|█▊        | 54074/300000 [2:55:22<12:55:54,  5.28it/s]

지금 다 먹고 22795번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22796번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 54076/300000 [2:55:22<12:23:52,  5.51it/s]

지금 다 먹고 22797번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 22798번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 54080/300000 [2:55:23<14:39:50,  4.66it/s]

지금 다 먹고 22799번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 22800번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 54082/300000 [2:55:23<13:01:53,  5.24it/s]

지금 다 먹고 22801번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 22802번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54084/300000 [2:55:24<12:19:58,  5.54it/s]

지금 다 먹고 22803번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54086/300000 [2:55:24<14:34:19,  4.69it/s]

지금 다 먹고 22804번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 22805번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54088/300000 [2:55:25<14:00:21,  4.88it/s]

지금 다 먹고 22806번째 도착완료 
  그리고 총 보상은 : 18.2 
지금 다 먹고 22807번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 54090/300000 [2:55:25<13:10:46,  5.18it/s]

지금 다 먹고 22808번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 22809번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 54092/300000 [2:55:25<12:41:38,  5.38it/s]

지금 다 먹고 22810번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 22811번째 도착완료 
  그리고 총 보상은 : 16.700000000000003 


 18%|█▊        | 54094/300000 [2:55:26<13:22:57,  5.10it/s]

지금 다 먹고 22812번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 22813번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54097/300000 [2:55:26<14:42:40,  4.64it/s]

지금 다 먹고 22814번째 도착완료 
  그리고 총 보상은 : 18.600000000000016 
지금 다 먹고 22815번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54099/300000 [2:55:27<13:20:39,  5.12it/s]

지금 다 먹고 22816번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 22817번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 54101/300000 [2:55:27<12:27:44,  5.48it/s]

지금 다 먹고 22818번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.000000000000004
 end : True
 clear : True
episode :6, score = 16.268000000001, n_buffer :100000 , eps : 22.95


 18%|█▊        | 54103/300000 [2:55:28<13:58:45,  4.89it/s]

지금 다 먹고 22819번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 22820번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 54105/300000 [2:55:28<13:09:52,  5.19it/s]

지금 다 먹고 22821번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22822번째 도착완료 
  그리고 총 보상은 : 22.4 


 18%|█▊        | 54107/300000 [2:55:28<12:48:54,  5.33it/s]

지금 다 먹고 22823번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 22824번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 18%|█▊        | 54109/300000 [2:55:29<12:19:34,  5.54it/s]

지금 다 먹고 22825번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 22826번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54111/300000 [2:55:29<12:06:34,  5.64it/s]

지금 다 먹고 22827번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22828번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54115/300000 [2:55:30<14:33:38,  4.69it/s]

지금 다 먹고 22829번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 22830번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 54117/300000 [2:55:30<13:18:28,  5.13it/s]

지금 다 먹고 22831번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22832번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54120/300000 [2:55:31<14:14:58,  4.79it/s]

지금 다 먹고 22833번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 
지금 다 먹고 22834번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54122/300000 [2:55:31<13:19:45,  5.12it/s]

지금 다 먹고 22835번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 22836번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 54124/300000 [2:55:32<13:20:39,  5.12it/s]

지금 다 먹고 22837번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 22838번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 54126/300000 [2:55:32<13:10:08,  5.19it/s]

지금 다 먹고 22839번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22840번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54129/300000 [2:55:33<13:18:23,  5.13it/s]

지금 다 먹고 22841번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 54131/300000 [2:55:33<13:51:07,  4.93it/s]

지금 다 먹고 22842번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54133/300000 [2:55:34<14:10:50,  4.82it/s]

지금 다 먹고 22843번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 22844번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 18%|█▊        | 54135/300000 [2:55:34<14:02:02,  4.87it/s]

지금 다 먹고 22845번째 도착완료 
  그리고 총 보상은 : 22.300000000000008 


 18%|█▊        | 54137/300000 [2:55:34<14:39:36,  4.66it/s]

지금 다 먹고 22846번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 22847번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54139/300000 [2:55:35<13:40:12,  5.00it/s]

지금 다 먹고 22848번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 22849번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 54141/300000 [2:55:35<13:18:05,  5.13it/s]

지금 다 먹고 22850번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 22851번째 도착완료 
  그리고 총 보상은 : 22.5 


 18%|█▊        | 54143/300000 [2:55:36<14:24:15,  4.74it/s]

지금 다 먹고 22852번째 도착완료 
  그리고 총 보상은 : 22.5 


 18%|█▊        | 54144/300000 [2:55:36<14:10:12,  4.82it/s]

지금 다 먹고 22853번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54145/300000 [2:55:36<14:15:33,  4.79it/s]

지금 다 먹고 22854번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 


 18%|█▊        | 54148/300000 [2:55:37<15:20:14,  4.45it/s]

지금 다 먹고 22855번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 54150/300000 [2:55:37<14:56:36,  4.57it/s]

지금 다 먹고 22856번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 22857번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 54152/300000 [2:55:38<14:19:08,  4.77it/s]

지금 다 먹고 22858번째 도착완료 
  그리고 총 보상은 : 11.600000000000012 


 18%|█▊        | 54154/300000 [2:55:38<14:25:52,  4.73it/s]

지금 다 먹고 22859번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 54156/300000 [2:55:39<14:39:10,  4.66it/s]

지금 다 먹고 22860번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 22861번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 54158/300000 [2:55:39<13:16:01,  5.15it/s]

지금 다 먹고 22862번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 54159/300000 [2:55:39<13:34:46,  5.03it/s]

지금 다 먹고 22863번째 도착완료 
  그리고 총 보상은 : 18.40000000000001 
지금 다 먹고 22864번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 18%|█▊        | 54161/300000 [2:55:39<12:47:43,  5.34it/s]

지금 다 먹고 22865번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 22866번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 18%|█▊        | 54163/300000 [2:55:40<13:00:47,  5.25it/s]

지금 다 먹고 22867번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 54165/300000 [2:55:40<13:54:41,  4.91it/s]

지금 다 먹고 22868번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 22869번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54167/300000 [2:55:41<13:54:37,  4.91it/s]

지금 다 먹고 22870번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 22871번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54169/300000 [2:55:41<13:05:15,  5.22it/s]

지금 다 먹고 22872번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 18%|█▊        | 54171/300000 [2:55:42<14:05:26,  4.85it/s]

지금 다 먹고 22873번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 54173/300000 [2:55:42<15:05:49,  4.52it/s]

지금 다 먹고 22874번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 22875번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 54175/300000 [2:55:42<13:22:52,  5.10it/s]

지금 다 먹고 22876번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 22877번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54177/300000 [2:55:43<12:47:45,  5.34it/s]

지금 다 먹고 22878번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 22879번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54180/300000 [2:55:43<14:11:46,  4.81it/s]

지금 다 먹고 22880번째 도착완료 
  그리고 총 보상은 : 17.100000000000016 


 18%|█▊        | 54182/300000 [2:55:44<14:16:31,  4.78it/s]

지금 다 먹고 22881번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 22882번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 54185/300000 [2:55:44<14:29:58,  4.71it/s]

지금 다 먹고 22883번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 22884번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 54188/300000 [2:55:45<14:06:05,  4.84it/s]

지금 다 먹고 22885번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 22886번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54190/300000 [2:55:45<12:54:32,  5.29it/s]

지금 다 먹고 22887번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 22888번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 18%|█▊        | 54193/300000 [2:55:46<14:08:03,  4.83it/s]

지금 다 먹고 22889번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 22890번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 54195/300000 [2:55:46<12:58:24,  5.26it/s]

지금 다 먹고 22891번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 22892번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 54197/300000 [2:55:47<12:29:36,  5.47it/s]

지금 다 먹고 22893번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54198/300000 [2:55:47<13:32:18,  5.04it/s]

지금 다 먹고 22894번째 도착완료 
  그리고 총 보상은 : 10.2 
지금 다 먹고 22895번째 도착완료 
  그리고 총 보상은 : 28.0 


 18%|█▊        | 54201/300000 [2:55:48<14:07:45,  4.83it/s]

지금 다 먹고 22896번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.100000000000005
 end : True
 clear : True
episode :4, score = 12.894000000000224, n_buffer :100000 , eps : 22.9
지금 다 먹고 22897번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 18%|█▊        | 54203/300000 [2:55:48<13:57:02,  4.89it/s]

지금 다 먹고 22898번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54205/300000 [2:55:49<15:51:53,  4.30it/s]

지금 다 먹고 22899번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 18%|█▊        | 54206/300000 [2:55:49<15:07:33,  4.51it/s]

지금 다 먹고 22900번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 22901번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54208/300000 [2:55:49<13:53:18,  4.92it/s]

지금 다 먹고 22902번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 22903번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 18%|█▊        | 54210/300000 [2:55:50<13:44:42,  4.97it/s]

지금 다 먹고 22904번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 54211/300000 [2:55:50<13:15:54,  5.15it/s]

지금 다 먹고 22905번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 22906번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54213/300000 [2:55:50<12:48:21,  5.33it/s]

지금 다 먹고 22907번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 
지금 다 먹고 22908번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54216/300000 [2:55:51<13:51:27,  4.93it/s]

지금 다 먹고 22909번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 22910번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54218/300000 [2:55:51<13:42:12,  4.98it/s]

지금 다 먹고 22911번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 22912번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54220/300000 [2:55:51<12:49:53,  5.32it/s]

지금 다 먹고 22913번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54222/300000 [2:55:52<14:16:57,  4.78it/s]

지금 다 먹고 22914번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 22915번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54224/300000 [2:55:52<13:20:58,  5.11it/s]

지금 다 먹고 22916번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 22917번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54226/300000 [2:55:53<12:59:33,  5.25it/s]

지금 다 먹고 22918번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54227/300000 [2:55:53<14:18:13,  4.77it/s]

지금 다 먹고 22919번째 도착완료 
  그리고 총 보상은 : 8.00000000000002 
지금 다 먹고 22920번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 54229/300000 [2:55:53<13:06:10,  5.21it/s]

지금 다 먹고 22921번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 22922번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 54231/300000 [2:55:54<12:53:32,  5.30it/s]

지금 다 먹고 22923번째 도착완료 
  그리고 총 보상은 : 23.900000000000013 


 18%|█▊        | 54233/300000 [2:55:54<14:17:32,  4.78it/s]

지금 다 먹고 22924번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 22925번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54235/300000 [2:55:54<13:32:28,  5.04it/s]

지금 다 먹고 22926번째 도착완료 
  그리고 총 보상은 : 18.00000000000001 
지금 다 먹고 22927번째 도착완료 
  그리고 총 보상은 : 19.200000000000006 


 18%|█▊        | 54237/300000 [2:55:55<13:13:42,  5.16it/s]

지금 다 먹고 22928번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54240/300000 [2:55:56<14:36:18,  4.67it/s]

지금 다 먹고 22929번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 22930번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54242/300000 [2:55:56<14:21:10,  4.76it/s]

지금 다 먹고 22931번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 
지금 다 먹고 22932번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 54244/300000 [2:55:56<14:06:16,  4.84it/s]

지금 다 먹고 22933번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 22934번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 54246/300000 [2:55:57<12:47:20,  5.34it/s]

지금 다 먹고 22935번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 22936번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54248/300000 [2:55:57<12:01:37,  5.68it/s]

지금 다 먹고 22937번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54250/300000 [2:55:58<13:31:56,  5.04it/s]

지금 다 먹고 22938번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 22939번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54252/300000 [2:55:58<13:06:05,  5.21it/s]

지금 다 먹고 22940번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 22941번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 54254/300000 [2:55:58<12:55:00,  5.28it/s]

지금 다 먹고 22942번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54256/300000 [2:55:59<14:28:18,  4.72it/s]

지금 다 먹고 22943번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 22944번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54258/300000 [2:55:59<12:54:50,  5.29it/s]

지금 다 먹고 22945번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 22946번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 18%|█▊        | 54260/300000 [2:55:59<13:01:05,  5.24it/s]

지금 다 먹고 22947번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 22948번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 18%|█▊        | 54262/300000 [2:56:00<12:24:35,  5.50it/s]

지금 다 먹고 22949번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 22950번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 


 18%|█▊        | 54264/300000 [2:56:00<12:37:05,  5.41it/s]

지금 다 먹고 22951번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22952번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54267/300000 [2:56:01<13:51:57,  4.92it/s]

지금 다 먹고 22953번째 도착완료 
  그리고 총 보상은 : 5.599999999999975 


 18%|█▊        | 54269/300000 [2:56:01<14:11:50,  4.81it/s]

지금 다 먹고 22954번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 22955번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 54271/300000 [2:56:02<12:48:21,  5.33it/s]

지금 다 먹고 22956번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54273/300000 [2:56:02<14:16:38,  4.78it/s]

지금 다 먹고 22957번째 도착완료 
  그리고 총 보상은 : 21.400000000000013 
지금 다 먹고 22958번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 54275/300000 [2:56:02<13:12:38,  5.17it/s]

지금 다 먹고 22959번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 18%|█▊        | 54276/300000 [2:56:03<13:24:36,  5.09it/s]

지금 다 먹고 22960번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 
지금 다 먹고 22961번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54278/300000 [2:56:03<12:51:59,  5.30it/s]

지금 다 먹고 22962번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 22963번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54280/300000 [2:56:03<13:47:02,  4.95it/s]

지금 다 먹고 22964번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 


 18%|█▊        | 54281/300000 [2:56:04<13:51:55,  4.92it/s]

지금 다 먹고 22965번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22966번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 54284/300000 [2:56:04<13:50:43,  4.93it/s]

지금 다 먹고 22967번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54286/300000 [2:56:05<14:27:36,  4.72it/s]

지금 다 먹고 22968번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 22969번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54288/300000 [2:56:05<13:08:03,  5.20it/s]

지금 다 먹고 22970번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54289/300000 [2:56:05<14:44:36,  4.63it/s]

지금 다 먹고 22971번째 도착완료 
  그리고 총 보상은 : 5.0999999999999694 


 18%|█▊        | 54290/300000 [2:56:06<14:46:51,  4.62it/s]

지금 다 먹고 22972번째 도착완료 
  그리고 총 보상은 : 20.4 
지금 다 먹고 22973번째 도착완료 
  그리고 총 보상은 : 22.90000000000001 


 18%|█▊        | 54292/300000 [2:56:06<13:41:14,  4.99it/s]

지금 다 먹고 22974번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 22975번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 54294/300000 [2:56:06<13:18:48,  5.13it/s]

지금 다 먹고 22976번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 
지금 다 먹고 22977번째 도착완료 
  그리고 총 보상은 : 19.2 


 18%|█▊        | 54296/300000 [2:56:07<12:49:35,  5.32it/s]

지금 다 먹고 22978번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 22979번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 54298/300000 [2:56:07<12:29:26,  5.46it/s]

지금 다 먹고 22980번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 22981번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 18%|█▊        | 54301/300000 [2:56:08<14:26:58,  4.72it/s]

지금 다 먹고 22982번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.100000000000005
 end : True
 clear : True
episode :2, score = 17.64100000000178, n_buffer :100000 , eps : 22.849999999999998


 18%|█▊        | 54303/300000 [2:56:08<15:21:21,  4.44it/s]

지금 다 먹고 22983번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 22984번째 도착완료 
  그리고 총 보상은 : 24.6 


 18%|█▊        | 54305/300000 [2:56:09<13:38:41,  5.00it/s]

지금 다 먹고 22985번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54308/300000 [2:56:09<14:36:44,  4.67it/s]

지금 다 먹고 22986번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 22987번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54310/300000 [2:56:10<13:41:00,  4.99it/s]

지금 다 먹고 22988번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 54311/300000 [2:56:10<14:17:32,  4.78it/s]

지금 다 먹고 22989번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 
지금 다 먹고 22990번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 18%|█▊        | 54313/300000 [2:56:10<13:21:24,  5.11it/s]

지금 다 먹고 22991번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 22992번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54316/300000 [2:56:11<13:52:45,  4.92it/s]

지금 다 먹고 22993번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54318/300000 [2:56:11<14:15:55,  4.78it/s]

지금 다 먹고 22994번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 22995번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54320/300000 [2:56:12<13:16:51,  5.14it/s]

지금 다 먹고 22996번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 22997번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54322/300000 [2:56:12<12:32:35,  5.44it/s]

지금 다 먹고 22998번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54324/300000 [2:56:12<13:26:05,  5.08it/s]

지금 다 먹고 22999번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 23000번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54326/300000 [2:56:13<12:44:58,  5.35it/s]

지금 다 먹고 23001번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 23002번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 18%|█▊        | 54328/300000 [2:56:13<12:58:57,  5.26it/s]

지금 다 먹고 23003번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54329/300000 [2:56:13<13:17:19,  5.14it/s]

지금 다 먹고 23004번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 23005번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 18%|█▊        | 54331/300000 [2:56:14<13:03:47,  5.22it/s]

지금 다 먹고 23006번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 23007번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54333/300000 [2:56:14<13:18:56,  5.12it/s]

지금 다 먹고 23008번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54335/300000 [2:56:15<14:32:33,  4.69it/s]

지금 다 먹고 23009번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 54337/300000 [2:56:15<14:48:37,  4.61it/s]

지금 다 먹고 23010번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 23011번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 54339/300000 [2:56:15<14:08:31,  4.83it/s]

지금 다 먹고 23012번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 54341/300000 [2:56:16<15:04:33,  4.53it/s]

지금 다 먹고 23013번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 23014번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 54343/300000 [2:56:16<13:31:46,  5.04it/s]

지금 다 먹고 23015번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 23016번째 도착완료 
  그리고 총 보상은 : 14.500000000000007 


 18%|█▊        | 54344/300000 [2:56:17<13:38:18,  5.00it/s]

지금 다 먹고 23017번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 54346/300000 [2:56:17<13:02:51,  5.23it/s]

지금 다 먹고 23018번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 23019번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 18%|█▊        | 54348/300000 [2:56:17<12:34:48,  5.42it/s]

지금 다 먹고 23020번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54350/300000 [2:56:18<13:56:54,  4.89it/s]

지금 다 먹고 23021번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54352/300000 [2:56:18<14:28:12,  4.72it/s]

지금 다 먹고 23022번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54354/300000 [2:56:19<15:49:20,  4.31it/s]

지금 다 먹고 23023번째 도착완료 
  그리고 총 보상은 : 22.7 
지금 다 먹고 23024번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 54356/300000 [2:56:19<14:22:13,  4.75it/s]

지금 다 먹고 23025번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54359/300000 [2:56:20<15:48:16,  4.32it/s]

지금 다 먹고 23026번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 23027번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 54361/300000 [2:56:20<14:25:18,  4.73it/s]

지금 다 먹고 23028번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23029번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54363/300000 [2:56:21<13:51:06,  4.93it/s]

지금 다 먹고 23030번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 54364/300000 [2:56:21<14:42:28,  4.64it/s]

지금 다 먹고 23031번째 도착완료 
  그리고 총 보상은 : 12.100000000000032 
지금 다 먹고 23032번째 도착완료 
  그리고 총 보상은 : 22.8 


 18%|█▊        | 54366/300000 [2:56:21<14:21:48,  4.75it/s]

지금 다 먹고 23033번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 23034번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 54369/300000 [2:56:22<14:35:02,  4.68it/s]

지금 다 먹고 23035번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54371/300000 [2:56:22<14:47:25,  4.61it/s]

지금 다 먹고 23036번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 54372/300000 [2:56:23<14:42:29,  4.64it/s]

지금 다 먹고 23037번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 
지금 다 먹고 23038번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54375/300000 [2:56:23<14:41:52,  4.64it/s]

지금 다 먹고 23039번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 23040번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54377/300000 [2:56:24<13:51:51,  4.92it/s]

지금 다 먹고 23041번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54378/300000 [2:56:24<14:46:42,  4.62it/s]

지금 다 먹고 23042번째 도착완료 
  그리고 총 보상은 : -0.7000000000000242 
지금 다 먹고 23043번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 18%|█▊        | 54380/300000 [2:56:24<13:54:20,  4.91it/s]

지금 다 먹고 23044번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 18%|█▊        | 54381/300000 [2:56:24<14:32:40,  4.69it/s]

지금 다 먹고 23045번째 도착완료 
  그리고 총 보상은 : 12.80000000000003 
지금 다 먹고 23046번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54383/300000 [2:56:25<13:32:04,  5.04it/s]

지금 다 먹고 23047번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 54386/300000 [2:56:26<14:35:33,  4.68it/s]

지금 다 먹고 23048번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54388/300000 [2:56:26<14:56:42,  4.57it/s]

지금 다 먹고 23049번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 23050번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 18%|█▊        | 54390/300000 [2:56:26<13:41:28,  4.98it/s]

지금 다 먹고 23051번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54392/300000 [2:56:27<14:54:06,  4.58it/s]

지금 다 먹고 23052번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23053번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54394/300000 [2:56:27<14:41:25,  4.64it/s]

지금 다 먹고 23054번째 도착완료 
  그리고 총 보상은 : 13.600000000000033 
지금 다 먹고 23055번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 18%|█▊        | 54396/300000 [2:56:28<14:08:11,  4.83it/s]

지금 다 먹고 23056번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 23057번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54398/300000 [2:56:28<13:16:16,  5.14it/s]

지금 다 먹고 23058번째 도착완료 
  그리고 총 보상은 : 24.00000000000001 
지금 다 먹고 23059번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54400/300000 [2:56:28<12:42:53,  5.37it/s]

지금 다 먹고 23060번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 23061번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 54401/300000 [2:56:29<12:15:37,  5.56it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.400000000000006
 end : True
 clear : True
episode :0, score = 13.91400000000063, n_buffer :100000 , eps : 22.799999999999997


 18%|█▊        | 54403/300000 [2:56:29<12:59:13,  5.25it/s]

지금 다 먹고 23062번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 54407/300000 [2:56:30<16:17:46,  4.19it/s]

지금 다 먹고 23063번째 도착완료 
  그리고 총 보상은 : 9.300000000000004 


 18%|█▊        | 54409/300000 [2:56:31<16:03:00,  4.25it/s]

지금 다 먹고 23064번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 23065번째 도착완료 
  그리고 총 보상은 : 21.099999999999998 


 18%|█▊        | 54411/300000 [2:56:31<14:35:04,  4.68it/s]

지금 다 먹고 23066번째 도착완료 
  그리고 총 보상은 : 17.900000000000006 
지금 다 먹고 23067번째 도착완료 
  그리고 총 보상은 : 21.300000000000008 


 18%|█▊        | 54413/300000 [2:56:31<15:22:17,  4.44it/s]

지금 다 먹고 23068번째 도착완료 
  그리고 총 보상은 : 5.100000000000039 


 18%|█▊        | 54416/300000 [2:56:32<15:17:33,  4.46it/s]

지금 다 먹고 23069번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 23070번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 


 18%|█▊        | 54418/300000 [2:56:32<13:47:42,  4.94it/s]

지금 다 먹고 23071번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 54420/300000 [2:56:33<13:52:14,  4.92it/s]

지금 다 먹고 23072번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 23073번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54423/300000 [2:56:34<14:37:15,  4.67it/s]

지금 다 먹고 23074번째 도착완료 
  그리고 총 보상은 : 2.1999999999999815 
지금 다 먹고 23075번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54426/300000 [2:56:34<14:34:32,  4.68it/s]

지금 다 먹고 23076번째 도착완료 
  그리고 총 보상은 : 21.00000000000001 


 18%|█▊        | 54428/300000 [2:56:35<15:41:39,  4.35it/s]

지금 다 먹고 23077번째 도착완료 
  그리고 총 보상은 : 8.400000000000022 
지금 다 먹고 23078번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 54430/300000 [2:56:35<14:02:44,  4.86it/s]

지금 다 먹고 23079번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 23080번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 54432/300000 [2:56:35<12:57:02,  5.27it/s]

지금 다 먹고 23081번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23082번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54434/300000 [2:56:36<13:32:55,  5.03it/s]

지금 다 먹고 23083번째 도착완료 
  그리고 총 보상은 : 18.5 
지금 다 먹고 23084번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 54437/300000 [2:56:36<14:08:59,  4.82it/s]

지금 다 먹고 23085번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 23086번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54439/300000 [2:56:37<13:17:27,  5.13it/s]

지금 다 먹고 23087번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 23088번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 54441/300000 [2:56:37<12:37:15,  5.40it/s]

지금 다 먹고 23089번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54443/300000 [2:56:38<13:52:04,  4.92it/s]

지금 다 먹고 23090번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54445/300000 [2:56:38<14:18:22,  4.77it/s]

지금 다 먹고 23091번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 23092번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 54447/300000 [2:56:38<13:08:01,  5.19it/s]

지금 다 먹고 23093번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 23094번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54450/300000 [2:56:39<13:48:20,  4.94it/s]

지금 다 먹고 23095번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 23096번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54452/300000 [2:56:39<12:43:36,  5.36it/s]

지금 다 먹고 23097번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 23098번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54454/300000 [2:56:40<12:21:29,  5.52it/s]

지금 다 먹고 23099번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 23100번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 54456/300000 [2:56:40<12:23:16,  5.51it/s]

지금 다 먹고 23101번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 23102번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 18%|█▊        | 54458/300000 [2:56:40<12:16:24,  5.56it/s]

지금 다 먹고 23103번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54460/300000 [2:56:41<14:13:43,  4.79it/s]

지금 다 먹고 23104번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 23105번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54462/300000 [2:56:41<13:06:12,  5.21it/s]

지금 다 먹고 23106번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 
지금 다 먹고 23107번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 18%|█▊        | 54464/300000 [2:56:42<14:09:17,  4.82it/s]

지금 다 먹고 23108번째 도착완료 
  그리고 총 보상은 : 19.400000000000013 


 18%|█▊        | 54465/300000 [2:56:42<13:22:13,  5.10it/s]

지금 다 먹고 23109번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 23110번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54467/300000 [2:56:42<12:19:24,  5.53it/s]

지금 다 먹고 23111번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 23112번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 54469/300000 [2:56:43<12:02:04,  5.67it/s]

지금 다 먹고 23113번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 54471/300000 [2:56:43<14:24:08,  4.74it/s]

지금 다 먹고 23114번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 23115번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 54473/300000 [2:56:43<12:58:06,  5.26it/s]

지금 다 먹고 23116번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 23117번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54475/300000 [2:56:44<13:23:04,  5.10it/s]

지금 다 먹고 23118번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54477/300000 [2:56:44<14:33:46,  4.68it/s]

지금 다 먹고 23119번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23120번째 도착완료 
  그리고 총 보상은 : 14.100000000000005 


 18%|█▊        | 54479/300000 [2:56:45<15:22:02,  4.44it/s]

지금 다 먹고 23121번째 도착완료 
  그리고 총 보상은 : 12.600000000000023 


 18%|█▊        | 54481/300000 [2:56:45<15:14:37,  4.47it/s]

지금 다 먹고 23122번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 23123번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 54483/300000 [2:56:46<13:48:42,  4.94it/s]

지금 다 먹고 23124번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 23125번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 54485/300000 [2:56:46<13:19:31,  5.12it/s]

지금 다 먹고 23126번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 23127번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54488/300000 [2:56:47<13:42:14,  4.98it/s]

지금 다 먹고 23128번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 23129번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54490/300000 [2:56:47<13:35:00,  5.02it/s]

지금 다 먹고 23130번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 54491/300000 [2:56:47<15:02:28,  4.53it/s]

지금 다 먹고 23131번째 도착완료 
  그리고 총 보상은 : 10.300000000000018 


 18%|█▊        | 54492/300000 [2:56:47<14:51:24,  4.59it/s]

지금 다 먹고 23132번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 


 18%|█▊        | 54494/300000 [2:56:48<15:27:30,  4.41it/s]

지금 다 먹고 23133번째 도착완료 
  그리고 총 보상은 : 17.6 
지금 다 먹고 23134번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 18%|█▊        | 54496/300000 [2:56:48<14:39:00,  4.65it/s]

지금 다 먹고 23135번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 18%|█▊        | 54497/300000 [2:56:49<15:39:48,  4.35it/s]

지금 다 먹고 23136번째 도착완료 
  그리고 총 보상은 : 14.400000000000032 
지금 다 먹고 23137번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 54498/300000 [2:56:49<14:59:32,  4.55it/s]

지금 다 먹고 23138번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 18%|█▊        | 54500/300000 [2:56:49<14:35:05,  4.68it/s]

지금 다 먹고 23139번째 도착완료 
  그리고 총 보상은 : 18.1 
지금 다 먹고 23140번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 54501/300000 [2:56:49<14:08:29,  4.82it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.600000000000005
 end : True
 clear : True
episode :15, score = 13.667000000000598, n_buffer :100000 , eps : 22.749999999999996


 18%|█▊        | 54503/300000 [2:56:50<15:23:44,  4.43it/s]

지금 다 먹고 23141번째 도착완료 
  그리고 총 보상은 : -25.80000000000002 


 18%|█▊        | 54505/300000 [2:56:50<14:46:19,  4.62it/s]

지금 다 먹고 23142번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 23143번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 18%|█▊        | 54508/300000 [2:56:51<15:55:10,  4.28it/s]

지금 다 먹고 23144번째 도착완료 
  그리고 총 보상은 : 5.49999999999995 
지금 다 먹고 23145번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54512/300000 [2:56:52<16:23:53,  4.16it/s]

지금 다 먹고 23146번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 18%|█▊        | 54513/300000 [2:56:52<16:40:58,  4.09it/s]

지금 다 먹고 23147번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 


 18%|█▊        | 54514/300000 [2:56:52<15:51:29,  4.30it/s]

지금 다 먹고 23148번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 18%|█▊        | 54515/300000 [2:56:53<15:36:09,  4.37it/s]

지금 다 먹고 23149번째 도착완료 
  그리고 총 보상은 : 17.600000000000016 


 18%|█▊        | 54516/300000 [2:56:53<15:21:10,  4.44it/s]

지금 다 먹고 23150번째 도착완료 
  그리고 총 보상은 : 16.600000000000016 


 18%|█▊        | 54518/300000 [2:56:53<15:15:45,  4.47it/s]

지금 다 먹고 23151번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54520/300000 [2:56:54<16:09:18,  4.22it/s]

지금 다 먹고 23152번째 도착완료 
  그리고 총 보상은 : 25.000000000000014 


 18%|█▊        | 54522/300000 [2:56:54<16:14:16,  4.20it/s]

지금 다 먹고 23153번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54523/300000 [2:56:55<16:42:53,  4.08it/s]

지금 다 먹고 23154번째 도착완료 
  그리고 총 보상은 : 5.599999999999957 


 18%|█▊        | 54525/300000 [2:56:55<15:54:19,  4.29it/s]

지금 다 먹고 23155번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 23156번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 54529/300000 [2:56:56<15:28:26,  4.41it/s]

지금 다 먹고 23157번째 도착완료 
  그리고 총 보상은 : 15.999999999999998 


 18%|█▊        | 54531/300000 [2:56:56<15:23:06,  4.43it/s]

지금 다 먹고 23158번째 도착완료 
  그리고 총 보상은 : 22.8 


 18%|█▊        | 54532/300000 [2:56:57<15:18:04,  4.46it/s]

지금 다 먹고 23159번째 도착완료 
  그리고 총 보상은 : 16.900000000000016 


 18%|█▊        | 54535/300000 [2:56:57<16:02:46,  4.25it/s]

지금 다 먹고 23160번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54536/300000 [2:56:58<15:30:21,  4.40it/s]

지금 다 먹고 23161번째 도착완료 
  그리고 총 보상은 : 21.8 
지금 다 먹고 23162번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 54538/300000 [2:56:58<15:08:05,  4.51it/s]

지금 다 먹고 23163번째 도착완료 
  그리고 총 보상은 : 6.200000000000021 
지금 다 먹고 23164번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54540/300000 [2:56:58<13:42:45,  4.97it/s]

지금 다 먹고 23165번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54542/300000 [2:56:59<14:20:23,  4.75it/s]

지금 다 먹고 23166번째 도착완료 
  그리고 총 보상은 : 24.1 


 18%|█▊        | 54545/300000 [2:57:00<16:13:29,  4.20it/s]

지금 다 먹고 23167번째 도착완료 
  그리고 총 보상은 : 17.6 


 18%|█▊        | 54546/300000 [2:57:00<16:10:58,  4.21it/s]

지금 다 먹고 23168번째 도착완료 
  그리고 총 보상은 : 8.600000000000003 


 18%|█▊        | 54547/300000 [2:57:00<16:14:15,  4.20it/s]

지금 다 먹고 23169번째 도착완료 
  그리고 총 보상은 : 17.00000000000001 


 18%|█▊        | 54548/300000 [2:57:00<16:47:36,  4.06it/s]

지금 다 먹고 23170번째 도착완료 
  그리고 총 보상은 : 11.200000000000024 


 18%|█▊        | 54549/300000 [2:57:01<15:49:58,  4.31it/s]

지금 다 먹고 23171번째 도착완료 
  그리고 총 보상은 : 13.100000000000005 


 18%|█▊        | 54552/300000 [2:57:01<15:56:52,  4.28it/s]

지금 다 먹고 23172번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 23173번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 54554/300000 [2:57:02<14:20:05,  4.76it/s]

지금 다 먹고 23174번째 도착완료 
  그리고 총 보상은 : 14.400000000000006 


 18%|█▊        | 54556/300000 [2:57:02<14:14:38,  4.79it/s]

지금 다 먹고 23175번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 23176번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54558/300000 [2:57:02<13:43:11,  4.97it/s]

지금 다 먹고 23177번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 23178번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54560/300000 [2:57:03<12:38:15,  5.39it/s]

지금 다 먹고 23179번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23180번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 18%|█▊        | 54563/300000 [2:57:03<13:57:29,  4.88it/s]

지금 다 먹고 23181번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54564/300000 [2:57:04<14:45:58,  4.62it/s]

지금 다 먹고 23182번째 도착완료 
  그리고 총 보상은 : 15.600000000000001 
지금 다 먹고 23183번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 18%|█▊        | 54566/300000 [2:57:04<13:50:40,  4.92it/s]

지금 다 먹고 23184번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 
지금 다 먹고 23185번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 


 18%|█▊        | 54568/300000 [2:57:05<15:09:00,  4.50it/s]

지금 다 먹고 23186번째 도착완료 
  그리고 총 보상은 : 8.600000000000017 
지금 다 먹고 23187번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 54571/300000 [2:57:05<14:43:37,  4.63it/s]

지금 다 먹고 23188번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 54572/300000 [2:57:05<14:55:14,  4.57it/s]

지금 다 먹고 23189번째 도착완료 
  그리고 총 보상은 : 11.50000000000001 
지금 다 먹고 23190번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 54574/300000 [2:57:06<14:30:52,  4.70it/s]

지금 다 먹고 23191번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54575/300000 [2:57:06<14:55:32,  4.57it/s]

지금 다 먹고 23192번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 18%|█▊        | 54576/300000 [2:57:06<14:34:29,  4.68it/s]

지금 다 먹고 23193번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 23194번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54579/300000 [2:57:07<14:19:33,  4.76it/s]

지금 다 먹고 23195번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 23196번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54581/300000 [2:57:07<14:39:10,  4.65it/s]

지금 다 먹고 23197번째 도착완료 
  그리고 총 보상은 : 12.500000000000043 


 18%|█▊        | 54582/300000 [2:57:08<14:37:01,  4.66it/s]

지금 다 먹고 23198번째 도착완료 
  그리고 총 보상은 : 18.099999999999998 


 18%|█▊        | 54583/300000 [2:57:08<15:23:09,  4.43it/s]

지금 다 먹고 23199번째 도착완료 
  그리고 총 보상은 : 12.70000000000003 


 18%|█▊        | 54584/300000 [2:57:08<15:31:49,  4.39it/s]

지금 다 먹고 23200번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 


 18%|█▊        | 54586/300000 [2:57:09<15:50:37,  4.30it/s]

지금 다 먹고 23201번째 도착완료 
  그리고 총 보상은 : 11.100000000000003 


 18%|█▊        | 54588/300000 [2:57:09<15:05:31,  4.52it/s]

지금 다 먹고 23202번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23203번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 54590/300000 [2:57:09<13:20:34,  5.11it/s]

지금 다 먹고 23204번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 23205번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 54593/300000 [2:57:10<13:54:10,  4.90it/s]

지금 다 먹고 23206번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 23207번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 54595/300000 [2:57:10<13:24:18,  5.09it/s]

지금 다 먹고 23208번째 도착완료 
  그리고 총 보상은 : 16.800000000000008 
지금 다 먹고 23209번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 18%|█▊        | 54597/300000 [2:57:11<12:56:23,  5.27it/s]

지금 다 먹고 23210번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 54598/300000 [2:57:11<13:55:14,  4.90it/s]

지금 다 먹고 23211번째 도착완료 
  그리고 총 보상은 : 14.000000000000005 


 18%|█▊        | 54599/300000 [2:57:11<14:37:36,  4.66it/s]

지금 다 먹고 23212번째 도착완료 
  그리고 총 보상은 : 11.400000000000007 


 18%|█▊        | 54601/300000 [2:57:12<16:47:29,  4.06it/s]

epi = 13
 마지막 상태 :
[[  0.   0. 200.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1. 100.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :-22.90000000000004
 end : True
 clear : True
episode :13, score = 7.126999999999389, n_buffer :100000 , eps : 22.7


 18%|█▊        | 54603/300000 [2:57:12<16:04:07,  4.24it/s]

지금 다 먹고 23213번째 도착완료 
  그리고 총 보상은 : 24.700000000000014 
지금 다 먹고 23214번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 54605/300000 [2:57:13<14:16:52,  4.77it/s]

지금 다 먹고 23215번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 54606/300000 [2:57:13<14:10:43,  4.81it/s]

지금 다 먹고 23216번째 도착완료 
  그리고 총 보상은 : 10.100000000000005 
지금 다 먹고 23217번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 54608/300000 [2:57:13<12:52:37,  5.29it/s]

지금 다 먹고 23218번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 23219번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54611/300000 [2:57:14<14:49:25,  4.60it/s]

지금 다 먹고 23220번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54613/300000 [2:57:14<15:47:22,  4.32it/s]

지금 다 먹고 23221번째 도착완료 
  그리고 총 보상은 : 11.20000000000001 
지금 다 먹고 23222번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54615/300000 [2:57:15<15:17:33,  4.46it/s]

지금 다 먹고 23223번째 도착완료 
  그리고 총 보상은 : 14.600000000000028 


 18%|█▊        | 54617/300000 [2:57:15<16:00:01,  4.26it/s]

지금 다 먹고 23224번째 도착완료 
  그리고 총 보상은 : 13.70000000000002 
지금 다 먹고 23225번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 54619/300000 [2:57:16<14:02:24,  4.85it/s]

지금 다 먹고 23226번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 23227번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 18%|█▊        | 54621/300000 [2:57:16<13:30:27,  5.05it/s]

지금 다 먹고 23228번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 


 18%|█▊        | 54624/300000 [2:57:17<14:40:23,  4.65it/s]

지금 다 먹고 23229번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 23230번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 54626/300000 [2:57:17<13:25:34,  5.08it/s]

지금 다 먹고 23231번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 23232번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 54628/300000 [2:57:17<12:35:06,  5.42it/s]

지금 다 먹고 23233번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54630/300000 [2:57:18<14:38:44,  4.65it/s]

지금 다 먹고 23234번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 
지금 다 먹고 23235번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 18%|█▊        | 54632/300000 [2:57:18<13:33:35,  5.03it/s]

지금 다 먹고 23236번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 


 18%|█▊        | 54635/300000 [2:57:19<15:51:42,  4.30it/s]

지금 다 먹고 23237번째 도착완료 
  그리고 총 보상은 : 20.20000000000001 


 18%|█▊        | 54637/300000 [2:57:20<15:43:31,  4.33it/s]

지금 다 먹고 23238번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 23239번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 18%|█▊        | 54639/300000 [2:57:20<14:34:39,  4.68it/s]

지금 다 먹고 23240번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 18%|█▊        | 54640/300000 [2:57:20<14:41:58,  4.64it/s]

지금 다 먹고 23241번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 
지금 다 먹고 23242번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54642/300000 [2:57:20<13:05:29,  5.21it/s]

지금 다 먹고 23243번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 23244번째 도착완료 
  그리고 총 보상은 : 21.0 


 18%|█▊        | 54645/300000 [2:57:21<13:46:13,  4.95it/s]

지금 다 먹고 23245번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54647/300000 [2:57:22<14:21:35,  4.75it/s]

지금 다 먹고 23246번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 23247번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54649/300000 [2:57:22<13:54:21,  4.90it/s]

지금 다 먹고 23248번째 도착완료 
  그리고 총 보상은 : 19.8 


 18%|█▊        | 54650/300000 [2:57:22<14:56:00,  4.56it/s]

지금 다 먹고 23249번째 도착완료 
  그리고 총 보상은 : 5.600000000000019 


 18%|█▊        | 54651/300000 [2:57:22<14:47:39,  4.61it/s]

지금 다 먹고 23250번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 18%|█▊        | 54652/300000 [2:57:23<15:12:10,  4.48it/s]

지금 다 먹고 23251번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 18%|█▊        | 54653/300000 [2:57:23<15:17:07,  4.46it/s]

지금 다 먹고 23252번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 23253번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54656/300000 [2:57:24<14:37:36,  4.66it/s]

지금 다 먹고 23254번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54658/300000 [2:57:24<14:50:56,  4.59it/s]

지금 다 먹고 23255번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 23256번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54661/300000 [2:57:25<14:55:37,  4.57it/s]

지금 다 먹고 23257번째 도착완료 
  그리고 총 보상은 : 19.100000000000012 


 18%|█▊        | 54664/300000 [2:57:25<15:33:59,  4.38it/s]

지금 다 먹고 23258번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 
지금 다 먹고 23259번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 18%|█▊        | 54667/300000 [2:57:26<15:03:14,  4.53it/s]

지금 다 먹고 23260번째 도착완료 
  그리고 총 보상은 : 18.7 


 18%|█▊        | 54669/300000 [2:57:26<15:11:29,  4.49it/s]

지금 다 먹고 23261번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 18%|█▊        | 54670/300000 [2:57:27<15:35:01,  4.37it/s]

지금 다 먹고 23262번째 도착완료 
  그리고 총 보상은 : 19.6 
지금 다 먹고 23263번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 54672/300000 [2:57:27<13:57:30,  4.88it/s]

지금 다 먹고 23264번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 23265번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54675/300000 [2:57:28<14:58:57,  4.55it/s]

지금 다 먹고 23266번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 54676/300000 [2:57:28<15:07:25,  4.51it/s]

지금 다 먹고 23267번째 도착완료 
  그리고 총 보상은 : 22.80000000000001 


 18%|█▊        | 54677/300000 [2:57:28<14:55:45,  4.56it/s]

지금 다 먹고 23268번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 18%|█▊        | 54678/300000 [2:57:28<14:35:53,  4.67it/s]

지금 다 먹고 23269번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 23270번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54681/300000 [2:57:29<14:43:18,  4.63it/s]

지금 다 먹고 23271번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 23272번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 54683/300000 [2:57:29<13:36:41,  5.01it/s]

지금 다 먹고 23273번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 54685/300000 [2:57:30<15:38:05,  4.36it/s]

지금 다 먹고 23274번째 도착완료 
  그리고 총 보상은 : 13.20000000000002 


 18%|█▊        | 54688/300000 [2:57:31<15:51:04,  4.30it/s]

지금 다 먹고 23275번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 23276번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 18%|█▊        | 54690/300000 [2:57:31<14:17:57,  4.77it/s]

지금 다 먹고 23277번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 23278번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 18%|█▊        | 54692/300000 [2:57:31<13:04:48,  5.21it/s]

지금 다 먹고 23279번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 23280번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54694/300000 [2:57:32<12:34:53,  5.42it/s]

지금 다 먹고 23281번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 23282번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 54696/300000 [2:57:32<12:13:13,  5.58it/s]

지금 다 먹고 23283번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23284번째 도착완료 
  그리고 총 보상은 : 23.6 


 18%|█▊        | 54699/300000 [2:57:33<13:57:49,  4.88it/s]

지금 다 먹고 23285번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 23286번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 54701/300000 [2:57:33<14:48:14,  4.60it/s]

epi = 11
 마지막 상태 :
[[200.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1. 100.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-23.300000000000068
 end : True
 clear : True
episode :11, score = 11.344999999999345, n_buffer :100000 , eps : 22.65
지금 다 먹고 23287번째 도착완료 
  그리고 총 보상은 : 15.000000000000007 


 18%|█▊        | 54703/300000 [2:57:34<14:43:06,  4.63it/s]

지금 다 먹고 23288번째 도착완료 
  그리고 총 보상은 : 13.200000000000008 


 18%|█▊        | 54705/300000 [2:57:34<14:56:16,  4.56it/s]

지금 다 먹고 23289번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54707/300000 [2:57:35<15:01:41,  4.53it/s]

지금 다 먹고 23290번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54709/300000 [2:57:35<14:50:58,  4.59it/s]

지금 다 먹고 23291번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54711/300000 [2:57:36<15:49:26,  4.31it/s]

지금 다 먹고 23292번째 도착완료 
  그리고 총 보상은 : 3.899999999999963 


 18%|█▊        | 54712/300000 [2:57:36<16:15:34,  4.19it/s]

지금 다 먹고 23293번째 도착완료 
  그리고 총 보상은 : 19.300000000000004 


 18%|█▊        | 54713/300000 [2:57:36<15:49:42,  4.30it/s]

지금 다 먹고 23294번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 


 18%|█▊        | 54716/300000 [2:57:37<16:54:51,  4.03it/s]

지금 다 먹고 23295번째 도착완료 
  그리고 총 보상은 : 14.600000000000005 


 18%|█▊        | 54721/300000 [2:57:38<18:27:58,  3.69it/s]

지금 다 먹고 23296번째 도착완료 
  그리고 총 보상은 : 13.10000000000003 


 18%|█▊        | 54722/300000 [2:57:38<18:09:23,  3.75it/s]

지금 다 먹고 23297번째 도착완료 
  그리고 총 보상은 : -8.400000000000105 


 18%|█▊        | 54724/300000 [2:57:39<16:16:36,  4.19it/s]

지금 다 먹고 23298번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54725/300000 [2:57:39<15:50:37,  4.30it/s]

지금 다 먹고 23299번째 도착완료 
  그리고 총 보상은 : 16.600000000000012 
지금 다 먹고 23300번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 54727/300000 [2:57:40<14:19:07,  4.76it/s]

지금 다 먹고 23301번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 54730/300000 [2:57:40<15:00:36,  4.54it/s]

지금 다 먹고 23302번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54733/300000 [2:57:41<16:40:04,  4.09it/s]

지금 다 먹고 23303번째 도착완료 
  그리고 총 보상은 : 17.100000000000016 


 18%|█▊        | 54739/300000 [2:57:43<16:55:16,  4.03it/s]

지금 다 먹고 23304번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 54741/300000 [2:57:43<16:21:52,  4.16it/s]

지금 다 먹고 23305번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 54743/300000 [2:57:44<15:23:17,  4.43it/s]

지금 다 먹고 23306번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 23307번째 도착완료 
  그리고 총 보상은 : 23.1 


 18%|█▊        | 54747/300000 [2:57:44<14:42:05,  4.63it/s]

지금 다 먹고 23308번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54750/300000 [2:57:45<16:00:08,  4.26it/s]

지금 다 먹고 23309번째 도착완료 
  그리고 총 보상은 : -3.800000000000015 


 18%|█▊        | 54752/300000 [2:57:46<16:45:16,  4.07it/s]

지금 다 먹고 23310번째 도착완료 
  그리고 총 보상은 : 12.800000000000033 


 18%|█▊        | 54753/300000 [2:57:46<16:57:38,  4.02it/s]

지금 다 먹고 23311번째 도착완료 
  그리고 총 보상은 : 9.000000000000021 


 18%|█▊        | 54756/300000 [2:57:47<15:37:30,  4.36it/s]

지금 다 먹고 23312번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54758/300000 [2:57:47<14:56:28,  4.56it/s]

지금 다 먹고 23313번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 54760/300000 [2:57:48<14:19:25,  4.76it/s]

지금 다 먹고 23314번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 23315번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54763/300000 [2:57:48<15:23:35,  4.43it/s]

지금 다 먹고 23316번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 23317번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54767/300000 [2:57:49<15:15:07,  4.47it/s]

지금 다 먹고 23318번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 18%|█▊        | 54770/300000 [2:57:50<15:58:55,  4.26it/s]

지금 다 먹고 23319번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 18%|█▊        | 54773/300000 [2:57:51<15:53:19,  4.29it/s]

지금 다 먹고 23320번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 54775/300000 [2:57:51<15:11:29,  4.48it/s]

지금 다 먹고 23321번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54777/300000 [2:57:52<15:26:24,  4.41it/s]

지금 다 먹고 23322번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 18%|█▊        | 54778/300000 [2:57:52<16:07:33,  4.22it/s]

지금 다 먹고 23323번째 도착완료 
  그리고 총 보상은 : 13.600000000000037 


 18%|█▊        | 54780/300000 [2:57:52<16:41:57,  4.08it/s]

지금 다 먹고 23324번째 도착완료 
  그리고 총 보상은 : 14.400000000000029 
지금 다 먹고 23325번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 54784/300000 [2:57:53<16:21:15,  4.16it/s]

지금 다 먹고 23326번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54790/300000 [2:57:55<17:23:13,  3.92it/s]

지금 다 먹고 23327번째 도착완료 
  그리고 총 보상은 : 15.400000000000023 


 18%|█▊        | 54792/300000 [2:57:55<15:56:06,  4.27it/s]

지금 다 먹고 23328번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 54794/300000 [2:57:56<15:07:08,  4.51it/s]

지금 다 먹고 23329번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 23330번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 18%|█▊        | 54797/300000 [2:57:56<15:47:03,  4.32it/s]

지금 다 먹고 23331번째 도착완료 
  그리고 총 보상은 : 13.900000000000027 
지금 다 먹고 23332번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 18%|█▊        | 54801/300000 [2:57:57<15:30:23,  4.39it/s]

지금 다 먹고 23333번째 도착완료 
  그리고 총 보상은 : 14.900000000000004 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :14.900000000000004
 end : True
 clear : True
episode :9, score = -7.720000000001744, n_buffer :100000 , eps : 22.599999999999998


 18%|█▊        | 54802/300000 [2:57:58<15:22:24,  4.43it/s]

지금 다 먹고 23334번째 도착완료 
  그리고 총 보상은 : 14.200000000000024 


 18%|█▊        | 54805/300000 [2:57:58<17:12:41,  3.96it/s]

지금 다 먹고 23335번째 도착완료 
  그리고 총 보상은 : 9.700000000000038 


 18%|█▊        | 54806/300000 [2:57:59<16:58:18,  4.01it/s]

지금 다 먹고 23336번째 도착완료 
  그리고 총 보상은 : 4.399999999999993 


 18%|█▊        | 54807/300000 [2:57:59<15:56:12,  4.27it/s]

지금 다 먹고 23337번째 도착완료 
  그리고 총 보상은 : 15.500000000000002 


 18%|█▊        | 54809/300000 [2:57:59<15:12:53,  4.48it/s]

지금 다 먹고 23338번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 54811/300000 [2:58:00<14:50:51,  4.59it/s]

지금 다 먹고 23339번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23340번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 54814/300000 [2:58:00<16:05:01,  4.23it/s]

지금 다 먹고 23341번째 도착완료 
  그리고 총 보상은 : 9.500000000000014 
지금 다 먹고 23342번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54817/300000 [2:58:01<14:32:37,  4.68it/s]

지금 다 먹고 23343번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 23344번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 54821/300000 [2:58:02<16:40:50,  4.08it/s]

지금 다 먹고 23345번째 도착완료 
  그리고 총 보상은 : 7.8999999999999915 


 18%|█▊        | 54822/300000 [2:58:02<16:13:44,  4.20it/s]

지금 다 먹고 23346번째 도착완료 
  그리고 총 보상은 : 13.600000000000025 


 18%|█▊        | 54824/300000 [2:58:03<16:13:06,  4.20it/s]

지금 다 먹고 23347번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 


 18%|█▊        | 54826/300000 [2:58:03<15:18:17,  4.45it/s]

지금 다 먹고 23348번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 54828/300000 [2:58:04<15:47:23,  4.31it/s]

지금 다 먹고 23349번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 23350번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54830/300000 [2:58:04<15:10:33,  4.49it/s]

지금 다 먹고 23351번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 
지금 다 먹고 23352번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 54832/300000 [2:58:05<15:11:35,  4.48it/s]

지금 다 먹고 23353번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54835/300000 [2:58:05<15:52:34,  4.29it/s]

지금 다 먹고 23354번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54836/300000 [2:58:05<15:32:21,  4.38it/s]

지금 다 먹고 23355번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 23356번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 18%|█▊        | 54838/300000 [2:58:06<15:21:47,  4.43it/s]

지금 다 먹고 23357번째 도착완료 
  그리고 총 보상은 : 12.20000000000001 


 18%|█▊        | 54839/300000 [2:58:06<15:11:24,  4.48it/s]

지금 다 먹고 23358번째 도착완료 
  그리고 총 보상은 : 20.10000000000001 


 18%|█▊        | 54840/300000 [2:58:06<15:32:56,  4.38it/s]

지금 다 먹고 23359번째 도착완료 
  그리고 총 보상은 : 9.900000000000045 
지금 다 먹고 23360번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54843/300000 [2:58:07<14:24:02,  4.73it/s]

지금 다 먹고 23361번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54845/300000 [2:58:07<14:40:44,  4.64it/s]

지금 다 먹고 23362번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 23363번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 54849/300000 [2:58:08<16:37:07,  4.10it/s]

지금 다 먹고 23364번째 도착완료 
  그리고 총 보상은 : 10.700000000000019 


 18%|█▊        | 54852/300000 [2:58:09<15:47:34,  4.31it/s]

지금 다 먹고 23365번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 54855/300000 [2:58:10<16:37:14,  4.10it/s]

지금 다 먹고 23366번째 도착완료 
  그리고 총 보상은 : 11.100000000000032 


 18%|█▊        | 54856/300000 [2:58:10<16:10:04,  4.21it/s]

지금 다 먹고 23367번째 도착완료 
  그리고 총 보상은 : 13.700000000000035 


 18%|█▊        | 54859/300000 [2:58:11<16:17:15,  4.18it/s]

지금 다 먹고 23368번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 
지금 다 먹고 23369번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54862/300000 [2:58:12<14:59:38,  4.54it/s]

지금 다 먹고 23370번째 도착완료 
  그리고 총 보상은 : 26.5 
지금 다 먹고 23371번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54864/300000 [2:58:12<15:16:27,  4.46it/s]

지금 다 먹고 23372번째 도착완료 
  그리고 총 보상은 : 11.400000000000025 


 18%|█▊        | 54865/300000 [2:58:12<14:55:13,  4.56it/s]

지금 다 먹고 23373번째 도착완료 
  그리고 총 보상은 : 19.400000000000013 
지금 다 먹고 23374번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54867/300000 [2:58:13<15:00:58,  4.53it/s]

지금 다 먹고 23375번째 도착완료 
  그리고 총 보상은 : 6.499999999999968 


 18%|█▊        | 54869/300000 [2:58:13<14:24:52,  4.72it/s]

지금 다 먹고 23376번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54873/300000 [2:58:14<17:24:44,  3.91it/s]

지금 다 먹고 23377번째 도착완료 
  그리고 총 보상은 : 9.400000000000041 


 18%|█▊        | 54875/300000 [2:58:15<16:58:24,  4.01it/s]

지금 다 먹고 23378번째 도착완료 
  그리고 총 보상은 : 16.500000000000014 


 18%|█▊        | 54877/300000 [2:58:15<15:43:51,  4.33it/s]

지금 다 먹고 23379번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54879/300000 [2:58:16<15:30:52,  4.39it/s]

지금 다 먹고 23380번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 54880/300000 [2:58:16<15:05:44,  4.51it/s]

지금 다 먹고 23381번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 54881/300000 [2:58:16<15:25:28,  4.41it/s]

지금 다 먹고 23382번째 도착완료 
  그리고 총 보상은 : 19.600000000000012 


 18%|█▊        | 54883/300000 [2:58:16<15:52:31,  4.29it/s]

지금 다 먹고 23383번째 도착완료 
  그리고 총 보상은 : 25.5 


 18%|█▊        | 54886/300000 [2:58:17<15:33:48,  4.37it/s]

지금 다 먹고 23384번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54887/300000 [2:58:17<15:47:01,  4.31it/s]

지금 다 먹고 23385번째 도착완료 
  그리고 총 보상은 : 6.599999999999971 


 18%|█▊        | 54888/300000 [2:58:18<15:51:14,  4.29it/s]

지금 다 먹고 23386번째 도착완료 
  그리고 총 보상은 : 15.200000000000006 


 18%|█▊        | 54892/300000 [2:58:19<16:36:16,  4.10it/s]

지금 다 먹고 23387번째 도착완료 
  그리고 총 보상은 : 20.00000000000001 


 18%|█▊        | 54894/300000 [2:58:19<15:30:26,  4.39it/s]

지금 다 먹고 23388번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54896/300000 [2:58:20<14:58:23,  4.55it/s]

지금 다 먹고 23389번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 54898/300000 [2:58:20<16:30:01,  4.13it/s]

지금 다 먹고 23390번째 도착완료 
  그리고 총 보상은 : 3.7000000000000064 


 18%|█▊        | 54900/300000 [2:58:21<15:32:09,  4.38it/s]

지금 다 먹고 23391번째 도착완료 
  그리고 총 보상은 : 21.0 


 18%|█▊        | 54901/300000 [2:58:21<16:17:53,  4.18it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1. 100.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :-25.700000000000067
 end : True
 clear : True
episode :7, score = 0.4910000000004288, n_buffer :100000 , eps : 22.549999999999997


 18%|█▊        | 54903/300000 [2:58:21<15:33:58,  4.37it/s]

지금 다 먹고 23392번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 54906/300000 [2:58:22<17:11:36,  3.96it/s]

지금 다 먹고 23393번째 도착완료 
  그리고 총 보상은 : 15.0 


 18%|█▊        | 54907/300000 [2:58:22<16:18:11,  4.18it/s]

지금 다 먹고 23394번째 도착완료 
  그리고 총 보상은 : 22.6 


 18%|█▊        | 54908/300000 [2:58:23<16:08:43,  4.22it/s]

지금 다 먹고 23395번째 도착완료 
  그리고 총 보상은 : 19.500000000000007 
지금 다 먹고 23396번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 54910/300000 [2:58:23<14:40:28,  4.64it/s]

지금 다 먹고 23397번째 도착완료 
  그리고 총 보상은 : 17.500000000000004 
지금 다 먹고 23398번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 18%|█▊        | 54913/300000 [2:58:24<15:03:52,  4.52it/s]

지금 다 먹고 23399번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 18%|█▊        | 54914/300000 [2:58:24<14:31:53,  4.68it/s]

지금 다 먹고 23400번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54916/300000 [2:58:24<15:33:59,  4.37it/s]

지금 다 먹고 23401번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 23402번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 54919/300000 [2:58:25<15:08:08,  4.50it/s]

지금 다 먹고 23403번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 
지금 다 먹고 23404번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 54921/300000 [2:58:25<14:55:09,  4.56it/s]

지금 다 먹고 23405번째 도착완료 
  그리고 총 보상은 : 14.50000000000003 
지금 다 먹고 23406번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 54928/300000 [2:58:27<16:16:58,  4.18it/s]

지금 다 먹고 23407번째 도착완료 
  그리고 총 보상은 : 19.0 


 18%|█▊        | 54930/300000 [2:58:28<15:25:55,  4.41it/s]

지금 다 먹고 23408번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 23409번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 54933/300000 [2:58:28<16:22:23,  4.16it/s]

지금 다 먹고 23410번째 도착완료 
  그리고 총 보상은 : 15.000000000000023 
지금 다 먹고 23411번째 도착완료 
  그리고 총 보상은 : 26.0 


 18%|█▊        | 54936/300000 [2:58:29<16:15:14,  4.19it/s]

지금 다 먹고 23412번째 도착완료 
  그리고 총 보상은 : 9.90000000000001 
지금 다 먹고 23413번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 54940/300000 [2:58:30<16:05:57,  4.23it/s]

지금 다 먹고 23414번째 도착완료 
  그리고 총 보상은 : 16.60000000000001 


 18%|█▊        | 54944/300000 [2:58:31<16:58:58,  4.01it/s]

지금 다 먹고 23415번째 도착완료 
  그리고 총 보상은 : 12.20000000000001 
지금 다 먹고 23416번째 도착완료 
  그리고 총 보상은 : 12.600000000000003 


 18%|█▊        | 54946/300000 [2:58:31<15:22:49,  4.43it/s]

지금 다 먹고 23417번째 도착완료 
  그리고 총 보상은 : 15.10000000000002 


 18%|█▊        | 54948/300000 [2:58:32<15:18:12,  4.45it/s]

지금 다 먹고 23418번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 54951/300000 [2:58:33<15:25:28,  4.41it/s]

지금 다 먹고 23419번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 54954/300000 [2:58:33<16:07:45,  4.22it/s]

지금 다 먹고 23420번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 54955/300000 [2:58:34<16:48:40,  4.05it/s]

지금 다 먹고 23421번째 도착완료 
  그리고 총 보상은 : 9.200000000000026 


 18%|█▊        | 54956/300000 [2:58:34<16:03:14,  4.24it/s]

지금 다 먹고 23422번째 도착완료 
  그리고 총 보상은 : 18.90000000000001 


 18%|█▊        | 54957/300000 [2:58:34<15:21:46,  4.43it/s]

지금 다 먹고 23423번째 도착완료 
  그리고 총 보상은 : 13.000000000000012 


 18%|█▊        | 54959/300000 [2:58:34<14:55:23,  4.56it/s]

지금 다 먹고 23424번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 18%|█▊        | 54961/300000 [2:58:35<15:18:13,  4.45it/s]

지금 다 먹고 23425번째 도착완료 
  그리고 총 보상은 : 19.100000000000016 
지금 다 먹고 23426번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54964/300000 [2:58:36<15:01:59,  4.53it/s]

지금 다 먹고 23427번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 23428번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 18%|█▊        | 54966/300000 [2:58:36<13:51:23,  4.91it/s]

지금 다 먹고 23429번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 54967/300000 [2:58:36<14:17:26,  4.76it/s]

지금 다 먹고 23430번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 
지금 다 먹고 23431번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54969/300000 [2:58:37<14:49:58,  4.59it/s]

지금 다 먹고 23432번째 도착완료 
  그리고 총 보상은 : 16.100000000000012 


 18%|█▊        | 54970/300000 [2:58:37<14:50:45,  4.58it/s]

지금 다 먹고 23433번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 
지금 다 먹고 23434번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 54972/300000 [2:58:37<13:46:15,  4.94it/s]

지금 다 먹고 23435번째 도착완료 
  그리고 총 보상은 : 24.6 


 18%|█▊        | 54973/300000 [2:58:38<15:27:49,  4.40it/s]

지금 다 먹고 23436번째 도착완료 
  그리고 총 보상은 : 1.6000000000000085 
지금 다 먹고 23437번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 54974/300000 [2:58:38<15:06:45,  4.50it/s]

지금 다 먹고 23438번째 도착완료 
  그리고 총 보상은 : 10.200000000000028 


 18%|█▊        | 54976/300000 [2:58:38<17:28:30,  3.89it/s]

지금 다 먹고 23439번째 도착완료 
  그리고 총 보상은 : 15.600000000000026 


 18%|█▊        | 54977/300000 [2:58:39<16:14:33,  4.19it/s]

지금 다 먹고 23440번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 18%|█▊        | 54979/300000 [2:58:39<15:31:11,  4.39it/s]

지금 다 먹고 23441번째 도착완료 
  그리고 총 보상은 : 19.400000000000002 


 18%|█▊        | 54981/300000 [2:58:39<15:39:07,  4.35it/s]

지금 다 먹고 23442번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 23443번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 54983/300000 [2:58:40<14:47:08,  4.60it/s]

지금 다 먹고 23444번째 도착완료 
  그리고 총 보상은 : -4.3000000000000185 


 18%|█▊        | 54985/300000 [2:58:40<14:58:30,  4.54it/s]

지금 다 먹고 23445번째 도착완료 
  그리고 총 보상은 : 23.3 


 18%|█▊        | 54986/300000 [2:58:41<14:53:04,  4.57it/s]

지금 다 먹고 23446번째 도착완료 
  그리고 총 보상은 : 14.700000000000015 
지금 다 먹고 23447번째 도착완료 
  그리고 총 보상은 : 21.6 


 18%|█▊        | 54988/300000 [2:58:41<14:14:47,  4.78it/s]

지금 다 먹고 23448번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 18%|█▊        | 54993/300000 [2:58:42<17:29:11,  3.89it/s]

지금 다 먹고 23449번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 23450번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 54996/300000 [2:58:43<15:22:04,  4.43it/s]

지금 다 먹고 23451번째 도착완료 
  그리고 총 보상은 : 21.1 


 18%|█▊        | 54999/300000 [2:58:44<15:03:11,  4.52it/s]

지금 다 먹고 23452번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 23453번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 


 18%|█▊        | 55001/300000 [2:58:44<16:20:10,  4.17it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [200.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1. 100.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :-23.700000000000045
 end : True
 clear : True
episode :5, score = 3.8459999999994854, n_buffer :100000 , eps : 22.499999999999996
지금 다 먹고 23454번째 도착완료 
  그리고 총 보상은 : 11.60000000000002 


 18%|█▊        | 55004/300000 [2:58:45<16:05:37,  4.23it/s]

지금 다 먹고 23455번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 23456번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 55008/300000 [2:58:46<17:23:17,  3.91it/s]

지금 다 먹고 23457번째 도착완료 
  그리고 총 보상은 : 14.700000000000035 


 18%|█▊        | 55009/300000 [2:58:46<16:36:27,  4.10it/s]

지금 다 먹고 23458번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 23459번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 55011/300000 [2:58:46<14:14:32,  4.78it/s]

지금 다 먹고 23460번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 55013/300000 [2:58:47<14:10:06,  4.80it/s]

지금 다 먹고 23461번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 55015/300000 [2:58:47<14:49:41,  4.59it/s]

지금 다 먹고 23462번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 55016/300000 [2:58:48<14:15:18,  4.77it/s]

지금 다 먹고 23463번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 55019/300000 [2:58:48<15:05:11,  4.51it/s]

지금 다 먹고 23464번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 18%|█▊        | 55021/300000 [2:58:49<15:47:05,  4.31it/s]

지금 다 먹고 23465번째 도착완료 
  그리고 총 보상은 : 15.800000000000026 
지금 다 먹고 23466번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 55023/300000 [2:58:49<14:30:33,  4.69it/s]

지금 다 먹고 23467번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 


 18%|█▊        | 55025/300000 [2:58:50<15:16:21,  4.46it/s]

지금 다 먹고 23468번째 도착완료 
  그리고 총 보상은 : 20.1 


 18%|█▊        | 55026/300000 [2:58:50<15:20:03,  4.44it/s]

지금 다 먹고 23469번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 18%|█▊        | 55027/300000 [2:58:50<16:45:23,  4.06it/s]

지금 다 먹고 23470번째 도착완료 
  그리고 총 보상은 : -1.6000000000000227 
지금 다 먹고 23471번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 55029/300000 [2:58:51<14:30:00,  4.69it/s]

지금 다 먹고 23472번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 
지금 다 먹고 23473번째 도착완료 
  그리고 총 보상은 : 26.0 


 18%|█▊        | 55031/300000 [2:58:51<13:35:41,  5.01it/s]

지금 다 먹고 23474번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 
지금 다 먹고 23475번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 55033/300000 [2:58:51<12:40:46,  5.37it/s]

지금 다 먹고 23476번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 55034/300000 [2:58:51<13:34:04,  5.02it/s]

지금 다 먹고 23477번째 도착완료 
  그리고 총 보상은 : 21.8 


 18%|█▊        | 55036/300000 [2:58:52<14:20:13,  4.75it/s]

지금 다 먹고 23478번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 23479번째 도착완료 
  그리고 총 보상은 : 19.500000000000007 


 18%|█▊        | 55038/300000 [2:58:52<14:25:02,  4.72it/s]

지금 다 먹고 23480번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 
지금 다 먹고 23481번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 18%|█▊        | 55040/300000 [2:58:53<14:28:35,  4.70it/s]

지금 다 먹고 23482번째 도착완료 
  그리고 총 보상은 : 19.300000000000008 


 18%|█▊        | 55042/300000 [2:58:53<15:18:53,  4.44it/s]

지금 다 먹고 23483번째 도착완료 
  그리고 총 보상은 : 18.00000000000001 


 18%|█▊        | 55044/300000 [2:58:54<16:10:59,  4.20it/s]

지금 다 먹고 23484번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 23485번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 55046/300000 [2:58:54<14:52:13,  4.58it/s]

지금 다 먹고 23486번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 23487번째 도착완료 
  그리고 총 보상은 : 20.0 


 18%|█▊        | 55048/300000 [2:58:55<15:29:14,  4.39it/s]

지금 다 먹고 23488번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 


 18%|█▊        | 55049/300000 [2:58:55<14:52:36,  4.57it/s]

지금 다 먹고 23489번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23490번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 18%|█▊        | 55053/300000 [2:58:56<14:57:50,  4.55it/s]

지금 다 먹고 23491번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 55055/300000 [2:58:56<14:41:21,  4.63it/s]

지금 다 먹고 23492번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 23493번째 도착완료 
  그리고 총 보상은 : 10.900000000000002 


 18%|█▊        | 55057/300000 [2:58:57<14:35:46,  4.66it/s]

지금 다 먹고 23494번째 도착완료 
  그리고 총 보상은 : 13.800000000000033 


 18%|█▊        | 55059/300000 [2:58:57<14:55:00,  4.56it/s]

지금 다 먹고 23495번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 


 18%|█▊        | 55061/300000 [2:58:58<17:30:37,  3.89it/s]

지금 다 먹고 23496번째 도착완료 
  그리고 총 보상은 : 9.799999999999999 


 18%|█▊        | 55062/300000 [2:58:58<16:19:42,  4.17it/s]

지금 다 먹고 23497번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 23498번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 18%|█▊        | 55064/300000 [2:58:58<14:10:35,  4.80it/s]

지금 다 먹고 23499번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 23500번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 18%|█▊        | 55066/300000 [2:58:59<13:56:41,  4.88it/s]

지금 다 먹고 23501번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 55067/300000 [2:58:59<13:35:03,  5.01it/s]

지금 다 먹고 23502번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 55071/300000 [2:59:00<16:59:04,  4.01it/s]

지금 다 먹고 23503번째 도착완료 
  그리고 총 보상은 : 2.099999999999998 
지금 다 먹고 23504번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 55073/300000 [2:59:00<15:48:58,  4.30it/s]

지금 다 먹고 23505번째 도착완료 
  그리고 총 보상은 : -20.60000000000003 
지금 다 먹고 23506번째 도착완료 
  그리고 총 보상은 : 25.1 


 18%|█▊        | 55077/300000 [2:59:01<16:34:56,  4.10it/s]

지금 다 먹고 23507번째 도착완료 
  그리고 총 보상은 : 17.000000000000014 


 18%|█▊        | 55078/300000 [2:59:02<17:09:40,  3.96it/s]

지금 다 먹고 23508번째 도착완료 
  그리고 총 보상은 : 12.500000000000037 


 18%|█▊        | 55079/300000 [2:59:02<16:06:40,  4.22it/s]

지금 다 먹고 23509번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 55080/300000 [2:59:02<16:25:57,  4.14it/s]

지금 다 먹고 23510번째 도착완료 
  그리고 총 보상은 : -12.200000000000003 
지금 다 먹고 23511번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 55082/300000 [2:59:02<15:13:32,  4.47it/s]

지금 다 먹고 23512번째 도착완료 
  그리고 총 보상은 : 16.00000000000002 
지금 다 먹고 23513번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 55084/300000 [2:59:03<14:31:31,  4.68it/s]

지금 다 먹고 23514번째 도착완료 
  그리고 총 보상은 : 23.000000000000018 
지금 다 먹고 23515번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 55087/300000 [2:59:03<14:04:56,  4.83it/s]

지금 다 먹고 23516번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 55090/300000 [2:59:04<15:39:53,  4.34it/s]

지금 다 먹고 23517번째 도착완료 
  그리고 총 보상은 : 13.900000000000002 
지금 다 먹고 23518번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 18%|█▊        | 55093/300000 [2:59:05<16:14:43,  4.19it/s]

지금 다 먹고 23519번째 도착완료 
  그리고 총 보상은 : 20.20000000000001 


 18%|█▊        | 55095/300000 [2:59:05<16:15:18,  4.19it/s]

지금 다 먹고 23520번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 18%|█▊        | 55097/300000 [2:59:06<15:16:49,  4.45it/s]

지금 다 먹고 23521번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 23522번째 도착완료 
  그리고 총 보상은 : 21.7 


 18%|█▊        | 55099/300000 [2:59:06<14:06:21,  4.82it/s]

지금 다 먹고 23523번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 
지금 다 먹고 23524번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 55101/300000 [2:59:07<13:15:58,  5.13it/s]

지금 다 먹고 23525번째 도착완료 
  그리고 총 보상은 : 27.5 
epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.5
 end : True
 clear : True
episode :3, score = 6.820999999998764, n_buffer :100000 , eps : 22.45


 18%|█▊        | 55102/300000 [2:59:07<15:15:09,  4.46it/s]

지금 다 먹고 23526번째 도착완료 
  그리고 총 보상은 : 7.19999999999998 


 18%|█▊        | 55104/300000 [2:59:07<14:49:25,  4.59it/s]

지금 다 먹고 23527번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 23528번째 도착완료 
  그리고 총 보상은 : 18.200000000000006 


 18%|█▊        | 55107/300000 [2:59:08<15:25:08,  4.41it/s]

지금 다 먹고 23529번째 도착완료 
  그리고 총 보상은 : 22.5 


 18%|█▊        | 55112/300000 [2:59:09<16:21:13,  4.16it/s]

지금 다 먹고 23530번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 23531번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 55114/300000 [2:59:10<16:06:53,  4.22it/s]

지금 다 먹고 23532번째 도착완료 
  그리고 총 보상은 : 16.000000000000018 


 18%|█▊        | 55115/300000 [2:59:10<15:18:12,  4.44it/s]

지금 다 먹고 23533번째 도착완료 
  그리고 총 보상은 : 27.0 


 18%|█▊        | 55116/300000 [2:59:10<16:08:07,  4.22it/s]

지금 다 먹고 23534번째 도착완료 
  그리고 총 보상은 : 14.400000000000027 
지금 다 먹고 23535번째 도착완료 
  그리고 총 보상은 : 27.5 


 18%|█▊        | 55118/300000 [2:59:11<14:07:45,  4.81it/s]

지금 다 먹고 23536번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 18%|█▊        | 55120/300000 [2:59:11<15:00:14,  4.53it/s]

지금 다 먹고 23537번째 도착완료 
  그리고 총 보상은 : 21.0 
지금 다 먹고 23538번째 도착완료 
  그리고 총 보상은 : 23.70000000000001 


 18%|█▊        | 55123/300000 [2:59:12<15:06:30,  4.50it/s]

지금 다 먹고 23539번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 55124/300000 [2:59:12<15:31:46,  4.38it/s]

지금 다 먹고 23540번째 도착완료 
  그리고 총 보상은 : -6.400000000000006 
지금 다 먹고 23541번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 18%|█▊        | 55130/300000 [2:59:13<16:36:51,  4.09it/s]

지금 다 먹고 23542번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 55131/300000 [2:59:14<16:03:05,  4.24it/s]

지금 다 먹고 23543번째 도착완료 
  그리고 총 보상은 : 18.000000000000014 
지금 다 먹고 23544번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 18%|█▊        | 55133/300000 [2:59:14<15:31:06,  4.38it/s]

지금 다 먹고 23545번째 도착완료 
  그리고 총 보상은 : 13.400000000000002 


 18%|█▊        | 55134/300000 [2:59:14<14:29:19,  4.69it/s]

지금 다 먹고 23546번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 23547번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 55138/300000 [2:59:15<15:49:42,  4.30it/s]

지금 다 먹고 23548번째 도착완료 
  그리고 총 보상은 : 22.8 


 18%|█▊        | 55140/300000 [2:59:16<15:57:22,  4.26it/s]

지금 다 먹고 23549번째 도착완료 
  그리고 총 보상은 : 17.1 
지금 다 먹고 23550번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 55142/300000 [2:59:16<16:12:22,  4.20it/s]

지금 다 먹고 23551번째 도착완료 
  그리고 총 보상은 : 8.500000000000005 


 18%|█▊        | 55144/300000 [2:59:17<16:00:48,  4.25it/s]

지금 다 먹고 23552번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 23553번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 18%|█▊        | 55146/300000 [2:59:17<14:57:19,  4.55it/s]

지금 다 먹고 23554번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 
지금 다 먹고 23555번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 55148/300000 [2:59:17<14:11:21,  4.79it/s]

지금 다 먹고 23556번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 23557번째 도착완료 
  그리고 총 보상은 : 20.3 


 18%|█▊        | 55150/300000 [2:59:18<13:15:27,  5.13it/s]

지금 다 먹고 23558번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 23559번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 55152/300000 [2:59:18<14:12:56,  4.78it/s]

지금 다 먹고 23560번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 55153/300000 [2:59:19<14:16:45,  4.76it/s]

지금 다 먹고 23561번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 18%|█▊        | 55155/300000 [2:59:19<15:35:58,  4.36it/s]

지금 다 먹고 23562번째 도착완료 
  그리고 총 보상은 : 22.2 


 18%|█▊        | 55156/300000 [2:59:19<16:49:08,  4.04it/s]

지금 다 먹고 23563번째 도착완료 
  그리고 총 보상은 : -3.900000000000013 


 18%|█▊        | 55157/300000 [2:59:20<17:54:35,  3.80it/s]

지금 다 먹고 23564번째 도착완료 
  그리고 총 보상은 : -37.40000000000002 
지금 다 먹고 23565번째 도착완료 
  그리고 총 보상은 : 9.600000000000003 


 18%|█▊        | 55159/300000 [2:59:20<15:28:22,  4.40it/s]

지금 다 먹고 23566번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 18%|█▊        | 55161/300000 [2:59:21<18:00:56,  3.78it/s]

지금 다 먹고 23567번째 도착완료 
  그리고 총 보상은 : 15.400000000000027 


 18%|█▊        | 55163/300000 [2:59:21<16:35:18,  4.10it/s]

지금 다 먹고 23568번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 23569번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 55165/300000 [2:59:22<15:26:34,  4.40it/s]

지금 다 먹고 23570번째 도착완료 
  그리고 총 보상은 : -9.100000000000051 
지금 다 먹고 23571번째 도착완료 
  그리고 총 보상은 : 17.0 


 18%|█▊        | 55167/300000 [2:59:22<14:31:20,  4.68it/s]

지금 다 먹고 23572번째 도착완료 
  그리고 총 보상은 : 13.400000000000013 
지금 다 먹고 23573번째 도착완료 
  그리고 총 보상은 : 27.5 


 18%|█▊        | 55169/300000 [2:59:22<13:42:01,  4.96it/s]

지금 다 먹고 23574번째 도착완료 
  그리고 총 보상은 : 13.20000000000001 
지금 다 먹고 23575번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 55172/300000 [2:59:23<15:01:48,  4.52it/s]

지금 다 먹고 23576번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 55173/300000 [2:59:23<14:32:55,  4.67it/s]

지금 다 먹고 23577번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 23578번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 55175/300000 [2:59:24<14:44:12,  4.61it/s]

지금 다 먹고 23579번째 도착완료 
  그리고 총 보상은 : 4.3000000000000025 


 18%|█▊        | 55176/300000 [2:59:24<15:17:48,  4.45it/s]

지금 다 먹고 23580번째 도착완료 
  그리고 총 보상은 : 9.700000000000012 


 18%|█▊        | 55178/300000 [2:59:24<15:56:55,  4.26it/s]

지금 다 먹고 23581번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 18%|█▊        | 55180/300000 [2:59:25<16:02:49,  4.24it/s]

지금 다 먹고 23582번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 18%|█▊        | 55182/300000 [2:59:25<16:10:04,  4.21it/s]

지금 다 먹고 23583번째 도착완료 
  그리고 총 보상은 : 18.8 


 18%|█▊        | 55184/300000 [2:59:26<16:12:15,  4.20it/s]

지금 다 먹고 23584번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 
지금 다 먹고 23585번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 18%|█▊        | 55186/300000 [2:59:26<13:43:32,  4.95it/s]

지금 다 먹고 23586번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 23587번째 도착완료 
  그리고 총 보상은 : 25.6 


 18%|█▊        | 55189/300000 [2:59:27<14:29:19,  4.69it/s]

지금 다 먹고 23588번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 18%|█▊        | 55190/300000 [2:59:27<13:49:21,  4.92it/s]

지금 다 먹고 23589번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 23590번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 18%|█▊        | 55192/300000 [2:59:27<13:12:23,  5.15it/s]

지금 다 먹고 23591번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 23592번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 55195/300000 [2:59:28<14:02:02,  4.85it/s]

지금 다 먹고 23593번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 18%|█▊        | 55196/300000 [2:59:28<15:06:19,  4.50it/s]

지금 다 먹고 23594번째 도착완료 
  그리고 총 보상은 : 14.400000000000029 


 18%|█▊        | 55198/300000 [2:59:29<15:45:47,  4.31it/s]

지금 다 먹고 23595번째 도착완료 
  그리고 총 보상은 : 23.700000000000014 
지금 다 먹고 23596번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 55200/300000 [2:59:29<14:06:51,  4.82it/s]

지금 다 먹고 23597번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 55201/300000 [2:59:29<15:28:50,  4.39it/s]

지금 다 먹고 23598번째 도착완료 
  그리고 총 보상은 : 4.5999999999999694 
epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :4.5999999999999694
 end : True
 clear : True
episode :1, score = 7.256999999999204, n_buffer :100000 , eps : 22.4
지금 다 먹고 23599번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 18%|█▊        | 55203/300000 [2:59:30<14:02:09,  4.84it/s]

지금 다 먹고 23600번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23601번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 55206/300000 [2:59:30<15:10:05,  4.48it/s]

지금 다 먹고 23602번째 도착완료 
  그리고 총 보상은 : 19.600000000000012 
지금 다 먹고 23603번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 18%|█▊        | 55208/300000 [2:59:31<14:49:19,  4.59it/s]

지금 다 먹고 23604번째 도착완료 
  그리고 총 보상은 : 17.300000000000015 
지금 다 먹고 23605번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 55210/300000 [2:59:31<13:11:49,  5.15it/s]

지금 다 먹고 23606번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 23607번째 도착완료 
  그리고 총 보상은 : 17.5 


 18%|█▊        | 55212/300000 [2:59:32<12:54:37,  5.27it/s]

지금 다 먹고 23608번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 55214/300000 [2:59:32<14:24:26,  4.72it/s]

지금 다 먹고 23609번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 
지금 다 먹고 23610번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 


 18%|█▊        | 55216/300000 [2:59:32<13:09:38,  5.17it/s]

지금 다 먹고 23611번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 23612번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 55218/300000 [2:59:33<13:18:07,  5.11it/s]

지금 다 먹고 23613번째 도착완료 
  그리고 총 보상은 : 19.300000000000008 
지금 다 먹고 23614번째 도착완료 
  그리고 총 보상은 : 27.6 


 18%|█▊        | 55220/300000 [2:59:33<12:27:18,  5.46it/s]

지금 다 먹고 23615번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 55223/300000 [2:59:34<16:24:09,  4.15it/s]

지금 다 먹고 23616번째 도착완료 
  그리고 총 보상은 : 16.100000000000016 


 18%|█▊        | 55224/300000 [2:59:34<15:30:51,  4.38it/s]

지금 다 먹고 23617번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 23618번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 55226/300000 [2:59:35<13:33:23,  5.02it/s]

지금 다 먹고 23619번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 23620번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 18%|█▊        | 55229/300000 [2:59:35<13:49:47,  4.92it/s]

지금 다 먹고 23621번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 18%|█▊        | 55231/300000 [2:59:36<14:32:22,  4.68it/s]

지금 다 먹고 23622번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 18%|█▊        | 55233/300000 [2:59:36<14:35:14,  4.66it/s]

지금 다 먹고 23623번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 23624번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 55235/300000 [2:59:36<13:29:25,  5.04it/s]

지금 다 먹고 23625번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 23626번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 55237/300000 [2:59:37<13:18:16,  5.11it/s]

지금 다 먹고 23627번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 18%|█▊        | 55241/300000 [2:59:38<15:05:11,  4.51it/s]

지금 다 먹고 23628번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 23629번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 18%|█▊        | 55243/300000 [2:59:38<13:25:41,  5.06it/s]

지금 다 먹고 23630번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 23631번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 55246/300000 [2:59:39<13:47:33,  4.93it/s]

지금 다 먹고 23632번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 23633번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 18%|█▊        | 55248/300000 [2:59:39<13:12:38,  5.15it/s]

지금 다 먹고 23634번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 
지금 다 먹고 23635번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 55250/300000 [2:59:39<12:38:54,  5.38it/s]

지금 다 먹고 23636번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 23637번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 55252/300000 [2:59:40<12:36:49,  5.39it/s]

지금 다 먹고 23638번째 도착완료 
  그리고 총 보상은 : 13.600000000000007 
지금 다 먹고 23639번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 55254/300000 [2:59:40<13:39:44,  4.98it/s]

지금 다 먹고 23640번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 23641번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 55257/300000 [2:59:41<13:35:03,  5.00it/s]

지금 다 먹고 23642번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 55258/300000 [2:59:41<13:47:07,  4.93it/s]

지금 다 먹고 23643번째 도착완료 
  그리고 총 보상은 : 16.600000000000016 


 18%|█▊        | 55260/300000 [2:59:42<14:20:24,  4.74it/s]

지금 다 먹고 23644번째 도착완료 
  그리고 총 보상은 : 22.8 


 18%|█▊        | 55262/300000 [2:59:42<14:16:01,  4.76it/s]

지금 다 먹고 23645번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 55263/300000 [2:59:42<14:43:32,  4.62it/s]

지금 다 먹고 23646번째 도착완료 
  그리고 총 보상은 : 0.19999999999998153 
지금 다 먹고 23647번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 55265/300000 [2:59:43<14:18:13,  4.75it/s]

지금 다 먹고 23648번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 18%|█▊        | 55267/300000 [2:59:43<14:57:42,  4.54it/s]

지금 다 먹고 23649번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 23650번째 도착완료 
  그리고 총 보상은 : 25.8 


 18%|█▊        | 55269/300000 [2:59:43<13:31:18,  5.03it/s]

지금 다 먹고 23651번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 
지금 다 먹고 23652번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 55271/300000 [2:59:44<12:38:21,  5.38it/s]

지금 다 먹고 23653번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23654번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 18%|█▊        | 55274/300000 [2:59:44<14:30:38,  4.68it/s]

지금 다 먹고 23655번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 55275/300000 [2:59:45<14:04:35,  4.83it/s]

지금 다 먹고 23656번째 도착완료 
  그리고 총 보상은 : 8.7 
지금 다 먹고 23657번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 18%|█▊        | 55277/300000 [2:59:45<13:57:38,  4.87it/s]

지금 다 먹고 23658번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 18%|█▊        | 55278/300000 [2:59:45<14:20:01,  4.74it/s]

지금 다 먹고 23659번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 18%|█▊        | 55280/300000 [2:59:46<15:24:58,  4.41it/s]

지금 다 먹고 23660번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 23661번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 18%|█▊        | 55282/300000 [2:59:46<15:33:01,  4.37it/s]

지금 다 먹고 23662번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 
지금 다 먹고 23663번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 18%|█▊        | 55284/300000 [2:59:47<13:53:20,  4.89it/s]

지금 다 먹고 23664번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 23665번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 18%|█▊        | 55286/300000 [2:59:47<13:22:40,  5.08it/s]

지금 다 먹고 23666번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 23667번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 18%|█▊        | 55288/300000 [2:59:47<12:50:44,  5.29it/s]

지금 다 먹고 23668번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 23669번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 18%|█▊        | 55291/300000 [2:59:48<13:42:08,  4.96it/s]

지금 다 먹고 23670번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 55292/300000 [2:59:48<13:43:08,  4.95it/s]

지금 다 먹고 23671번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 18%|█▊        | 55293/300000 [2:59:48<13:52:44,  4.90it/s]

지금 다 먹고 23672번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 23673번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 55295/300000 [2:59:49<12:56:58,  5.25it/s]

지금 다 먹고 23674번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 55297/300000 [2:59:49<14:02:34,  4.84it/s]

지금 다 먹고 23675번째 도착완료 
  그리고 총 보상은 : 23.0 


 18%|█▊        | 55299/300000 [2:59:50<15:35:05,  4.36it/s]

지금 다 먹고 23676번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 18%|█▊        | 55300/300000 [2:59:50<14:53:22,  4.57it/s]

지금 다 먹고 23677번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 55301/300000 [2:59:50<15:00:54,  4.53it/s]

지금 다 먹고 23678번째 도착완료 
  그리고 총 보상은 : 21.300000000000008 
epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :21.300000000000008
 end : True
 clear : True
episode :16, score = 13.484999999999996, n_buffer :100000 , eps : 22.349999999999998


 18%|█▊        | 55302/300000 [2:59:50<15:41:49,  4.33it/s]

지금 다 먹고 23679번째 도착완료 
  그리고 총 보상은 : 9.899999999999997 
지금 다 먹고 23680번째 도착완료 
  그리고 총 보상은 : 16.599999999999998 


 18%|█▊        | 55304/300000 [2:59:51<14:08:40,  4.81it/s]

지금 다 먹고 23681번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 55306/300000 [2:59:51<14:18:04,  4.75it/s]

지금 다 먹고 23682번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 18%|█▊        | 55308/300000 [2:59:52<14:20:40,  4.74it/s]

지금 다 먹고 23683번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 23684번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 18%|█▊        | 55310/300000 [2:59:52<14:13:25,  4.78it/s]

지금 다 먹고 23685번째 도착완료 
  그리고 총 보상은 : 8.200000000000005 


 18%|█▊        | 55311/300000 [2:59:52<14:06:43,  4.82it/s]

지금 다 먹고 23686번째 도착완료 
  그리고 총 보상은 : 15.500000000000002 


 18%|█▊        | 55314/300000 [2:59:53<15:47:12,  4.31it/s]

지금 다 먹고 23687번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 23688번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 55316/300000 [2:59:53<13:56:28,  4.88it/s]

지금 다 먹고 23689번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 55318/300000 [2:59:54<14:11:06,  4.79it/s]

지금 다 먹고 23690번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 55319/300000 [2:59:54<16:14:17,  4.19it/s]

지금 다 먹고 23691번째 도착완료 
  그리고 총 보상은 : 8.299999999999985 


 18%|█▊        | 55320/300000 [2:59:54<15:29:06,  4.39it/s]

지금 다 먹고 23692번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23693번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 55322/300000 [2:59:55<14:55:36,  4.55it/s]

지금 다 먹고 23694번째 도착완료 
  그리고 총 보상은 : 23.80000000000001 
지금 다 먹고 23695번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 18%|█▊        | 55326/300000 [2:59:56<15:52:49,  4.28it/s]

지금 다 먹고 23696번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 18%|█▊        | 55327/300000 [2:59:56<15:15:18,  4.46it/s]

지금 다 먹고 23697번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 55328/300000 [2:59:56<14:25:13,  4.71it/s]

지금 다 먹고 23698번째 도착완료 
  그리고 총 보상은 : 18.2 
지금 다 먹고 23699번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 18%|█▊        | 55331/300000 [2:59:57<14:25:22,  4.71it/s]

지금 다 먹고 23700번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 
지금 다 먹고 23701번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 55333/300000 [2:59:57<13:23:27,  5.08it/s]

지금 다 먹고 23702번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 18%|█▊        | 55334/300000 [2:59:57<13:43:04,  4.95it/s]

지금 다 먹고 23703번째 도착완료 
  그리고 총 보상은 : -3.5000000000000284 
지금 다 먹고 23704번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 18%|█▊        | 55336/300000 [2:59:58<13:04:23,  5.20it/s]

지금 다 먹고 23705번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 55338/300000 [2:59:58<13:57:03,  4.87it/s]

지금 다 먹고 23706번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 23707번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 55342/300000 [2:59:59<14:36:41,  4.65it/s]

지금 다 먹고 23708번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 23709번째 도착완료 
  그리고 총 보상은 : 20.4 


 18%|█▊        | 55344/300000 [2:59:59<13:50:33,  4.91it/s]

지금 다 먹고 23710번째 도착완료 
  그리고 총 보상은 : 19.200000000000006 
지금 다 먹고 23711번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 55346/300000 [3:00:00<14:05:02,  4.83it/s]

지금 다 먹고 23712번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 18%|█▊        | 55348/300000 [3:00:00<15:07:34,  4.49it/s]

지금 다 먹고 23713번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 23714번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 55350/300000 [3:00:01<13:39:13,  4.98it/s]

지금 다 먹고 23715번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 55352/300000 [3:00:01<14:40:34,  4.63it/s]

지금 다 먹고 23716번째 도착완료 
  그리고 총 보상은 : 18.400000000000002 
지금 다 먹고 23717번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 18%|█▊        | 55354/300000 [3:00:02<13:30:34,  5.03it/s]

지금 다 먹고 23718번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 23719번째 도착완료 
  그리고 총 보상은 : 28.6 


 18%|█▊        | 55356/300000 [3:00:02<12:53:58,  5.27it/s]

지금 다 먹고 23720번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 23721번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 55360/300000 [3:00:03<14:58:53,  4.54it/s]

지금 다 먹고 23722번째 도착완료 
  그리고 총 보상은 : 15.400000000000002 
지금 다 먹고 23723번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 18%|█▊        | 55362/300000 [3:00:03<13:17:40,  5.11it/s]

지금 다 먹고 23724번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 18%|█▊        | 55365/300000 [3:00:04<15:35:47,  4.36it/s]

지금 다 먹고 23725번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 
지금 다 먹고 23726번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 18%|█▊        | 55367/300000 [3:00:04<13:42:42,  4.96it/s]

지금 다 먹고 23727번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 18%|█▊        | 55369/300000 [3:00:05<14:41:29,  4.63it/s]

지금 다 먹고 23728번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 23729번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 55371/300000 [3:00:05<13:14:36,  5.13it/s]

지금 다 먹고 23730번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 23731번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 18%|█▊        | 55373/300000 [3:00:05<12:29:07,  5.44it/s]

지금 다 먹고 23732번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 55376/300000 [3:00:06<15:13:44,  4.46it/s]

지금 다 먹고 23733번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 18%|█▊        | 55377/300000 [3:00:06<15:01:14,  4.52it/s]

지금 다 먹고 23734번째 도착완료 
  그리고 총 보상은 : 11.300000000000017 
지금 다 먹고 23735번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 18%|█▊        | 55379/300000 [3:00:07<14:35:33,  4.66it/s]

지금 다 먹고 23736번째 도착완료 
  그리고 총 보상은 : -19.100000000000065 
지금 다 먹고 23737번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 18%|█▊        | 55381/300000 [3:00:07<13:30:46,  5.03it/s]

지금 다 먹고 23738번째 도착완료 
  그리고 총 보상은 : 18.9 
지금 다 먹고 23739번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 18%|█▊        | 55383/300000 [3:00:08<14:33:37,  4.67it/s]

지금 다 먹고 23740번째 도착완료 
  그리고 총 보상은 : 11.000000000000043 


 18%|█▊        | 55384/300000 [3:00:08<14:59:12,  4.53it/s]

지금 다 먹고 23741번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 


 18%|█▊        | 55386/300000 [3:00:08<15:02:00,  4.52it/s]

지금 다 먹고 23742번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 23743번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 

 18%|█▊        | 55387/300000 [3:00:09<14:31:36,  4.68it/s]


지금 다 먹고 23744번째 도착완료 
  그리고 총 보상은 : 0.7999999999999545 

 18%|█▊        | 55388/300000 [3:00:09<14:25:22,  4.71it/s]


지금 다 먹고 23745번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 55390/300000 [3:00:09<13:38:49,  4.98it/s]

지금 다 먹고 23746번째 도착완료 
  그리고 총 보상은 : 23.200000000000006 
지금 다 먹고 23747번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 55394/300000 [3:00:10<14:29:36,  4.69it/s]

지금 다 먹고 23748번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 23749번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 55396/300000 [3:00:10<13:18:39,  5.10it/s]

지금 다 먹고 23750번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 23751번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 18%|█▊        | 55398/300000 [3:00:11<12:42:16,  5.35it/s]

지금 다 먹고 23752번째 도착완료 
  그리고 총 보상은 : 22.7 
지금 다 먹고 23753번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 18%|█▊        | 55400/300000 [3:00:11<12:10:50,  5.58it/s]

지금 다 먹고 23754번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 23755번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 55401/300000 [3:00:11<13:00:01,  5.23it/s]

epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.400000000000006
 end : True
 clear : True
episode :14, score = 11.22699999999906, n_buffer :100000 , eps : 22.299999999999997


 18%|█▊        | 55403/300000 [3:00:12<14:56:43,  4.55it/s]

지금 다 먹고 23756번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 23757번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 18%|█▊        | 55405/300000 [3:00:12<15:56:08,  4.26it/s]

지금 다 먹고 23758번째 도착완료 
  그리고 총 보상은 : -45.49999999999994 
지금 다 먹고 23759번째 도착완료 
  그리고 총 보상은 : 25.0 


 18%|█▊        | 55407/300000 [3:00:13<14:00:11,  4.85it/s]

지금 다 먹고 23760번째 도착완료 
  그리고 총 보상은 : 26.1 


 18%|█▊        | 55410/300000 [3:00:13<14:52:15,  4.57it/s]

지금 다 먹고 23761번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23762번째 도착완료 
  그리고 총 보상은 : 7.200000000000006 


 18%|█▊        | 55413/300000 [3:00:14<15:35:39,  4.36it/s]

지금 다 먹고 23763번째 도착완료 
  그리고 총 보상은 : 20.9 
지금 다 먹고 23764번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 18%|█▊        | 55416/300000 [3:00:15<14:48:05,  4.59it/s]

지금 다 먹고 23765번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 23766번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 18%|█▊        | 55418/300000 [3:00:15<13:22:22,  5.08it/s]

지금 다 먹고 23767번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 23768번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 55420/300000 [3:00:15<12:46:21,  5.32it/s]

지금 다 먹고 23769번째 도착완료 
  그리고 총 보상은 : 19.0 
지금 다 먹고 23770번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 18%|█▊        | 55422/300000 [3:00:16<12:29:35,  5.44it/s]

지금 다 먹고 23771번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 55424/300000 [3:00:16<13:11:53,  5.15it/s]

지금 다 먹고 23772번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 23773번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 55428/300000 [3:00:17<15:14:44,  4.46it/s]

지금 다 먹고 23774번째 도착완료 
  그리고 총 보상은 : -12.10000000000003 
지금 다 먹고 23775번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 18%|█▊        | 55430/300000 [3:00:18<13:26:12,  5.06it/s]

지금 다 먹고 23776번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 23777번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 55433/300000 [3:00:18<14:15:34,  4.76it/s]

지금 다 먹고 23778번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23779번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 55435/300000 [3:00:19<13:19:30,  5.10it/s]

지금 다 먹고 23780번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 
지금 다 먹고 23781번째 도착완료 
  그리고 총 보상은 : 25.1 


 18%|█▊        | 55437/300000 [3:00:19<12:31:02,  5.43it/s]

지금 다 먹고 23782번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 23783번째 도착완료 
  그리고 총 보상은 : 26.0 


 18%|█▊        | 55439/300000 [3:00:19<12:16:51,  5.53it/s]

지금 다 먹고 23784번째 도착완료 
  그리고 총 보상은 : 19.800000000000004 
지금 다 먹고 23785번째 도착완료 
  그리고 총 보상은 : 28.1 


 18%|█▊        | 55441/300000 [3:00:20<11:48:57,  5.75it/s]

지금 다 먹고 23786번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 23787번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 55444/300000 [3:00:20<13:14:18,  5.13it/s]

지금 다 먹고 23788번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 18%|█▊        | 55445/300000 [3:00:20<13:40:14,  4.97it/s]

지금 다 먹고 23789번째 도착완료 
  그리고 총 보상은 : 15.100000000000017 
지금 다 먹고 23790번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 18%|█▊        | 55447/300000 [3:00:21<12:32:52,  5.41it/s]

지금 다 먹고 23791번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 23792번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 55450/300000 [3:00:21<13:47:45,  4.92it/s]

지금 다 먹고 23793번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 18%|█▊        | 55451/300000 [3:00:22<14:15:30,  4.76it/s]

지금 다 먹고 23794번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 


 18%|█▊        | 55452/300000 [3:00:22<13:49:07,  4.92it/s]

지금 다 먹고 23795번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 23796번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 18%|█▊        | 55454/300000 [3:00:22<13:27:49,  5.05it/s]

지금 다 먹고 23797번째 도착완료 
  그리고 총 보상은 : 15.8 
지금 다 먹고 23798번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 18%|█▊        | 55456/300000 [3:00:23<13:39:44,  4.97it/s]

지금 다 먹고 23799번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 23800번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 18%|█▊        | 55458/300000 [3:00:23<12:47:11,  5.31it/s]

지금 다 먹고 23801번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23802번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 18%|█▊        | 55461/300000 [3:00:24<14:09:54,  4.80it/s]

지금 다 먹고 23803번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 18%|█▊        | 55462/300000 [3:00:24<13:55:09,  4.88it/s]

지금 다 먹고 23804번째 도착완료 
  그리고 총 보상은 : 7.300000000000013 
지금 다 먹고 23805번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 18%|█▊        | 55464/300000 [3:00:24<13:01:29,  5.22it/s]

지금 다 먹고 23806번째 도착완료 
  그리고 총 보상은 : 22.60000000000001 
지금 다 먹고 23807번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 18%|█▊        | 55467/300000 [3:00:25<13:30:43,  5.03it/s]

지금 다 먹고 23808번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 23809번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 55469/300000 [3:00:25<12:32:31,  5.42it/s]

지금 다 먹고 23810번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 23811번째 도착완료 
  그리고 총 보상은 : 26.6 


 18%|█▊        | 55471/300000 [3:00:25<12:10:15,  5.58it/s]

지금 다 먹고 23812번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 23813번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 18%|█▊        | 55473/300000 [3:00:26<12:01:27,  5.65it/s]

지금 다 먹고 23814번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 23815번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 18%|█▊        | 55475/300000 [3:00:26<11:45:11,  5.78it/s]

지금 다 먹고 23816번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23817번째 도착완료 
  그리고 총 보상은 : 27.1 


 18%|█▊        | 55478/300000 [3:00:27<14:22:39,  4.72it/s]

지금 다 먹고 23818번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 18%|█▊        | 55479/300000 [3:00:27<14:00:29,  4.85it/s]

지금 다 먹고 23819번째 도착완료 
  그리고 총 보상은 : 13.300000000000008 
지금 다 먹고 23820번째 도착완료 
  그리고 총 보상은 : 17.6 


 18%|█▊        | 55481/300000 [3:00:27<14:13:20,  4.78it/s]

지금 다 먹고 23821번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 18%|█▊        | 55482/300000 [3:00:28<13:48:07,  4.92it/s]

지금 다 먹고 23822번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 18%|█▊        | 55484/300000 [3:00:28<14:57:10,  4.54it/s]

지금 다 먹고 23823번째 도착완료 
  그리고 총 보상은 : 26.00000000000001 
지금 다 먹고 23824번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 18%|█▊        | 55486/300000 [3:00:29<13:37:55,  4.98it/s]

지금 다 먹고 23825번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 18%|█▊        | 55488/300000 [3:00:29<14:48:08,  4.59it/s]

지금 다 먹고 23826번째 도착완료 
  그리고 총 보상은 : -5.800000000000011 
지금 다 먹고 23827번째 도착완료 
  그리고 총 보상은 : 24.1 


 18%|█▊        | 55490/300000 [3:00:29<13:30:51,  5.03it/s]

지금 다 먹고 23828번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 18%|█▊        | 55491/300000 [3:00:30<14:30:58,  4.68it/s]

지금 다 먹고 23829번째 도착완료 
  그리고 총 보상은 : -50.099999999999895 
지금 다 먹고 23830번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 18%|█▊        | 55496/300000 [3:00:31<15:46:28,  4.31it/s]

지금 다 먹고 23831번째 도착완료 
  그리고 총 보상은 : 16.799999999999997 
지금 다 먹고 23832번째 도착완료 
  그리고 총 보상은 : 19.2 


 18%|█▊        | 55498/300000 [3:00:31<14:13:13,  4.78it/s]

지금 다 먹고 23833번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 23834번째 도착완료 
  그리고 총 보상은 : 18.300000000000004 


 18%|█▊        | 55500/300000 [3:00:32<13:50:22,  4.91it/s]

지금 다 먹고 23835번째 도착완료 
  그리고 총 보상은 : 19.4 
지금 다 먹고 23836번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 19%|█▊        | 55501/300000 [3:00:32<13:22:16,  5.08it/s]

epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.300000000000008
 end : True
 clear : True
episode :12, score = 11.852000000001022, n_buffer :100000 , eps : 22.249999999999996
지금 다 먹고 23837번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55503/300000 [3:00:32<13:43:32,  4.95it/s]

지금 다 먹고 23838번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 23839번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▊        | 55505/300000 [3:00:33<12:45:48,  5.32it/s]

지금 다 먹고 23840번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 23841번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▊        | 55507/300000 [3:00:33<12:39:06,  5.37it/s]

지금 다 먹고 23842번째 도착완료 
  그리고 총 보상은 : 10.699999999999996 
지금 다 먹고 23843번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▊        | 55509/300000 [3:00:33<12:08:28,  5.59it/s]

지금 다 먹고 23844번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 23845번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▊        | 55512/300000 [3:00:34<13:27:56,  5.04it/s]

지금 다 먹고 23846번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 23847번째 도착완료 
  그리고 총 보상은 : 15.100000000000003 


 19%|█▊        | 55514/300000 [3:00:34<12:59:58,  5.22it/s]

지금 다 먹고 23848번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 23849번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▊        | 55516/300000 [3:00:35<12:22:44,  5.49it/s]

지금 다 먹고 23850번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 55518/300000 [3:00:35<13:34:56,  5.00it/s]

지금 다 먹고 23851번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▊        | 55520/300000 [3:00:35<14:02:45,  4.83it/s]

지금 다 먹고 23852번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 19%|█▊        | 55522/300000 [3:00:36<14:29:06,  4.69it/s]

지금 다 먹고 23853번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 23854번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 55524/300000 [3:00:36<13:24:58,  5.06it/s]

지금 다 먹고 23855번째 도착완료 
  그리고 총 보상은 : 14.600000000000005 
지금 다 먹고 23856번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▊        | 55526/300000 [3:00:37<12:34:11,  5.40it/s]

지금 다 먹고 23857번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23858번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55530/300000 [3:00:38<14:32:52,  4.67it/s]

지금 다 먹고 23859번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 23860번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▊        | 55532/300000 [3:00:38<13:24:28,  5.06it/s]

지금 다 먹고 23861번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23862번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▊        | 55535/300000 [3:00:39<13:42:40,  4.95it/s]

지금 다 먹고 23863번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▊        | 55537/300000 [3:00:39<14:01:34,  4.84it/s]

지금 다 먹고 23864번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55539/300000 [3:00:39<14:19:18,  4.74it/s]

지금 다 먹고 23865번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 23866번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▊        | 55541/300000 [3:00:40<13:08:04,  5.17it/s]

지금 다 먹고 23867번째 도착완료 
  그리고 총 보상은 : 20.0 
지금 다 먹고 23868번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▊        | 55543/300000 [3:00:40<13:21:40,  5.08it/s]

지금 다 먹고 23869번째 도착완료 
  그리고 총 보상은 : 12.500000000000028 
지금 다 먹고 23870번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▊        | 55546/300000 [3:00:41<14:57:59,  4.54it/s]

지금 다 먹고 23871번째 도착완료 
  그리고 총 보상은 : 8.79999999999999 
지금 다 먹고 23872번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▊        | 55548/300000 [3:00:41<13:45:58,  4.93it/s]

지금 다 먹고 23873번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23874번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 55550/300000 [3:00:42<13:13:53,  5.13it/s]

지금 다 먹고 23875번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 19%|█▊        | 55552/300000 [3:00:42<13:30:45,  5.03it/s]

지금 다 먹고 23876번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 23877번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 55554/300000 [3:00:42<12:41:43,  5.35it/s]

지금 다 먹고 23878번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▊        | 55556/300000 [3:00:43<13:18:58,  5.10it/s]

지금 다 먹고 23879번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 23880번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▊        | 55558/300000 [3:00:43<12:27:48,  5.45it/s]

지금 다 먹고 23881번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 23882번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▊        | 55560/300000 [3:00:43<12:00:40,  5.65it/s]

지금 다 먹고 23883번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 23884번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▊        | 55563/300000 [3:00:44<13:50:46,  4.90it/s]

지금 다 먹고 23885번째 도착완료 
  그리고 총 보상은 : 16.400000000000002 


 19%|█▊        | 55564/300000 [3:00:44<13:57:33,  4.86it/s]

지금 다 먹고 23886번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 
지금 다 먹고 23887번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 55566/300000 [3:00:45<13:17:21,  5.11it/s]

지금 다 먹고 23888번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 
지금 다 먹고 23889번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55569/300000 [3:00:45<14:29:46,  4.68it/s]

지금 다 먹고 23890번째 도착완료 
  그리고 총 보상은 : 20.100000000000012 
지금 다 먹고 23891번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55571/300000 [3:00:46<13:54:29,  4.88it/s]

지금 다 먹고 23892번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 19%|█▊        | 55573/300000 [3:00:46<14:47:21,  4.59it/s]

지금 다 먹고 23893번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23894번째 도착완료 
  그리고 총 보상은 : 26.8 


 19%|█▊        | 55575/300000 [3:00:47<13:40:17,  4.97it/s]

지금 다 먹고 23895번째 도착완료 
  그리고 총 보상은 : 19.200000000000003 
지금 다 먹고 23896번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▊        | 55577/300000 [3:00:47<12:35:46,  5.39it/s]

지금 다 먹고 23897번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23898번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55580/300000 [3:00:48<13:45:24,  4.94it/s]

지금 다 먹고 23899번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23900번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▊        | 55582/300000 [3:00:48<12:46:48,  5.31it/s]

지금 다 먹고 23901번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23902번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▊        | 55584/300000 [3:00:48<12:14:11,  5.55it/s]

지금 다 먹고 23903번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55586/300000 [3:00:49<13:27:23,  5.05it/s]

지금 다 먹고 23904번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 23905번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▊        | 55588/300000 [3:00:49<12:47:19,  5.31it/s]

지금 다 먹고 23906번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 19%|█▊        | 55590/300000 [3:00:50<14:16:12,  4.76it/s]

지금 다 먹고 23907번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 23908번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▊        | 55592/300000 [3:00:50<13:59:17,  4.85it/s]

지금 다 먹고 23909번째 도착완료 
  그리고 총 보상은 : 13.000000000000009 
지금 다 먹고 23910번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▊        | 55594/300000 [3:00:50<12:45:45,  5.32it/s]

지금 다 먹고 23911번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▊        | 55597/300000 [3:00:51<14:16:19,  4.76it/s]

지금 다 먹고 23912번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 23913번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 19%|█▊        | 55599/300000 [3:00:51<13:13:23,  5.13it/s]

지금 다 먹고 23914번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 23915번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 55601/300000 [3:00:52<13:08:11,  5.17it/s]

지금 다 먹고 23916번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.700000000000003
 end : True
 clear : True
episode :10, score = 14.111000000000406, n_buffer :100000 , eps : 22.199999999999996


 19%|█▊        | 55603/300000 [3:00:52<14:33:07,  4.67it/s]

지금 다 먹고 23917번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 
지금 다 먹고 23918번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▊        | 55605/300000 [3:00:53<13:28:46,  5.04it/s]

지금 다 먹고 23919번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 55607/300000 [3:00:53<14:00:04,  4.85it/s]

지금 다 먹고 23920번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23921번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▊        | 55609/300000 [3:00:53<12:51:18,  5.28it/s]

지금 다 먹고 23922번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 55611/300000 [3:00:54<14:08:39,  4.80it/s]

지금 다 먹고 23923번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▊        | 55614/300000 [3:00:55<14:26:30,  4.70it/s]

지금 다 먹고 23924번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 23925번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 55616/300000 [3:00:55<13:43:07,  4.95it/s]

지금 다 먹고 23926번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 23927번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▊        | 55618/300000 [3:00:55<12:58:59,  5.23it/s]

지금 다 먹고 23928번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▊        | 55620/300000 [3:00:56<14:33:27,  4.66it/s]

지금 다 먹고 23929번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▊        | 55621/300000 [3:00:56<14:31:50,  4.67it/s]

지금 다 먹고 23930번째 도착완료 
  그리고 총 보상은 : 19.100000000000005 
지금 다 먹고 23931번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55624/300000 [3:00:57<15:02:10,  4.51it/s]

지금 다 먹고 23932번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 23933번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 55626/300000 [3:00:57<13:26:50,  5.05it/s]

지금 다 먹고 23934번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 23935번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 19%|█▊        | 55628/300000 [3:00:57<13:42:42,  4.95it/s]

지금 다 먹고 23936번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 55629/300000 [3:00:58<14:01:49,  4.84it/s]

지금 다 먹고 23937번째 도착완료 
  그리고 총 보상은 : 23.80000000000001 


 19%|█▊        | 55631/300000 [3:00:58<14:32:01,  4.67it/s]

지금 다 먹고 23938번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 23939번째 도착완료 
  그리고 총 보상은 : 21.7 


 19%|█▊        | 55633/300000 [3:00:58<13:27:12,  5.05it/s]

지금 다 먹고 23940번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 23941번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▊        | 55635/300000 [3:00:59<12:43:41,  5.33it/s]

지금 다 먹고 23942번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 19%|█▊        | 55637/300000 [3:00:59<13:43:19,  4.95it/s]

지금 다 먹고 23943번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 23944번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▊        | 55639/300000 [3:01:00<12:58:09,  5.23it/s]

지금 다 먹고 23945번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▊        | 55641/300000 [3:01:00<14:25:51,  4.70it/s]

지금 다 먹고 23946번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 23947번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▊        | 55643/300000 [3:01:00<13:31:53,  5.02it/s]

지금 다 먹고 23948번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 23949번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▊        | 55645/300000 [3:01:01<12:46:03,  5.32it/s]

지금 다 먹고 23950번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 23951번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55648/300000 [3:01:02<14:52:35,  4.56it/s]

지금 다 먹고 23952번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23953번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 19%|█▊        | 55650/300000 [3:01:02<14:05:45,  4.82it/s]

지금 다 먹고 23954번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 23955번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▊        | 55652/300000 [3:01:02<13:03:39,  5.20it/s]

지금 다 먹고 23956번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 19%|█▊        | 55654/300000 [3:01:03<13:42:18,  4.95it/s]

지금 다 먹고 23957번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▊        | 55656/300000 [3:01:03<14:10:34,  4.79it/s]

지금 다 먹고 23958번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 19%|█▊        | 55658/300000 [3:01:04<13:59:33,  4.85it/s]

지금 다 먹고 23959번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 23960번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▊        | 55660/300000 [3:01:04<12:50:56,  5.28it/s]

지금 다 먹고 23961번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 23962번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 55662/300000 [3:01:04<12:07:07,  5.60it/s]

지금 다 먹고 23963번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 55663/300000 [3:01:04<12:56:08,  5.25it/s]

지금 다 먹고 23964번째 도착완료 
  그리고 총 보상은 : -6.800000000000008 


 19%|█▊        | 55666/300000 [3:01:05<14:21:36,  4.73it/s]

지금 다 먹고 23965번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 23966번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 19%|█▊        | 55668/300000 [3:01:06<12:57:43,  5.24it/s]

지금 다 먹고 23967번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 23968번째 도착완료 
  그리고 총 보상은 : 11.200000000000005 


 19%|█▊        | 55671/300000 [3:01:06<14:38:23,  4.64it/s]

지금 다 먹고 23969번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 23970번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55673/300000 [3:01:07<13:07:19,  5.17it/s]

지금 다 먹고 23971번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▊        | 55675/300000 [3:01:07<14:02:54,  4.83it/s]

지금 다 먹고 23972번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 23973번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▊        | 55677/300000 [3:01:07<13:02:25,  5.20it/s]

지금 다 먹고 23974번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 
지금 다 먹고 23975번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▊        | 55679/300000 [3:01:08<12:37:16,  5.38it/s]

지금 다 먹고 23976번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 23977번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▊        | 55682/300000 [3:01:08<13:10:55,  5.15it/s]

지금 다 먹고 23978번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 23979번째 도착완료 
  그리고 총 보상은 : 17.5 


 19%|█▊        | 55684/300000 [3:01:09<12:54:13,  5.26it/s]

지금 다 먹고 23980번째 도착완료 
  그리고 총 보상은 : 15.400000000000002 


 19%|█▊        | 55685/300000 [3:01:09<13:18:17,  5.10it/s]

지금 다 먹고 23981번째 도착완료 
  그리고 총 보상은 : 20.70000000000001 
지금 다 먹고 23982번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▊        | 55688/300000 [3:01:10<13:49:25,  4.91it/s]

지금 다 먹고 23983번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 23984번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 19%|█▊        | 55690/300000 [3:01:10<13:01:02,  5.21it/s]

지금 다 먹고 23985번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55692/300000 [3:01:10<13:57:49,  4.86it/s]

지금 다 먹고 23986번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 23987번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▊        | 55694/300000 [3:01:11<12:44:35,  5.33it/s]

지금 다 먹고 23988번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 23989번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▊        | 55696/300000 [3:01:11<12:03:27,  5.63it/s]

지금 다 먹고 23990번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 23991번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▊        | 55699/300000 [3:01:12<12:59:53,  5.22it/s]

지금 다 먹고 23992번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 23993번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55701/300000 [3:01:12<12:32:12,  5.41it/s]

지금 다 먹고 23994번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.200000000000003
 end : True
 clear : True
episode :8, score = 13.62400000000042, n_buffer :100000 , eps : 22.15
지금 다 먹고 23995번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▊        | 55703/300000 [3:01:12<12:10:44,  5.57it/s]

지금 다 먹고 23996번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55705/300000 [3:01:13<13:40:20,  4.96it/s]

지금 다 먹고 23997번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 23998번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▊        | 55707/300000 [3:01:13<13:02:34,  5.20it/s]

지금 다 먹고 23999번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55709/300000 [3:01:14<15:58:03,  4.25it/s]

지금 다 먹고 24000번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▊        | 55710/300000 [3:01:14<14:51:47,  4.57it/s]

지금 다 먹고 24001번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 24002번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 55712/300000 [3:01:14<13:19:35,  5.09it/s]

지금 다 먹고 24003번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 
지금 다 먹고 24004번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▊        | 55714/300000 [3:01:15<12:54:46,  5.26it/s]

지금 다 먹고 24005번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 


 19%|█▊        | 55716/300000 [3:01:15<14:08:29,  4.80it/s]

지금 다 먹고 24006번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 24007번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▊        | 55718/300000 [3:01:16<13:04:54,  5.19it/s]

지금 다 먹고 24008번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 24009번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▊        | 55720/300000 [3:01:16<12:55:38,  5.25it/s]

지금 다 먹고 24010번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▊        | 55722/300000 [3:01:16<15:31:34,  4.37it/s]

지금 다 먹고 24011번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 


 19%|█▊        | 55723/300000 [3:01:17<14:51:27,  4.57it/s]

지금 다 먹고 24012번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 24013번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▊        | 55726/300000 [3:01:17<13:58:33,  4.86it/s]

지금 다 먹고 24014번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 24015번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 55728/300000 [3:01:18<13:45:58,  4.93it/s]

지금 다 먹고 24016번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▊        | 55729/300000 [3:01:18<13:56:56,  4.86it/s]

지금 다 먹고 24017번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55730/300000 [3:01:18<14:15:54,  4.76it/s]

지금 다 먹고 24018번째 도착완료 
  그리고 총 보상은 : 12.20000000000001 
지금 다 먹고 24019번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▊        | 55732/300000 [3:01:18<13:44:12,  4.94it/s]

지금 다 먹고 24020번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 
지금 다 먹고 24021번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▊        | 55734/300000 [3:01:19<12:50:08,  5.29it/s]

지금 다 먹고 24022번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 24023번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▊        | 55736/300000 [3:01:19<12:18:45,  5.51it/s]

지금 다 먹고 24024번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 24025번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▊        | 55739/300000 [3:01:20<13:57:25,  4.86it/s]

지금 다 먹고 24026번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 24027번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 19%|█▊        | 55741/300000 [3:01:20<13:16:50,  5.11it/s]

지금 다 먹고 24028번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 24029번째 도착완료 
  그리고 총 보상은 : 18.900000000000002 


 19%|█▊        | 55743/300000 [3:01:21<13:05:47,  5.18it/s]

지금 다 먹고 24030번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 
지금 다 먹고 24031번째 도착완료 
  그리고 총 보상은 : 25.3 


 19%|█▊        | 55745/300000 [3:01:21<13:21:22,  5.08it/s]

지금 다 먹고 24032번째 도착완료 
  그리고 총 보상은 : 16.200000000000014 
지금 다 먹고 24033번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▊        | 55747/300000 [3:01:21<12:25:47,  5.46it/s]

지금 다 먹고 24034번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 24035번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 19%|█▊        | 55750/300000 [3:01:22<15:03:09,  4.51it/s]

지금 다 먹고 24036번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 24037번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▊        | 55752/300000 [3:01:22<14:01:22,  4.84it/s]

지금 다 먹고 24038번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 
지금 다 먹고 24039번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▊        | 55754/300000 [3:01:23<13:29:41,  5.03it/s]

지금 다 먹고 24040번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55756/300000 [3:01:23<14:16:04,  4.76it/s]

지금 다 먹고 24041번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 24042번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 19%|█▊        | 55758/300000 [3:01:24<13:45:00,  4.93it/s]

지금 다 먹고 24043번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▊        | 55760/300000 [3:01:24<14:57:35,  4.54it/s]

지금 다 먹고 24044번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 24045번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 55762/300000 [3:01:25<13:39:02,  4.97it/s]

지금 다 먹고 24046번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 24047번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▊        | 55764/300000 [3:01:25<12:40:20,  5.35it/s]

지금 다 먹고 24048번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 24049번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▊        | 55768/300000 [3:01:26<14:49:17,  4.58it/s]

지금 다 먹고 24050번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 24051번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 55770/300000 [3:01:26<13:22:33,  5.07it/s]

지금 다 먹고 24052번째 도착완료 
  그리고 총 보상은 : 25.00000000000001 
지금 다 먹고 24053번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55773/300000 [3:01:27<15:04:37,  4.50it/s]

지금 다 먹고 24054번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 24055번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 19%|█▊        | 55775/300000 [3:01:27<13:23:26,  5.07it/s]

지금 다 먹고 24056번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55777/300000 [3:01:28<14:27:40,  4.69it/s]

지금 다 먹고 24057번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 24058번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▊        | 55779/300000 [3:01:28<13:42:39,  4.95it/s]

지금 다 먹고 24059번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▊        | 55780/300000 [3:01:28<13:59:41,  4.85it/s]

지금 다 먹고 24060번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▊        | 55781/300000 [3:01:28<13:41:36,  4.95it/s]

지금 다 먹고 24061번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 24062번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▊        | 55784/300000 [3:01:29<13:54:52,  4.88it/s]

지금 다 먹고 24063번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 24064번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 19%|█▊        | 55786/300000 [3:01:29<12:59:00,  5.22it/s]

지금 다 먹고 24065번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 24066번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▊        | 55788/300000 [3:01:30<12:28:25,  5.44it/s]

지금 다 먹고 24067번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 55790/300000 [3:01:30<14:09:08,  4.79it/s]

지금 다 먹고 24068번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 24069번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 


 19%|█▊        | 55792/300000 [3:01:31<13:59:12,  4.85it/s]

지금 다 먹고 24070번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▊        | 55794/300000 [3:01:31<15:02:09,  4.51it/s]

지금 다 먹고 24071번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▊        | 55795/300000 [3:01:31<15:52:32,  4.27it/s]

지금 다 먹고 24072번째 도착완료 
  그리고 총 보상은 : 6.599999999999971 
지금 다 먹고 24073번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55797/300000 [3:01:32<14:09:05,  4.79it/s]

지금 다 먹고 24074번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 55798/300000 [3:01:32<14:53:15,  4.56it/s]

지금 다 먹고 24075번째 도착완료 
  그리고 총 보상은 : 17.000000000000018 


 19%|█▊        | 55801/300000 [3:01:33<15:29:50,  4.38it/s]

지금 다 먹고 24076번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.20000000000001
 end : True
 clear : True
episode :6, score = 15.518000000001967, n_buffer :100000 , eps : 22.099999999999998
지금 다 먹고 24077번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▊        | 55803/300000 [3:01:33<14:02:42,  4.83it/s]

지금 다 먹고 24078번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 55804/300000 [3:01:33<14:27:34,  4.69it/s]

지금 다 먹고 24079번째 도착완료 
  그리고 총 보상은 : 16.60000000000002 
지금 다 먹고 24080번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▊        | 55807/300000 [3:01:34<15:27:03,  4.39it/s]

지금 다 먹고 24081번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 24082번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 19%|█▊        | 55809/300000 [3:01:35<14:23:36,  4.71it/s]

지금 다 먹고 24083번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▊        | 55810/300000 [3:01:35<15:08:00,  4.48it/s]

지금 다 먹고 24084번째 도착완료 
  그리고 총 보상은 : 19.100000000000016 
지금 다 먹고 24085번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 55812/300000 [3:01:35<13:36:06,  4.99it/s]

지금 다 먹고 24086번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 24087번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▊        | 55814/300000 [3:01:35<12:52:19,  5.27it/s]

지금 다 먹고 24088번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 55815/300000 [3:01:36<14:20:24,  4.73it/s]

지금 다 먹고 24089번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 55816/300000 [3:01:36<14:13:01,  4.77it/s]

지금 다 먹고 24090번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 24091번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▊        | 55818/300000 [3:01:36<13:11:39,  5.14it/s]

지금 다 먹고 24092번째 도착완료 
  그리고 총 보상은 : 25.5 
지금 다 먹고 24093번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55820/300000 [3:01:37<13:55:51,  4.87it/s]

지금 다 먹고 24094번째 도착완료 
  그리고 총 보상은 : 7.0 


 19%|█▊        | 55822/300000 [3:01:37<14:13:08,  4.77it/s]

지금 다 먹고 24095번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55824/300000 [3:01:38<15:26:07,  4.39it/s]

지금 다 먹고 24096번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▊        | 55825/300000 [3:01:38<14:42:35,  4.61it/s]

지금 다 먹고 24097번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 24098번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▊        | 55828/300000 [3:01:39<15:37:31,  4.34it/s]

지금 다 먹고 24099번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 24100번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▊        | 55830/300000 [3:01:39<13:51:05,  4.90it/s]

지금 다 먹고 24101번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 24102번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▊        | 55832/300000 [3:01:39<13:08:09,  5.16it/s]

지금 다 먹고 24103번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 24104번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▊        | 55836/300000 [3:01:40<15:42:05,  4.32it/s]

지금 다 먹고 24105번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 24106번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 

 19%|█▊        | 55837/300000 [3:01:40<14:58:23,  4.53it/s]


지금 다 먹고 24107번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▊        | 55839/300000 [3:01:41<13:53:57,  4.88it/s]

지금 다 먹고 24108번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 19%|█▊        | 55841/300000 [3:01:41<14:34:30,  4.65it/s]

지금 다 먹고 24109번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 24110번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55843/300000 [3:01:42<14:12:12,  4.77it/s]

지금 다 먹고 24111번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 19%|█▊        | 55845/300000 [3:01:42<14:57:27,  4.53it/s]

지금 다 먹고 24112번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 
지금 다 먹고 24113번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55847/300000 [3:01:43<14:19:15,  4.74it/s]

지금 다 먹고 24114번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 
지금 다 먹고 24115번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▊        | 55849/300000 [3:01:43<13:40:44,  4.96it/s]

지금 다 먹고 24116번째 도착완료 
  그리고 총 보상은 : 19.600000000000005 
지금 다 먹고 24117번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 55852/300000 [3:01:44<14:09:59,  4.79it/s]

지금 다 먹고 24118번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 24119번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 55854/300000 [3:01:44<13:04:25,  5.19it/s]

지금 다 먹고 24120번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55855/300000 [3:01:44<14:14:52,  4.76it/s]

지금 다 먹고 24121번째 도착완료 
  그리고 총 보상은 : 5.799999999999972 
지금 다 먹고 24122번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 55858/300000 [3:01:45<15:02:21,  4.51it/s]

지금 다 먹고 24123번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 
지금 다 먹고 24124번째 도착완료 
  그리고 총 보상은 : 23.30000000000001 


 19%|█▊        | 55860/300000 [3:01:45<14:10:29,  4.78it/s]

지금 다 먹고 24125번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55862/300000 [3:01:46<15:35:39,  4.35it/s]

지금 다 먹고 24126번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 19%|█▊        | 55863/300000 [3:01:46<14:56:56,  4.54it/s]

지금 다 먹고 24127번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 24128번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55865/300000 [3:01:46<14:35:50,  4.65it/s]

지금 다 먹고 24129번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 55866/300000 [3:01:47<14:00:45,  4.84it/s]

지금 다 먹고 24130번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 24131번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 19%|█▊        | 55870/300000 [3:01:48<15:09:50,  4.47it/s]

지금 다 먹고 24132번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 24133번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▊        | 55872/300000 [3:01:48<13:44:48,  4.93it/s]

지금 다 먹고 24134번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 24135번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▊        | 55876/300000 [3:01:49<15:41:03,  4.32it/s]

지금 다 먹고 24136번째 도착완료 
  그리고 총 보상은 : 20.200000000000003 


 19%|█▊        | 55877/300000 [3:01:49<15:02:44,  4.51it/s]

지금 다 먹고 24137번째 도착완료 
  그리고 총 보상은 : 21.70000000000001 


 19%|█▊        | 55879/300000 [3:01:50<16:12:13,  4.18it/s]

지금 다 먹고 24138번째 도착완료 
  그리고 총 보상은 : 22.90000000000001 


 19%|█▊        | 55880/300000 [3:01:50<16:45:06,  4.05it/s]

지금 다 먹고 24139번째 도착완료 
  그리고 총 보상은 : 11.100000000000017 
지금 다 먹고 24140번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▊        | 55882/300000 [3:01:50<14:46:11,  4.59it/s]

지금 다 먹고 24141번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 24142번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▊        | 55884/300000 [3:01:51<13:37:10,  4.98it/s]

지금 다 먹고 24143번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 55887/300000 [3:01:51<15:26:52,  4.39it/s]

지금 다 먹고 24144번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▊        | 55888/300000 [3:01:52<15:01:11,  4.51it/s]

지금 다 먹고 24145번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 24146번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 55890/300000 [3:01:52<14:21:08,  4.72it/s]

지금 다 먹고 24147번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 55892/300000 [3:01:52<14:44:23,  4.60it/s]

지금 다 먹고 24148번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24149번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 


 19%|█▊        | 55894/300000 [3:01:53<14:41:45,  4.61it/s]

지금 다 먹고 24150번째 도착완료 
  그리고 총 보상은 : 16.3 


 19%|█▊        | 55896/300000 [3:01:53<15:05:40,  4.49it/s]

지금 다 먹고 24151번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 24152번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 55898/300000 [3:01:54<14:15:56,  4.75it/s]

지금 다 먹고 24153번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▊        | 55900/300000 [3:01:54<14:41:06,  4.62it/s]

지금 다 먹고 24154번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 55901/300000 [3:01:54<14:18:49,  4.74it/s]

지금 다 먹고 24155번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :22.10000000000001
 end : True
 clear : True
episode :4, score = 13.66200000000139, n_buffer :100000 , eps : 22.049999999999997


 19%|█▊        | 55903/300000 [3:01:55<15:06:58,  4.49it/s]

지금 다 먹고 24156번째 도착완료 
  그리고 총 보상은 : 23.00000000000001 
지금 다 먹고 24157번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▊        | 55905/300000 [3:01:55<14:43:38,  4.60it/s]

지금 다 먹고 24158번째 도착완료 
  그리고 총 보상은 : 14.600000000000032 
지금 다 먹고 24159번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 55907/300000 [3:01:56<14:20:30,  4.73it/s]

지금 다 먹고 24160번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 19%|█▊        | 55909/300000 [3:01:56<14:44:20,  4.60it/s]

지금 다 먹고 24161번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 24162번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▊        | 55911/300000 [3:01:57<13:52:08,  4.89it/s]

지금 다 먹고 24163번째 도착완료 
  그리고 총 보상은 : 23.1 
지금 다 먹고 24164번째 도착완료 
  그리고 총 보상은 : 18.7 


 19%|█▊        | 55913/300000 [3:01:57<13:46:49,  4.92it/s]

지금 다 먹고 24165번째 도착완료 
  그리고 총 보상은 : 22.3 
지금 다 먹고 24166번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▊        | 55915/300000 [3:01:57<13:05:06,  5.18it/s]

지금 다 먹고 24167번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 24168번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▊        | 55917/300000 [3:01:58<12:31:35,  5.41it/s]

지금 다 먹고 24169번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 24170번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 19%|█▊        | 55920/300000 [3:01:58<13:38:25,  4.97it/s]

지금 다 먹고 24171번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 24172번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 19%|█▊        | 55922/300000 [3:01:59<13:39:10,  4.97it/s]

지금 다 먹고 24173번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 24174번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▊        | 55924/300000 [3:01:59<13:01:38,  5.20it/s]

지금 다 먹고 24175번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 19%|█▊        | 55926/300000 [3:02:00<13:52:02,  4.89it/s]

지금 다 먹고 24176번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 19%|█▊        | 55928/300000 [3:02:00<14:46:09,  4.59it/s]

지금 다 먹고 24177번째 도착완료 
  그리고 총 보상은 : 21.099999999999998 


 19%|█▊        | 55930/300000 [3:02:01<15:32:17,  4.36it/s]

지금 다 먹고 24178번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 24179번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 19%|█▊        | 55932/300000 [3:02:01<14:05:00,  4.81it/s]

지금 다 먹고 24180번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 24181번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 55934/300000 [3:02:01<13:14:15,  5.12it/s]

지금 다 먹고 24182번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 24183번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 19%|█▊        | 55936/300000 [3:02:02<12:44:32,  5.32it/s]

지금 다 먹고 24184번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 24185번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▊        | 55938/300000 [3:02:02<12:51:59,  5.27it/s]

지금 다 먹고 24186번째 도착완료 
  그리고 총 보상은 : 17.9 


 19%|█▊        | 55939/300000 [3:02:02<13:33:31,  5.00it/s]

지금 다 먹고 24187번째 도착완료 
  그리고 총 보상은 : 16.400000000000006 
지금 다 먹고 24188번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▊        | 55941/300000 [3:02:03<13:43:33,  4.94it/s]

지금 다 먹고 24189번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 19%|█▊        | 55944/300000 [3:02:03<14:46:57,  4.59it/s]

지금 다 먹고 24190번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 24191번째 도착완료 
  그리고 총 보상은 : 19.8 


 19%|█▊        | 55946/300000 [3:02:04<13:35:56,  4.99it/s]

지금 다 먹고 24192번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 19%|█▊        | 55947/300000 [3:02:04<13:47:37,  4.91it/s]

지금 다 먹고 24193번째 도착완료 
  그리고 총 보상은 : 18.30000000000001 


 19%|█▊        | 55948/300000 [3:02:04<14:59:53,  4.52it/s]

지금 다 먹고 24194번째 도착완료 
  그리고 총 보상은 : 2.8999999999999204 
지금 다 먹고 24195번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▊        | 55950/300000 [3:02:05<13:48:20,  4.91it/s]

지금 다 먹고 24196번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▊        | 55951/300000 [3:02:05<13:15:03,  5.12it/s]

지금 다 먹고 24197번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▊        | 55954/300000 [3:02:06<16:00:12,  4.24it/s]

지금 다 먹고 24198번째 도착완료 
  그리고 총 보상은 : 23.6 


 19%|█▊        | 55955/300000 [3:02:06<15:47:51,  4.29it/s]

지금 다 먹고 24199번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 


 19%|█▊        | 55956/300000 [3:02:06<14:58:17,  4.53it/s]

지금 다 먹고 24200번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 19%|█▊        | 55957/300000 [3:02:06<15:14:23,  4.45it/s]

지금 다 먹고 24201번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 


 19%|█▊        | 55958/300000 [3:02:06<15:22:36,  4.41it/s]

지금 다 먹고 24202번째 도착완료 
  그리고 총 보상은 : 14.800000000000018 
지금 다 먹고 24203번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▊        | 55960/300000 [3:02:07<14:05:24,  4.81it/s]

지금 다 먹고 24204번째 도착완료 
  그리고 총 보상은 : 21.900000000000013 
지금 다 먹고 24205번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 


 19%|█▊        | 55961/300000 [3:02:07<13:56:16,  4.86it/s]

지금 다 먹고 24206번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 


 19%|█▊        | 55964/300000 [3:02:08<14:16:07,  4.75it/s]

지금 다 먹고 24207번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 24208번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 55966/300000 [3:02:08<12:50:06,  5.28it/s]

지금 다 먹고 24209번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▊        | 55968/300000 [3:02:08<14:55:08,  4.54it/s]

지금 다 먹고 24210번째 도착완료 
  그리고 총 보상은 : 16.499999999999996 


 19%|█▊        | 55971/300000 [3:02:09<14:55:28,  4.54it/s]

지금 다 먹고 24211번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 24212번째 도착완료 
  그리고 총 보상은 : 22.4 


 19%|█▊        | 55974/300000 [3:02:10<15:23:12,  4.41it/s]

지금 다 먹고 24213번째 도착완료 
  그리고 총 보상은 : 17.800000000000008 


 19%|█▊        | 55975/300000 [3:02:10<14:49:49,  4.57it/s]

지금 다 먹고 24214번째 도착완료 
  그리고 총 보상은 : 23.500000000000014 


 19%|█▊        | 55977/300000 [3:02:11<15:13:43,  4.45it/s]

지금 다 먹고 24215번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 24216번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▊        | 55981/300000 [3:02:12<15:55:58,  4.25it/s]

지금 다 먹고 24217번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 


 19%|█▊        | 55982/300000 [3:02:12<15:02:35,  4.51it/s]

지금 다 먹고 24218번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 24219번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55984/300000 [3:02:12<13:49:48,  4.90it/s]

지금 다 먹고 24220번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 24221번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 55986/300000 [3:02:13<14:19:31,  4.73it/s]

지금 다 먹고 24222번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 19%|█▊        | 55988/300000 [3:02:13<14:43:53,  4.60it/s]

지금 다 먹고 24223번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 24224번째 도착완료 
  그리고 총 보상은 : 22.2 


 19%|█▊        | 55991/300000 [3:02:14<15:57:21,  4.25it/s]

지금 다 먹고 24225번째 도착완료 
  그리고 총 보상은 : 15.400000000000027 


 19%|█▊        | 55992/300000 [3:02:14<15:32:47,  4.36it/s]

지금 다 먹고 24226번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 19%|█▊        | 55994/300000 [3:02:14<15:14:27,  4.45it/s]

지금 다 먹고 24227번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▊        | 55996/300000 [3:02:15<15:31:52,  4.36it/s]

지금 다 먹고 24228번째 도착완료 
  그리고 총 보상은 : 21.2 


 19%|█▊        | 55999/300000 [3:02:16<16:13:30,  4.18it/s]

지금 다 먹고 24229번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 24230번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 

 19%|█▊        | 56000/300000 [3:02:16<15:16:07,  4.44it/s]


지금 다 먹고 24231번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 56002/300000 [3:02:16<13:43:36,  4.94it/s]

epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.200000000000003
 end : True
 clear : True
episode :2, score = 11.705000000000304, n_buffer :100000 , eps : 21.999999999999996
지금 다 먹고 24232번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▊        | 56003/300000 [3:02:16<14:09:16,  4.79it/s]

지금 다 먹고 24233번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 19%|█▊        | 56005/300000 [3:02:17<14:44:30,  4.60it/s]

지금 다 먹고 24234번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 24235번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 56007/300000 [3:02:17<14:11:54,  4.77it/s]

지금 다 먹고 24236번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 56009/300000 [3:02:18<15:46:36,  4.30it/s]

지금 다 먹고 24237번째 도착완료 
  그리고 총 보상은 : 23.50000000000001 


 19%|█▊        | 56010/300000 [3:02:18<16:29:07,  4.11it/s]

지금 다 먹고 24238번째 도착완료 
  그리고 총 보상은 : 4.800000000000008 


 19%|█▊        | 56011/300000 [3:02:18<16:33:11,  4.09it/s]

지금 다 먹고 24239번째 도착완료 
  그리고 총 보상은 : 18.90000000000001 
지금 다 먹고 24240번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 56013/300000 [3:02:19<14:39:15,  4.62it/s]

지금 다 먹고 24241번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 24242번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▊        | 56015/300000 [3:02:19<13:47:39,  4.91it/s]

지금 다 먹고 24243번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 24244번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▊        | 56017/300000 [3:02:19<13:15:31,  5.11it/s]

지금 다 먹고 24245번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 24246번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▊        | 56019/300000 [3:02:20<13:34:37,  4.99it/s]

지금 다 먹고 24247번째 도착완료 
  그리고 총 보상은 : 20.100000000000005 


 19%|█▊        | 56020/300000 [3:02:20<14:09:26,  4.79it/s]

지금 다 먹고 24248번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 19%|█▊        | 56022/300000 [3:02:21<14:37:08,  4.64it/s]

지금 다 먹고 24249번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 24250번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▊        | 56024/300000 [3:02:21<13:35:53,  4.98it/s]

지금 다 먹고 24251번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 24252번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▊        | 56026/300000 [3:02:21<13:04:32,  5.18it/s]

지금 다 먹고 24253번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 24254번째 도착완료 
  그리고 총 보상은 : 19.5 


 19%|█▊        | 56030/300000 [3:02:22<16:27:12,  4.12it/s]

지금 다 먹고 24255번째 도착완료 
  그리고 총 보상은 : 13.600000000000026 


 19%|█▊        | 56031/300000 [3:02:23<16:10:40,  4.19it/s]

지금 다 먹고 24256번째 도착완료 
  그리고 총 보상은 : 0.0999999999999659 


 19%|█▊        | 56033/300000 [3:02:23<15:14:33,  4.45it/s]

지금 다 먹고 24257번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▊        | 56034/300000 [3:02:23<14:43:04,  4.60it/s]

지금 다 먹고 24258번째 도착완료 
  그리고 총 보상은 : 18.200000000000006 
지금 다 먹고 24259번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▊        | 56036/300000 [3:02:24<13:32:30,  5.00it/s]

지금 다 먹고 24260번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▊        | 56038/300000 [3:02:24<15:21:37,  4.41it/s]

지금 다 먹고 24261번째 도착완료 
  그리고 총 보상은 : 16.499999999999996 
지금 다 먹고 24262번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▊        | 56040/300000 [3:02:24<13:54:14,  4.87it/s]

지금 다 먹고 24263번째 도착완료 
  그리고 총 보상은 : 22.1 
지금 다 먹고 24264번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▊        | 56042/300000 [3:02:25<13:15:14,  5.11it/s]

지금 다 먹고 24265번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 24266번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▊        | 56045/300000 [3:02:25<14:24:10,  4.70it/s]

지금 다 먹고 24267번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 19%|█▊        | 56047/300000 [3:02:26<14:37:00,  4.64it/s]

지금 다 먹고 24268번째 도착완료 
  그리고 총 보상은 : 23.0 


 19%|█▊        | 56048/300000 [3:02:26<15:06:23,  4.49it/s]

지금 다 먹고 24269번째 도착완료 
  그리고 총 보상은 : -13.500000000000036 
지금 다 먹고 24270번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 19%|█▊        | 56050/300000 [3:02:26<13:41:04,  4.95it/s]

지금 다 먹고 24271번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 24272번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 19%|█▊        | 56052/300000 [3:02:27<13:12:48,  5.13it/s]

지금 다 먹고 24273번째 도착완료 
  그리고 총 보상은 : 15.100000000000005 


 19%|█▊        | 56054/300000 [3:02:27<15:31:51,  4.36it/s]

지금 다 먹고 24274번째 도착완료 
  그리고 총 보상은 : 13.600000000000017 


 19%|█▊        | 56055/300000 [3:02:28<15:34:06,  4.35it/s]

지금 다 먹고 24275번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 19%|█▊        | 56056/300000 [3:02:28<15:56:24,  4.25it/s]

지금 다 먹고 24276번째 도착완료 
  그리고 총 보상은 : 18.30000000000002 
지금 다 먹고 24277번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▊        | 56059/300000 [3:02:29<15:25:49,  4.39it/s]

지금 다 먹고 24278번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 24279번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▊        | 56062/300000 [3:02:29<16:04:50,  4.21it/s]

지금 다 먹고 24280번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 


 19%|█▊        | 56063/300000 [3:02:30<16:13:32,  4.18it/s]

지금 다 먹고 24281번째 도착완료 
  그리고 총 보상은 : 22.800000000000008 


 19%|█▊        | 56064/300000 [3:02:30<15:28:27,  4.38it/s]

지금 다 먹고 24282번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 
지금 다 먹고 24283번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▊        | 56066/300000 [3:02:30<14:17:23,  4.74it/s]

지금 다 먹고 24284번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 24285번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 56068/300000 [3:02:30<13:15:58,  5.11it/s]

지금 다 먹고 24286번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 24287번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 56070/300000 [3:02:31<13:03:05,  5.19it/s]

지금 다 먹고 24288번째 도착완료 
  그리고 총 보상은 : 19.500000000000007 
지금 다 먹고 24289번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 56073/300000 [3:02:31<13:46:26,  4.92it/s]

지금 다 먹고 24290번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 24291번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▊        | 56075/300000 [3:02:32<13:04:23,  5.18it/s]

지금 다 먹고 24292번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24293번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▊        | 56078/300000 [3:02:33<15:07:23,  4.48it/s]

지금 다 먹고 24294번째 도착완료 
  그리고 총 보상은 : -9.300000000000075 
지금 다 먹고 24295번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 19%|█▊        | 56080/300000 [3:02:33<14:12:59,  4.77it/s]

지금 다 먹고 24296번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 
지금 다 먹고 24297번째 도착완료 
  그리고 총 보상은 : 22.900000000000013 


 19%|█▊        | 56082/300000 [3:02:33<13:52:45,  4.88it/s]

지금 다 먹고 24298번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 24299번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 19%|█▊        | 56086/300000 [3:02:34<15:22:23,  4.41it/s]

지금 다 먹고 24300번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 24301번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▊        | 56088/300000 [3:02:35<16:27:41,  4.12it/s]

지금 다 먹고 24302번째 도착완료 
  그리고 총 보상은 : 16.40000000000001 


 19%|█▊        | 56090/300000 [3:02:35<15:44:15,  4.31it/s]

지금 다 먹고 24303번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▊        | 56091/300000 [3:02:35<15:00:07,  4.52it/s]

지금 다 먹고 24304번째 도착완료 
  그리고 총 보상은 : 18.0 


 19%|█▊        | 56092/300000 [3:02:36<14:51:10,  4.56it/s]

지금 다 먹고 24305번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 
지금 다 먹고 24306번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▊        | 56098/300000 [3:02:37<17:12:35,  3.94it/s]

지금 다 먹고 24307번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 
지금 다 먹고 24308번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▊        | 56100/300000 [3:02:38<14:42:51,  4.60it/s]

지금 다 먹고 24309번째 도착완료 
  그리고 총 보상은 : 23.6 


 19%|█▊        | 56101/300000 [3:02:38<16:09:35,  4.19it/s]

지금 다 먹고 24310번째 도착완료 
  그리고 총 보상은 : 0.5999999999998948 
epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :0.5999999999998948
 end : True
 clear : True
episode :0, score = 12.55000000000145, n_buffer :100000 , eps : 21.949999999999996


 19%|█▊        | 56102/300000 [3:02:38<15:13:19,  4.45it/s]

지금 다 먹고 24311번째 도착완료 
  그리고 총 보상은 : 14.600000000000007 
지금 다 먹고 24312번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 56104/300000 [3:02:38<13:29:19,  5.02it/s]

지금 다 먹고 24313번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 24314번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 56107/300000 [3:02:39<14:12:11,  4.77it/s]

지금 다 먹고 24315번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 19%|█▊        | 56111/300000 [3:02:40<16:49:21,  4.03it/s]

지금 다 먹고 24316번째 도착완료 
  그리고 총 보상은 : 22.3 


 19%|█▊        | 56113/300000 [3:02:41<15:48:04,  4.29it/s]

지금 다 먹고 24317번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 19%|█▊        | 56115/300000 [3:02:41<16:10:20,  4.19it/s]

지금 다 먹고 24318번째 도착완료 
  그리고 총 보상은 : 19.00000000000001 


 19%|█▊        | 56118/300000 [3:02:42<16:18:31,  4.15it/s]

지금 다 먹고 24319번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 56120/300000 [3:02:42<15:33:47,  4.35it/s]

지금 다 먹고 24320번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 24321번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▊        | 56123/300000 [3:02:43<15:14:56,  4.44it/s]

지금 다 먹고 24322번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 24323번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▊        | 56125/300000 [3:02:43<14:33:38,  4.65it/s]

지금 다 먹고 24324번째 도착완료 
  그리고 총 보상은 : 18.10000000000001 


 19%|█▊        | 56126/300000 [3:02:44<15:11:15,  4.46it/s]

지금 다 먹고 24325번째 도착완료 
  그리고 총 보상은 : 16.000000000000007 
지금 다 먹고 24326번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▊        | 56130/300000 [3:02:45<17:21:02,  3.90it/s]

지금 다 먹고 24327번째 도착완료 
  그리고 총 보상은 : 8.400000000000006 


 19%|█▊        | 56133/300000 [3:02:45<16:35:41,  4.08it/s]

지금 다 먹고 24328번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▊        | 56134/300000 [3:02:46<16:03:55,  4.22it/s]

지금 다 먹고 24329번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 24330번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 

 19%|█▊        | 56135/300000 [3:02:46<15:12:19,  4.46it/s]




 19%|█▊        | 56137/300000 [3:02:46<14:37:25,  4.63it/s]

지금 다 먹고 24331번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▊        | 56139/300000 [3:02:47<14:58:38,  4.52it/s]

지금 다 먹고 24332번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▊        | 56143/300000 [3:02:48<17:02:29,  3.97it/s]

지금 다 먹고 24333번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 24334번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▊        | 56145/300000 [3:02:48<14:46:06,  4.59it/s]

지금 다 먹고 24335번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▊        | 56147/300000 [3:02:49<15:23:13,  4.40it/s]

지금 다 먹고 24336번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 


 19%|█▊        | 56150/300000 [3:02:49<16:35:58,  4.08it/s]

지금 다 먹고 24337번째 도착완료 
  그리고 총 보상은 : 12.100000000000032 


 19%|█▊        | 56152/300000 [3:02:50<16:08:42,  4.20it/s]

지금 다 먹고 24338번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▊        | 56154/300000 [3:02:50<15:31:47,  4.36it/s]

지금 다 먹고 24339번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▊        | 56160/300000 [3:02:52<18:33:23,  3.65it/s]

지금 다 먹고 24340번째 도착완료 
  그리고 총 보상은 : 10.600000000000012 


 19%|█▊        | 56163/300000 [3:02:53<16:48:46,  4.03it/s]

지금 다 먹고 24341번째 도착완료 
  그리고 총 보상은 : 12.400000000000006 
지금 다 먹고 24342번째 도착완료 
  그리고 총 보상은 : 15.200000000000017 


 19%|█▊        | 56165/300000 [3:02:53<16:33:38,  4.09it/s]

지금 다 먹고 24343번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 


 19%|█▊        | 56166/300000 [3:02:54<16:17:03,  4.16it/s]

지금 다 먹고 24344번째 도착완료 
  그리고 총 보상은 : 20.90000000000001 
지금 다 먹고 24345번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▊        | 56168/300000 [3:02:54<15:19:20,  4.42it/s]

지금 다 먹고 24346번째 도착완료 
  그리고 총 보상은 : 16.000000000000004 
지금 다 먹고 24347번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 56171/300000 [3:02:55<14:30:16,  4.67it/s]

지금 다 먹고 24348번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 56173/300000 [3:02:55<16:08:45,  4.19it/s]

지금 다 먹고 24349번째 도착완료 
  그리고 총 보상은 : 10.200000000000005 
지금 다 먹고 24350번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▊        | 56177/300000 [3:02:56<16:14:48,  4.17it/s]

지금 다 먹고 24351번째 도착완료 
  그리고 총 보상은 : 21.800000000000008 


 19%|█▊        | 56178/300000 [3:02:56<15:53:40,  4.26it/s]

지금 다 먹고 24352번째 도착완료 
  그리고 총 보상은 : 0.4999999999999858 


 19%|█▊        | 56179/300000 [3:02:56<15:13:37,  4.45it/s]

지금 다 먹고 24353번째 도착완료 
  그리고 총 보상은 : 21.0 
지금 다 먹고 24354번째 도착완료 
  그리고 총 보상은 : 21.1 


 19%|█▊        | 56181/300000 [3:02:57<14:36:13,  4.64it/s]

지금 다 먹고 24355번째 도착완료 
  그리고 총 보상은 : -2.4868995751603507e-14 
지금 다 먹고 24356번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▊        | 56183/300000 [3:02:57<13:24:06,  5.05it/s]

지금 다 먹고 24357번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▊        | 56186/300000 [3:02:58<14:58:51,  4.52it/s]

지금 다 먹고 24358번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▊        | 56188/300000 [3:02:58<15:38:21,  4.33it/s]

지금 다 먹고 24359번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▊        | 56192/300000 [3:03:00<17:08:39,  3.95it/s]

지금 다 먹고 24360번째 도착완료 
  그리고 총 보상은 : 23.3 


 19%|█▊        | 56195/300000 [3:03:00<18:13:28,  3.72it/s]

지금 다 먹고 24361번째 도착완료 
  그리고 총 보상은 : 20.90000000000001 


 19%|█▊        | 56196/300000 [3:03:01<16:52:19,  4.01it/s]

지금 다 먹고 24362번째 도착완료 
  그리고 총 보상은 : 19.1 


 19%|█▊        | 56198/300000 [3:03:01<16:49:09,  4.03it/s]

지금 다 먹고 24363번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 


 19%|█▊        | 56199/300000 [3:03:01<17:30:07,  3.87it/s]

지금 다 먹고 24364번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 19%|█▊        | 56200/300000 [3:03:02<18:02:47,  3.75it/s]

지금 다 먹고 24365번째 도착완료 
  그리고 총 보상은 : 11.90000000000004 
지금 다 먹고 24366번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▊        | 56201/300000 [3:03:02<16:21:50,  4.14it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.300000000000004
 end : True
 clear : True
episode :15, score = 3.5989999999998954, n_buffer :100000 , eps : 21.9
지금 다 먹고 24367번째 도착완료 
  그리고 총 보상은 : 12.200000000000014 


 19%|█▊        | 56203/300000 [3:03:02<15:00:26,  4.51it/s]

지금 다 먹고 24368번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 19%|█▊        | 56204/300000 [3:03:03<15:36:27,  4.34it/s]

지금 다 먹고 24369번째 도착완료 
  그리고 총 보상은 : 17.30000000000001 
지금 다 먹고 24370번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▊        | 56206/300000 [3:03:03<14:35:05,  4.64it/s]

지금 다 먹고 24371번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 


 19%|█▊        | 56207/300000 [3:03:03<14:35:35,  4.64it/s]

지금 다 먹고 24372번째 도착완료 
  그리고 총 보상은 : 18.200000000000014 


 19%|█▊        | 56208/300000 [3:03:03<14:25:42,  4.69it/s]

지금 다 먹고 24373번째 도착완료 
  그리고 총 보상은 : 10.30000000000001 


 19%|█▊        | 56209/300000 [3:03:04<14:37:38,  4.63it/s]

지금 다 먹고 24374번째 도착완료 
  그리고 총 보상은 : 18.30000000000001 


 19%|█▊        | 56210/300000 [3:03:04<14:38:10,  4.63it/s]

지금 다 먹고 24375번째 도착완료 
  그리고 총 보상은 : 17.7 


 19%|█▊        | 56211/300000 [3:03:04<14:11:30,  4.77it/s]

지금 다 먹고 24376번째 도착완료 
  그리고 총 보상은 : 23.20000000000001 


 19%|█▊        | 56212/300000 [3:03:04<14:35:37,  4.64it/s]

지금 다 먹고 24377번째 도착완료 
  그리고 총 보상은 : 15.60000000000002 
지금 다 먹고 24378번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 19%|█▊        | 56214/300000 [3:03:05<14:06:28,  4.80it/s]

지금 다 먹고 24379번째 도착완료 
  그리고 총 보상은 : 21.9 


 19%|█▊        | 56216/300000 [3:03:05<15:17:24,  4.43it/s]

지금 다 먹고 24380번째 도착완료 
  그리고 총 보상은 : 21.9 
지금 다 먹고 24381번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 19%|█▊        | 56218/300000 [3:03:06<13:52:48,  4.88it/s]

지금 다 먹고 24382번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▊        | 56220/300000 [3:03:06<14:35:06,  4.64it/s]

지금 다 먹고 24383번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 56223/300000 [3:03:07<17:16:55,  3.92it/s]

지금 다 먹고 24384번째 도착완료 
  그리고 총 보상은 : 11.300000000000024 


 19%|█▊        | 56224/300000 [3:03:07<16:58:54,  3.99it/s]

지금 다 먹고 24385번째 도착완료 
  그리고 총 보상은 : -15.300000000000011 


 19%|█▊        | 56225/300000 [3:03:07<16:06:26,  4.20it/s]

지금 다 먹고 24386번째 도착완료 
  그리고 총 보상은 : -2.0000000000000213 
지금 다 먹고 24387번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▊        | 56229/300000 [3:03:08<15:38:51,  4.33it/s]

지금 다 먹고 24388번째 도착완료 
  그리고 총 보상은 : 19.0 


 19%|█▊        | 56232/300000 [3:03:09<16:27:11,  4.12it/s]

지금 다 먹고 24389번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 19%|█▊        | 56236/300000 [3:03:10<17:28:13,  3.88it/s]

지금 다 먹고 24390번째 도착완료 
  그리고 총 보상은 : 10.300000000000031 
지금 다 먹고 24391번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▊        | 56239/300000 [3:03:11<15:41:33,  4.31it/s]

지금 다 먹고 24392번째 도착완료 
  그리고 총 보상은 : 22.0 
지금 다 먹고 24393번째 도착완료 
  그리고 총 보상은 : -0.9000000000000128 


 19%|█▊        | 56242/300000 [3:03:11<15:58:21,  4.24it/s]

지금 다 먹고 24394번째 도착완료 
  그리고 총 보상은 : -2.800000000000008 


 19%|█▊        | 56244/300000 [3:03:12<17:15:18,  3.92it/s]

지금 다 먹고 24395번째 도착완료 
  그리고 총 보상은 : -4.40000000000002 
지금 다 먹고 24396번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▊        | 56246/300000 [3:03:12<14:54:28,  4.54it/s]

지금 다 먹고 24397번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 
지금 다 먹고 24398번째 도착완료 
  그리고 총 보상은 : 14.200000000000008 


 19%|█▊        | 56248/300000 [3:03:13<14:57:02,  4.53it/s]

지금 다 먹고 24399번째 도착완료 
  그리고 총 보상은 : 1.299999999999958 


 19%|█▊        | 56249/300000 [3:03:13<15:04:46,  4.49it/s]

지금 다 먹고 24400번째 도착완료 
  그리고 총 보상은 : 17.600000000000005 


 19%|█▉        | 56250/300000 [3:03:13<15:25:01,  4.39it/s]

지금 다 먹고 24401번째 도착완료 
  그리고 총 보상은 : -18.50000000000003 
지금 다 먹고 24402번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 19%|█▉        | 56252/300000 [3:03:14<15:15:57,  4.44it/s]

지금 다 먹고 24403번째 도착완료 
  그리고 총 보상은 : 0.19999999999998863 


 19%|█▉        | 56254/300000 [3:03:14<15:26:47,  4.38it/s]

지금 다 먹고 24404번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 56256/300000 [3:03:15<15:48:31,  4.28it/s]

지금 다 먹고 24405번째 도착완료 
  그리고 총 보상은 : 14.900000000000004 


 19%|█▉        | 56258/300000 [3:03:15<15:22:20,  4.40it/s]

지금 다 먹고 24406번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 24407번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 56260/300000 [3:03:15<13:32:12,  5.00it/s]

지금 다 먹고 24408번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56263/300000 [3:03:16<16:04:57,  4.21it/s]

지금 다 먹고 24409번째 도착완료 
  그리고 총 보상은 : 16.80000000000002 


 19%|█▉        | 56264/300000 [3:03:17<15:49:07,  4.28it/s]

지금 다 먹고 24410번째 도착완료 
  그리고 총 보상은 : 18.90000000000001 


 19%|█▉        | 56266/300000 [3:03:17<15:18:21,  4.42it/s]

지금 다 먹고 24411번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 24412번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 56268/300000 [3:03:17<13:49:38,  4.90it/s]

지금 다 먹고 24413번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 24414번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 56270/300000 [3:03:18<13:30:16,  5.01it/s]

지금 다 먹고 24415번째 도착완료 
  그리고 총 보상은 : 18.800000000000004 
지금 다 먹고 24416번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56272/300000 [3:03:18<12:54:30,  5.24it/s]

지금 다 먹고 24417번째 도착완료 
  그리고 총 보상은 : 25.000000000000014 
지금 다 먹고 24418번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 56274/300000 [3:03:18<12:28:24,  5.43it/s]

지금 다 먹고 24419번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 56275/300000 [3:03:19<12:51:28,  5.27it/s]

지금 다 먹고 24420번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 


 19%|█▉        | 56276/300000 [3:03:19<14:47:47,  4.58it/s]

지금 다 먹고 24421번째 도착완료 
  그리고 총 보상은 : 9.5 


 19%|█▉        | 56277/300000 [3:03:19<15:06:14,  4.48it/s]

지금 다 먹고 24422번째 도착완료 
  그리고 총 보상은 : 16.700000000000017 


 19%|█▉        | 56279/300000 [3:03:20<15:24:17,  4.39it/s]

지금 다 먹고 24423번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 
지금 다 먹고 24424번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 56281/300000 [3:03:20<14:22:03,  4.71it/s]

지금 다 먹고 24425번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 19%|█▉        | 56284/300000 [3:03:21<15:36:24,  4.34it/s]

지금 다 먹고 24426번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 24427번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 19%|█▉        | 56286/300000 [3:03:21<14:06:56,  4.80it/s]

지금 다 먹고 24428번째 도착완료 
  그리고 총 보상은 : 16.599999999999998 


 19%|█▉        | 56288/300000 [3:03:22<14:03:39,  4.81it/s]

지금 다 먹고 24429번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▉        | 56290/300000 [3:03:22<14:41:49,  4.61it/s]

지금 다 먹고 24430번째 도착완료 
  그리고 총 보상은 : 24.100000000000016 
지금 다 먹고 24431번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 

 19%|█▉        | 56291/300000 [3:03:22<14:11:36,  4.77it/s]




 19%|█▉        | 56292/300000 [3:03:22<14:14:27,  4.75it/s]

지금 다 먹고 24432번째 도착완료 
  그리고 총 보상은 : 17.5 
지금 다 먹고 24433번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 19%|█▉        | 56294/300000 [3:03:23<14:29:46,  4.67it/s]

지금 다 먹고 24434번째 도착완료 
  그리고 총 보상은 : 3.3000000000000043 


 19%|█▉        | 56296/300000 [3:03:23<15:45:10,  4.30it/s]

지금 다 먹고 24435번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24436번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 56298/300000 [3:03:24<15:51:50,  4.27it/s]

지금 다 먹고 24437번째 도착완료 
  그리고 총 보상은 : 8.50000000000003 


 19%|█▉        | 56299/300000 [3:03:24<15:52:37,  4.26it/s]

지금 다 먹고 24438번째 도착완료 
  그리고 총 보상은 : -5.800000000000026 


 19%|█▉        | 56300/300000 [3:03:24<15:05:41,  4.48it/s]

지금 다 먹고 24439번째 도착완료 
  그리고 총 보상은 : 21.099999999999998 
지금 다 먹고 24440번째 도착완료 
  그리고 총 보상은 : 25.00000000000001 


 19%|█▉        | 56302/300000 [3:03:25<13:55:29,  4.86it/s]

epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.00000000000001
 end : True
 clear : True
episode :13, score = 5.46399999999947, n_buffer :100000 , eps : 21.849999999999998
지금 다 먹고 24441번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 


 19%|█▉        | 56303/300000 [3:03:25<14:10:43,  4.77it/s]

지금 다 먹고 24442번째 도착완료 
  그리고 총 보상은 : -6.300000000000026 


 19%|█▉        | 56305/300000 [3:03:25<13:25:37,  5.04it/s]

지금 다 먹고 24443번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 
지금 다 먹고 24444번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 56307/300000 [3:03:26<13:44:28,  4.93it/s]

지금 다 먹고 24445번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 24446번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56309/300000 [3:03:26<12:57:03,  5.23it/s]

지금 다 먹고 24447번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 24448번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 19%|█▉        | 56311/300000 [3:03:26<12:28:36,  5.43it/s]

지금 다 먹고 24449번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▉        | 56312/300000 [3:03:27<14:21:58,  4.71it/s]

지금 다 먹고 24450번째 도착완료 
  그리고 총 보상은 : -14.100000000000009 
지금 다 먹고 24451번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 56314/300000 [3:03:27<13:25:05,  5.04it/s]

지금 다 먹고 24452번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 56315/300000 [3:03:27<14:54:45,  4.54it/s]

지금 다 먹고 24453번째 도착완료 
  그리고 총 보상은 : 0.09999999999990905 
지금 다 먹고 24454번째 도착완료 
  그리고 총 보상은 : 21.599999999999998 


 19%|█▉        | 56317/300000 [3:03:28<13:42:54,  4.94it/s]

지금 다 먹고 24455번째 도착완료 
  그리고 총 보상은 : 25.30000000000001 
지금 다 먹고 24456번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 19%|█▉        | 56319/300000 [3:03:28<13:57:10,  4.85it/s]

지금 다 먹고 24457번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 24458번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 19%|█▉        | 56321/300000 [3:03:29<14:36:29,  4.63it/s]

지금 다 먹고 24459번째 도착완료 
  그리고 총 보상은 : 10.900000000000022 


 19%|█▉        | 56322/300000 [3:03:29<15:12:03,  4.45it/s]

지금 다 먹고 24460번째 도착완료 
  그리고 총 보상은 : 11.200000000000008 


 19%|█▉        | 56323/300000 [3:03:29<15:03:08,  4.50it/s]

지금 다 먹고 24461번째 도착완료 
  그리고 총 보상은 : 16.3 
지금 다 먹고 24462번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 56325/300000 [3:03:29<14:45:22,  4.59it/s]

지금 다 먹고 24463번째 도착완료 
  그리고 총 보상은 : 4.200000000000015 
지금 다 먹고 24464번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 19%|█▉        | 56327/300000 [3:03:30<13:47:32,  4.91it/s]

지금 다 먹고 24465번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 24466번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 56331/300000 [3:03:31<16:04:27,  4.21it/s]

지금 다 먹고 24467번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 56334/300000 [3:03:32<16:39:32,  4.06it/s]

지금 다 먹고 24468번째 도착완료 
  그리고 총 보상은 : 17.900000000000002 
지금 다 먹고 24469번째 도착완료 
  그리고 총 보상은 : 25.1 


 19%|█▉        | 56336/300000 [3:03:32<15:16:30,  4.43it/s]

지금 다 먹고 24470번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 
지금 다 먹고 24471번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 56339/300000 [3:03:33<14:45:53,  4.58it/s]

지금 다 먹고 24472번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 24473번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 


 19%|█▉        | 56341/300000 [3:03:33<13:34:11,  4.99it/s]

지금 다 먹고 24474번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 24475번째 도착완료 
  그리고 총 보상은 : 24.900000000000013 


 19%|█▉        | 56343/300000 [3:03:33<14:04:24,  4.81it/s]

지금 다 먹고 24476번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 19%|█▉        | 56344/300000 [3:03:34<14:12:59,  4.76it/s]

지금 다 먹고 24477번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 24478번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56348/300000 [3:03:35<15:25:21,  4.39it/s]

지금 다 먹고 24479번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 56349/300000 [3:03:35<14:56:47,  4.53it/s]

지금 다 먹고 24480번째 도착완료 
  그리고 총 보상은 : 19.6 


 19%|█▉        | 56350/300000 [3:03:35<15:02:28,  4.50it/s]

지금 다 먹고 24481번째 도착완료 
  그리고 총 보상은 : 7.500000000000021 
지금 다 먹고 24482번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▉        | 56352/300000 [3:03:35<14:22:08,  4.71it/s]

지금 다 먹고 24483번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 19%|█▉        | 56354/300000 [3:03:36<14:23:04,  4.71it/s]

지금 다 먹고 24484번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56356/300000 [3:03:36<14:32:39,  4.65it/s]

지금 다 먹고 24485번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 56358/300000 [3:03:37<15:25:02,  4.39it/s]

지금 다 먹고 24486번째 도착완료 
  그리고 총 보상은 : 25.5 


 19%|█▉        | 56360/300000 [3:03:37<16:50:22,  4.02it/s]

지금 다 먹고 24487번째 도착완료 
  그리고 총 보상은 : 14.100000000000026 


 19%|█▉        | 56361/300000 [3:03:38<16:05:05,  4.21it/s]

지금 다 먹고 24488번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 24489번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 56365/300000 [3:03:39<16:12:45,  4.17it/s]

지금 다 먹고 24490번째 도착완료 
  그리고 총 보상은 : 25.5 
지금 다 먹고 24491번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56367/300000 [3:03:39<14:17:01,  4.74it/s]

지금 다 먹고 24492번째 도착완료 
  그리고 총 보상은 : 18.4 


 19%|█▉        | 56369/300000 [3:03:39<15:13:49,  4.44it/s]

지금 다 먹고 24493번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 


 19%|█▉        | 56371/300000 [3:03:40<15:07:22,  4.48it/s]

지금 다 먹고 24494번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 56373/300000 [3:03:40<14:59:31,  4.51it/s]

지금 다 먹고 24495번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▉        | 56375/300000 [3:03:41<15:09:08,  4.47it/s]

지금 다 먹고 24496번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 24497번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 56377/300000 [3:03:41<13:23:21,  5.05it/s]

지금 다 먹고 24498번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 24499번째 도착완료 
  그리고 총 보상은 : 16.799999999999997 


 19%|█▉        | 56379/300000 [3:03:42<13:48:39,  4.90it/s]

지금 다 먹고 24500번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56380/300000 [3:03:42<14:50:47,  4.56it/s]

지금 다 먹고 24501번째 도착완료 
  그리고 총 보상은 : 7.200000000000026 


 19%|█▉        | 56381/300000 [3:03:42<14:56:00,  4.53it/s]

지금 다 먹고 24502번째 도착완료 
  그리고 총 보상은 : 0.999999999999968 
지금 다 먹고 24503번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 56383/300000 [3:03:42<14:14:40,  4.75it/s]

지금 다 먹고 24504번째 도착완료 
  그리고 총 보상은 : 21.1 
지금 다 먹고 24505번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 19%|█▉        | 56387/300000 [3:03:43<15:21:27,  4.41it/s]

지금 다 먹고 24506번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 24507번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 56390/300000 [3:03:44<15:20:11,  4.41it/s]

지금 다 먹고 24508번째 도착완료 
  그리고 총 보상은 : 22.0 
지금 다 먹고 24509번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 19%|█▉        | 56392/300000 [3:03:44<14:46:24,  4.58it/s]

지금 다 먹고 24510번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 56393/300000 [3:03:45<14:20:17,  4.72it/s]

지금 다 먹고 24511번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 19%|█▉        | 56394/300000 [3:03:45<15:46:55,  4.29it/s]

지금 다 먹고 24512번째 도착완료 
  그리고 총 보상은 : 10.000000000000025 


 19%|█▉        | 56396/300000 [3:03:45<17:01:45,  3.97it/s]

지금 다 먹고 24513번째 도착완료 
  그리고 총 보상은 : 12.200000000000024 


 19%|█▉        | 56397/300000 [3:03:46<17:12:27,  3.93it/s]

지금 다 먹고 24514번째 도착완료 
  그리고 총 보상은 : 8.600000000000026 


 19%|█▉        | 56398/300000 [3:03:46<16:54:26,  4.00it/s]

지금 다 먹고 24515번째 도착완료 
  그리고 총 보상은 : 19.30000000000001 
지금 다 먹고 24516번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 56400/300000 [3:03:46<15:15:28,  4.43it/s]

지금 다 먹고 24517번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 


 19%|█▉        | 56401/300000 [3:03:47<15:22:48,  4.40it/s]

지금 다 먹고 24518번째 도착완료 
  그리고 총 보상은 : 6.400000000000004 
epi = 11
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :6.400000000000004
 end : True
 clear : True
episode :11, score = 11.409999999999327, n_buffer :100000 , eps : 21.799999999999997


 19%|█▉        | 56402/300000 [3:03:47<14:42:48,  4.60it/s]

지금 다 먹고 24519번째 도착완료 
  그리고 총 보상은 : 23.1 
지금 다 먹고 24520번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 56404/300000 [3:03:47<13:44:39,  4.92it/s]

지금 다 먹고 24521번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 24522번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 56406/300000 [3:03:48<13:44:40,  4.92it/s]

지금 다 먹고 24523번째 도착완료 
  그리고 총 보상은 : 22.90000000000001 


 19%|█▉        | 56407/300000 [3:03:48<13:08:15,  5.15it/s]

지금 다 먹고 24524번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56409/300000 [3:03:48<14:30:32,  4.66it/s]

지금 다 먹고 24525번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 24526번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 19%|█▉        | 56411/300000 [3:03:49<13:50:06,  4.89it/s]

지금 다 먹고 24527번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 19%|█▉        | 56413/300000 [3:03:49<14:32:26,  4.65it/s]

지금 다 먹고 24528번째 도착완료 
  그리고 총 보상은 : 14.200000000000003 


 19%|█▉        | 56415/300000 [3:03:50<15:06:19,  4.48it/s]

지금 다 먹고 24529번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 24530번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56417/300000 [3:03:50<14:49:28,  4.56it/s]

지금 다 먹고 24531번째 도착완료 
  그리고 총 보상은 : 13.500000000000036 
지금 다 먹고 24532번째 도착완료 
  그리고 총 보상은 : 7.700000000000005 


 19%|█▉        | 56419/300000 [3:03:50<14:03:54,  4.81it/s]

지금 다 먹고 24533번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 24534번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 56421/300000 [3:03:51<15:01:08,  4.50it/s]

지금 다 먹고 24535번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 
지금 다 먹고 24536번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 56424/300000 [3:03:52<15:21:06,  4.41it/s]

지금 다 먹고 24537번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 56426/300000 [3:03:52<15:57:57,  4.24it/s]

지금 다 먹고 24538번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56427/300000 [3:03:52<15:12:33,  4.45it/s]

지금 다 먹고 24539번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56430/300000 [3:03:53<16:35:46,  4.08it/s]

지금 다 먹고 24540번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 19%|█▉        | 56431/300000 [3:03:53<16:40:50,  4.06it/s]

지금 다 먹고 24541번째 도착완료 
  그리고 총 보상은 : 15.90000000000001 


 19%|█▉        | 56436/300000 [3:03:55<18:20:55,  3.69it/s]

지금 다 먹고 24542번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 24543번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 56438/300000 [3:03:55<16:36:23,  4.07it/s]

지금 다 먹고 24544번째 도착완료 
  그리고 총 보상은 : 13.800000000000024 
지금 다 먹고 24545번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 56441/300000 [3:03:56<15:39:25,  4.32it/s]

지금 다 먹고 24546번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56442/300000 [3:03:56<15:48:50,  4.28it/s]

지금 다 먹고 24547번째 도착완료 
  그리고 총 보상은 : 18.90000000000001 
지금 다 먹고 24548번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 56443/300000 [3:03:56<16:04:04,  4.21it/s]

지금 다 먹고 24549번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 


 19%|█▉        | 56445/300000 [3:03:57<16:43:34,  4.04it/s]

지금 다 먹고 24550번째 도착완료 
  그리고 총 보상은 : 24.1 


 19%|█▉        | 56446/300000 [3:03:57<15:39:17,  4.32it/s]

지금 다 먹고 24551번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 24552번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56448/300000 [3:03:57<15:29:43,  4.37it/s]

지금 다 먹고 24553번째 도착완료 
  그리고 총 보상은 : 21.5 


 19%|█▉        | 56450/300000 [3:03:58<15:20:13,  4.41it/s]

지금 다 먹고 24554번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 56451/300000 [3:03:58<15:56:52,  4.24it/s]

지금 다 먹고 24555번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 


 19%|█▉        | 56453/300000 [3:03:59<18:03:29,  3.75it/s]

지금 다 먹고 24556번째 도착완료 
  그리고 총 보상은 : -13.600000000000065 


 19%|█▉        | 56456/300000 [3:04:00<16:48:58,  4.02it/s]

지금 다 먹고 24557번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56457/300000 [3:04:00<16:28:24,  4.11it/s]

지금 다 먹고 24558번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 
지금 다 먹고 24559번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▉        | 56460/300000 [3:04:00<14:46:28,  4.58it/s]

지금 다 먹고 24560번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 24561번째 도착완료 
  그리고 총 보상은 : 22.100000000000012 


 19%|█▉        | 56462/300000 [3:04:01<14:38:24,  4.62it/s]

지금 다 먹고 24562번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 


 19%|█▉        | 56464/300000 [3:04:01<15:44:31,  4.30it/s]

지금 다 먹고 24563번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 56469/300000 [3:04:03<18:09:57,  3.72it/s]

지금 다 먹고 24564번째 도착완료 
  그리고 총 보상은 : 15.600000000000017 


 19%|█▉        | 56472/300000 [3:04:04<18:44:00,  3.61it/s]

지금 다 먹고 24565번째 도착완료 
  그리고 총 보상은 : 14.600000000000007 


 19%|█▉        | 56473/300000 [3:04:04<17:16:13,  3.92it/s]

지금 다 먹고 24566번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 56475/300000 [3:04:04<16:16:26,  4.16it/s]

지금 다 먹고 24567번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56477/300000 [3:04:05<16:02:56,  4.21it/s]

지금 다 먹고 24568번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56478/300000 [3:04:05<15:04:53,  4.49it/s]

지금 다 먹고 24569번째 도착완료 
  그리고 총 보상은 : 24.90000000000001 


 19%|█▉        | 56481/300000 [3:04:06<15:32:44,  4.35it/s]

지금 다 먹고 24570번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 56483/300000 [3:04:06<15:30:34,  4.36it/s]

지금 다 먹고 24571번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 24572번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 56486/300000 [3:04:07<15:57:02,  4.24it/s]

지금 다 먹고 24573번째 도착완료 
  그리고 총 보상은 : -1.8000000000000078 


 19%|█▉        | 56488/300000 [3:04:07<15:21:03,  4.41it/s]

지금 다 먹고 24574번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 
지금 다 먹고 24575번째 도착완료 
  그리고 총 보상은 : 20.300000000000008 

 19%|█▉        | 56489/300000 [3:04:08<15:00:57,  4.50it/s]


지금 다 먹고 24576번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 56492/300000 [3:04:08<15:04:23,  4.49it/s]

지금 다 먹고 24577번째 도착완료 
  그리고 총 보상은 : 22.6 


 19%|█▉        | 56494/300000 [3:04:09<16:06:53,  4.20it/s]

지금 다 먹고 24578번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56495/300000 [3:04:09<17:01:04,  3.97it/s]

지금 다 먹고 24579번째 도착완료 
  그리고 총 보상은 : -7.700000000000159 


 19%|█▉        | 56498/300000 [3:04:10<16:07:02,  4.20it/s]

지금 다 먹고 24580번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56501/300000 [3:04:10<15:41:58,  4.31it/s]

지금 다 먹고 24581번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.200000000000003
 end : True
 clear : True
episode :9, score = 5.490999999998125, n_buffer :100000 , eps : 21.749999999999996


 19%|█▉        | 56503/300000 [3:04:11<15:47:13,  4.28it/s]

지금 다 먹고 24582번째 도착완료 
  그리고 총 보상은 : 22.2 


 19%|█▉        | 56504/300000 [3:04:11<16:08:33,  4.19it/s]

지금 다 먹고 24583번째 도착완료 
  그리고 총 보상은 : 14.900000000000002 


 19%|█▉        | 56505/300000 [3:04:11<16:11:50,  4.18it/s]

지금 다 먹고 24584번째 도착완료 
  그리고 총 보상은 : -25.100000000000016 


 19%|█▉        | 56507/300000 [3:04:12<16:11:39,  4.18it/s]

지금 다 먹고 24585번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56509/300000 [3:04:12<15:26:15,  4.38it/s]

지금 다 먹고 24586번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56510/300000 [3:04:13<15:18:01,  4.42it/s]

지금 다 먹고 24587번째 도착완료 
  그리고 총 보상은 : 19.10000000000001 
지금 다 먹고 24588번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 56513/300000 [3:04:13<15:17:38,  4.42it/s]

지금 다 먹고 24589번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 19%|█▉        | 56514/300000 [3:04:13<15:01:10,  4.50it/s]

지금 다 먹고 24590번째 도착완료 
  그리고 총 보상은 : 18.100000000000016 
지금 다 먹고 24591번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 56516/300000 [3:04:14<14:17:40,  4.73it/s]

지금 다 먹고 24592번째 도착완료 
  그리고 총 보상은 : 19.200000000000003 


 19%|█▉        | 56518/300000 [3:04:14<15:51:25,  4.27it/s]

지금 다 먹고 24593번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 56519/300000 [3:04:15<14:52:58,  4.54it/s]

지금 다 먹고 24594번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 56520/300000 [3:04:15<14:41:38,  4.60it/s]

지금 다 먹고 24595번째 도착완료 
  그리고 총 보상은 : 4.700000000000005 


 19%|█▉        | 56521/300000 [3:04:15<15:14:45,  4.44it/s]

지금 다 먹고 24596번째 도착완료 
  그리고 총 보상은 : 11.400000000000015 
지금 다 먹고 24597번째 도착완료 
  그리고 총 보상은 : 23.3 


 19%|█▉        | 56523/300000 [3:04:15<14:01:43,  4.82it/s]

지금 다 먹고 24598번째 도착완료 
  그리고 총 보상은 : 20.5 
지금 다 먹고 24599번째 도착완료 
  그리고 총 보상은 : 17.4 


 19%|█▉        | 56526/300000 [3:04:16<14:34:52,  4.64it/s]

지금 다 먹고 24600번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 56528/300000 [3:04:17<14:20:37,  4.72it/s]

지금 다 먹고 24601번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 24602번째 도착완료 
  그리고 총 보상은 : 23.600000000000016 


 19%|█▉        | 56531/300000 [3:04:17<14:15:54,  4.74it/s]

지금 다 먹고 24603번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 24604번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 56534/300000 [3:04:18<16:49:20,  4.02it/s]

지금 다 먹고 24605번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 56536/300000 [3:04:18<16:29:59,  4.10it/s]

지금 다 먹고 24606번째 도착완료 
  그리고 총 보상은 : 10.100000000000021 


 19%|█▉        | 56537/300000 [3:04:19<16:38:10,  4.07it/s]

지금 다 먹고 24607번째 도착완료 
  그리고 총 보상은 : 5.900000000000002 
지금 다 먹고 24608번째 도착완료 
  그리고 총 보상은 : 23.3 


 19%|█▉        | 56539/300000 [3:04:19<15:27:18,  4.38it/s]

지금 다 먹고 24609번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56540/300000 [3:04:19<14:52:51,  4.54it/s]

지금 다 먹고 24610번째 도착완료 
  그리고 총 보상은 : 22.300000000000008 
지금 다 먹고 24611번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56542/300000 [3:04:20<14:56:11,  4.53it/s]

지금 다 먹고 24612번째 도착완료 
  그리고 총 보상은 : 8.100000000000021 
지금 다 먹고 24613번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 56545/300000 [3:04:20<14:30:02,  4.66it/s]

지금 다 먹고 24614번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 24615번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 56547/300000 [3:04:21<12:58:15,  5.21it/s]

지금 다 먹고 24616번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 56548/300000 [3:04:21<13:38:10,  4.96it/s]

지금 다 먹고 24617번째 도착완료 
  그리고 총 보상은 : 17.600000000000005 
지금 다 먹고 24618번째 도착완료 
  그리고 총 보상은 : 23.8 


 19%|█▉        | 56551/300000 [3:04:22<15:01:45,  4.50it/s]

지금 다 먹고 24619번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 
지금 다 먹고 24620번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56553/300000 [3:04:22<14:11:53,  4.76it/s]

지금 다 먹고 24621번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 19%|█▉        | 56554/300000 [3:04:22<14:09:43,  4.77it/s]

지금 다 먹고 24622번째 도착완료 
  그리고 총 보상은 : 4.200000000000003 


 19%|█▉        | 56555/300000 [3:04:22<14:46:14,  4.58it/s]

지금 다 먹고 24623번째 도착완료 
  그리고 총 보상은 : 10.500000000000025 
지금 다 먹고 24624번째 도착완료 
  그리고 총 보상은 : 14.400000000000004 


 19%|█▉        | 56557/300000 [3:04:23<14:11:31,  4.76it/s]

지금 다 먹고 24625번째 도착완료 
  그리고 총 보상은 : 17.9 
지금 다 먹고 24626번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 56559/300000 [3:04:23<13:06:46,  5.16it/s]

지금 다 먹고 24627번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 24628번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 19%|█▉        | 56561/300000 [3:04:24<13:52:48,  4.87it/s]

지금 다 먹고 24629번째 도착완료 
  그리고 총 보상은 : 9.80000000000003 


 19%|█▉        | 56563/300000 [3:04:24<15:14:24,  4.44it/s]

지금 다 먹고 24630번째 도착완료 
  그리고 총 보상은 : 14.800000000000018 
지금 다 먹고 24631번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 19%|█▉        | 56565/300000 [3:04:25<14:44:41,  4.59it/s]

지금 다 먹고 24632번째 도착완료 
  그리고 총 보상은 : 18.499999999999996 


 19%|█▉        | 56566/300000 [3:04:25<14:26:00,  4.68it/s]

지금 다 먹고 24633번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 19%|█▉        | 56568/300000 [3:04:25<14:48:56,  4.56it/s]

지금 다 먹고 24634번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 24635번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 56572/300000 [3:04:26<16:49:02,  4.02it/s]

지금 다 먹고 24636번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 


 19%|█▉        | 56573/300000 [3:04:26<16:03:53,  4.21it/s]

지금 다 먹고 24637번째 도착완료 
  그리고 총 보상은 : 18.400000000000002 


 19%|█▉        | 56574/300000 [3:04:27<15:23:32,  4.39it/s]

지금 다 먹고 24638번째 도착완료 
  그리고 총 보상은 : 14.100000000000001 
지금 다 먹고 24639번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 56576/300000 [3:04:27<14:04:37,  4.80it/s]

지금 다 먹고 24640번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 24641번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 56579/300000 [3:04:28<13:50:07,  4.89it/s]

지금 다 먹고 24642번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 24643번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 


 19%|█▉        | 56581/300000 [3:04:28<13:59:48,  4.83it/s]

지금 다 먹고 24644번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 
지금 다 먹고 24645번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 19%|█▉        | 56583/300000 [3:04:28<13:28:46,  5.02it/s]

지금 다 먹고 24646번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56584/300000 [3:04:29<13:24:59,  5.04it/s]

지금 다 먹고 24647번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 24648번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 

 19%|█▉        | 56585/300000 [3:04:29<13:50:03,  4.89it/s]


지금 다 먹고 24649번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56587/300000 [3:04:29<13:14:37,  5.11it/s]

지금 다 먹고 24650번째 도착완료 
  그리고 총 보상은 : 17.90000000000001 
지금 다 먹고 24651번째 도착완료 
  그리고 총 보상은 : 21.1 


 19%|█▉        | 56589/300000 [3:04:30<13:48:13,  4.90it/s]

지금 다 먹고 24652번째 도착완료 
  그리고 총 보상은 : 17.800000000000004 
지금 다 먹고 24653번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 19%|█▉        | 56591/300000 [3:04:30<14:44:12,  4.59it/s]

지금 다 먹고 24654번째 도착완료 
  그리고 총 보상은 : 11.600000000000046 
지금 다 먹고 24655번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 56593/300000 [3:04:31<14:07:04,  4.79it/s]

지금 다 먹고 24656번째 도착완료 
  그리고 총 보상은 : 21.4 
지금 다 먹고 24657번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 56595/300000 [3:04:31<13:49:48,  4.89it/s]

지금 다 먹고 24658번째 도착완료 
  그리고 총 보상은 : 13.200000000000033 
지금 다 먹고 24659번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56597/300000 [3:04:31<12:59:03,  5.21it/s]

지금 다 먹고 24660번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 
지금 다 먹고 24661번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▉        | 56599/300000 [3:04:32<12:37:30,  5.36it/s]

지금 다 먹고 24662번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 24663번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▉        | 56601/300000 [3:04:32<13:04:49,  5.17it/s]

지금 다 먹고 24664번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.300000000000004
 end : True
 clear : True
episode :7, score = 14.037999999999972, n_buffer :100000 , eps : 21.699999999999996


 19%|█▉        | 56602/300000 [3:04:32<13:53:07,  4.87it/s]

지금 다 먹고 24665번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 56603/300000 [3:04:32<13:35:31,  4.97it/s]

지금 다 먹고 24666번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 24667번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 19%|█▉        | 56605/300000 [3:04:33<13:25:08,  5.04it/s]

지금 다 먹고 24668번째 도착완료 
  그리고 총 보상은 : 22.0 
지금 다 먹고 24669번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 19%|█▉        | 56607/300000 [3:04:33<12:53:06,  5.25it/s]

지금 다 먹고 24670번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 24671번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 19%|█▉        | 56609/300000 [3:04:34<12:46:08,  5.29it/s]

지금 다 먹고 24672번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56611/300000 [3:04:34<13:43:41,  4.92it/s]

지금 다 먹고 24673번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 56612/300000 [3:04:34<14:30:49,  4.66it/s]

지금 다 먹고 24674번째 도착완료 
  그리고 총 보상은 : 11.800000000000015 
지금 다 먹고 24675번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 56615/300000 [3:04:35<14:22:47,  4.70it/s]

지금 다 먹고 24676번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 56616/300000 [3:04:35<14:28:15,  4.67it/s]

지금 다 먹고 24677번째 도착완료 
  그리고 총 보상은 : 5.400000000000006 


 19%|█▉        | 56619/300000 [3:04:36<15:24:11,  4.39it/s]

지금 다 먹고 24678번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 24679번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 56621/300000 [3:04:36<13:48:01,  4.90it/s]

지금 다 먹고 24680번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24681번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 19%|█▉        | 56623/300000 [3:04:37<14:18:02,  4.73it/s]

지금 다 먹고 24682번째 도착완료 
  그리고 총 보상은 : 14.900000000000013 


 19%|█▉        | 56625/300000 [3:04:37<14:49:42,  4.56it/s]

지금 다 먹고 24683번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 24684번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▉        | 56628/300000 [3:04:38<14:01:16,  4.82it/s]

지금 다 먹고 24685번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 56630/300000 [3:04:38<14:14:55,  4.74it/s]

지금 다 먹고 24686번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 56632/300000 [3:04:39<15:00:32,  4.50it/s]

지금 다 먹고 24687번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 24688번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 56634/300000 [3:04:39<13:48:53,  4.89it/s]

지금 다 먹고 24689번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 56637/300000 [3:04:40<15:04:50,  4.48it/s]

지금 다 먹고 24690번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56638/300000 [3:04:40<14:40:29,  4.61it/s]

지금 다 먹고 24691번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 19%|█▉        | 56639/300000 [3:04:40<14:55:59,  4.53it/s]

지금 다 먹고 24692번째 도착완료 
  그리고 총 보상은 : 13.30000000000002 
지금 다 먹고 24693번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 19%|█▉        | 56641/300000 [3:04:41<14:05:52,  4.79it/s]

지금 다 먹고 24694번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 24695번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 56643/300000 [3:04:41<13:56:43,  4.85it/s]

지금 다 먹고 24696번째 도착완료 
  그리고 총 보상은 : 20.100000000000012 


 19%|█▉        | 56644/300000 [3:04:41<15:01:14,  4.50it/s]

지금 다 먹고 24697번째 도착완료 
  그리고 총 보상은 : 12.10000000000002 
지금 다 먹고 24698번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 56647/300000 [3:04:42<14:38:46,  4.62it/s]

지금 다 먹고 24699번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 24700번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56649/300000 [3:04:42<13:18:40,  5.08it/s]

지금 다 먹고 24701번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 24702번째 도착완료 
  그리고 총 보상은 : 15.7 


 19%|█▉        | 56651/300000 [3:04:43<12:39:47,  5.34it/s]

지금 다 먹고 24703번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56653/300000 [3:04:43<15:20:45,  4.40it/s]

지금 다 먹고 24704번째 도착완료 
  그리고 총 보상은 : 9.400000000000027 
지금 다 먹고 24705번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▉        | 56656/300000 [3:04:44<15:46:45,  4.28it/s]

지금 다 먹고 24706번째 도착완료 
  그리고 총 보상은 : 14.000000000000021 
지금 다 먹고 24707번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 


 19%|█▉        | 56658/300000 [3:04:44<14:11:57,  4.76it/s]

지금 다 먹고 24708번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24709번째 도착완료 
  그리고 총 보상은 : 20.7 


 19%|█▉        | 56660/300000 [3:04:45<13:17:31,  5.09it/s]

지금 다 먹고 24710번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 56662/300000 [3:04:45<13:57:19,  4.84it/s]

지금 다 먹고 24711번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 56664/300000 [3:04:46<14:16:04,  4.74it/s]

지금 다 먹고 24712번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56667/300000 [3:04:46<15:44:11,  4.30it/s]

지금 다 먹고 24713번째 도착완료 
  그리고 총 보상은 : 24.6 


 19%|█▉        | 56670/300000 [3:04:47<15:20:43,  4.40it/s]

지금 다 먹고 24714번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 24715번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 56672/300000 [3:04:47<13:46:35,  4.91it/s]

지금 다 먹고 24716번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 56673/300000 [3:04:48<14:32:58,  4.65it/s]

지금 다 먹고 24717번째 도착완료 
  그리고 총 보상은 : 17.400000000000013 


 19%|█▉        | 56674/300000 [3:04:48<15:02:51,  4.49it/s]

지금 다 먹고 24718번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 


 19%|█▉        | 56676/300000 [3:04:48<17:46:13,  3.80it/s]

지금 다 먹고 24719번째 도착완료 
  그리고 총 보상은 : 8.200000000000005 


 19%|█▉        | 56677/300000 [3:04:49<16:48:01,  4.02it/s]

지금 다 먹고 24720번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 24721번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 19%|█▉        | 56679/300000 [3:04:49<14:34:35,  4.64it/s]

지금 다 먹고 24722번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 56681/300000 [3:04:49<14:29:38,  4.66it/s]

지금 다 먹고 24723번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56682/300000 [3:04:50<14:35:08,  4.63it/s]

지금 다 먹고 24724번째 도착완료 
  그리고 총 보상은 : 21.799999999999997 
지금 다 먹고 24725번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 56685/300000 [3:04:50<15:45:52,  4.29it/s]

지금 다 먹고 24726번째 도착완료 
  그리고 총 보상은 : 7.0999999999999694 


 19%|█▉        | 56686/300000 [3:04:51<15:57:07,  4.24it/s]

지금 다 먹고 24727번째 도착완료 
  그리고 총 보상은 : 13.100000000000032 


 19%|█▉        | 56687/300000 [3:04:51<16:20:27,  4.14it/s]

지금 다 먹고 24728번째 도착완료 
  그리고 총 보상은 : 7.00000000000003 
지금 다 먹고 24729번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 56689/300000 [3:04:51<14:38:27,  4.62it/s]

지금 다 먹고 24730번째 도착완료 
  그리고 총 보상은 : 23.200000000000006 


 19%|█▉        | 56690/300000 [3:04:52<14:54:59,  4.53it/s]

지금 다 먹고 24731번째 도착완료 
  그리고 총 보상은 : -12.900000000000013 


 19%|█▉        | 56691/300000 [3:04:52<15:03:42,  4.49it/s]

지금 다 먹고 24732번째 도착완료 
  그리고 총 보상은 : 19.30000000000001 
지금 다 먹고 24733번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 19%|█▉        | 56694/300000 [3:04:52<15:25:03,  4.38it/s]

지금 다 먹고 24734번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 


 19%|█▉        | 56696/300000 [3:04:53<15:06:23,  4.47it/s]

지금 다 먹고 24735번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 24736번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 19%|█▉        | 56698/300000 [3:04:53<13:55:27,  4.85it/s]

지금 다 먹고 24737번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 24738번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 56700/300000 [3:04:54<13:08:58,  5.14it/s]

지금 다 먹고 24739번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▉        | 56702/300000 [3:04:54<13:52:08,  4.87it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [200.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-24.500000000000057
 end : True
 clear : True
episode :5, score = 10.046999999998583, n_buffer :100000 , eps : 21.65
지금 다 먹고 24740번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 56703/300000 [3:04:54<14:37:11,  4.62it/s]

지금 다 먹고 24741번째 도착완료 
  그리고 총 보상은 : 13.200000000000019 


 19%|█▉        | 56705/300000 [3:04:55<15:06:04,  4.48it/s]

지금 다 먹고 24742번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 24743번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 

 19%|█▉        | 56706/300000 [3:04:55<14:24:50,  4.69it/s]




 19%|█▉        | 56707/300000 [3:04:55<14:43:34,  4.59it/s]

지금 다 먹고 24744번째 도착완료 
  그리고 총 보상은 : 8.400000000000011 
지금 다 먹고 24745번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 19%|█▉        | 56709/300000 [3:04:56<13:29:25,  5.01it/s]

지금 다 먹고 24746번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 24747번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56712/300000 [3:04:56<14:26:50,  4.68it/s]

지금 다 먹고 24748번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 19%|█▉        | 56713/300000 [3:04:56<14:18:28,  4.72it/s]

지금 다 먹고 24749번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 56715/300000 [3:04:57<14:47:17,  4.57it/s]

지금 다 먹고 24750번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56716/300000 [3:04:57<15:47:25,  4.28it/s]

지금 다 먹고 24751번째 도착완료 
  그리고 총 보상은 : -8.60000000000003 


 19%|█▉        | 56718/300000 [3:04:58<15:38:51,  4.32it/s]

지금 다 먹고 24752번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 24753번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 56720/300000 [3:04:58<15:11:56,  4.45it/s]

지금 다 먹고 24754번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 


 19%|█▉        | 56721/300000 [3:04:58<15:31:27,  4.35it/s]

지금 다 먹고 24755번째 도착완료 
  그리고 총 보상은 : 18.600000000000005 


 19%|█▉        | 56723/300000 [3:04:59<16:31:16,  4.09it/s]

지금 다 먹고 24756번째 도착완료 
  그리고 총 보상은 : 16.700000000000003 
지금 다 먹고 24757번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▉        | 56725/300000 [3:04:59<14:34:58,  4.63it/s]

지금 다 먹고 24758번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 24759번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 56727/300000 [3:05:00<15:23:21,  4.39it/s]

지금 다 먹고 24760번째 도착완료 
  그리고 총 보상은 : 13.900000000000034 


 19%|█▉        | 56728/300000 [3:05:00<15:20:44,  4.40it/s]

지금 다 먹고 24761번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 


 19%|█▉        | 56730/300000 [3:05:00<15:23:52,  4.39it/s]

지금 다 먹고 24762번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 24763번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 19%|█▉        | 56732/300000 [3:05:01<13:35:17,  4.97it/s]

지금 다 먹고 24764번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 24765번째 도착완료 
  그리고 총 보상은 : 17.800000000000004 


 19%|█▉        | 56734/300000 [3:05:01<12:47:44,  5.28it/s]

지금 다 먹고 24766번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 24767번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 56736/300000 [3:05:02<13:01:00,  5.19it/s]

지금 다 먹고 24768번째 도착완료 
  그리고 총 보상은 : 24.6 


 19%|█▉        | 56738/300000 [3:05:02<14:24:42,  4.69it/s]

지금 다 먹고 24769번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 24770번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 19%|█▉        | 56740/300000 [3:05:02<13:24:40,  5.04it/s]

지금 다 먹고 24771번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24772번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 19%|█▉        | 56742/300000 [3:05:03<14:11:38,  4.76it/s]

지금 다 먹고 24773번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▉        | 56743/300000 [3:05:03<14:06:39,  4.79it/s]

지금 다 먹고 24774번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 24775번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▉        | 56745/300000 [3:05:03<15:11:44,  4.45it/s]

지금 다 먹고 24776번째 도착완료 
  그리고 총 보상은 : 6.399999999999965 


 19%|█▉        | 56747/300000 [3:05:04<14:44:34,  4.58it/s]

지금 다 먹고 24777번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 24778번째 도착완료 
  그리고 총 보상은 : 22.2 


 19%|█▉        | 56749/300000 [3:05:04<13:35:49,  4.97it/s]

지금 다 먹고 24779번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 24780번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 


 19%|█▉        | 56751/300000 [3:05:05<13:39:14,  4.95it/s]

지금 다 먹고 24781번째 도착완료 
  그리고 총 보상은 : 18.500000000000014 
지금 다 먹고 24782번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 56753/300000 [3:05:05<12:54:49,  5.23it/s]

지금 다 먹고 24783번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 56755/300000 [3:05:06<14:49:06,  4.56it/s]

지금 다 먹고 24784번째 도착완료 
  그리고 총 보상은 : 19.6 


 19%|█▉        | 56757/300000 [3:05:06<15:53:42,  4.25it/s]

지금 다 먹고 24785번째 도착완료 
  그리고 총 보상은 : 19.10000000000001 


 19%|█▉        | 56759/300000 [3:05:07<16:38:34,  4.06it/s]

지금 다 먹고 24786번째 도착완료 
  그리고 총 보상은 : 19.400000000000013 


 19%|█▉        | 56761/300000 [3:05:07<16:48:09,  4.02it/s]

지금 다 먹고 24787번째 도착완료 
  그리고 총 보상은 : 20.6 
지금 다 먹고 24788번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 56763/300000 [3:05:08<16:13:57,  4.16it/s]

지금 다 먹고 24789번째 도착완료 
  그리고 총 보상은 : 10.200000000000017 
지금 다 먹고 24790번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 56768/300000 [3:05:09<17:01:48,  3.97it/s]

지금 다 먹고 24791번째 도착완료 
  그리고 총 보상은 : 13.200000000000038 


 19%|█▉        | 56772/300000 [3:05:10<17:26:57,  3.87it/s]

지금 다 먹고 24792번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 19%|█▉        | 56774/300000 [3:05:10<17:04:33,  3.96it/s]

지금 다 먹고 24793번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 56775/300000 [3:05:11<16:22:33,  4.13it/s]

지금 다 먹고 24794번째 도착완료 
  그리고 총 보상은 : 20.900000000000006 
지금 다 먹고 24795번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▉        | 56778/300000 [3:05:11<14:55:00,  4.53it/s]

지금 다 먹고 24796번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 24797번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 19%|█▉        | 56781/300000 [3:05:12<14:45:53,  4.58it/s]

지금 다 먹고 24798번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 56783/300000 [3:05:12<15:41:50,  4.30it/s]

지금 다 먹고 24799번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 


 19%|█▉        | 56784/300000 [3:05:13<15:50:00,  4.27it/s]

지금 다 먹고 24800번째 도착완료 
  그리고 총 보상은 : 12.90000000000001 
지금 다 먹고 24801번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 56787/300000 [3:05:13<14:42:57,  4.59it/s]

지금 다 먹고 24802번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 56789/300000 [3:05:14<15:52:38,  4.26it/s]

지금 다 먹고 24803번째 도착완료 
  그리고 총 보상은 : 19.10000000000001 
지금 다 먹고 24804번째 도착완료 
  그리고 총 보상은 : 21.7 


 19%|█▉        | 56791/300000 [3:05:14<14:56:16,  4.52it/s]

지금 다 먹고 24805번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 19%|█▉        | 56792/300000 [3:05:14<14:42:12,  4.59it/s]

지금 다 먹고 24806번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 19%|█▉        | 56793/300000 [3:05:15<14:35:21,  4.63it/s]

지금 다 먹고 24807번째 도착완료 
  그리고 총 보상은 : 13.100000000000009 
지금 다 먹고 24808번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 56795/300000 [3:05:15<13:58:55,  4.83it/s]

지금 다 먹고 24809번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 19%|█▉        | 56797/300000 [3:05:15<14:22:38,  4.70it/s]

지금 다 먹고 24810번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24811번째 도착완료 
  그리고 총 보상은 : 25.8 


 19%|█▉        | 56800/300000 [3:05:16<15:05:35,  4.48it/s]

지금 다 먹고 24812번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 56802/300000 [3:05:17<15:00:42,  4.50it/s]

epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1. 100.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-44.500000000000156
 end : True
 clear : True
episode :3, score = 8.178999999998616, n_buffer :100000 , eps : 21.599999999999998
지금 다 먹고 24813번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 56803/300000 [3:05:17<14:14:24,  4.74it/s]

지금 다 먹고 24814번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 24815번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 56806/300000 [3:05:17<14:48:50,  4.56it/s]

지금 다 먹고 24816번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 24817번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 19%|█▉        | 56808/300000 [3:05:18<13:41:52,  4.93it/s]

지금 다 먹고 24818번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 24819번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 19%|█▉        | 56810/300000 [3:05:18<13:22:09,  5.05it/s]

지금 다 먹고 24820번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 
지금 다 먹고 24821번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 56812/300000 [3:05:19<14:11:54,  4.76it/s]

지금 다 먹고 24822번째 도착완료 
  그리고 총 보상은 : 12.200000000000015 


 19%|█▉        | 56814/300000 [3:05:19<14:31:55,  4.65it/s]

지금 다 먹고 24823번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 24824번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56817/300000 [3:05:20<14:09:38,  4.77it/s]

지금 다 먹고 24825번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 56818/300000 [3:05:20<14:24:17,  4.69it/s]

지금 다 먹고 24826번째 도착완료 
  그리고 총 보상은 : 8.899999999999997 
지금 다 먹고 24827번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 56820/300000 [3:05:20<13:42:27,  4.93it/s]

지금 다 먹고 24828번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 24829번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 56823/300000 [3:05:21<14:01:26,  4.82it/s]

지금 다 먹고 24830번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 24831번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 56825/300000 [3:05:21<13:11:48,  5.12it/s]

지금 다 먹고 24832번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 24833번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 56827/300000 [3:05:22<12:25:11,  5.44it/s]

지금 다 먹고 24834번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24835번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 56829/300000 [3:05:22<12:47:13,  5.28it/s]

지금 다 먹고 24836번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 56830/300000 [3:05:22<13:19:23,  5.07it/s]

지금 다 먹고 24837번째 도착완료 
  그리고 총 보상은 : 17.1 


 19%|█▉        | 56832/300000 [3:05:23<14:23:15,  4.69it/s]

지금 다 먹고 24838번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 56834/300000 [3:05:23<14:35:45,  4.63it/s]

지금 다 먹고 24839번째 도착완료 
  그리고 총 보상은 : 24.600000000000012 
지금 다 먹고 24840번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 56836/300000 [3:05:24<13:30:03,  5.00it/s]

지금 다 먹고 24841번째 도착완료 
  그리고 총 보상은 : 20.400000000000006 
지금 다 먹고 24842번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 56838/300000 [3:05:24<12:55:52,  5.22it/s]

지금 다 먹고 24843번째 도착완료 
  그리고 총 보상은 : 22.0 


 19%|█▉        | 56840/300000 [3:05:24<13:48:11,  4.89it/s]

지금 다 먹고 24844번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 19%|█▉        | 56842/300000 [3:05:25<14:11:14,  4.76it/s]

지금 다 먹고 24845번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 24846번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56844/300000 [3:05:25<13:24:20,  5.04it/s]

지금 다 먹고 24847번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 24848번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 56846/300000 [3:05:26<13:55:35,  4.85it/s]

지금 다 먹고 24849번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 24850번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 19%|█▉        | 56847/300000 [3:05:26<13:40:39,  4.94it/s]

지금 다 먹고 24851번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 


 19%|█▉        | 56849/300000 [3:05:26<12:42:58,  5.31it/s]

지금 다 먹고 24852번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 56850/300000 [3:05:27<14:35:15,  4.63it/s]

지금 다 먹고 24853번째 도착완료 
  그리고 총 보상은 : 11.900000000000023 
지금 다 먹고 24854번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56853/300000 [3:05:27<15:22:17,  4.39it/s]

지금 다 먹고 24855번째 도착완료 
  그리고 총 보상은 : 13.600000000000005 
지금 다 먹고 24856번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 56855/300000 [3:05:28<14:06:50,  4.79it/s]

지금 다 먹고 24857번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 56857/300000 [3:05:28<15:09:40,  4.45it/s]

지금 다 먹고 24858번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 
지금 다 먹고 24859번째 도착완료 
  그리고 총 보상은 : 13.800000000000006 


 19%|█▉        | 56859/300000 [3:05:28<13:55:12,  4.85it/s]

지금 다 먹고 24860번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 
지금 다 먹고 24861번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 19%|█▉        | 56861/300000 [3:05:29<13:13:59,  5.10it/s]

지금 다 먹고 24862번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 
지금 다 먹고 24863번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 56863/300000 [3:05:29<12:31:04,  5.40it/s]

지금 다 먹고 24864번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 56866/300000 [3:05:30<15:05:35,  4.47it/s]

지금 다 먹고 24865번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▉        | 56868/300000 [3:05:30<15:13:41,  4.43it/s]

지금 다 먹고 24866번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 24867번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56870/300000 [3:05:31<13:39:23,  4.95it/s]

지금 다 먹고 24868번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 24869번째 도착완료 
  그리고 총 보상은 : 19.2 


 19%|█▉        | 56872/300000 [3:05:31<13:12:17,  5.11it/s]

지금 다 먹고 24870번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▉        | 56873/300000 [3:05:31<13:19:45,  5.07it/s]

지금 다 먹고 24871번째 도착완료 
  그리고 총 보상은 : 14.000000000000009 


 19%|█▉        | 56874/300000 [3:05:32<14:10:17,  4.77it/s]

지금 다 먹고 24872번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 


 19%|█▉        | 56875/300000 [3:05:32<15:13:33,  4.44it/s]

지금 다 먹고 24873번째 도착완료 
  그리고 총 보상은 : 16.100000000000016 


 19%|█▉        | 56876/300000 [3:05:32<14:17:08,  4.73it/s]

지금 다 먹고 24874번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 24875번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 19%|█▉        | 56878/300000 [3:05:32<13:16:11,  5.09it/s]

지금 다 먹고 24876번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 24877번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 19%|█▉        | 56880/300000 [3:05:33<13:00:43,  5.19it/s]

지금 다 먹고 24878번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 24879번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 56882/300000 [3:05:33<12:45:17,  5.29it/s]

지금 다 먹고 24880번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 56885/300000 [3:05:34<15:57:46,  4.23it/s]

지금 다 먹고 24881번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56886/300000 [3:05:34<15:35:02,  4.33it/s]

지금 다 먹고 24882번째 도착완료 
  그리고 총 보상은 : 14.800000000000022 


 19%|█▉        | 56888/300000 [3:05:35<15:46:56,  4.28it/s]

지금 다 먹고 24883번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 56889/300000 [3:05:35<15:18:06,  4.41it/s]

지금 다 먹고 24884번째 도착완료 
  그리고 총 보상은 : 19.799999999999997 


 19%|█▉        | 56891/300000 [3:05:35<15:19:15,  4.41it/s]

지금 다 먹고 24885번째 도착완료 
  그리고 총 보상은 : 23.80000000000001 


 19%|█▉        | 56893/300000 [3:05:36<15:45:50,  4.28it/s]

지금 다 먹고 24886번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24887번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 56895/300000 [3:05:36<14:43:25,  4.59it/s]

지금 다 먹고 24888번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 24889번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 19%|█▉        | 56897/300000 [3:05:37<14:07:16,  4.78it/s]

지금 다 먹고 24890번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 56898/300000 [3:05:37<13:42:38,  4.93it/s]

지금 다 먹고 24891번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 24892번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▉        | 56900/300000 [3:05:37<12:44:17,  5.30it/s]

지금 다 먹고 24893번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 56901/300000 [3:05:37<14:17:24,  4.73it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0. 100.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-30.500000000000092
 end : True
 clear : True
episode :1, score = 14.090000000001123, n_buffer :100000 , eps : 21.549999999999997
지금 다 먹고 24894번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 56904/300000 [3:05:38<14:44:07,  4.58it/s]

지금 다 먹고 24895번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 24896번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 56906/300000 [3:05:39<13:36:06,  4.96it/s]

지금 다 먹고 24897번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 56909/300000 [3:05:39<14:57:21,  4.51it/s]

지금 다 먹고 24898번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56910/300000 [3:05:39<14:45:07,  4.58it/s]

지금 다 먹고 24899번째 도착완료 
  그리고 총 보상은 : 18.900000000000002 
지금 다 먹고 24900번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 56912/300000 [3:05:40<14:11:59,  4.76it/s]

지금 다 먹고 24901번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 24902번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 19%|█▉        | 56913/300000 [3:05:40<13:45:42,  4.91it/s]

지금 다 먹고 24903번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 56915/300000 [3:05:40<12:56:52,  5.22it/s]

지금 다 먹고 24904번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 24905번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 56917/300000 [3:05:41<12:11:05,  5.54it/s]

지금 다 먹고 24906번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 56919/300000 [3:05:41<13:27:01,  5.02it/s]

지금 다 먹고 24907번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 56921/300000 [3:05:42<15:06:13,  4.47it/s]

지금 다 먹고 24908번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56922/300000 [3:05:42<14:42:03,  4.59it/s]

지금 다 먹고 24909번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▉        | 56925/300000 [3:05:43<16:34:54,  4.07it/s]

지금 다 먹고 24910번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 24911번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 56927/300000 [3:05:43<15:29:06,  4.36it/s]

지금 다 먹고 24912번째 도착완료 
  그리고 총 보상은 : 18.800000000000004 


 19%|█▉        | 56929/300000 [3:05:44<14:48:06,  4.56it/s]

지금 다 먹고 24913번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 24914번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 56931/300000 [3:05:44<13:37:35,  4.95it/s]

지금 다 먹고 24915번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 56933/300000 [3:05:44<14:11:19,  4.76it/s]

지금 다 먹고 24916번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 24917번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 56936/300000 [3:05:45<14:24:42,  4.68it/s]

지금 다 먹고 24918번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56938/300000 [3:05:46<15:12:21,  4.44it/s]

지금 다 먹고 24919번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 24920번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 56940/300000 [3:05:46<15:35:07,  4.33it/s]

지금 다 먹고 24921번째 도착완료 
  그리고 총 보상은 : 12.40000000000003 


 19%|█▉        | 56941/300000 [3:05:46<17:01:18,  3.97it/s]

지금 다 먹고 24922번째 도착완료 
  그리고 총 보상은 : -5.200000000000031 


 19%|█▉        | 56942/300000 [3:05:47<15:59:28,  4.22it/s]

지금 다 먹고 24923번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 
지금 다 먹고 24924번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56944/300000 [3:05:47<14:12:15,  4.75it/s]

지금 다 먹고 24925번째 도착완료 
  그리고 총 보상은 : 22.90000000000001 


 19%|█▉        | 56945/300000 [3:05:47<14:52:41,  4.54it/s]

지금 다 먹고 24926번째 도착완료 
  그리고 총 보상은 : 9.90000000000002 
지금 다 먹고 24927번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 19%|█▉        | 56947/300000 [3:05:48<13:32:09,  4.99it/s]

지금 다 먹고 24928번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 56948/300000 [3:05:48<13:57:31,  4.84it/s]

지금 다 먹고 24929번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▉        | 56949/300000 [3:05:48<14:18:57,  4.72it/s]

지금 다 먹고 24930번째 도착완료 
  그리고 총 보상은 : 15.600000000000023 
지금 다 먹고 24931번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▉        | 56951/300000 [3:05:48<13:23:38,  5.04it/s]

지금 다 먹고 24932번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56953/300000 [3:05:49<13:58:34,  4.83it/s]

지금 다 먹고 24933번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 56955/300000 [3:05:49<14:31:25,  4.65it/s]

지금 다 먹고 24934번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 24935번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 19%|█▉        | 56957/300000 [3:05:50<13:42:37,  4.92it/s]

지금 다 먹고 24936번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 56959/300000 [3:05:50<15:13:58,  4.43it/s]

지금 다 먹고 24937번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▉        | 56961/300000 [3:05:51<14:55:51,  4.52it/s]

지금 다 먹고 24938번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 24939번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 56963/300000 [3:05:51<15:19:28,  4.41it/s]

지금 다 먹고 24940번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 24941번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 56965/300000 [3:05:51<13:49:07,  4.89it/s]

지금 다 먹고 24942번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 24943번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56967/300000 [3:05:52<13:57:28,  4.84it/s]

지금 다 먹고 24944번째 도착완료 
  그리고 총 보상은 : 24.200000000000017 
지금 다 먹고 24945번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 56970/300000 [3:05:53<15:28:38,  4.36it/s]

지금 다 먹고 24946번째 도착완료 
  그리고 총 보상은 : 23.900000000000016 
지금 다 먹고 24947번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 56972/300000 [3:05:53<14:17:35,  4.72it/s]

지금 다 먹고 24948번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 56973/300000 [3:05:53<14:34:48,  4.63it/s]

지금 다 먹고 24949번째 도착완료 
  그리고 총 보상은 : 8.29999999999999 


 19%|█▉        | 56974/300000 [3:05:53<15:08:08,  4.46it/s]

지금 다 먹고 24950번째 도착완료 
  그리고 총 보상은 : 15.500000000000018 


 19%|█▉        | 56976/300000 [3:05:54<15:18:14,  4.41it/s]

지금 다 먹고 24951번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 24952번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 56978/300000 [3:05:54<15:00:57,  4.50it/s]

지금 다 먹고 24953번째 도착완료 
  그리고 총 보상은 : 20.80000000000001 


 19%|█▉        | 56979/300000 [3:05:55<14:32:19,  4.64it/s]

지금 다 먹고 24954번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 24955번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 56981/300000 [3:05:55<13:28:11,  5.01it/s]

지금 다 먹고 24956번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 24957번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 


 19%|█▉        | 56983/300000 [3:05:55<12:57:43,  5.21it/s]

지금 다 먹고 24958번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 24959번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 56985/300000 [3:05:56<13:14:52,  5.10it/s]

지금 다 먹고 24960번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 56987/300000 [3:05:56<14:19:24,  4.71it/s]

지금 다 먹고 24961번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 24962번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 56989/300000 [3:05:57<13:42:54,  4.92it/s]

지금 다 먹고 24963번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 24964번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▉        | 56991/300000 [3:05:57<12:55:50,  5.22it/s]

지금 다 먹고 24965번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 56993/300000 [3:05:57<13:44:58,  4.91it/s]

지금 다 먹고 24966번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 24967번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▉        | 56995/300000 [3:05:58<12:55:19,  5.22it/s]

지금 다 먹고 24968번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 24969번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 56997/300000 [3:05:58<12:39:26,  5.33it/s]

지금 다 먹고 24970번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 24971번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 56999/300000 [3:05:58<12:39:12,  5.33it/s]

지금 다 먹고 24972번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 24973번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 57001/300000 [3:05:59<12:34:14,  5.37it/s]

지금 다 먹고 24974번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.300000000000004
 end : True
 clear : True
episode :16, score = 14.698000000000006, n_buffer :100000 , eps : 21.499999999999996
지금 다 먹고 24975번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57004/300000 [3:05:59<13:12:44,  5.11it/s]

지금 다 먹고 24976번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57006/300000 [3:06:00<13:56:30,  4.84it/s]

지금 다 먹고 24977번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 24978번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 57008/300000 [3:06:00<12:52:29,  5.24it/s]

지금 다 먹고 24979번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57010/300000 [3:06:01<13:48:24,  4.89it/s]

지금 다 먹고 24980번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▉        | 57011/300000 [3:06:01<14:04:30,  4.80it/s]

지금 다 먹고 24981번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 
지금 다 먹고 24982번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57013/300000 [3:06:01<12:53:25,  5.24it/s]

지금 다 먹고 24983번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 24984번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▉        | 57015/300000 [3:06:02<12:33:37,  5.37it/s]

지금 다 먹고 24985번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 24986번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57017/300000 [3:06:02<12:13:07,  5.52it/s]

지금 다 먹고 24987번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 24988번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 57019/300000 [3:06:02<12:05:36,  5.58it/s]

지금 다 먹고 24989번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57021/300000 [3:06:03<13:22:37,  5.05it/s]

지금 다 먹고 24990번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57023/300000 [3:06:03<13:53:22,  4.86it/s]

지금 다 먹고 24991번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 24992번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57025/300000 [3:06:04<13:29:49,  5.00it/s]

지금 다 먹고 24993번째 도착완료 
  그리고 총 보상은 : 11.999999999999996 


 19%|█▉        | 57027/300000 [3:06:04<14:11:05,  4.76it/s]

지금 다 먹고 24994번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 57029/300000 [3:06:05<15:14:50,  4.43it/s]

지금 다 먹고 24995번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 
지금 다 먹고 24996번째 도착완료 
  그리고 총 보상은 : 23.1 


 19%|█▉        | 57031/300000 [3:06:05<14:14:44,  4.74it/s]

지금 다 먹고 24997번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 24998번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57033/300000 [3:06:05<13:10:54,  5.12it/s]

지금 다 먹고 24999번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 25000번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 57035/300000 [3:06:06<12:39:16,  5.33it/s]

지금 다 먹고 25001번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 25002번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57038/300000 [3:06:06<13:40:58,  4.93it/s]

지금 다 먹고 25003번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 19%|█▉        | 57040/300000 [3:06:07<14:39:38,  4.60it/s]

지금 다 먹고 25004번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57041/300000 [3:06:07<14:44:07,  4.58it/s]

지금 다 먹고 25005번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57042/300000 [3:06:07<14:14:48,  4.74it/s]

지금 다 먹고 25006번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 25007번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57046/300000 [3:06:08<15:17:24,  4.41it/s]

지금 다 먹고 25008번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25009번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 57048/300000 [3:06:09<14:18:20,  4.72it/s]

지금 다 먹고 25010번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25011번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▉        | 57050/300000 [3:06:09<13:27:57,  5.01it/s]

지금 다 먹고 25012번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 25013번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57052/300000 [3:06:09<12:40:47,  5.32it/s]

지금 다 먹고 25014번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 25015번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57055/300000 [3:06:10<14:46:19,  4.57it/s]

지금 다 먹고 25016번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▉        | 57057/300000 [3:06:10<14:52:06,  4.54it/s]

지금 다 먹고 25017번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 25018번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 57059/300000 [3:06:11<13:54:37,  4.85it/s]

지금 다 먹고 25019번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57061/300000 [3:06:11<14:39:56,  4.60it/s]

지금 다 먹고 25020번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 25021번째 도착완료 
  그리고 총 보상은 : 23.1 


 19%|█▉        | 57063/300000 [3:06:12<14:12:26,  4.75it/s]

지금 다 먹고 25022번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57064/300000 [3:06:12<13:42:32,  4.92it/s]

지금 다 먹고 25023번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57065/300000 [3:06:12<14:24:19,  4.68it/s]

지금 다 먹고 25024번째 도착완료 
  그리고 총 보상은 : 16.000000000000014 
지금 다 먹고 25025번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 57067/300000 [3:06:12<12:58:21,  5.20it/s]

지금 다 먹고 25026번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 25027번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57069/300000 [3:06:13<12:58:31,  5.20it/s]

지금 다 먹고 25028번째 도착완료 
  그리고 총 보상은 : 18.00000000000001 
지금 다 먹고 25029번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 19%|█▉        | 57072/300000 [3:06:13<13:26:59,  5.02it/s]

지금 다 먹고 25030번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57074/300000 [3:06:14<14:38:38,  4.61it/s]

지금 다 먹고 25031번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57075/300000 [3:06:14<14:37:20,  4.61it/s]

지금 다 먹고 25032번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 57078/300000 [3:06:15<15:15:38,  4.42it/s]

지금 다 먹고 25033번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57080/300000 [3:06:15<15:26:19,  4.37it/s]

지금 다 먹고 25034번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▉        | 57081/300000 [3:06:16<15:02:00,  4.49it/s]

지금 다 먹고 25035번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 
지금 다 먹고 25036번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 57083/300000 [3:06:16<13:40:45,  4.93it/s]

지금 다 먹고 25037번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 25038번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57085/300000 [3:06:16<13:14:05,  5.10it/s]

지금 다 먹고 25039번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57087/300000 [3:06:17<14:04:56,  4.79it/s]

지금 다 먹고 25040번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57089/300000 [3:06:17<14:36:18,  4.62it/s]

지금 다 먹고 25041번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 19%|█▉        | 57091/300000 [3:06:18<14:46:12,  4.57it/s]

지금 다 먹고 25042번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25043번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57093/300000 [3:06:18<14:00:51,  4.81it/s]

지금 다 먹고 25044번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57094/300000 [3:06:18<15:10:05,  4.45it/s]

지금 다 먹고 25045번째 도착완료 
  그리고 총 보상은 : 6.600000000000039 
지금 다 먹고 25046번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 


 19%|█▉        | 57096/300000 [3:06:19<13:46:49,  4.90it/s]

지금 다 먹고 25047번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 25048번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57098/300000 [3:06:19<13:06:33,  5.15it/s]

지금 다 먹고 25049번째 도착완료 
  그리고 총 보상은 : 16.099999999999998 
지금 다 먹고 25050번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57100/300000 [3:06:19<12:39:09,  5.33it/s]

지금 다 먹고 25051번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 25052번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 19%|█▉        | 57102/300000 [3:06:20<12:22:48,  5.45it/s]

epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.700000000000006
 end : True
 clear : True
episode :14, score = 13.171000000000019, n_buffer :100000 , eps : 21.449999999999996
지금 다 먹고 25053번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 57103/300000 [3:06:20<12:11:44,  5.53it/s]

지금 다 먹고 25054번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 25055번째 도착완료 
  그리고 총 보상은 : 3.299999999999997 


 19%|█▉        | 57106/300000 [3:06:21<13:24:38,  5.03it/s]

지금 다 먹고 25056번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57108/300000 [3:06:21<13:59:14,  4.82it/s]

지금 다 먹고 25057번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25058번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57110/300000 [3:06:21<12:49:49,  5.26it/s]

지금 다 먹고 25059번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57112/300000 [3:06:22<14:15:04,  4.73it/s]

지금 다 먹고 25060번째 도착완료 
  그리고 총 보상은 : 24.00000000000001 
지금 다 먹고 25061번째 도착완료 
  그리고 총 보상은 : 25.0 


 19%|█▉        | 57114/300000 [3:06:22<14:01:42,  4.81it/s]

지금 다 먹고 25062번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 19%|█▉        | 57115/300000 [3:06:23<13:50:25,  4.87it/s]

지금 다 먹고 25063번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 
지금 다 먹고 25064번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57117/300000 [3:06:23<12:59:01,  5.20it/s]

지금 다 먹고 25065번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25066번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▉        | 57119/300000 [3:06:23<12:13:37,  5.52it/s]

지금 다 먹고 25067번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 25068번째 도착완료 
  그리고 총 보상은 : 23.70000000000001 


 19%|█▉        | 57121/300000 [3:06:24<12:08:08,  5.56it/s]

지금 다 먹고 25069번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▉        | 57123/300000 [3:06:24<13:05:50,  5.15it/s]

지금 다 먹고 25070번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57125/300000 [3:06:24<14:24:59,  4.68it/s]

지금 다 먹고 25071번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25072번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57127/300000 [3:06:25<13:40:40,  4.93it/s]

지금 다 먹고 25073번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57129/300000 [3:06:25<14:06:01,  4.78it/s]

지금 다 먹고 25074번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 25075번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57131/300000 [3:06:26<14:44:08,  4.58it/s]

지금 다 먹고 25076번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 


 19%|█▉        | 57132/300000 [3:06:26<14:23:57,  4.69it/s]

지금 다 먹고 25077번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 25078번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▉        | 57134/300000 [3:06:26<13:29:27,  5.00it/s]

지금 다 먹고 25079번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 25080번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57136/300000 [3:06:27<12:36:28,  5.35it/s]

지금 다 먹고 25081번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57138/300000 [3:06:27<13:19:59,  5.06it/s]

지금 다 먹고 25082번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57140/300000 [3:06:28<14:27:41,  4.66it/s]

지금 다 먹고 25083번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57141/300000 [3:06:28<14:42:36,  4.59it/s]

지금 다 먹고 25084번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 25085번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57143/300000 [3:06:28<13:13:55,  5.10it/s]

지금 다 먹고 25086번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 25087번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57146/300000 [3:06:29<14:48:18,  4.56it/s]

지금 다 먹고 25088번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 25089번째 도착완료 
  그리고 총 보상은 : 22.9 


 19%|█▉        | 57148/300000 [3:06:29<13:24:13,  5.03it/s]

지금 다 먹고 25090번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 25091번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57150/300000 [3:06:30<13:03:13,  5.17it/s]

지금 다 먹고 25092번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 25093번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57152/300000 [3:06:30<12:28:49,  5.41it/s]

지금 다 먹고 25094번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57153/300000 [3:06:30<13:36:52,  4.95it/s]

지금 다 먹고 25095번째 도착완료 
  그리고 총 보상은 : 8.599999999999982 


 19%|█▉        | 57155/300000 [3:06:31<14:13:08,  4.74it/s]

지금 다 먹고 25096번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57157/300000 [3:06:31<14:47:31,  4.56it/s]

지금 다 먹고 25097번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 19%|█▉        | 57159/300000 [3:06:32<14:49:35,  4.55it/s]

지금 다 먹고 25098번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57161/300000 [3:06:32<14:42:17,  4.59it/s]

지금 다 먹고 25099번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57165/300000 [3:06:33<15:52:01,  4.25it/s]

지금 다 먹고 25100번째 도착완료 
  그리고 총 보상은 : 24.90000000000001 
지금 다 먹고 25101번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 57167/300000 [3:06:33<13:41:29,  4.93it/s]

지금 다 먹고 25102번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 25103번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57169/300000 [3:06:34<14:07:12,  4.78it/s]

지금 다 먹고 25104번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 57170/300000 [3:06:34<13:42:48,  4.92it/s]

지금 다 먹고 25105번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57171/300000 [3:06:34<13:56:59,  4.84it/s]

지금 다 먹고 25106번째 도착완료 
  그리고 총 보상은 : 19.800000000000008 
지금 다 먹고 25107번째 도착완료 
  그리고 총 보상은 : 24.90000000000001 


 19%|█▉        | 57174/300000 [3:06:35<14:03:53,  4.80it/s]

지금 다 먹고 25108번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57176/300000 [3:06:35<14:14:11,  4.74it/s]

지금 다 먹고 25109번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25110번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57178/300000 [3:06:36<12:58:56,  5.20it/s]

지금 다 먹고 25111번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57180/300000 [3:06:36<14:04:13,  4.79it/s]

지금 다 먹고 25112번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 25113번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57182/300000 [3:06:36<12:52:22,  5.24it/s]

지금 다 먹고 25114번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 25115번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57184/300000 [3:06:37<13:29:28,  5.00it/s]

지금 다 먹고 25116번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 25117번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 57186/300000 [3:06:37<13:14:13,  5.10it/s]

지금 다 먹고 25118번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57187/300000 [3:06:37<13:36:08,  4.96it/s]

지금 다 먹고 25119번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57188/300000 [3:06:38<13:47:58,  4.89it/s]

지금 다 먹고 25120번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 57189/300000 [3:06:38<13:52:26,  4.86it/s]

지금 다 먹고 25121번째 도착완료 
  그리고 총 보상은 : 19.5 


 19%|█▉        | 57191/300000 [3:06:38<13:44:36,  4.91it/s]

지금 다 먹고 25122번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▉        | 57193/300000 [3:06:39<13:59:22,  4.82it/s]

지금 다 먹고 25123번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 25124번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 19%|█▉        | 57195/300000 [3:06:39<12:52:59,  5.24it/s]

지금 다 먹고 25125번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57197/300000 [3:06:40<13:46:47,  4.89it/s]

지금 다 먹고 25126번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 


 19%|█▉        | 57198/300000 [3:06:40<14:38:51,  4.60it/s]

지금 다 먹고 25127번째 도착완료 
  그리고 총 보상은 : 18.8 


 19%|█▉        | 57199/300000 [3:06:40<14:14:04,  4.74it/s]

지금 다 먹고 25128번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 25129번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 57201/300000 [3:06:40<13:21:43,  5.05it/s]

지금 다 먹고 25130번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :22.700000000000003
 end : True
 clear : True
episode :12, score = 13.442999999999975, n_buffer :100000 , eps : 21.4
지금 다 먹고 25131번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57203/300000 [3:06:41<12:33:49,  5.37it/s]

지금 다 먹고 25132번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 25133번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57206/300000 [3:06:41<13:06:58,  5.14it/s]

지금 다 먹고 25134번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57208/300000 [3:06:42<14:40:30,  4.60it/s]

지금 다 먹고 25135번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57210/300000 [3:06:42<14:27:33,  4.66it/s]

지금 다 먹고 25136번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 25137번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57212/300000 [3:06:43<13:06:46,  5.14it/s]

지금 다 먹고 25138번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57214/300000 [3:06:43<14:55:19,  4.52it/s]

지금 다 먹고 25139번째 도착완료 
  그리고 총 보상은 : 15.70000000000001 


 19%|█▉        | 57215/300000 [3:06:43<14:55:31,  4.52it/s]

지금 다 먹고 25140번째 도착완료 
  그리고 총 보상은 : -6.700000000000024 


 19%|█▉        | 57217/300000 [3:06:44<15:48:08,  4.27it/s]

지금 다 먹고 25141번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 57218/300000 [3:06:44<15:07:14,  4.46it/s]

지금 다 먹고 25142번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25143번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 

 19%|█▉        | 57219/300000 [3:06:44<14:44:48,  4.57it/s]




 19%|█▉        | 57220/300000 [3:06:44<14:33:06,  4.63it/s]

지금 다 먹고 25144번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▉        | 57221/300000 [3:06:45<14:45:55,  4.57it/s]

지금 다 먹고 25145번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 19%|█▉        | 57223/300000 [3:06:45<15:04:14,  4.47it/s]

지금 다 먹고 25146번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57225/300000 [3:06:46<15:06:31,  4.46it/s]

지금 다 먹고 25147번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57227/300000 [3:06:46<15:55:07,  4.24it/s]

지금 다 먹고 25148번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 25149번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57229/300000 [3:06:47<14:15:34,  4.73it/s]

지금 다 먹고 25150번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57232/300000 [3:06:47<14:41:40,  4.59it/s]

지금 다 먹고 25151번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 25152번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 57234/300000 [3:06:48<13:11:29,  5.11it/s]

지금 다 먹고 25153번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 25154번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 19%|█▉        | 57236/300000 [3:06:48<12:55:33,  5.22it/s]

지금 다 먹고 25155번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25156번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57238/300000 [3:06:48<12:46:49,  5.28it/s]

지금 다 먹고 25157번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25158번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57240/300000 [3:06:49<12:57:04,  5.21it/s]

지금 다 먹고 25159번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57241/300000 [3:06:49<13:53:47,  4.85it/s]

지금 다 먹고 25160번째 도착완료 
  그리고 총 보상은 : 12.80000000000002 
지금 다 먹고 25161번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57244/300000 [3:06:50<15:12:26,  4.43it/s]

지금 다 먹고 25162번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 57245/300000 [3:06:50<14:17:10,  4.72it/s]

지금 다 먹고 25163번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 25164번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57248/300000 [3:06:50<14:27:37,  4.66it/s]

지금 다 먹고 25165번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 
지금 다 먹고 25166번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 57250/300000 [3:06:51<13:08:03,  5.13it/s]

지금 다 먹고 25167번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 25168번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57252/300000 [3:06:51<12:40:57,  5.32it/s]

지금 다 먹고 25169번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 
지금 다 먹고 25170번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 19%|█▉        | 57254/300000 [3:06:52<13:15:21,  5.09it/s]

지금 다 먹고 25171번째 도착완료 
  그리고 총 보상은 : 17.000000000000007 
지금 다 먹고 25172번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57256/300000 [3:06:52<13:07:48,  5.14it/s]

지금 다 먹고 25173번째 도착완료 
  그리고 총 보상은 : 20.000000000000004 
지금 다 먹고 25174번째 도착완료 
  그리고 총 보상은 : 22.900000000000013 


 19%|█▉        | 57259/300000 [3:06:53<14:29:47,  4.65it/s]

지금 다 먹고 25175번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57261/300000 [3:06:53<14:43:35,  4.58it/s]

지금 다 먹고 25176번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57263/300000 [3:06:54<14:59:11,  4.50it/s]

지금 다 먹고 25177번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57265/300000 [3:06:54<15:43:52,  4.29it/s]

지금 다 먹고 25178번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 


 19%|█▉        | 57267/300000 [3:06:55<16:12:26,  4.16it/s]

지금 다 먹고 25179번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 25180번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▉        | 57270/300000 [3:06:55<15:10:17,  4.44it/s]

지금 다 먹고 25181번째 도착완료 
  그리고 총 보상은 : 24.100000000000012 
지금 다 먹고 25182번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 57272/300000 [3:06:56<14:01:26,  4.81it/s]

지금 다 먹고 25183번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57273/300000 [3:06:56<14:11:13,  4.75it/s]

지금 다 먹고 25184번째 도착완료 
  그리고 총 보상은 : 17.10000000000001 
지금 다 먹고 25185번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57276/300000 [3:06:56<13:55:57,  4.84it/s]

지금 다 먹고 25186번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57278/300000 [3:06:57<14:39:07,  4.60it/s]

지금 다 먹고 25187번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 25188번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57280/300000 [3:06:57<13:22:36,  5.04it/s]

지금 다 먹고 25189번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 57282/300000 [3:06:58<15:11:20,  4.44it/s]

지금 다 먹고 25190번째 도착완료 
  그리고 총 보상은 : 21.100000000000016 


 19%|█▉        | 57284/300000 [3:06:58<16:14:28,  4.15it/s]

지금 다 먹고 25191번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 
지금 다 먹고 25192번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 57286/300000 [3:06:59<14:33:34,  4.63it/s]

지금 다 먹고 25193번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 
지금 다 먹고 25194번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57288/300000 [3:06:59<13:18:56,  5.06it/s]

지금 다 먹고 25195번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25196번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57290/300000 [3:07:00<13:27:27,  5.01it/s]

지금 다 먹고 25197번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 
지금 다 먹고 25198번째 도착완료 
  그리고 총 보상은 : 25.400000000000013 


 19%|█▉        | 57293/300000 [3:07:00<14:19:59,  4.70it/s]

지금 다 먹고 25199번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 19%|█▉        | 57295/300000 [3:07:01<14:49:07,  4.55it/s]

지금 다 먹고 25200번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 25201번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57297/300000 [3:07:01<13:18:35,  5.07it/s]

지금 다 먹고 25202번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57299/300000 [3:07:01<14:18:33,  4.71it/s]

지금 다 먹고 25203번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 57300/300000 [3:07:02<14:46:01,  4.57it/s]

지금 다 먹고 25204번째 도착완료 
  그리고 총 보상은 : 17.800000000000015 


 19%|█▉        | 57301/300000 [3:07:02<14:49:00,  4.55it/s]

지금 다 먹고 25205번째 도착완료 
  그리고 총 보상은 : 17.800000000000004 
epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :17.800000000000004
 end : True
 clear : True
episode :10, score = 10.102999999999087, n_buffer :100000 , eps : 21.349999999999998


 19%|█▉        | 57302/300000 [3:07:02<14:35:19,  4.62it/s]

지금 다 먹고 25206번째 도착완료 
  그리고 총 보상은 : 19.900000000000006 
지금 다 먹고 25207번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57304/300000 [3:07:02<13:23:59,  5.03it/s]

지금 다 먹고 25208번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57305/300000 [3:07:03<13:43:29,  4.91it/s]

지금 다 먹고 25209번째 도착완료 
  그리고 총 보상은 : 20.499999999999996 
지금 다 먹고 25210번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57307/300000 [3:07:03<13:18:03,  5.07it/s]

지금 다 먹고 25211번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 25212번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57310/300000 [3:07:04<13:28:45,  5.00it/s]

지금 다 먹고 25213번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▉        | 57312/300000 [3:07:04<14:26:50,  4.67it/s]

지금 다 먹고 25214번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 25215번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57314/300000 [3:07:05<13:17:41,  5.07it/s]

지금 다 먹고 25216번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57316/300000 [3:07:05<14:53:19,  4.53it/s]

지금 다 먹고 25217번째 도착완료 
  그리고 총 보상은 : 15.50000000000001 
지금 다 먹고 25218번째 도착완료 
  그리고 총 보상은 : 19.999999999999996 


 19%|█▉        | 57318/300000 [3:07:05<14:11:10,  4.75it/s]

지금 다 먹고 25219번째 도착완료 
  그리고 총 보상은 : 24.100000000000016 


 19%|█▉        | 57319/300000 [3:07:06<15:12:45,  4.43it/s]

지금 다 먹고 25220번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 


 19%|█▉        | 57320/300000 [3:07:06<15:42:07,  4.29it/s]

지금 다 먹고 25221번째 도착완료 
  그리고 총 보상은 : 16.000000000000007 


 19%|█▉        | 57321/300000 [3:07:06<15:03:50,  4.47it/s]

지금 다 먹고 25222번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 25223번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 


 19%|█▉        | 57323/300000 [3:07:07<13:51:30,  4.86it/s]

지금 다 먹고 25224번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57325/300000 [3:07:07<14:09:16,  4.76it/s]

지금 다 먹고 25225번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57327/300000 [3:07:07<15:21:53,  4.39it/s]

지금 다 먹고 25226번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 57328/300000 [3:07:08<15:03:09,  4.48it/s]

지금 다 먹고 25227번째 도착완료 
  그리고 총 보상은 : 13.600000000000005 
지금 다 먹고 25228번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57330/300000 [3:07:08<15:01:09,  4.49it/s]

지금 다 먹고 25229번째 도착완료 
  그리고 총 보상은 : 20.700000000000014 
지금 다 먹고 25230번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57333/300000 [3:07:09<14:34:51,  4.62it/s]

지금 다 먹고 25231번째 도착완료 
  그리고 총 보상은 : 24.900000000000013 
지금 다 먹고 25232번째 도착완료 
  그리고 총 보상은 : 21.5 


 19%|█▉        | 57335/300000 [3:07:09<14:30:26,  4.65it/s]

지금 다 먹고 25233번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 19%|█▉        | 57336/300000 [3:07:09<14:05:10,  4.79it/s]

지금 다 먹고 25234번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25235번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 19%|█▉        | 57338/300000 [3:07:10<13:26:00,  5.02it/s]

지금 다 먹고 25236번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25237번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 

 19%|█▉        | 57339/300000 [3:07:10<13:53:39,  4.85it/s]


지금 다 먹고 25238번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57341/300000 [3:07:10<14:17:40,  4.72it/s]

지금 다 먹고 25239번째 도착완료 
  그리고 총 보상은 : 12.50000000000001 
지금 다 먹고 25240번째 도착완료 
  그리고 총 보상은 : 27.10000000000001 


 19%|█▉        | 57345/300000 [3:07:11<14:45:53,  4.57it/s]

지금 다 먹고 25241번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 25242번째 도착완료 
  그리고 총 보상은 : 24.50000000000001 


 19%|█▉        | 57347/300000 [3:07:12<13:42:06,  4.92it/s]

지금 다 먹고 25243번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25244번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57350/300000 [3:07:12<14:42:18,  4.58it/s]

지금 다 먹고 25245번째 도착완료 
  그리고 총 보상은 : 23.10000000000001 


 19%|█▉        | 57351/300000 [3:07:13<14:29:12,  4.65it/s]

지금 다 먹고 25246번째 도착완료 
  그리고 총 보상은 : 18.0 
지금 다 먹고 25247번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▉        | 57353/300000 [3:07:13<13:32:56,  4.97it/s]

지금 다 먹고 25248번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 25249번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▉        | 57355/300000 [3:07:13<12:39:50,  5.32it/s]

지금 다 먹고 25250번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25251번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57357/300000 [3:07:14<12:14:30,  5.51it/s]

지금 다 먹고 25252번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25253번째 도착완료 
  그리고 총 보상은 : 19.5 


 19%|█▉        | 57359/300000 [3:07:14<12:52:55,  5.23it/s]

지금 다 먹고 25254번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 19%|█▉        | 57360/300000 [3:07:14<14:36:19,  4.61it/s]

지금 다 먹고 25255번째 도착완료 
  그리고 총 보상은 : 2.3999999999999737 


 19%|█▉        | 57361/300000 [3:07:15<14:19:10,  4.71it/s]

지금 다 먹고 25256번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57363/300000 [3:07:15<14:18:08,  4.71it/s]

지금 다 먹고 25257번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 57364/300000 [3:07:15<14:12:51,  4.74it/s]

지금 다 먹고 25258번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 25259번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57366/300000 [3:07:16<14:12:46,  4.74it/s]

지금 다 먹고 25260번째 도착완료 
  그리고 총 보상은 : 10.600000000000035 
지금 다 먹고 25261번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 


 19%|█▉        | 57368/300000 [3:07:16<13:24:23,  5.03it/s]

지금 다 먹고 25262번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 25263번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 19%|█▉        | 57370/300000 [3:07:16<13:32:55,  4.97it/s]

지금 다 먹고 25264번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 19%|█▉        | 57371/300000 [3:07:17<14:39:59,  4.60it/s]

지금 다 먹고 25265번째 도착완료 
  그리고 총 보상은 : 12.00000000000001 
지금 다 먹고 25266번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57373/300000 [3:07:17<13:31:30,  4.98it/s]

지금 다 먹고 25267번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 25268번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 57375/300000 [3:07:17<13:43:18,  4.91it/s]

지금 다 먹고 25269번째 도착완료 
  그리고 총 보상은 : 16.900000000000006 
지금 다 먹고 25270번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57378/300000 [3:07:18<13:51:03,  4.87it/s]

지금 다 먹고 25271번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57380/300000 [3:07:18<14:19:25,  4.71it/s]

지금 다 먹고 25272번째 도착완료 
  그리고 총 보상은 : 23.500000000000014 
지금 다 먹고 25273번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57382/300000 [3:07:19<12:56:35,  5.21it/s]

지금 다 먹고 25274번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57384/300000 [3:07:19<13:47:45,  4.89it/s]

지금 다 먹고 25275번째 도착완료 
  그리고 총 보상은 : 25.00000000000001 


 19%|█▉        | 57386/300000 [3:07:20<14:19:07,  4.71it/s]

지금 다 먹고 25276번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 
지금 다 먹고 25277번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 57388/300000 [3:07:20<13:47:09,  4.89it/s]

지금 다 먹고 25278번째 도착완료 
  그리고 총 보상은 : 18.10000000000001 
지금 다 먹고 25279번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57390/300000 [3:07:21<13:41:01,  4.92it/s]

지금 다 먹고 25280번째 도착완료 
  그리고 총 보상은 : 21.000000000000014 
지금 다 먹고 25281번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57392/300000 [3:07:21<12:47:35,  5.27it/s]

지금 다 먹고 25282번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57395/300000 [3:07:22<14:44:08,  4.57it/s]

지금 다 먹고 25283번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57396/300000 [3:07:22<14:42:16,  4.58it/s]

지금 다 먹고 25284번째 도착완료 
  그리고 총 보상은 : 16.8 
지금 다 먹고 25285번째 도착완료 
  그리고 총 보상은 : 24.400000000000016 


 19%|█▉        | 57398/300000 [3:07:22<13:47:30,  4.89it/s]

지금 다 먹고 25286번째 도착완료 
  그리고 총 보상은 : 21.500000000000007 
지금 다 먹고 25287번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57400/300000 [3:07:23<14:25:50,  4.67it/s]

지금 다 먹고 25288번째 도착완료 
  그리고 총 보상은 : 4.800000000000022 


 19%|█▉        | 57401/300000 [3:07:23<15:21:59,  4.39it/s]

지금 다 먹고 25289번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :19.700000000000006
 end : True
 clear : True
episode :8, score = 15.434000000001612, n_buffer :100000 , eps : 21.299999999999997


 19%|█▉        | 57403/300000 [3:07:23<15:07:21,  4.46it/s]

지금 다 먹고 25290번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 25291번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 57405/300000 [3:07:24<13:28:32,  5.00it/s]

지금 다 먹고 25292번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57406/300000 [3:07:24<14:19:58,  4.70it/s]

지금 다 먹고 25293번째 도착완료 
  그리고 총 보상은 : 14.100000000000009 


 19%|█▉        | 57407/300000 [3:07:24<15:53:11,  4.24it/s]

지금 다 먹고 25294번째 도착완료 
  그리고 총 보상은 : 4.600000000000039 
지금 다 먹고 25295번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 

 19%|█▉        | 57408/300000 [3:07:24<14:42:15,  4.58it/s]




 19%|█▉        | 57410/300000 [3:07:25<14:33:27,  4.63it/s]

지금 다 먹고 25296번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57412/300000 [3:07:25<14:26:05,  4.67it/s]

지금 다 먹고 25297번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57413/300000 [3:07:26<14:36:16,  4.61it/s]

지금 다 먹고 25298번째 도착완료 
  그리고 총 보상은 : 13.70000000000001 
지금 다 먹고 25299번째 도착완료 
  그리고 총 보상은 : 22.30000000000001 


 19%|█▉        | 57418/300000 [3:07:27<16:52:15,  3.99it/s]

지금 다 먹고 25300번째 도착완료 
  그리고 총 보상은 : 10.100000000000023 


 19%|█▉        | 57420/300000 [3:07:27<16:12:45,  4.16it/s]

지금 다 먹고 25301번째 도착완료 
  그리고 총 보상은 : 21.00000000000001 


 19%|█▉        | 57421/300000 [3:07:27<15:57:30,  4.22it/s]

지금 다 먹고 25302번째 도착완료 
  그리고 총 보상은 : 13.400000000000006 


 19%|█▉        | 57422/300000 [3:07:28<16:06:59,  4.18it/s]

지금 다 먹고 25303번째 도착완료 
  그리고 총 보상은 : 14.70000000000001 


 19%|█▉        | 57424/300000 [3:07:28<15:40:33,  4.30it/s]

지금 다 먹고 25304번째 도착완료 
  그리고 총 보상은 : 23.30000000000001 
지금 다 먹고 25305번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57426/300000 [3:07:29<14:57:37,  4.50it/s]

지금 다 먹고 25306번째 도착완료 
  그리고 총 보상은 : 19.100000000000012 
지금 다 먹고 25307번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57429/300000 [3:07:29<14:13:10,  4.74it/s]

지금 다 먹고 25308번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57431/300000 [3:07:30<16:32:22,  4.07it/s]

지금 다 먹고 25309번째 도착완료 
  그리고 총 보상은 : 15.400000000000006 
지금 다 먹고 25310번째 도착완료 
  그리고 총 보상은 : 22.50000000000001 


 19%|█▉        | 57433/300000 [3:07:30<14:34:20,  4.62it/s]

지금 다 먹고 25311번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57437/300000 [3:07:31<16:11:41,  4.16it/s]

지금 다 먹고 25312번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 


 19%|█▉        | 57438/300000 [3:07:31<15:29:43,  4.35it/s]

지금 다 먹고 25313번째 도착완료 
  그리고 총 보상은 : 20.000000000000014 
지금 다 먹고 25314번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57441/300000 [3:07:32<14:37:07,  4.61it/s]

지금 다 먹고 25315번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 
지금 다 먹고 25316번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57444/300000 [3:07:33<15:08:05,  4.45it/s]

지금 다 먹고 25317번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57446/300000 [3:07:33<14:46:20,  4.56it/s]

지금 다 먹고 25318번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57448/300000 [3:07:34<15:25:26,  4.37it/s]

지금 다 먹고 25319번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 57449/300000 [3:07:34<16:03:38,  4.20it/s]

지금 다 먹고 25320번째 도착완료 
  그리고 총 보상은 : 15.800000000000006 
지금 다 먹고 25321번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57452/300000 [3:07:35<15:01:21,  4.48it/s]

지금 다 먹고 25322번째 도착완료 
  그리고 총 보상은 : 19.800000000000008 
지금 다 먹고 25323번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 19%|█▉        | 57455/300000 [3:07:35<14:14:35,  4.73it/s]

지금 다 먹고 25324번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57456/300000 [3:07:35<14:54:42,  4.52it/s]

지금 다 먹고 25325번째 도착완료 
  그리고 총 보상은 : 11.800000000000011 
지금 다 먹고 25326번째 도착완료 
  그리고 총 보상은 : 20.200000000000014 

 19%|█▉        | 57457/300000 [3:07:36<14:39:36,  4.60it/s]




 19%|█▉        | 57458/300000 [3:07:36<15:32:08,  4.34it/s]

지금 다 먹고 25327번째 도착완료 
  그리고 총 보상은 : 11.400000000000023 
지금 다 먹고 25328번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57460/300000 [3:07:36<14:46:55,  4.56it/s]

지금 다 먹고 25329번째 도착완료 
  그리고 총 보상은 : 16.000000000000007 
지금 다 먹고 25330번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 19%|█▉        | 57463/300000 [3:07:37<14:30:26,  4.64it/s]

지금 다 먹고 25331번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57465/300000 [3:07:37<15:30:06,  4.35it/s]

지금 다 먹고 25332번째 도착완료 
  그리고 총 보상은 : 0.9999999999999183 


 19%|█▉        | 57466/300000 [3:07:38<15:12:52,  4.43it/s]

지금 다 먹고 25333번째 도착완료 
  그리고 총 보상은 : 12.800000000000013 
지금 다 먹고 25334번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57468/300000 [3:07:38<15:34:51,  4.32it/s]

지금 다 먹고 25335번째 도착완료 
  그리고 총 보상은 : 5.099999999999987 


 19%|█▉        | 57469/300000 [3:07:38<15:29:38,  4.35it/s]

지금 다 먹고 25336번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 19%|█▉        | 57471/300000 [3:07:39<17:23:25,  3.87it/s]

지금 다 먹고 25337번째 도착완료 
  그리고 총 보상은 : -9.600000000000016 


 19%|█▉        | 57472/300000 [3:07:39<16:58:52,  3.97it/s]

지금 다 먹고 25338번째 도착완료 
  그리고 총 보상은 : 14.200000000000006 
지금 다 먹고 25339번째 도착완료 
  그리고 총 보상은 : 24.100000000000012 


 19%|█▉        | 57474/300000 [3:07:40<14:36:39,  4.61it/s]

지금 다 먹고 25340번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25341번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▉        | 57476/300000 [3:07:40<13:58:29,  4.82it/s]

지금 다 먹고 25342번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 57477/300000 [3:07:40<13:58:55,  4.82it/s]

지금 다 먹고 25343번째 도착완료 
  그리고 총 보상은 : 21.600000000000012 


 19%|█▉        | 57480/300000 [3:07:41<14:43:13,  4.58it/s]

지금 다 먹고 25344번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 19%|█▉        | 57482/300000 [3:07:41<15:04:43,  4.47it/s]

지금 다 먹고 25345번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▉        | 57483/300000 [3:07:42<15:31:22,  4.34it/s]

지금 다 먹고 25346번째 도착완료 
  그리고 총 보상은 : 16.10000000000001 


 19%|█▉        | 57486/300000 [3:07:42<16:59:10,  3.97it/s]

지금 다 먹고 25347번째 도착완료 
  그리고 총 보상은 : -47.39999999999998 
지금 다 먹고 25348번째 도착완료 
  그리고 총 보상은 : 25.1 


 19%|█▉        | 57488/300000 [3:07:43<14:56:49,  4.51it/s]

지금 다 먹고 25349번째 도착완료 
  그리고 총 보상은 : 18.5 
지금 다 먹고 25350번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57490/300000 [3:07:43<13:59:20,  4.82it/s]

지금 다 먹고 25351번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 19%|█▉        | 57491/300000 [3:07:43<14:25:20,  4.67it/s]

지금 다 먹고 25352번째 도착완료 
  그리고 총 보상은 : 14.500000000000014 


 19%|█▉        | 57493/300000 [3:07:44<15:21:04,  4.39it/s]

지금 다 먹고 25353번째 도착완료 
  그리고 총 보상은 : 25.1 


 19%|█▉        | 57495/300000 [3:07:44<15:37:06,  4.31it/s]

지금 다 먹고 25354번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57498/300000 [3:07:45<16:18:15,  4.13it/s]

지금 다 먹고 25355번째 도착완료 
  그리고 총 보상은 : 15.8 


 19%|█▉        | 57499/300000 [3:07:45<15:39:40,  4.30it/s]

지금 다 먹고 25356번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 
지금 다 먹고 25357번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 19%|█▉        | 57501/300000 [3:07:46<14:30:27,  4.64it/s]

지금 다 먹고 25358번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.200000000000003
 end : True
 clear : True
episode :6, score = 1.9520000000000803, n_buffer :100000 , eps : 21.249999999999996


 19%|█▉        | 57503/300000 [3:07:46<16:42:05,  4.03it/s]

지금 다 먹고 25359번째 도착완료 
  그리고 총 보상은 : 10.400000000000015 
지금 다 먹고 25360번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 57505/300000 [3:07:47<14:42:10,  4.58it/s]

지금 다 먹고 25361번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 
지금 다 먹고 25362번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57507/300000 [3:07:47<13:10:38,  5.11it/s]

지금 다 먹고 25363번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 25364번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 57509/300000 [3:07:47<13:03:09,  5.16it/s]

지금 다 먹고 25365번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 25366번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57511/300000 [3:07:48<12:30:12,  5.39it/s]

지금 다 먹고 25367번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 25368번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57514/300000 [3:07:48<13:40:14,  4.93it/s]

지금 다 먹고 25369번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 25370번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 19%|█▉        | 57516/300000 [3:07:49<12:49:03,  5.26it/s]

지금 다 먹고 25371번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25372번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57518/300000 [3:07:49<12:23:05,  5.44it/s]

지금 다 먹고 25373번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57520/300000 [3:07:50<13:32:00,  4.98it/s]

지금 다 먹고 25374번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57522/300000 [3:07:50<16:15:11,  4.14it/s]

지금 다 먹고 25375번째 도착완료 
  그리고 총 보상은 : 9.200000000000019 
지금 다 먹고 25376번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57524/300000 [3:07:51<14:04:37,  4.78it/s]

지금 다 먹고 25377번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 25378번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57526/300000 [3:07:51<12:49:20,  5.25it/s]

지금 다 먹고 25379번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 25380번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57528/300000 [3:07:51<12:23:03,  5.44it/s]

지금 다 먹고 25381번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25382번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57531/300000 [3:07:52<13:13:17,  5.09it/s]

지금 다 먹고 25383번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57533/300000 [3:07:52<14:08:49,  4.76it/s]

지금 다 먹고 25384번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 25385번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 


 19%|█▉        | 57537/300000 [3:07:53<14:48:43,  4.55it/s]

지금 다 먹고 25386번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57539/300000 [3:07:54<15:27:03,  4.36it/s]

지금 다 먹고 25387번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 19%|█▉        | 57540/300000 [3:07:54<15:18:33,  4.40it/s]

지금 다 먹고 25388번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 57541/300000 [3:07:54<14:53:44,  4.52it/s]

지금 다 먹고 25389번째 도착완료 
  그리고 총 보상은 : 19.700000000000014 
지금 다 먹고 25390번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57543/300000 [3:07:54<13:24:27,  5.02it/s]

지금 다 먹고 25391번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 25392번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57545/300000 [3:07:55<12:31:15,  5.38it/s]

지금 다 먹고 25393번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 25394번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57548/300000 [3:07:55<13:36:56,  4.95it/s]

지금 다 먹고 25395번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57550/300000 [3:07:56<15:35:26,  4.32it/s]

지금 다 먹고 25396번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 25397번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57552/300000 [3:07:56<14:08:33,  4.76it/s]

지금 다 먹고 25398번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57554/300000 [3:07:57<15:05:32,  4.46it/s]

지금 다 먹고 25399번째 도착완료 
  그리고 총 보상은 : 12.300000000000004 


 19%|█▉        | 57556/300000 [3:07:57<15:12:49,  4.43it/s]

지금 다 먹고 25400번째 도착완료 
  그리고 총 보상은 : 18.1 
지금 다 먹고 25401번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57558/300000 [3:07:58<13:42:11,  4.91it/s]

지금 다 먹고 25402번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 25403번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57560/300000 [3:07:58<13:56:10,  4.83it/s]

지금 다 먹고 25404번째 도착완료 
  그리고 총 보상은 : 15.800000000000017 
지금 다 먹고 25405번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57562/300000 [3:07:59<13:23:11,  5.03it/s]

지금 다 먹고 25406번째 도착완료 
  그리고 총 보상은 : 19.900000000000013 
지금 다 먹고 25407번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57565/300000 [3:07:59<13:40:32,  4.92it/s]

지금 다 먹고 25408번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57566/300000 [3:07:59<14:11:45,  4.74it/s]

지금 다 먹고 25409번째 도착완료 
  그리고 총 보상은 : 5.399999999999929 
지금 다 먹고 25410번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57568/300000 [3:08:00<13:37:16,  4.94it/s]

지금 다 먹고 25411번째 도착완료 
  그리고 총 보상은 : 18.40000000000002 
지금 다 먹고 25412번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▉        | 57571/300000 [3:08:00<14:01:43,  4.80it/s]

지금 다 먹고 25413번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 
지금 다 먹고 25414번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57573/300000 [3:08:01<12:53:21,  5.22it/s]

지금 다 먹고 25415번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 19%|█▉        | 57575/300000 [3:08:01<13:35:09,  4.96it/s]

지금 다 먹고 25416번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 25417번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57577/300000 [3:08:02<12:34:17,  5.36it/s]

지금 다 먹고 25418번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 25419번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 57579/300000 [3:08:02<13:15:50,  5.08it/s]

지금 다 먹고 25420번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 19%|█▉        | 57580/300000 [3:08:02<12:47:51,  5.26it/s]

지금 다 먹고 25421번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57582/300000 [3:08:03<13:59:46,  4.81it/s]

지금 다 먹고 25422번째 도착완료 
  그리고 총 보상은 : 22.6 


 19%|█▉        | 57584/300000 [3:08:03<14:14:03,  4.73it/s]

지금 다 먹고 25423번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 25424번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 57586/300000 [3:08:03<13:11:53,  5.10it/s]

지금 다 먹고 25425번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57588/300000 [3:08:04<14:24:15,  4.67it/s]

지금 다 먹고 25426번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▉        | 57590/300000 [3:08:04<15:04:47,  4.47it/s]

지금 다 먹고 25427번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 25428번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57592/300000 [3:08:05<15:37:38,  4.31it/s]

지금 다 먹고 25429번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 19%|█▉        | 57593/300000 [3:08:05<14:58:47,  4.50it/s]

지금 다 먹고 25430번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 25431번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57595/300000 [3:08:05<13:06:50,  5.13it/s]

지금 다 먹고 25432번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 25433번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 


 19%|█▉        | 57597/300000 [3:08:06<12:37:13,  5.34it/s]

지금 다 먹고 25434번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57599/300000 [3:08:06<13:35:12,  4.96it/s]

지금 다 먹고 25435번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57601/300000 [3:08:07<14:58:26,  4.50it/s]

지금 다 먹고 25436번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.400000000000002
 end : True
 clear : True
episode :4, score = 13.197000000000514, n_buffer :100000 , eps : 21.199999999999996


 19%|█▉        | 57602/300000 [3:08:07<14:22:48,  4.68it/s]

지금 다 먹고 25437번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25438번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57605/300000 [3:08:07<14:10:23,  4.75it/s]

지금 다 먹고 25439번째 도착완료 
  그리고 총 보상은 : 16.1 


 19%|█▉        | 57607/300000 [3:08:08<14:37:25,  4.60it/s]

지금 다 먹고 25440번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 25441번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57609/300000 [3:08:08<13:49:25,  4.87it/s]

지금 다 먹고 25442번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57610/300000 [3:08:09<13:45:58,  4.89it/s]

지금 다 먹고 25443번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 
지금 다 먹고 25444번째 도착완료 
  그리고 총 보상은 : 27.5 


 19%|█▉        | 57612/300000 [3:08:09<12:57:34,  5.20it/s]

지금 다 먹고 25445번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 25446번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57614/300000 [3:08:09<13:12:20,  5.10it/s]

지금 다 먹고 25447번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57616/300000 [3:08:10<14:06:03,  4.77it/s]

지금 다 먹고 25448번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 25449번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57618/300000 [3:08:10<13:41:50,  4.92it/s]

지금 다 먹고 25450번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 25451번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57620/300000 [3:08:10<12:45:35,  5.28it/s]

지금 다 먹고 25452번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57622/300000 [3:08:11<13:46:18,  4.89it/s]

지금 다 먹고 25453번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 25454번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57624/300000 [3:08:11<13:11:21,  5.10it/s]

지금 다 먹고 25455번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 
지금 다 먹고 25456번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 19%|█▉        | 57626/300000 [3:08:12<13:10:29,  5.11it/s]

지금 다 먹고 25457번째 도착완료 
  그리고 총 보상은 : 25.400000000000013 


 19%|█▉        | 57627/300000 [3:08:12<14:49:50,  4.54it/s]

지금 다 먹고 25458번째 도착완료 
  그리고 총 보상은 : 7.900000000000029 
지금 다 먹고 25459번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57629/300000 [3:08:12<13:37:48,  4.94it/s]

지금 다 먹고 25460번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 25461번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 19%|█▉        | 57631/300000 [3:08:13<13:10:50,  5.11it/s]

지금 다 먹고 25462번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57633/300000 [3:08:13<13:51:28,  4.86it/s]

지금 다 먹고 25463번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 25464번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57635/300000 [3:08:14<13:21:48,  5.04it/s]

지금 다 먹고 25465번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 25466번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 

 19%|█▉        | 57636/300000 [3:08:14<13:20:17,  5.05it/s]


지금 다 먹고 25467번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57639/300000 [3:08:14<14:28:14,  4.65it/s]

지금 다 먹고 25468번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57640/300000 [3:08:15<14:18:28,  4.71it/s]

지금 다 먹고 25469번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57641/300000 [3:08:15<13:58:23,  4.82it/s]

지금 다 먹고 25470번째 도착완료 
  그리고 총 보상은 : 18.800000000000004 
지금 다 먹고 25471번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57643/300000 [3:08:15<12:55:31,  5.21it/s]

지금 다 먹고 25472번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 25473번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57645/300000 [3:08:16<14:06:10,  4.77it/s]

지금 다 먹고 25474번째 도착완료 
  그리고 총 보상은 : 17.300000000000015 


 19%|█▉        | 57646/300000 [3:08:16<13:48:34,  4.87it/s]

지금 다 먹고 25475번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 25476번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▉        | 57648/300000 [3:08:16<13:56:58,  4.83it/s]

지금 다 먹고 25477번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57650/300000 [3:08:17<14:46:07,  4.56it/s]

지금 다 먹고 25478번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 57652/300000 [3:08:17<14:41:54,  4.58it/s]

지금 다 먹고 25479번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 25480번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 57654/300000 [3:08:18<13:41:27,  4.92it/s]

지금 다 먹고 25481번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57656/300000 [3:08:18<15:43:02,  4.28it/s]

지금 다 먹고 25482번째 도착완료 
  그리고 총 보상은 : 18.10000000000001 
지금 다 먹고 25483번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 57658/300000 [3:08:18<14:37:07,  4.60it/s]

지금 다 먹고 25484번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 19%|█▉        | 57660/300000 [3:08:19<14:18:54,  4.70it/s]

지금 다 먹고 25485번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 25486번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57662/300000 [3:08:19<13:15:34,  5.08it/s]

지금 다 먹고 25487번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 25488번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57664/300000 [3:08:20<13:58:03,  4.82it/s]

지금 다 먹고 25489번째 도착완료 
  그리고 총 보상은 : 1.5999999999999943 


 19%|█▉        | 57665/300000 [3:08:20<13:49:29,  4.87it/s]

지금 다 먹고 25490번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 19%|█▉        | 57667/300000 [3:08:20<14:45:06,  4.56it/s]

지금 다 먹고 25491번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57669/300000 [3:08:21<14:35:05,  4.62it/s]

지금 다 먹고 25492번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 25493번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 19%|█▉        | 57671/300000 [3:08:21<13:18:06,  5.06it/s]

지금 다 먹고 25494번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57673/300000 [3:08:22<15:44:43,  4.28it/s]

지금 다 먹고 25495번째 도착완료 
  그리고 총 보상은 : 13.200000000000017 


 19%|█▉        | 57674/300000 [3:08:22<16:32:15,  4.07it/s]

지금 다 먹고 25496번째 도착완료 
  그리고 총 보상은 : 10.300000000000008 


 19%|█▉        | 57675/300000 [3:08:22<15:53:11,  4.24it/s]

지금 다 먹고 25497번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 
지금 다 먹고 25498번째 도착완료 
  그리고 총 보상은 : 23.00000000000001 


 19%|█▉        | 57677/300000 [3:08:23<13:58:28,  4.82it/s]

지금 다 먹고 25499번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 25500번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57679/300000 [3:08:23<13:16:19,  5.07it/s]

지금 다 먹고 25501번째 도착완료 
  그리고 총 보상은 : 20.90000000000001 
지금 다 먹고 25502번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57681/300000 [3:08:23<13:45:49,  4.89it/s]

지금 다 먹고 25503번째 도착완료 
  그리고 총 보상은 : 16.700000000000003 
지금 다 먹고 25504번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57684/300000 [3:08:24<13:26:32,  5.01it/s]

지금 다 먹고 25505번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57686/300000 [3:08:24<13:46:26,  4.89it/s]

지금 다 먹고 25506번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25507번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57688/300000 [3:08:25<13:06:55,  5.13it/s]

지금 다 먹고 25508번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57690/300000 [3:08:25<14:03:31,  4.79it/s]

지금 다 먹고 25509번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25510번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57692/300000 [3:08:26<13:32:37,  4.97it/s]

지금 다 먹고 25511번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57693/300000 [3:08:26<13:31:47,  4.97it/s]

지금 다 먹고 25512번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25513번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57695/300000 [3:08:26<13:14:37,  5.08it/s]

지금 다 먹고 25514번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 25515번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 19%|█▉        | 57697/300000 [3:08:27<13:19:05,  5.05it/s]

지금 다 먹고 25516번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57698/300000 [3:08:27<13:11:00,  5.11it/s]

지금 다 먹고 25517번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 25518번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 19%|█▉        | 57701/300000 [3:08:27<13:28:21,  5.00it/s]

지금 다 먹고 25519번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.700000000000003
 end : True
 clear : True
episode :2, score = 15.824000000001583, n_buffer :100000 , eps : 21.150000000000002
지금 다 먹고 25520번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57703/300000 [3:08:28<12:43:09,  5.29it/s]

지금 다 먹고 25521번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 25522번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57705/300000 [3:08:28<12:46:24,  5.27it/s]

지금 다 먹고 25523번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57707/300000 [3:08:29<14:13:12,  4.73it/s]

지금 다 먹고 25524번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 25525번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57709/300000 [3:08:29<12:39:29,  5.32it/s]

지금 다 먹고 25526번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 25527번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▉        | 57711/300000 [3:08:29<12:08:17,  5.54it/s]

지금 다 먹고 25528번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 25529번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 57713/300000 [3:08:30<11:55:48,  5.64it/s]

지금 다 먹고 25530번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57714/300000 [3:08:30<12:36:19,  5.34it/s]

지금 다 먹고 25531번째 도착완료 
  그리고 총 보상은 : 15.40000000000001 


 19%|█▉        | 57715/300000 [3:08:30<13:23:11,  5.03it/s]

지금 다 먹고 25532번째 도착완료 
  그리고 총 보상은 : 16.600000000000016 
지금 다 먹고 25533번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57718/300000 [3:08:31<13:51:22,  4.86it/s]

지금 다 먹고 25534번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 25535번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57720/300000 [3:08:31<12:54:28,  5.21it/s]

지금 다 먹고 25536번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 25537번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57722/300000 [3:08:31<12:24:31,  5.42it/s]

지금 다 먹고 25538번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 57724/300000 [3:08:32<14:11:38,  4.74it/s]

지금 다 먹고 25539번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57726/300000 [3:08:32<14:42:23,  4.58it/s]

지금 다 먹고 25540번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25541번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▉        | 57728/300000 [3:08:33<14:29:11,  4.65it/s]

지금 다 먹고 25542번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57729/300000 [3:08:33<13:52:37,  4.85it/s]

지금 다 먹고 25543번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 25544번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57731/300000 [3:08:33<13:46:45,  4.88it/s]

지금 다 먹고 25545번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57732/300000 [3:08:34<15:36:28,  4.31it/s]

지금 다 먹고 25546번째 도착완료 
  그리고 총 보상은 : 9.4 


 19%|█▉        | 57735/300000 [3:08:35<17:03:48,  3.94it/s]

지금 다 먹고 25547번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 25548번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57737/300000 [3:08:35<14:43:35,  4.57it/s]

지금 다 먹고 25549번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 25550번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 

 19%|█▉        | 57738/300000 [3:08:35<13:58:32,  4.82it/s]


지금 다 먹고 25551번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57741/300000 [3:08:36<14:05:52,  4.77it/s]

지금 다 먹고 25552번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 25553번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▉        | 57743/300000 [3:08:36<13:32:08,  4.97it/s]

지금 다 먹고 25554번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25555번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 57745/300000 [3:08:37<13:10:14,  5.11it/s]

지금 다 먹고 25556번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25557번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57747/300000 [3:08:37<12:45:01,  5.28it/s]

지금 다 먹고 25558번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 25559번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57749/300000 [3:08:37<14:03:06,  4.79it/s]

지금 다 먹고 25560번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 57750/300000 [3:08:38<13:26:52,  5.00it/s]

지금 다 먹고 25561번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 57752/300000 [3:08:38<14:10:28,  4.75it/s]

지금 다 먹고 25562번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 25563번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57754/300000 [3:08:38<14:56:04,  4.51it/s]

지금 다 먹고 25564번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57755/300000 [3:08:39<14:50:05,  4.54it/s]

지금 다 먹고 25565번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 25566번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57758/300000 [3:08:39<15:44:48,  4.27it/s]

지금 다 먹고 25567번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57759/300000 [3:08:40<15:08:33,  4.44it/s]

지금 다 먹고 25568번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 25569번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57761/300000 [3:08:40<14:17:07,  4.71it/s]

지금 다 먹고 25570번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 25571번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57763/300000 [3:08:40<13:12:47,  5.09it/s]

지금 다 먹고 25572번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 25573번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 57765/300000 [3:08:41<12:39:40,  5.31it/s]

지금 다 먹고 25574번째 도착완료 
  그리고 총 보상은 : 16.3 
지금 다 먹고 25575번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57767/300000 [3:08:41<12:02:17,  5.59it/s]

지금 다 먹고 25576번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 57769/300000 [3:08:42<13:25:21,  5.01it/s]

지금 다 먹고 25577번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25578번째 도착완료 
  그리고 총 보상은 : 4.1999999999999975 


 19%|█▉        | 57771/300000 [3:08:42<13:24:11,  5.02it/s]

지금 다 먹고 25579번째 도착완료 
  그리고 총 보상은 : 23.200000000000014 


 19%|█▉        | 57772/300000 [3:08:42<13:57:47,  4.82it/s]

지금 다 먹고 25580번째 도착완료 
  그리고 총 보상은 : 17.500000000000004 
지금 다 먹고 25581번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57775/300000 [3:08:43<13:49:31,  4.87it/s]

지금 다 먹고 25582번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 25583번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57777/300000 [3:08:43<12:37:14,  5.33it/s]

지금 다 먹고 25584번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 25585번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 19%|█▉        | 57779/300000 [3:08:43<12:22:13,  5.44it/s]

지금 다 먹고 25586번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 25587번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57781/300000 [3:08:44<11:55:15,  5.64it/s]

지금 다 먹고 25588번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 25589번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▉        | 57783/300000 [3:08:44<12:06:19,  5.56it/s]

지금 다 먹고 25590번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 25591번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57786/300000 [3:08:45<12:52:41,  5.22it/s]

지금 다 먹고 25592번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 25593번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57788/300000 [3:08:45<12:26:54,  5.40it/s]

지금 다 먹고 25594번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 25595번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57790/300000 [3:08:46<12:19:47,  5.46it/s]

지금 다 먹고 25596번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57792/300000 [3:08:46<13:18:48,  5.05it/s]

지금 다 먹고 25597번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 25598번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57794/300000 [3:08:46<12:33:15,  5.36it/s]

지금 다 먹고 25599번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 25600번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57796/300000 [3:08:47<12:27:28,  5.40it/s]

지금 다 먹고 25601번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 25602번째 도착완료 
  그리고 총 보상은 : 23.1 


 19%|█▉        | 57798/300000 [3:08:47<13:13:35,  5.09it/s]

지금 다 먹고 25603번째 도착완료 
  그리고 총 보상은 : 18.000000000000018 
지금 다 먹고 25604번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 57800/300000 [3:08:47<12:40:25,  5.31it/s]

지금 다 먹고 25605번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 25606번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▉        | 57801/300000 [3:08:48<12:26:32,  5.41it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.900000000000006
 end : True
 clear : True
episode :0, score = 18.579000000001102, n_buffer :100000 , eps : 21.1


 19%|█▉        | 57803/300000 [3:08:48<13:19:09,  5.05it/s]

지금 다 먹고 25607번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 25608번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57805/300000 [3:08:48<13:14:57,  5.08it/s]

지금 다 먹고 25609번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 25610번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57807/300000 [3:08:49<12:28:37,  5.39it/s]

지금 다 먹고 25611번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57809/300000 [3:08:49<13:29:22,  4.99it/s]

지금 다 먹고 25612번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25613번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57811/300000 [3:08:50<12:49:11,  5.25it/s]

지금 다 먹고 25614번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57812/300000 [3:08:50<13:07:28,  5.13it/s]

지금 다 먹고 25615번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 


 19%|█▉        | 57813/300000 [3:08:50<14:00:09,  4.80it/s]

지금 다 먹고 25616번째 도착완료 
  그리고 총 보상은 : 15.700000000000024 
지금 다 먹고 25617번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57815/300000 [3:08:50<13:31:12,  4.98it/s]

지금 다 먹고 25618번째 도착완료 
  그리고 총 보상은 : 20.80000000000001 
지금 다 먹고 25619번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57817/300000 [3:08:51<13:03:54,  5.15it/s]

지금 다 먹고 25620번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 25621번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57820/300000 [3:08:51<13:32:58,  4.96it/s]

지금 다 먹고 25622번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 25623번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57822/300000 [3:08:52<13:30:28,  4.98it/s]

지금 다 먹고 25624번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 19%|█▉        | 57823/300000 [3:08:52<13:45:53,  4.89it/s]

지금 다 먹고 25625번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 
지금 다 먹고 25626번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57827/300000 [3:08:53<15:02:02,  4.47it/s]

지금 다 먹고 25627번째 도착완료 
  그리고 총 보상은 : 13.0 


 19%|█▉        | 57828/300000 [3:08:53<15:07:21,  4.45it/s]

지금 다 먹고 25628번째 도착완료 
  그리고 총 보상은 : 14.10000000000003 
지금 다 먹고 25629번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 19%|█▉        | 57830/300000 [3:08:54<14:25:51,  4.66it/s]

지금 다 먹고 25630번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57831/300000 [3:08:54<13:47:36,  4.88it/s]

지금 다 먹고 25631번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25632번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57833/300000 [3:08:54<12:59:26,  5.18it/s]

지금 다 먹고 25633번째 도착완료 
  그리고 총 보상은 : 17.6 
지금 다 먹고 25634번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 


 19%|█▉        | 57835/300000 [3:08:55<13:25:44,  5.01it/s]

지금 다 먹고 25635번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57837/300000 [3:08:55<14:20:03,  4.69it/s]

지금 다 먹고 25636번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 25637번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 57839/300000 [3:08:55<14:24:05,  4.67it/s]

지금 다 먹고 25638번째 도착완료 
  그리고 총 보상은 : 12.00000000000003 
지금 다 먹고 25639번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 57841/300000 [3:08:56<13:13:02,  5.09it/s]

지금 다 먹고 25640번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 19%|█▉        | 57843/300000 [3:08:56<13:55:37,  4.83it/s]

지금 다 먹고 25641번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 19%|█▉        | 57845/300000 [3:08:57<14:53:05,  4.52it/s]

지금 다 먹고 25642번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 19%|█▉        | 57846/300000 [3:08:57<15:52:19,  4.24it/s]

지금 다 먹고 25643번째 도착완료 
  그리고 총 보상은 : 9.900000000000016 
지금 다 먹고 25644번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 57848/300000 [3:08:57<13:48:31,  4.87it/s]

지금 다 먹고 25645번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 25646번째 도착완료 
  그리고 총 보상은 : 23.1 


 19%|█▉        | 57850/300000 [3:08:58<13:15:36,  5.07it/s]

지금 다 먹고 25647번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 25648번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57852/300000 [3:08:58<12:32:19,  5.36it/s]

지금 다 먹고 25649번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 57854/300000 [3:08:59<13:31:10,  4.98it/s]

지금 다 먹고 25650번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57856/300000 [3:08:59<14:16:43,  4.71it/s]

지금 다 먹고 25651번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57857/300000 [3:08:59<14:36:19,  4.61it/s]

지금 다 먹고 25652번째 도착완료 
  그리고 총 보상은 : 14.800000000000026 
지금 다 먹고 25653번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 57860/300000 [3:09:00<14:07:20,  4.76it/s]

지금 다 먹고 25654번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 57861/300000 [3:09:00<14:10:28,  4.75it/s]

지금 다 먹고 25655번째 도착완료 
  그리고 총 보상은 : 20.300000000000008 
지금 다 먹고 25656번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57863/300000 [3:09:00<13:15:51,  5.07it/s]

지금 다 먹고 25657번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 25658번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57865/300000 [3:09:01<12:38:38,  5.32it/s]

지금 다 먹고 25659번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25660번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57867/300000 [3:09:01<12:15:12,  5.49it/s]

지금 다 먹고 25661번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25662번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 19%|█▉        | 57869/300000 [3:09:02<12:38:11,  5.32it/s]

지금 다 먹고 25663번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 57871/300000 [3:09:02<14:31:51,  4.63it/s]

지금 다 먹고 25664번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57872/300000 [3:09:02<15:03:21,  4.47it/s]

지금 다 먹고 25665번째 도착완료 
  그리고 총 보상은 : 15.500000000000023 
지금 다 먹고 25666번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57874/300000 [3:09:03<13:57:03,  4.82it/s]

지금 다 먹고 25667번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 25668번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 57877/300000 [3:09:03<13:48:04,  4.87it/s]

지금 다 먹고 25669번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25670번째 도착완료 
  그리고 총 보상은 : 26.3 


 19%|█▉        | 57879/300000 [3:09:04<12:58:29,  5.18it/s]

지금 다 먹고 25671번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 25672번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57881/300000 [3:09:04<13:04:18,  5.15it/s]

지금 다 먹고 25673번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 25674번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 57883/300000 [3:09:04<12:35:07,  5.34it/s]

지금 다 먹고 25675번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25676번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57885/300000 [3:09:05<12:31:31,  5.37it/s]

지금 다 먹고 25677번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 25678번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57888/300000 [3:09:05<13:38:20,  4.93it/s]

지금 다 먹고 25679번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 25680번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 57890/300000 [3:09:06<13:25:30,  5.01it/s]

지금 다 먹고 25681번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25682번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 57892/300000 [3:09:06<12:27:12,  5.40it/s]

지금 다 먹고 25683번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57894/300000 [3:09:07<14:06:14,  4.77it/s]

지금 다 먹고 25684번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▉        | 57895/300000 [3:09:07<13:53:27,  4.84it/s]

지금 다 먹고 25685번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 25686번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 57897/300000 [3:09:07<13:17:28,  5.06it/s]

지금 다 먹고 25687번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25688번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 57899/300000 [3:09:08<12:52:51,  5.22it/s]

지금 다 먹고 25689번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25690번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 57901/300000 [3:09:08<12:26:50,  5.40it/s]

지금 다 먹고 25691번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.500000000000004
 end : True
 clear : True
episode :15, score = 17.260000000000737, n_buffer :100000 , eps : 21.05
지금 다 먹고 25692번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57903/300000 [3:09:08<12:02:48,  5.58it/s]

지금 다 먹고 25693번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57905/300000 [3:09:09<13:10:44,  5.10it/s]

지금 다 먹고 25694번째 도착완료 
  그리고 총 보상은 : 27.5 


 19%|█▉        | 57907/300000 [3:09:09<13:56:57,  4.82it/s]

지금 다 먹고 25695번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25696번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57909/300000 [3:09:10<12:58:04,  5.19it/s]

지금 다 먹고 25697번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57911/300000 [3:09:10<13:42:43,  4.90it/s]

지금 다 먹고 25698번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25699번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 57913/300000 [3:09:10<12:58:24,  5.18it/s]

지금 다 먹고 25700번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 25701번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57915/300000 [3:09:11<13:28:37,  4.99it/s]

지금 다 먹고 25702번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57916/300000 [3:09:11<13:25:46,  5.01it/s]

지금 다 먹고 25703번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 25704번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57918/300000 [3:09:11<12:31:05,  5.37it/s]

지금 다 먹고 25705번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 25706번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57920/300000 [3:09:12<12:56:48,  5.19it/s]

지금 다 먹고 25707번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57922/300000 [3:09:12<14:33:11,  4.62it/s]

지금 다 먹고 25708번째 도착완료 
  그리고 총 보상은 : 12.400000000000004 
지금 다 먹고 25709번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57924/300000 [3:09:13<13:41:00,  4.91it/s]

지금 다 먹고 25710번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 25711번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57926/300000 [3:09:13<12:54:56,  5.21it/s]

지금 다 먹고 25712번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57928/300000 [3:09:13<13:48:31,  4.87it/s]

지금 다 먹고 25713번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 25714번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 57930/300000 [3:09:14<13:25:59,  5.01it/s]

지금 다 먹고 25715번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 25716번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 57932/300000 [3:09:14<13:09:03,  5.11it/s]

지금 다 먹고 25717번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 25718번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 57934/300000 [3:09:15<13:12:20,  5.09it/s]

지금 다 먹고 25719번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 25720번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 57936/300000 [3:09:15<12:26:09,  5.41it/s]

지금 다 먹고 25721번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 25722번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 57939/300000 [3:09:16<13:51:36,  4.85it/s]

지금 다 먹고 25723번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 25724번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57941/300000 [3:09:16<13:12:30,  5.09it/s]

지금 다 먹고 25725번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25726번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 57943/300000 [3:09:16<12:34:28,  5.35it/s]

지금 다 먹고 25727번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 57945/300000 [3:09:17<14:12:13,  4.73it/s]

지금 다 먹고 25728번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25729번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 57947/300000 [3:09:17<13:19:11,  5.05it/s]

지금 다 먹고 25730번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 25731번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 


 19%|█▉        | 57949/300000 [3:09:18<13:25:47,  5.01it/s]

지금 다 먹고 25732번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 
지금 다 먹고 25733번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 19%|█▉        | 57951/300000 [3:09:18<13:26:06,  5.00it/s]

지금 다 먹고 25734번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 25735번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57953/300000 [3:09:18<12:32:56,  5.36it/s]

지금 다 먹고 25736번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 25737번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 57956/300000 [3:09:19<13:16:47,  5.06it/s]

지금 다 먹고 25738번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 25739번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 57958/300000 [3:09:19<12:21:53,  5.44it/s]

지금 다 먹고 25740번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 25741번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57960/300000 [3:09:20<11:57:59,  5.62it/s]

지금 다 먹고 25742번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57962/300000 [3:09:20<13:06:13,  5.13it/s]

지금 다 먹고 25743번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 25744번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 57964/300000 [3:09:20<12:18:20,  5.46it/s]

지금 다 먹고 25745번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 25746번째 도착완료 
  그리고 총 보상은 : 23.5 


 19%|█▉        | 57966/300000 [3:09:21<12:55:00,  5.20it/s]

지금 다 먹고 25747번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 57967/300000 [3:09:21<13:02:50,  5.15it/s]

지금 다 먹고 25748번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 25749번째 도착완료 
  그리고 총 보상은 : 23.1 


 19%|█▉        | 57969/300000 [3:09:21<12:47:20,  5.26it/s]

지금 다 먹고 25750번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 25751번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 19%|█▉        | 57971/300000 [3:09:22<13:09:12,  5.11it/s]

지금 다 먹고 25752번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 57973/300000 [3:09:22<14:26:47,  4.65it/s]

지금 다 먹고 25753번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 25754번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 57975/300000 [3:09:23<14:12:28,  4.73it/s]

지금 다 먹고 25755번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 19%|█▉        | 57976/300000 [3:09:23<14:05:38,  4.77it/s]

지금 다 먹고 25756번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 25757번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 57979/300000 [3:09:24<13:58:16,  4.81it/s]

지금 다 먹고 25758번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 25759번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 57981/300000 [3:09:24<14:07:37,  4.76it/s]

지금 다 먹고 25760번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 19%|█▉        | 57982/300000 [3:09:24<14:01:58,  4.79it/s]

지금 다 먹고 25761번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 
지금 다 먹고 25762번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 19%|█▉        | 57984/300000 [3:09:25<13:32:23,  4.97it/s]

지금 다 먹고 25763번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 
지금 다 먹고 25764번째 도착완료 
  그리고 총 보상은 : 24.8 


 19%|█▉        | 57986/300000 [3:09:25<13:38:43,  4.93it/s]

지금 다 먹고 25765번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 25766번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 57988/300000 [3:09:25<12:42:18,  5.29it/s]

지금 다 먹고 25767번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 19%|█▉        | 57990/300000 [3:09:26<14:28:03,  4.65it/s]

지금 다 먹고 25768번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 57991/300000 [3:09:26<14:37:35,  4.60it/s]

지금 다 먹고 25769번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57992/300000 [3:09:26<13:52:24,  4.85it/s]

지금 다 먹고 25770번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 57993/300000 [3:09:26<14:09:30,  4.75it/s]

지금 다 먹고 25771번째 도착완료 
  그리고 총 보상은 : 6.400000000000013 
지금 다 먹고 25772번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 57996/300000 [3:09:27<14:06:06,  4.77it/s]

지금 다 먹고 25773번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 25774번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 57998/300000 [3:09:27<12:58:52,  5.18it/s]

지금 다 먹고 25775번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 25776번째 도착완료 
  그리고 총 보상은 : 10.200000000000005 


 19%|█▉        | 58000/300000 [3:09:28<13:19:03,  5.05it/s]

지금 다 먹고 25777번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 19%|█▉        | 58001/300000 [3:09:28<13:10:23,  5.10it/s]

지금 다 먹고 25778번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.400000000000006
 end : True
 clear : True
episode :13, score = 18.65800000000155, n_buffer :100000 , eps : 21.000000000000004
지금 다 먹고 25779번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 58003/300000 [3:09:28<12:59:19,  5.18it/s]

지금 다 먹고 25780번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58004/300000 [3:09:29<13:50:40,  4.86it/s]

지금 다 먹고 25781번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 19%|█▉        | 58005/300000 [3:09:29<13:45:32,  4.89it/s]

지금 다 먹고 25782번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 58007/300000 [3:09:29<13:45:32,  4.89it/s]

지금 다 먹고 25783번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 58009/300000 [3:09:30<14:26:23,  4.66it/s]

지금 다 먹고 25784번째 도착완료 
  그리고 총 보상은 : 19.200000000000003 


 19%|█▉        | 58010/300000 [3:09:30<14:36:38,  4.60it/s]

지금 다 먹고 25785번째 도착완료 
  그리고 총 보상은 : 22.299999999999997 
지금 다 먹고 25786번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 19%|█▉        | 58013/300000 [3:09:31<14:42:22,  4.57it/s]

지금 다 먹고 25787번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 19%|█▉        | 58015/300000 [3:09:31<14:26:40,  4.65it/s]

지금 다 먹고 25788번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▉        | 58016/300000 [3:09:31<15:07:29,  4.44it/s]

지금 다 먹고 25789번째 도착완료 
  그리고 총 보상은 : 5.200000000000021 
지금 다 먹고 25790번째 도착완료 
  그리고 총 보상은 : 23.5 


 19%|█▉        | 58018/300000 [3:09:32<13:50:24,  4.86it/s]

지금 다 먹고 25791번째 도착완료 
  그리고 총 보상은 : 21.6 
지금 다 먹고 25792번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 58020/300000 [3:09:32<13:22:09,  5.03it/s]

지금 다 먹고 25793번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 25794번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 58022/300000 [3:09:33<14:51:44,  4.52it/s]

지금 다 먹고 25795번째 도착완료 
  그리고 총 보상은 : 2.899999999999924 


 19%|█▉        | 58024/300000 [3:09:33<15:17:30,  4.40it/s]

지금 다 먹고 25796번째 도착완료 
  그리고 총 보상은 : 28.0 
지금 다 먹고 25797번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 58026/300000 [3:09:33<13:24:14,  5.01it/s]

지금 다 먹고 25798번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 58027/300000 [3:09:34<14:26:36,  4.65it/s]

지금 다 먹고 25799번째 도착완료 
  그리고 총 보상은 : -33.00000000000009 
지금 다 먹고 25800번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58030/300000 [3:09:34<14:33:33,  4.62it/s]

지금 다 먹고 25801번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 25802번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 58032/300000 [3:09:35<13:28:14,  4.99it/s]

지금 다 먹고 25803번째 도착완료 
  그리고 총 보상은 : 22.1 


 19%|█▉        | 58033/300000 [3:09:35<14:08:57,  4.75it/s]

지금 다 먹고 25804번째 도착완료 
  그리고 총 보상은 : 16.900000000000006 


 19%|█▉        | 58035/300000 [3:09:35<14:54:08,  4.51it/s]

지금 다 먹고 25805번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 25806번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 58037/300000 [3:09:36<14:13:10,  4.73it/s]

지금 다 먹고 25807번째 도착완료 
  그리고 총 보상은 : 24.5 


 19%|█▉        | 58038/300000 [3:09:36<14:18:59,  4.69it/s]

지금 다 먹고 25808번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 
지금 다 먹고 25809번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 58041/300000 [3:09:37<14:03:57,  4.78it/s]

지금 다 먹고 25810번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 25811번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 58043/300000 [3:09:37<13:47:12,  4.87it/s]

지금 다 먹고 25812번째 도착완료 
  그리고 총 보상은 : 23.1 
지금 다 먹고 25813번째 도착완료 
  그리고 총 보상은 : 22.10000000000001 


 19%|█▉        | 58045/300000 [3:09:37<13:19:19,  5.04it/s]

지금 다 먹고 25814번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 19%|█▉        | 58048/300000 [3:09:38<16:20:23,  4.11it/s]

지금 다 먹고 25815번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 58049/300000 [3:09:38<15:33:50,  4.32it/s]

지금 다 먹고 25816번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58050/300000 [3:09:39<15:19:57,  4.38it/s]

지금 다 먹고 25817번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 19%|█▉        | 58051/300000 [3:09:39<14:53:33,  4.51it/s]

지금 다 먹고 25818번째 도착완료 
  그리고 총 보상은 : 23.8 
지금 다 먹고 25819번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▉        | 58053/300000 [3:09:39<13:50:15,  4.86it/s]

지금 다 먹고 25820번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 25821번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58055/300000 [3:09:40<13:31:48,  4.97it/s]

지금 다 먹고 25822번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 25823번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 58058/300000 [3:09:40<14:00:05,  4.80it/s]

지금 다 먹고 25824번째 도착완료 
  그리고 총 보상은 : 27.0 
지금 다 먹고 25825번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 58060/300000 [3:09:41<12:59:08,  5.18it/s]

지금 다 먹고 25826번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 25827번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 19%|█▉        | 58062/300000 [3:09:41<12:31:40,  5.36it/s]

지금 다 먹고 25828번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 58064/300000 [3:09:41<14:21:14,  4.68it/s]

지금 다 먹고 25829번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 58065/300000 [3:09:42<14:25:17,  4.66it/s]

지금 다 먹고 25830번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58066/300000 [3:09:42<13:59:48,  4.80it/s]

지금 다 먹고 25831번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 25832번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▉        | 58068/300000 [3:09:42<12:52:19,  5.22it/s]

지금 다 먹고 25833번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 25834번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58070/300000 [3:09:43<13:06:47,  5.12it/s]

지금 다 먹고 25835번째 도착완료 
  그리고 총 보상은 : 21.40000000000001 
지금 다 먹고 25836번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58072/300000 [3:09:43<12:45:48,  5.27it/s]

지금 다 먹고 25837번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 25838번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58075/300000 [3:09:44<13:27:44,  4.99it/s]

지금 다 먹고 25839번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25840번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58077/300000 [3:09:44<13:12:08,  5.09it/s]

지금 다 먹고 25841번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 
지금 다 먹고 25842번째 도착완료 
  그리고 총 보상은 : 23.6 


 19%|█▉        | 58079/300000 [3:09:44<12:58:51,  5.18it/s]

지금 다 먹고 25843번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58081/300000 [3:09:45<14:35:20,  4.61it/s]

지금 다 먹고 25844번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 25845번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 19%|█▉        | 58083/300000 [3:09:45<13:23:56,  5.02it/s]

지금 다 먹고 25846번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 25847번째 도착완료 
  그리고 총 보상은 : 21.1 


 19%|█▉        | 58085/300000 [3:09:46<13:56:31,  4.82it/s]

지금 다 먹고 25848번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 58086/300000 [3:09:46<14:01:10,  4.79it/s]

지금 다 먹고 25849번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 58087/300000 [3:09:46<14:14:27,  4.72it/s]

지금 다 먹고 25850번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 19%|█▉        | 58088/300000 [3:09:46<14:07:35,  4.76it/s]

지금 다 먹고 25851번째 도착완료 
  그리고 총 보상은 : 16.900000000000002 
지금 다 먹고 25852번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 58090/300000 [3:09:47<13:19:31,  5.04it/s]

지금 다 먹고 25853번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58092/300000 [3:09:47<14:04:18,  4.78it/s]

지금 다 먹고 25854번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 58094/300000 [3:09:48<14:20:34,  4.68it/s]

지금 다 먹고 25855번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 25856번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 58096/300000 [3:09:48<13:37:10,  4.93it/s]

지금 다 먹고 25857번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58098/300000 [3:09:48<14:56:17,  4.50it/s]

지금 다 먹고 25858번째 도착완료 
  그리고 총 보상은 : 4.899999999999988 
지금 다 먹고 25859번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58100/300000 [3:09:49<13:49:09,  4.86it/s]

지금 다 먹고 25860번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 25861번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 58102/300000 [3:09:49<12:48:31,  5.25it/s]

epi = 11
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.100000000000005
 end : True
 clear : True
episode :11, score = 15.161000000001032, n_buffer :100000 , eps : 20.950000000000003
지금 다 먹고 25862번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 58104/300000 [3:09:50<13:44:05,  4.89it/s]

지금 다 먹고 25863번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 25864번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 58106/300000 [3:09:50<13:51:06,  4.85it/s]

지금 다 먹고 25865번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 25866번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58109/300000 [3:09:51<14:17:48,  4.70it/s]

지금 다 먹고 25867번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 58111/300000 [3:09:51<14:44:07,  4.56it/s]

지금 다 먹고 25868번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 25869번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 

 19%|█▉        | 58112/300000 [3:09:51<14:20:33,  4.68it/s]


지금 다 먹고 25870번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58115/300000 [3:09:52<14:28:34,  4.64it/s]

지금 다 먹고 25871번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 25872번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58117/300000 [3:09:52<13:32:55,  4.96it/s]

지금 다 먹고 25873번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 
지금 다 먹고 25874번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 58119/300000 [3:09:53<13:22:51,  5.02it/s]

지금 다 먹고 25875번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 25876번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 19%|█▉        | 58121/300000 [3:09:53<13:12:47,  5.08it/s]

지금 다 먹고 25877번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 25878번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 58123/300000 [3:09:54<13:04:22,  5.14it/s]

지금 다 먹고 25879번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 
지금 다 먹고 25880번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 58126/300000 [3:09:54<14:08:38,  4.75it/s]

지금 다 먹고 25881번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58128/300000 [3:09:55<16:21:37,  4.11it/s]

지금 다 먹고 25882번째 도착완료 
  그리고 총 보상은 : 17.70000000000002 


 19%|█▉        | 58129/300000 [3:09:55<15:52:28,  4.23it/s]

지금 다 먹고 25883번째 도착완료 
  그리고 총 보상은 : 19.600000000000016 
지금 다 먹고 25884번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 58132/300000 [3:09:56<15:20:07,  4.38it/s]

지금 다 먹고 25885번째 도착완료 
  그리고 총 보상은 : 7.699999999999996 
지금 다 먹고 25886번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 58134/300000 [3:09:56<15:08:01,  4.44it/s]

지금 다 먹고 25887번째 도착완료 
  그리고 총 보상은 : 17.700000000000017 
지금 다 먹고 25888번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 58136/300000 [3:09:56<13:53:32,  4.84it/s]

지금 다 먹고 25889번째 도착완료 
  그리고 총 보상은 : 21.5 
지금 다 먹고 25890번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 19%|█▉        | 58138/300000 [3:09:57<13:11:47,  5.09it/s]

지금 다 먹고 25891번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 25892번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 19%|█▉        | 58140/300000 [3:09:57<12:44:13,  5.27it/s]

지금 다 먹고 25893번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 25894번째 도착완료 
  그리고 총 보상은 : 27.1 


 19%|█▉        | 58143/300000 [3:09:58<14:26:39,  4.65it/s]

지금 다 먹고 25895번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58144/300000 [3:09:58<14:49:01,  4.53it/s]

지금 다 먹고 25896번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 19%|█▉        | 58145/300000 [3:09:58<15:04:14,  4.46it/s]

지금 다 먹고 25897번째 도착완료 
  그리고 총 보상은 : 19.700000000000003 


 19%|█▉        | 58146/300000 [3:09:59<14:56:14,  4.50it/s]

지금 다 먹고 25898번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 25899번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58149/300000 [3:09:59<14:39:12,  4.58it/s]

지금 다 먹고 25900번째 도착완료 
  그리고 총 보상은 : 22.8 
지금 다 먹고 25901번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 58151/300000 [3:10:00<13:59:16,  4.80it/s]

지금 다 먹고 25902번째 도착완료 
  그리고 총 보상은 : 16.90000000000002 
지금 다 먹고 25903번째 도착완료 
  그리고 총 보상은 : 12.600000000000005 


 19%|█▉        | 58153/300000 [3:10:00<13:24:36,  5.01it/s]

지금 다 먹고 25904번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 25905번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 58155/300000 [3:10:00<13:03:49,  5.14it/s]

지금 다 먹고 25906번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 25907번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58157/300000 [3:10:01<12:34:51,  5.34it/s]

지금 다 먹고 25908번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 25909번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 58160/300000 [3:10:01<13:20:19,  5.04it/s]

지금 다 먹고 25910번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 25911번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▉        | 58162/300000 [3:10:02<12:41:00,  5.30it/s]

지금 다 먹고 25912번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 25913번째 도착완료 
  그리고 총 보상은 : 20.1 


 19%|█▉        | 58164/300000 [3:10:02<12:31:33,  5.36it/s]

지금 다 먹고 25914번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58166/300000 [3:10:03<14:28:29,  4.64it/s]

지금 다 먹고 25915번째 도착완료 
  그리고 총 보상은 : 5.500000000000011 
지금 다 먹고 25916번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 19%|█▉        | 58168/300000 [3:10:03<13:53:24,  4.84it/s]

지금 다 먹고 25917번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 25918번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 19%|█▉        | 58170/300000 [3:10:03<13:15:01,  5.07it/s]

지금 다 먹고 25919번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 25920번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 19%|█▉        | 58172/300000 [3:10:04<12:59:42,  5.17it/s]

지금 다 먹고 25921번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 25922번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 58174/300000 [3:10:04<14:12:59,  4.73it/s]

지금 다 먹고 25923번째 도착완료 
  그리고 총 보상은 : 13.900000000000038 
지금 다 먹고 25924번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 58177/300000 [3:10:05<14:04:45,  4.77it/s]

지금 다 먹고 25925번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 58178/300000 [3:10:05<15:02:27,  4.47it/s]

지금 다 먹고 25926번째 도착완료 
  그리고 총 보상은 : 16.900000000000016 


 19%|█▉        | 58179/300000 [3:10:05<14:46:56,  4.54it/s]

지금 다 먹고 25927번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 25928번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▉        | 58181/300000 [3:10:06<13:21:01,  5.03it/s]

지금 다 먹고 25929번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58183/300000 [3:10:06<14:29:01,  4.64it/s]

지금 다 먹고 25930번째 도착완료 
  그리고 총 보상은 : 22.3 
지금 다 먹고 25931번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 19%|█▉        | 58185/300000 [3:10:06<13:02:13,  5.15it/s]

지금 다 먹고 25932번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 25933번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 19%|█▉        | 58187/300000 [3:10:07<13:09:26,  5.11it/s]

지금 다 먹고 25934번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 
지금 다 먹고 25935번째 도착완료 
  그리고 총 보상은 : 24.6 


 19%|█▉        | 58189/300000 [3:10:07<13:04:26,  5.14it/s]

지금 다 먹고 25936번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 25937번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58191/300000 [3:10:08<13:24:21,  5.01it/s]

지금 다 먹고 25938번째 도착완료 
  그리고 총 보상은 : 15.600000000000023 
지금 다 먹고 25939번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 58194/300000 [3:10:08<13:45:03,  4.88it/s]

지금 다 먹고 25940번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 25941번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58196/300000 [3:10:09<13:48:38,  4.86it/s]

지금 다 먹고 25942번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 25943번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 58198/300000 [3:10:09<12:46:24,  5.26it/s]

지금 다 먹고 25944번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 58200/300000 [3:10:09<13:51:29,  4.85it/s]

지금 다 먹고 25945번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 25946번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 58202/300000 [3:10:10<13:03:26,  5.14it/s]

epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.200000000000003
 end : True
 clear : True
episode :9, score = 16.44400000000114, n_buffer :100000 , eps : 20.900000000000002
지금 다 먹고 25947번째 도착완료 
  그리고 총 보상은 : 24.3 


 19%|█▉        | 58205/300000 [3:10:11<14:55:07,  4.50it/s]

지금 다 먹고 25948번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 
지금 다 먹고 25949번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 58207/300000 [3:10:11<13:21:55,  5.03it/s]

지금 다 먹고 25950번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 25951번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 58209/300000 [3:10:11<12:47:57,  5.25it/s]

지금 다 먹고 25952번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58211/300000 [3:10:12<14:23:15,  4.67it/s]

지금 다 먹고 25953번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58214/300000 [3:10:13<15:44:50,  4.27it/s]

지금 다 먹고 25954번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25955번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 58217/300000 [3:10:13<15:04:57,  4.45it/s]

지금 다 먹고 25956번째 도착완료 
  그리고 총 보상은 : 19.20000000000001 
지금 다 먹고 25957번째 도착완료 
  그리고 총 보상은 : 13.900000000000002 


 19%|█▉        | 58219/300000 [3:10:14<15:13:55,  4.41it/s]

지금 다 먹고 25958번째 도착완료 
  그리고 총 보상은 : 15.500000000000025 


 19%|█▉        | 58220/300000 [3:10:14<14:40:20,  4.58it/s]

지금 다 먹고 25959번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 19%|█▉        | 58223/300000 [3:10:15<16:38:43,  4.03it/s]

지금 다 먹고 25960번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 19%|█▉        | 58224/300000 [3:10:15<15:42:58,  4.27it/s]

지금 다 먹고 25961번째 도착완료 
  그리고 총 보상은 : 26.6 


 19%|█▉        | 58225/300000 [3:10:15<15:31:41,  4.33it/s]

지금 다 먹고 25962번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 19%|█▉        | 58226/300000 [3:10:15<14:49:02,  4.53it/s]

지금 다 먹고 25963번째 도착완료 
  그리고 총 보상은 : 10.200000000000005 


 19%|█▉        | 58228/300000 [3:10:16<14:43:02,  4.56it/s]

지금 다 먹고 25964번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 58230/300000 [3:10:16<14:56:29,  4.49it/s]

지금 다 먹고 25965번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 25966번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 58232/300000 [3:10:17<13:30:15,  4.97it/s]

지금 다 먹고 25967번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 58234/300000 [3:10:17<14:51:03,  4.52it/s]

지금 다 먹고 25968번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 25969번째 도착완료 
  그리고 총 보상은 : 24.5 


 19%|█▉        | 58236/300000 [3:10:17<13:31:43,  4.96it/s]

지금 다 먹고 25970번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 25971번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 


 19%|█▉        | 58238/300000 [3:10:18<13:49:39,  4.86it/s]

지금 다 먹고 25972번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 58240/300000 [3:10:18<14:37:46,  4.59it/s]

지금 다 먹고 25973번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 25974번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 19%|█▉        | 58242/300000 [3:10:19<14:11:22,  4.73it/s]

지금 다 먹고 25975번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 25976번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 58245/300000 [3:10:19<13:56:47,  4.82it/s]

지금 다 먹고 25977번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 25978번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 19%|█▉        | 58247/300000 [3:10:20<13:02:25,  5.15it/s]

지금 다 먹고 25979번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 25980번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 19%|█▉        | 58249/300000 [3:10:20<12:41:33,  5.29it/s]

지금 다 먹고 25981번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58251/300000 [3:10:21<14:16:28,  4.70it/s]

지금 다 먹고 25982번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 25983번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 19%|█▉        | 58253/300000 [3:10:21<14:32:45,  4.62it/s]

지금 다 먹고 25984번째 도착완료 
  그리고 총 보상은 : 9.60000000000001 


 19%|█▉        | 58256/300000 [3:10:22<15:17:05,  4.39it/s]

지금 다 먹고 25985번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 25986번째 도착완료 
  그리고 총 보상은 : 25.6 


 19%|█▉        | 58258/300000 [3:10:22<13:44:37,  4.89it/s]

지금 다 먹고 25987번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 25988번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 58260/300000 [3:10:23<13:07:39,  5.12it/s]

지금 다 먹고 25989번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 58262/300000 [3:10:23<13:35:50,  4.94it/s]

지금 다 먹고 25990번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 25991번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 58264/300000 [3:10:23<12:46:14,  5.26it/s]

지금 다 먹고 25992번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 25993번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 19%|█▉        | 58266/300000 [3:10:24<12:22:33,  5.43it/s]

지금 다 먹고 25994번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58268/300000 [3:10:24<14:32:36,  4.62it/s]

지금 다 먹고 25995번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 19%|█▉        | 58269/300000 [3:10:24<14:28:19,  4.64it/s]

지금 다 먹고 25996번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 25997번째 도착완료 
  그리고 총 보상은 : 26.1 


 19%|█▉        | 58271/300000 [3:10:25<15:09:44,  4.43it/s]

지금 다 먹고 25998번째 도착완료 
  그리고 총 보상은 : 14.400000000000025 
지금 다 먹고 25999번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 19%|█▉        | 58273/300000 [3:10:25<13:57:50,  4.81it/s]

지금 다 먹고 26000번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 58274/300000 [3:10:25<13:45:55,  4.88it/s]

지금 다 먹고 26001번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 19%|█▉        | 58276/300000 [3:10:26<14:46:25,  4.54it/s]

지금 다 먹고 26002번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26003번째 도착완료 
  그리고 총 보상은 : 28.1 


 19%|█▉        | 58279/300000 [3:10:27<13:55:49,  4.82it/s]

지금 다 먹고 26004번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 26005번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 19%|█▉        | 58281/300000 [3:10:27<13:52:15,  4.84it/s]

지금 다 먹고 26006번째 도착완료 
  그리고 총 보상은 : 19.500000000000014 


 19%|█▉        | 58282/300000 [3:10:27<14:10:46,  4.74it/s]

지금 다 먹고 26007번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 
지금 다 먹고 26008번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 58286/300000 [3:10:28<16:45:35,  4.01it/s]

지금 다 먹고 26009번째 도착완료 
  그리고 총 보상은 : -19.10000000000001 


 19%|█▉        | 58287/300000 [3:10:28<15:38:50,  4.29it/s]

지금 다 먹고 26010번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 26011번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 58289/300000 [3:10:29<13:41:33,  4.90it/s]

지금 다 먹고 26012번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26013번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58291/300000 [3:10:29<12:58:16,  5.18it/s]

지금 다 먹고 26014번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 26015번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 58293/300000 [3:10:30<13:10:16,  5.10it/s]

지금 다 먹고 26016번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 
지금 다 먹고 26017번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 58296/300000 [3:10:30<13:31:36,  4.96it/s]

지금 다 먹고 26018번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 58298/300000 [3:10:31<15:23:47,  4.36it/s]

지금 다 먹고 26019번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 
지금 다 먹고 26020번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 58300/300000 [3:10:31<14:05:10,  4.77it/s]

지금 다 먹고 26021번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 19%|█▉        | 58302/300000 [3:10:31<14:24:54,  4.66it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0. 100.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-28.10000000000009
 end : True
 clear : True
episode :7, score = 11.465999999999992, n_buffer :100000 , eps : 20.85
지금 다 먹고 26022번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 58304/300000 [3:10:32<14:48:52,  4.53it/s]

지금 다 먹고 26023번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 26024번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 19%|█▉        | 58306/300000 [3:10:32<13:20:26,  5.03it/s]

지금 다 먹고 26025번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 58307/300000 [3:10:33<14:18:10,  4.69it/s]

지금 다 먹고 26026번째 도착완료 
  그리고 총 보상은 : 12.400000000000034 


 19%|█▉        | 58309/300000 [3:10:33<14:41:11,  4.57it/s]

지금 다 먹고 26027번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 26028번째 도착완료 
  그리고 총 보상은 : 24.6 


 19%|█▉        | 58313/300000 [3:10:34<15:21:18,  4.37it/s]

지금 다 먹고 26029번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58314/300000 [3:10:34<14:50:57,  4.52it/s]

지금 다 먹고 26030번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 19%|█▉        | 58315/300000 [3:10:34<15:09:15,  4.43it/s]

지금 다 먹고 26031번째 도착완료 
  그리고 총 보상은 : 19.400000000000013 


 19%|█▉        | 58316/300000 [3:10:35<15:05:39,  4.45it/s]

지금 다 먹고 26032번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 
지금 다 먹고 26033번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 19%|█▉        | 58319/300000 [3:10:35<15:59:56,  4.20it/s]

지금 다 먹고 26034번째 도착완료 
  그리고 총 보상은 : 2.400000000000002 
지금 다 먹고 26035번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 19%|█▉        | 58321/300000 [3:10:36<13:47:52,  4.87it/s]

지금 다 먹고 26036번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26037번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 58323/300000 [3:10:36<13:58:49,  4.80it/s]

지금 다 먹고 26038번째 도착완료 
  그리고 총 보상은 : 19.600000000000012 


 19%|█▉        | 58324/300000 [3:10:36<14:39:09,  4.58it/s]

지금 다 먹고 26039번째 도착완료 
  그리고 총 보상은 : 26.0 


 19%|█▉        | 58325/300000 [3:10:37<14:04:03,  4.77it/s]

지금 다 먹고 26040번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 26041번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 19%|█▉        | 58327/300000 [3:10:37<13:13:16,  5.08it/s]

지금 다 먹고 26042번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26043번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 58330/300000 [3:10:38<13:46:21,  4.87it/s]

지금 다 먹고 26044번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26045번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58332/300000 [3:10:38<13:18:26,  5.04it/s]

지금 다 먹고 26046번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 
지금 다 먹고 26047번째 도착완료 
  그리고 총 보상은 : 21.900000000000002 


 19%|█▉        | 58334/300000 [3:10:38<12:39:14,  5.30it/s]

지금 다 먹고 26048번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58336/300000 [3:10:39<13:41:53,  4.90it/s]

지금 다 먹고 26049번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 26050번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 19%|█▉        | 58338/300000 [3:10:39<13:10:33,  5.09it/s]

지금 다 먹고 26051번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 19%|█▉        | 58339/300000 [3:10:39<14:50:21,  4.52it/s]

지금 다 먹고 26052번째 도착완료 
  그리고 총 보상은 : -1.3000000000000185 


 19%|█▉        | 58340/300000 [3:10:40<15:08:46,  4.43it/s]

지금 다 먹고 26053번째 도착완료 
  그리고 총 보상은 : 13.80000000000003 
지금 다 먹고 26054번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 19%|█▉        | 58342/300000 [3:10:40<14:00:55,  4.79it/s]

지금 다 먹고 26055번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 19%|█▉        | 58343/300000 [3:10:40<14:40:59,  4.57it/s]

지금 다 먹고 26056번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 19%|█▉        | 58345/300000 [3:10:41<15:14:35,  4.40it/s]

지금 다 먹고 26057번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26058번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58347/300000 [3:10:41<13:14:31,  5.07it/s]

지금 다 먹고 26059번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26060번째 도착완료 
  그리고 총 보상은 : 21.1 


 19%|█▉        | 58349/300000 [3:10:42<14:08:13,  4.75it/s]

지금 다 먹고 26061번째 도착완료 
  그리고 총 보상은 : 23.6 


 19%|█▉        | 58350/300000 [3:10:42<14:30:52,  4.62it/s]

지금 다 먹고 26062번째 도착완료 
  그리고 총 보상은 : 13.800000000000031 
지금 다 먹고 26063번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 58354/300000 [3:10:43<15:42:13,  4.27it/s]

지금 다 먹고 26064번째 도착완료 
  그리고 총 보상은 : 10.400000000000002 


 19%|█▉        | 58355/300000 [3:10:43<15:15:28,  4.40it/s]

지금 다 먹고 26065번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 19%|█▉        | 58356/300000 [3:10:43<14:35:26,  4.60it/s]

지금 다 먹고 26066번째 도착완료 
  그리고 총 보상은 : 22.0 
지금 다 먹고 26067번째 도착완료 
  그리고 총 보상은 : 23.1 


 19%|█▉        | 58358/300000 [3:10:43<13:31:34,  4.96it/s]

지금 다 먹고 26068번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 19%|█▉        | 58359/300000 [3:10:44<13:36:44,  4.93it/s]

지금 다 먹고 26069번째 도착완료 
  그리고 총 보상은 : 14.900000000000004 
지금 다 먹고 26070번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 19%|█▉        | 58361/300000 [3:10:44<12:45:03,  5.26it/s]

지금 다 먹고 26071번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 26072번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 19%|█▉        | 58363/300000 [3:10:44<12:44:00,  5.27it/s]

지금 다 먹고 26073번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 26074번째 도착완료 
  그리고 총 보상은 : 28.6 


 19%|█▉        | 58365/300000 [3:10:45<12:43:19,  5.28it/s]

지금 다 먹고 26075번째 도착완료 
  그리고 총 보상은 : 20.90000000000001 
지금 다 먹고 26076번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 58367/300000 [3:10:45<12:20:59,  5.43it/s]

지금 다 먹고 26077번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26078번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 58370/300000 [3:10:46<13:07:43,  5.11it/s]

지금 다 먹고 26079번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26080번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58372/300000 [3:10:46<13:03:16,  5.14it/s]

지금 다 먹고 26081번째 도착완료 
  그리고 총 보상은 : 17.200000000000014 


 19%|█▉        | 58374/300000 [3:10:47<14:21:47,  4.67it/s]

지금 다 먹고 26082번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 19%|█▉        | 58375/300000 [3:10:47<13:59:58,  4.79it/s]

지금 다 먹고 26083번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▉        | 58376/300000 [3:10:47<13:37:05,  4.93it/s]

지금 다 먹고 26084번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 26085번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 19%|█▉        | 58378/300000 [3:10:47<13:20:35,  5.03it/s]

지금 다 먹고 26086번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 26087번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 19%|█▉        | 58381/300000 [3:10:48<14:04:58,  4.77it/s]

지금 다 먹고 26088번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 26089번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 19%|█▉        | 58383/300000 [3:10:49<15:32:43,  4.32it/s]

지금 다 먹고 26090번째 도착완료 
  그리고 총 보상은 : 8.499999999999998 


 19%|█▉        | 58385/300000 [3:10:49<14:51:57,  4.51it/s]

지금 다 먹고 26091번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58387/300000 [3:10:49<14:31:59,  4.62it/s]

지금 다 먹고 26092번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 
지금 다 먹고 26093번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 19%|█▉        | 58389/300000 [3:10:50<15:04:08,  4.45it/s]

지금 다 먹고 26094번째 도착완료 
  그리고 총 보상은 : -6.399999999999999 


 19%|█▉        | 58391/300000 [3:10:50<16:20:01,  4.11it/s]

지금 다 먹고 26095번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 


 19%|█▉        | 58392/300000 [3:10:51<15:48:59,  4.24it/s]

지금 다 먹고 26096번째 도착완료 
  그리고 총 보상은 : 16.000000000000014 


 19%|█▉        | 58394/300000 [3:10:51<15:10:40,  4.42it/s]

지금 다 먹고 26097번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 26098번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 19%|█▉        | 58396/300000 [3:10:51<13:38:13,  4.92it/s]

지금 다 먹고 26099번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 58398/300000 [3:10:52<14:00:07,  4.79it/s]

지금 다 먹고 26100번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 26101번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 


 19%|█▉        | 58400/300000 [3:10:52<13:06:12,  5.12it/s]

지금 다 먹고 26102번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 26103번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 58402/300000 [3:10:53<12:29:17,  5.37it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.800000000000004
 end : True
 clear : True
episode :5, score = 14.147000000001707, n_buffer :100000 , eps : 20.8
지금 다 먹고 26104번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58404/300000 [3:10:53<13:51:27,  4.84it/s]

지금 다 먹고 26105번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 19%|█▉        | 58405/300000 [3:10:53<13:47:35,  4.87it/s]

지금 다 먹고 26106번째 도착완료 
  그리고 총 보상은 : 24.900000000000013 
지금 다 먹고 26107번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 58407/300000 [3:10:54<13:21:42,  5.02it/s]

지금 다 먹고 26108번째 도착완료 
  그리고 총 보상은 : 21.8 
지금 다 먹고 26109번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 19%|█▉        | 58409/300000 [3:10:54<12:47:36,  5.25it/s]

지금 다 먹고 26110번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 
지금 다 먹고 26111번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58411/300000 [3:10:54<12:47:28,  5.25it/s]

지금 다 먹고 26112번째 도착완료 
  그리고 총 보상은 : 21.70000000000001 


 19%|█▉        | 58413/300000 [3:10:55<13:52:55,  4.83it/s]

지금 다 먹고 26113번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 26114번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 19%|█▉        | 58415/300000 [3:10:55<13:08:27,  5.11it/s]

지금 다 먹고 26115번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26116번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 19%|█▉        | 58419/300000 [3:10:56<14:35:14,  4.60it/s]

지금 다 먹고 26117번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 19%|█▉        | 58421/300000 [3:10:57<15:24:27,  4.36it/s]

지금 다 먹고 26118번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 
지금 다 먹고 26119번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58423/300000 [3:10:57<13:30:22,  4.97it/s]

지금 다 먹고 26120번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 58425/300000 [3:10:58<15:41:57,  4.27it/s]

지금 다 먹고 26121번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 19%|█▉        | 58426/300000 [3:10:58<15:01:22,  4.47it/s]

지금 다 먹고 26122번째 도착완료 
  그리고 총 보상은 : 24.5 
지금 다 먹고 26123번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 19%|█▉        | 58428/300000 [3:10:58<13:31:47,  4.96it/s]

지금 다 먹고 26124번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58430/300000 [3:10:59<14:11:55,  4.73it/s]

지금 다 먹고 26125번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26126번째 도착완료 
  그리고 총 보상은 : 23.200000000000006 


 19%|█▉        | 58432/300000 [3:10:59<13:02:19,  5.15it/s]

지금 다 먹고 26127번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26128번째 도착완료 
  그리고 총 보상은 : 27.6 


 19%|█▉        | 58434/300000 [3:10:59<12:26:04,  5.40it/s]

지금 다 먹고 26129번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 26130번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 19%|█▉        | 58436/300000 [3:11:00<12:14:27,  5.48it/s]

지금 다 먹고 26131번째 도착완료 
  그리고 총 보상은 : 25.5 


 19%|█▉        | 58438/300000 [3:11:00<13:37:46,  4.92it/s]

지금 다 먹고 26132번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 26133번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 58440/300000 [3:11:00<13:26:05,  4.99it/s]

지금 다 먹고 26134번째 도착완료 
  그리고 총 보상은 : 22.6 


 19%|█▉        | 58442/300000 [3:11:01<13:51:36,  4.84it/s]

지금 다 먹고 26135번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 26136번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 19%|█▉        | 58444/300000 [3:11:01<12:52:17,  5.21it/s]

지금 다 먹고 26137번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26138번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 19%|█▉        | 58446/300000 [3:11:02<12:47:37,  5.24it/s]

지금 다 먹고 26139번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 26140번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 19%|█▉        | 58449/300000 [3:11:02<14:36:19,  4.59it/s]

지금 다 먹고 26141번째 도착완료 
  그리고 총 보상은 : 15.000000000000025 
지금 다 먹고 26142번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 19%|█▉        | 58451/300000 [3:11:03<13:06:46,  5.12it/s]

지금 다 먹고 26143번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 19%|█▉        | 58453/300000 [3:11:03<13:54:46,  4.82it/s]

지금 다 먹고 26144번째 도착완료 
  그리고 총 보상은 : 24.5 


 19%|█▉        | 58454/300000 [3:11:03<14:04:42,  4.77it/s]

지금 다 먹고 26145번째 도착완료 
  그리고 총 보상은 : 14.700000000000012 
지금 다 먹고 26146번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 19%|█▉        | 58456/300000 [3:11:04<13:19:10,  5.04it/s]

지금 다 먹고 26147번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 19%|█▉        | 58457/300000 [3:11:04<13:47:45,  4.86it/s]

지금 다 먹고 26148번째 도착완료 
  그리고 총 보상은 : 22.6 


 19%|█▉        | 58458/300000 [3:11:04<14:19:30,  4.68it/s]

지금 다 먹고 26149번째 도착완료 
  그리고 총 보상은 : 21.0 


 19%|█▉        | 58459/300000 [3:11:04<14:53:28,  4.51it/s]

지금 다 먹고 26150번째 도착완료 
  그리고 총 보상은 : 16.400000000000016 


 19%|█▉        | 58461/300000 [3:11:05<14:59:30,  4.48it/s]

지금 다 먹고 26151번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 26152번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 19%|█▉        | 58463/300000 [3:11:05<14:27:14,  4.64it/s]

지금 다 먹고 26153번째 도착완료 
  그리고 총 보상은 : 19.80000000000001 
지금 다 먹고 26154번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 19%|█▉        | 58466/300000 [3:11:06<14:34:05,  4.61it/s]

지금 다 먹고 26155번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 26156번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 19%|█▉        | 58468/300000 [3:11:06<14:03:00,  4.78it/s]

지금 다 먹고 26157번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 19%|█▉        | 58470/300000 [3:11:07<14:47:14,  4.54it/s]

지금 다 먹고 26158번째 도착완료 
  그리고 총 보상은 : 24.8 


 19%|█▉        | 58471/300000 [3:11:07<15:00:23,  4.47it/s]

지금 다 먹고 26159번째 도착완료 
  그리고 총 보상은 : 22.0 


 19%|█▉        | 58472/300000 [3:11:07<15:44:50,  4.26it/s]

지금 다 먹고 26160번째 도착완료 
  그리고 총 보상은 : 18.800000000000015 
지금 다 먹고 26161번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 19%|█▉        | 58474/300000 [3:11:08<15:08:10,  4.43it/s]

지금 다 먹고 26162번째 도착완료 
  그리고 총 보상은 : -5.90000000000002 


 19%|█▉        | 58476/300000 [3:11:08<15:08:03,  4.43it/s]

지금 다 먹고 26163번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 26164번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 19%|█▉        | 58478/300000 [3:11:09<13:44:01,  4.89it/s]

지금 다 먹고 26165번째 도착완료 
  그리고 총 보상은 : 11.1 
지금 다 먹고 26166번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 19%|█▉        | 58480/300000 [3:11:09<13:00:47,  5.16it/s]

지금 다 먹고 26167번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 26168번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 


 19%|█▉        | 58483/300000 [3:11:10<14:45:38,  4.55it/s]

지금 다 먹고 26169번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26170번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 19%|█▉        | 58487/300000 [3:11:11<15:01:21,  4.47it/s]

지금 다 먹고 26171번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 19%|█▉        | 58489/300000 [3:11:11<15:03:15,  4.46it/s]

지금 다 먹고 26172번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 


 19%|█▉        | 58491/300000 [3:11:12<16:15:05,  4.13it/s]

지금 다 먹고 26173번째 도착완료 
  그리고 총 보상은 : 14.400000000000038 


 19%|█▉        | 58492/300000 [3:11:12<15:43:14,  4.27it/s]

지금 다 먹고 26174번째 도착완료 
  그리고 총 보상은 : -3.8000000000000185 
지금 다 먹고 26175번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 19%|█▉        | 58495/300000 [3:11:12<15:15:35,  4.40it/s]

지금 다 먹고 26176번째 도착완료 
  그리고 총 보상은 : 20.8 
지금 다 먹고 26177번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 19%|█▉        | 58497/300000 [3:11:13<13:55:51,  4.82it/s]

지금 다 먹고 26178번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26179번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 58500/300000 [3:11:14<16:06:06,  4.17it/s]

지금 다 먹고 26180번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 58501/300000 [3:11:14<15:08:51,  4.43it/s]

지금 다 먹고 26181번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.500000000000004
 end : True
 clear : True
episode :3, score = 12.822000000001385, n_buffer :100000 , eps : 20.75


 20%|█▉        | 58502/300000 [3:11:14<14:29:15,  4.63it/s]

지금 다 먹고 26182번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|█▉        | 58504/300000 [3:11:14<14:35:44,  4.60it/s]

지금 다 먹고 26183번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58506/300000 [3:11:15<16:28:30,  4.07it/s]

지금 다 먹고 26184번째 도착완료 
  그리고 총 보상은 : 16.200000000000024 
지금 다 먹고 26185번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 58510/300000 [3:11:16<16:07:22,  4.16it/s]

지금 다 먹고 26186번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 20%|█▉        | 58511/300000 [3:11:16<15:29:57,  4.33it/s]

지금 다 먹고 26187번째 도착완료 
  그리고 총 보상은 : 20.500000000000007 
지금 다 먹고 26188번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|█▉        | 58513/300000 [3:11:16<13:57:34,  4.81it/s]

지금 다 먹고 26189번째 도착완료 
  그리고 총 보상은 : 15.700000000000005 
지금 다 먹고 26190번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 20%|█▉        | 58515/300000 [3:11:17<13:02:10,  5.15it/s]

지금 다 먹고 26191번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 58517/300000 [3:11:17<14:04:05,  4.77it/s]

지금 다 먹고 26192번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 
지금 다 먹고 26193번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 58519/300000 [3:11:18<13:40:40,  4.90it/s]

지금 다 먹고 26194번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 20%|█▉        | 58521/300000 [3:11:18<14:04:56,  4.76it/s]

지금 다 먹고 26195번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 58522/300000 [3:11:18<14:57:22,  4.48it/s]

지금 다 먹고 26196번째 도착완료 
  그리고 총 보상은 : 10.700000000000031 
지금 다 먹고 26197번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|█▉        | 58524/300000 [3:11:19<13:36:19,  4.93it/s]

지금 다 먹고 26198번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 58525/300000 [3:11:19<13:58:53,  4.80it/s]

지금 다 먹고 26199번째 도착완료 
  그리고 총 보상은 : 16.500000000000025 
지금 다 먹고 26200번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58527/300000 [3:11:19<13:07:00,  5.11it/s]

지금 다 먹고 26201번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 20%|█▉        | 58531/300000 [3:11:20<15:13:10,  4.41it/s]

지금 다 먹고 26202번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 26203번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 

 20%|█▉        | 58532/300000 [3:11:21<14:57:39,  4.48it/s]


지금 다 먹고 26204번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 20%|█▉        | 58534/300000 [3:11:21<13:34:04,  4.94it/s]

지금 다 먹고 26205번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26206번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 20%|█▉        | 58536/300000 [3:11:21<12:50:33,  5.22it/s]

지금 다 먹고 26207번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 26208번째 도착완료 
  그리고 총 보상은 : 22.8 


 20%|█▉        | 58538/300000 [3:11:22<14:04:49,  4.76it/s]

지금 다 먹고 26209번째 도착완료 
  그리고 총 보상은 : 9.800000000000008 


 20%|█▉        | 58540/300000 [3:11:22<14:59:06,  4.48it/s]

지금 다 먹고 26210번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 26211번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|█▉        | 58543/300000 [3:11:23<14:29:37,  4.63it/s]

지금 다 먹고 26212번째 도착완료 
  그리고 총 보상은 : 18.2 


 20%|█▉        | 58544/300000 [3:11:23<14:00:23,  4.79it/s]

지금 다 먹고 26213번째 도착완료 
  그리고 총 보상은 : 20.6 
지금 다 먹고 26214번째 도착완료 
  그리고 총 보상은 : 23.200000000000006 


 20%|█▉        | 58546/300000 [3:11:23<13:27:52,  4.98it/s]

지금 다 먹고 26215번째 도착완료 
  그리고 총 보상은 : 15.100000000000005 
지금 다 먹고 26216번째 도착완료 
  그리고 총 보상은 : 19.200000000000006 


 20%|█▉        | 58548/300000 [3:11:24<14:17:29,  4.69it/s]

지금 다 먹고 26217번째 도착완료 
  그리고 총 보상은 : 9.400000000000011 
지금 다 먹고 26218번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58551/300000 [3:11:25<14:00:09,  4.79it/s]

지금 다 먹고 26219번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26220번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 


 20%|█▉        | 58554/300000 [3:11:25<14:35:37,  4.60it/s]

지금 다 먹고 26221번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 26222번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 58557/300000 [3:11:26<14:19:04,  4.68it/s]

지금 다 먹고 26223번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 26224번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|█▉        | 58559/300000 [3:11:26<13:07:16,  5.11it/s]

지금 다 먹고 26225번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26226번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58563/300000 [3:11:27<15:46:40,  4.25it/s]

지금 다 먹고 26227번째 도착완료 
  그리고 총 보상은 : 9.299999999999978 
지금 다 먹고 26228번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|█▉        | 58566/300000 [3:11:28<14:13:44,  4.71it/s]

지금 다 먹고 26229번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58568/300000 [3:11:28<14:26:55,  4.64it/s]

지금 다 먹고 26230번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 58569/300000 [3:11:28<14:35:14,  4.60it/s]

지금 다 먹고 26231번째 도착완료 
  그리고 총 보상은 : 15.200000000000022 


 20%|█▉        | 58570/300000 [3:11:29<14:25:19,  4.65it/s]

지금 다 먹고 26232번째 도착완료 
  그리고 총 보상은 : 20.900000000000006 
지금 다 먹고 26233번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58572/300000 [3:11:29<13:05:29,  5.12it/s]

지금 다 먹고 26234번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|█▉        | 58573/300000 [3:11:29<13:33:54,  4.94it/s]

지금 다 먹고 26235번째 도착완료 
  그리고 총 보상은 : 13.400000000000022 
지금 다 먹고 26236번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 


 20%|█▉        | 58575/300000 [3:11:30<13:07:31,  5.11it/s]

지금 다 먹고 26237번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58577/300000 [3:11:30<14:17:12,  4.69it/s]

지금 다 먹고 26238번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 26239번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 20%|█▉        | 58579/300000 [3:11:30<13:12:01,  5.08it/s]

지금 다 먹고 26240번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 58580/300000 [3:11:31<13:31:46,  4.96it/s]

지금 다 먹고 26241번째 도착완료 
  그리고 총 보상은 : 6.000000000000002 
지금 다 먹고 26242번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 

 20%|█▉        | 58581/300000 [3:11:31<14:03:41,  4.77it/s]




 20%|█▉        | 58583/300000 [3:11:31<14:11:14,  4.73it/s]

지금 다 먹고 26243번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 58585/300000 [3:11:32<14:10:31,  4.73it/s]

지금 다 먹고 26244번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26245번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 58588/300000 [3:11:32<14:48:16,  4.53it/s]

지금 다 먹고 26246번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 26247번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 58591/300000 [3:11:33<14:01:59,  4.78it/s]

지금 다 먹고 26248번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 26249번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58593/300000 [3:11:33<12:59:29,  5.16it/s]

지금 다 먹고 26250번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26251번째 도착완료 
  그리고 총 보상은 : 20.0 


 20%|█▉        | 58595/300000 [3:11:34<12:33:42,  5.34it/s]

지금 다 먹고 26252번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 26253번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 20%|█▉        | 58597/300000 [3:11:34<12:23:17,  5.41it/s]

지금 다 먹고 26254번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 
지금 다 먹고 26255번째 도착완료 
  그리고 총 보상은 : 25.8 


 20%|█▉        | 58599/300000 [3:11:35<12:39:40,  5.30it/s]

지금 다 먹고 26256번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 26257번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 58602/300000 [3:11:35<13:54:14,  4.82it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0. 100.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↑
 마지막 보상 : -0.1
 총 받은 보상 :-28.500000000000078
 end : True
 clear : True
episode :1, score = 11.209999999999182, n_buffer :100000 , eps : 20.700000000000003
지금 다 먹고 26258번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58603/300000 [3:11:35<13:33:39,  4.94it/s]

지금 다 먹고 26259번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 26260번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58605/300000 [3:11:36<13:55:29,  4.82it/s]

지금 다 먹고 26261번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 26262번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 58608/300000 [3:11:36<13:58:26,  4.80it/s]

지금 다 먹고 26263번째 도착완료 
  그리고 총 보상은 : 25.6 


 20%|█▉        | 58609/300000 [3:11:37<14:36:36,  4.59it/s]

지금 다 먹고 26264번째 도착완료 
  그리고 총 보상은 : 20.200000000000014 
지금 다 먹고 26265번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58612/300000 [3:11:37<14:43:40,  4.55it/s]

지금 다 먹고 26266번째 도착완료 
  그리고 총 보상은 : 21.1 
지금 다 먹고 26267번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 20%|█▉        | 58614/300000 [3:11:38<13:51:59,  4.84it/s]

지금 다 먹고 26268번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58615/300000 [3:11:38<13:55:46,  4.81it/s]

지금 다 먹고 26269번째 도착완료 
  그리고 총 보상은 : 23.5 


 20%|█▉        | 58616/300000 [3:11:38<14:15:03,  4.70it/s]

지금 다 먹고 26270번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 


 20%|█▉        | 58617/300000 [3:11:38<14:12:25,  4.72it/s]

지금 다 먹고 26271번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 


 20%|█▉        | 58619/300000 [3:11:39<14:16:33,  4.70it/s]

지금 다 먹고 26272번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 58621/300000 [3:11:39<15:11:47,  4.41it/s]

지금 다 먹고 26273번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 26274번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 58623/300000 [3:11:40<14:20:03,  4.68it/s]

지금 다 먹고 26275번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58624/300000 [3:11:40<16:13:36,  4.13it/s]

지금 다 먹고 26276번째 도착완료 
  그리고 총 보상은 : 1.8999999999999702 
지금 다 먹고 26277번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 

 20%|█▉        | 58625/300000 [3:11:40<15:35:41,  4.30it/s]


지금 다 먹고 26278번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 58627/300000 [3:11:41<14:10:19,  4.73it/s]

지금 다 먹고 26279번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 26280번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|█▉        | 58629/300000 [3:11:41<13:37:27,  4.92it/s]

지금 다 먹고 26281번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 26282번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 58631/300000 [3:11:41<12:46:20,  5.25it/s]

지금 다 먹고 26283번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26284번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 20%|█▉        | 58633/300000 [3:11:42<13:42:07,  4.89it/s]

지금 다 먹고 26285번째 도착완료 
  그리고 총 보상은 : 25.0 
지금 다 먹고 26286번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 58636/300000 [3:11:42<13:39:40,  4.91it/s]

지금 다 먹고 26287번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26288번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 58638/300000 [3:11:43<14:11:04,  4.73it/s]

지금 다 먹고 26289번째 도착완료 
  그리고 총 보상은 : 20.70000000000001 


 20%|█▉        | 58639/300000 [3:11:43<14:19:56,  4.68it/s]

지금 다 먹고 26290번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 
지금 다 먹고 26291번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58641/300000 [3:11:43<14:18:34,  4.69it/s]

지금 다 먹고 26292번째 도착완료 
  그리고 총 보상은 : 15.80000000000002 


 20%|█▉        | 58642/300000 [3:11:44<14:50:19,  4.52it/s]

지금 다 먹고 26293번째 도착완료 
  그리고 총 보상은 : 19.00000000000001 
지금 다 먹고 26294번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 58644/300000 [3:11:44<14:11:02,  4.73it/s]

지금 다 먹고 26295번째 도착완료 
  그리고 총 보상은 : 24.1 


 20%|█▉        | 58645/300000 [3:11:44<14:29:40,  4.63it/s]

지금 다 먹고 26296번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|█▉        | 58646/300000 [3:11:45<14:17:33,  4.69it/s]

지금 다 먹고 26297번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 26298번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 58648/300000 [3:11:45<12:59:33,  5.16it/s]

지금 다 먹고 26299번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 26300번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58650/300000 [3:11:45<12:28:23,  5.37it/s]

지금 다 먹고 26301번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 26302번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58653/300000 [3:11:46<12:52:16,  5.21it/s]

지금 다 먹고 26303번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 58655/300000 [3:11:46<14:08:10,  4.74it/s]

지금 다 먹고 26304번째 도착완료 
  그리고 총 보상은 : 21.6 


 20%|█▉        | 58657/300000 [3:11:47<14:34:03,  4.60it/s]

지금 다 먹고 26305번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 20%|█▉        | 58659/300000 [3:11:47<14:47:33,  4.53it/s]

지금 다 먹고 26306번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 26307번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 58661/300000 [3:11:48<13:29:19,  4.97it/s]

지금 다 먹고 26308번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 58664/300000 [3:11:48<15:20:56,  4.37it/s]

지금 다 먹고 26309번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 20%|█▉        | 58665/300000 [3:11:49<15:28:23,  4.33it/s]

지금 다 먹고 26310번째 도착완료 
  그리고 총 보상은 : 20.400000000000006 
지금 다 먹고 26311번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 

 20%|█▉        | 58666/300000 [3:11:49<14:38:15,  4.58it/s]


지금 다 먹고 26312번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 58668/300000 [3:11:49<14:13:27,  4.71it/s]

지금 다 먹고 26313번째 도착완료 
  그리고 총 보상은 : 17.5 


 20%|█▉        | 58670/300000 [3:11:50<15:32:38,  4.31it/s]

지금 다 먹고 26314번째 도착완료 
  그리고 총 보상은 : 13.500000000000036 
지금 다 먹고 26315번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 58672/300000 [3:11:50<13:48:46,  4.85it/s]

지금 다 먹고 26316번째 도착완료 
  그리고 총 보상은 : 21.2 


 20%|█▉        | 58673/300000 [3:11:50<13:58:34,  4.80it/s]

지금 다 먹고 26317번째 도착완료 
  그리고 총 보상은 : 19.100000000000016 
지금 다 먹고 26318번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 20%|█▉        | 58676/300000 [3:11:51<13:52:05,  4.83it/s]

지금 다 먹고 26319번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26320번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 58678/300000 [3:11:51<12:53:02,  5.20it/s]

지금 다 먹고 26321번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 26322번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|█▉        | 58680/300000 [3:11:52<12:29:38,  5.37it/s]

지금 다 먹고 26323번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 26324번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 20%|█▉        | 58682/300000 [3:11:52<13:20:21,  5.03it/s]

지금 다 먹고 26325번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 20%|█▉        | 58683/300000 [3:11:52<13:43:37,  4.88it/s]

지금 다 먹고 26326번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 
지금 다 먹고 26327번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|█▉        | 58685/300000 [3:11:53<13:15:31,  5.06it/s]

지금 다 먹고 26328번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 58687/300000 [3:11:53<14:32:49,  4.61it/s]

지금 다 먹고 26329번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 58688/300000 [3:11:53<14:25:46,  4.65it/s]

지금 다 먹고 26330번째 도착완료 
  그리고 총 보상은 : 18.100000000000016 
지금 다 먹고 26331번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 58691/300000 [3:11:54<14:41:04,  4.56it/s]

지금 다 먹고 26332번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 26333번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|█▉        | 58693/300000 [3:11:54<13:05:11,  5.12it/s]

지금 다 먹고 26334번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26335번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 58695/300000 [3:11:55<12:37:23,  5.31it/s]

지금 다 먹고 26336번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 26337번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 58697/300000 [3:11:55<12:46:11,  5.25it/s]

지금 다 먹고 26338번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 


 20%|█▉        | 58698/300000 [3:11:55<13:30:56,  4.96it/s]

지금 다 먹고 26339번째 도착완료 
  그리고 총 보상은 : 16.900000000000016 
지금 다 먹고 26340번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 20%|█▉        | 58701/300000 [3:11:56<14:45:04,  4.54it/s]

지금 다 먹고 26341번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.600000000000005
 end : True
 clear : True
episode :16, score = 15.88200000000124, n_buffer :100000 , eps : 20.650000000000002


 20%|█▉        | 58704/300000 [3:11:57<15:51:47,  4.23it/s]

지금 다 먹고 26342번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 26343번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 58706/300000 [3:11:57<14:15:38,  4.70it/s]

지금 다 먹고 26344번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 26345번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 58708/300000 [3:11:58<13:20:19,  5.02it/s]

지금 다 먹고 26346번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26347번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|█▉        | 58710/300000 [3:11:58<12:47:32,  5.24it/s]

지금 다 먹고 26348번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 26349번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 58712/300000 [3:11:58<12:59:06,  5.16it/s]

지금 다 먹고 26350번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58714/300000 [3:11:59<14:05:24,  4.76it/s]

지금 다 먹고 26351번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26352번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 58716/300000 [3:11:59<13:12:59,  5.07it/s]

지금 다 먹고 26353번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 58718/300000 [3:12:00<13:56:44,  4.81it/s]

지금 다 먹고 26354번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 26355번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|█▉        | 58721/300000 [3:12:00<14:09:30,  4.73it/s]

지금 다 먹고 26356번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 26357번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58723/300000 [3:12:01<13:18:03,  5.04it/s]

지금 다 먹고 26358번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 26359번째 도착완료 
  그리고 총 보상은 : 24.1 


 20%|█▉        | 58725/300000 [3:12:01<12:27:57,  5.38it/s]

지금 다 먹고 26360번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 58727/300000 [3:12:02<14:58:10,  4.48it/s]

지금 다 먹고 26361번째 도착완료 
  그리고 총 보상은 : -3.5000000000000284 
지금 다 먹고 26362번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 58729/300000 [3:12:02<14:00:12,  4.79it/s]

지금 다 먹고 26363번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26364번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 20%|█▉        | 58731/300000 [3:12:02<14:11:28,  4.72it/s]

지금 다 먹고 26365번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 26366번째 도착완료 
  그리고 총 보상은 : 26.1 

 20%|█▉        | 58732/300000 [3:12:03<13:51:27,  4.84it/s]




 20%|█▉        | 58733/300000 [3:12:03<13:53:14,  4.83it/s]

지금 다 먹고 26367번째 도착완료 
  그리고 총 보상은 : 2.899999999999995 


 20%|█▉        | 58735/300000 [3:12:03<14:13:35,  4.71it/s]

지금 다 먹고 26368번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 26369번째 도착완료 
  그리고 총 보상은 : 19.4 


 20%|█▉        | 58738/300000 [3:12:04<15:20:17,  4.37it/s]

지금 다 먹고 26370번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 58739/300000 [3:12:04<14:37:50,  4.58it/s]

지금 다 먹고 26371번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58740/300000 [3:12:04<14:27:28,  4.64it/s]

지금 다 먹고 26372번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 58743/300000 [3:12:05<15:10:23,  4.42it/s]

지금 다 먹고 26373번째 도착완료 
  그리고 총 보상은 : 20.9 
지금 다 먹고 26374번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 58745/300000 [3:12:05<13:44:00,  4.88it/s]

지금 다 먹고 26375번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26376번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 


 20%|█▉        | 58747/300000 [3:12:06<13:20:32,  5.02it/s]

지금 다 먹고 26377번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 26378번째 도착완료 
  그리고 총 보상은 : 26.5 


 20%|█▉        | 58749/300000 [3:12:06<12:55:43,  5.18it/s]

지금 다 먹고 26379번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 20%|█▉        | 58750/300000 [3:12:06<13:57:35,  4.80it/s]

지금 다 먹고 26380번째 도착완료 
  그리고 총 보상은 : -9.700000000000038 


 20%|█▉        | 58752/300000 [3:12:07<14:54:10,  4.50it/s]

지금 다 먹고 26381번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26382번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 58755/300000 [3:12:08<14:38:34,  4.58it/s]

지금 다 먹고 26383번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 26384번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 58757/300000 [3:12:08<13:25:07,  4.99it/s]

지금 다 먹고 26385번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 26386번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 58759/300000 [3:12:08<13:40:00,  4.90it/s]

지금 다 먹고 26387번째 도착완료 
  그리고 총 보상은 : 19.30000000000001 


 20%|█▉        | 58760/300000 [3:12:09<14:21:04,  4.67it/s]

지금 다 먹고 26388번째 도착완료 
  그리고 총 보상은 : 15.799999999999997 
지금 다 먹고 26389번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|█▉        | 58762/300000 [3:12:09<13:17:27,  5.04it/s]

지금 다 먹고 26390번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 
지금 다 먹고 26391번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58765/300000 [3:12:10<13:45:34,  4.87it/s]

지금 다 먹고 26392번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 26393번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 20%|█▉        | 58767/300000 [3:12:10<12:44:25,  5.26it/s]

지금 다 먹고 26394번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 26395번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 58769/300000 [3:12:10<12:42:03,  5.28it/s]

지금 다 먹고 26396번째 도착완료 
  그리고 총 보상은 : 20.9 
지금 다 먹고 26397번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|█▉        | 58771/300000 [3:12:11<14:18:16,  4.68it/s]

지금 다 먹고 26398번째 도착완료 
  그리고 총 보상은 : 6.9000000000000234 
지금 다 먹고 26399번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58773/300000 [3:12:11<12:52:04,  5.21it/s]

지금 다 먹고 26400번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58778/300000 [3:12:12<15:13:36,  4.40it/s]

지금 다 먹고 26401번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 26402번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|█▉        | 58780/300000 [3:12:13<13:34:57,  4.93it/s]

지금 다 먹고 26403번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 26404번째 도착완료 
  그리고 총 보상은 : 23.1 


 20%|█▉        | 58782/300000 [3:12:13<13:13:37,  5.07it/s]

지금 다 먹고 26405번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26406번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|█▉        | 58784/300000 [3:12:13<12:39:06,  5.30it/s]

지금 다 먹고 26407번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 26408번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 58786/300000 [3:12:14<12:24:47,  5.40it/s]

지금 다 먹고 26409번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 26410번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 20%|█▉        | 58788/300000 [3:12:14<11:59:40,  5.59it/s]

지금 다 먹고 26411번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 26412번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58790/300000 [3:12:15<12:31:45,  5.35it/s]

지금 다 먹고 26413번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26414번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 58795/300000 [3:12:16<15:19:37,  4.37it/s]

지금 다 먹고 26415번째 도착완료 
  그리고 총 보상은 : 23.8 
지금 다 먹고 26416번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58797/300000 [3:12:16<13:55:47,  4.81it/s]

지금 다 먹고 26417번째 도착완료 
  그리고 총 보상은 : 20.8 


 20%|█▉        | 58799/300000 [3:12:17<14:37:19,  4.58it/s]

지금 다 먹고 26418번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26419번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 58801/300000 [3:12:17<13:29:26,  4.97it/s]

지금 다 먹고 26420번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.300000000000004
 end : True
 clear : True
episode :14, score = 13.458000000000467, n_buffer :100000 , eps : 20.6
지금 다 먹고 26421번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 58802/300000 [3:12:17<13:06:51,  5.11it/s]

지금 다 먹고 26422번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 


 20%|█▉        | 58805/300000 [3:12:18<15:16:12,  4.39it/s]

지금 다 먹고 26423번째 도착완료 
  그리고 총 보상은 : 7.000000000000016 


 20%|█▉        | 58807/300000 [3:12:18<14:50:15,  4.52it/s]

지금 다 먹고 26424번째 도착완료 
  그리고 총 보상은 : 25.30000000000001 
지금 다 먹고 26425번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 58809/300000 [3:12:19<13:29:58,  4.96it/s]

지금 다 먹고 26426번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 26427번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 58811/300000 [3:12:19<13:27:43,  4.98it/s]

지금 다 먹고 26428번째 도착완료 
  그리고 총 보상은 : 6.100000000000017 


 20%|█▉        | 58812/300000 [3:12:19<13:53:25,  4.82it/s]

지금 다 먹고 26429번째 도착완료 
  그리고 총 보상은 : 15.000000000000007 
지금 다 먹고 26430번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 


 20%|█▉        | 58814/300000 [3:12:20<12:48:52,  5.23it/s]

지금 다 먹고 26431번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 58816/300000 [3:12:20<13:48:39,  4.85it/s]

지금 다 먹고 26432번째 도착완료 
  그리고 총 보상은 : 22.3 
지금 다 먹고 26433번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58818/300000 [3:12:21<14:08:09,  4.74it/s]

지금 다 먹고 26434번째 도착완료 
  그리고 총 보상은 : 13.300000000000018 
지금 다 먹고 26435번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58820/300000 [3:12:21<13:08:08,  5.10it/s]

지금 다 먹고 26436번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 26437번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 58822/300000 [3:12:21<12:11:12,  5.50it/s]

지금 다 먹고 26438번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26439번째 도착완료 
  그리고 총 보상은 : 26.3 


 20%|█▉        | 58824/300000 [3:12:22<12:41:36,  5.28it/s]

지금 다 먹고 26440번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 
지금 다 먹고 26441번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|█▉        | 58827/300000 [3:12:22<13:08:49,  5.10it/s]

지금 다 먹고 26442번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 20%|█▉        | 58829/300000 [3:12:23<13:54:57,  4.81it/s]

지금 다 먹고 26443번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 26444번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 58831/300000 [3:12:23<12:41:27,  5.28it/s]

지금 다 먹고 26445번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26446번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58833/300000 [3:12:23<12:08:06,  5.52it/s]

지금 다 먹고 26447번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26448번째 도착완료 
  그리고 총 보상은 : 22.4 


 20%|█▉        | 58835/300000 [3:12:24<11:55:20,  5.62it/s]

지금 다 먹고 26449번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26450번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 58837/300000 [3:12:24<12:17:19,  5.45it/s]

지금 다 먹고 26451번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26452번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|█▉        | 58841/300000 [3:12:25<14:19:34,  4.68it/s]

지금 다 먹고 26453번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26454번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 20%|█▉        | 58844/300000 [3:12:26<14:17:54,  4.68it/s]

지금 다 먹고 26455번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 58846/300000 [3:12:26<14:59:04,  4.47it/s]

지금 다 먹고 26456번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26457번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58848/300000 [3:12:27<14:00:53,  4.78it/s]

지금 다 먹고 26458번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58849/300000 [3:12:27<14:26:49,  4.64it/s]

지금 다 먹고 26459번째 도착완료 
  그리고 총 보상은 : -3.2000000000000277 


 20%|█▉        | 58850/300000 [3:12:27<14:08:31,  4.74it/s]

지금 다 먹고 26460번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 26461번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58852/300000 [3:12:27<12:58:52,  5.16it/s]

지금 다 먹고 26462번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 20%|█▉        | 58854/300000 [3:12:28<14:36:23,  4.59it/s]

지금 다 먹고 26463번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26464번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 58856/300000 [3:12:28<13:32:40,  4.95it/s]

지금 다 먹고 26465번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26466번째 도착완료 
  그리고 총 보상은 : 21.1 


 20%|█▉        | 58858/300000 [3:12:29<12:38:59,  5.30it/s]

지금 다 먹고 26467번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26468번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 20%|█▉        | 58862/300000 [3:12:30<15:02:17,  4.45it/s]

지금 다 먹고 26469번째 도착완료 
  그리고 총 보상은 : 20.3 
지금 다 먹고 26470번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 58865/300000 [3:12:30<15:15:58,  4.39it/s]

지금 다 먹고 26471번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26472번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 

 20%|█▉        | 58866/300000 [3:12:30<14:26:30,  4.64it/s]


지금 다 먹고 26473번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58868/300000 [3:12:31<12:54:25,  5.19it/s]

지금 다 먹고 26474번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 26475번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 58871/300000 [3:12:31<13:22:02,  5.01it/s]

지금 다 먹고 26476번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 26477번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58873/300000 [3:12:32<12:36:37,  5.31it/s]

지금 다 먹고 26478번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26479번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 58875/300000 [3:12:32<12:26:24,  5.38it/s]

지금 다 먹고 26480번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26481번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 

 20%|█▉        | 58876/300000 [3:12:32<12:46:05,  5.25it/s]




 20%|█▉        | 58880/300000 [3:12:33<15:23:11,  4.35it/s]

지금 다 먹고 26482번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 26483번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 20%|█▉        | 58882/300000 [3:12:34<13:41:05,  4.89it/s]

지금 다 먹고 26484번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 58884/300000 [3:12:34<14:15:59,  4.69it/s]

지금 다 먹고 26485번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26486번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 58886/300000 [3:12:35<13:24:42,  4.99it/s]

지금 다 먹고 26487번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 58888/300000 [3:12:35<14:17:25,  4.69it/s]

지금 다 먹고 26488번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26489번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 58890/300000 [3:12:35<13:13:32,  5.06it/s]

지금 다 먹고 26490번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 
지금 다 먹고 26491번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 58892/300000 [3:12:36<12:43:25,  5.26it/s]

지금 다 먹고 26492번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 58893/300000 [3:12:36<13:41:24,  4.89it/s]

지금 다 먹고 26493번째 도착완료 
  그리고 총 보상은 : 17.30000000000002 


 20%|█▉        | 58895/300000 [3:12:36<15:22:19,  4.36it/s]

지금 다 먹고 26494번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 20%|█▉        | 58896/300000 [3:12:37<14:37:22,  4.58it/s]

지금 다 먹고 26495번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 26496번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 58899/300000 [3:12:37<13:52:23,  4.83it/s]

지금 다 먹고 26497번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26498번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 58901/300000 [3:12:38<14:29:23,  4.62it/s]

지금 다 먹고 26499번째 도착완료 
  그리고 총 보상은 : 18.60000000000001 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :18.60000000000001
 end : True
 clear : True
episode :12, score = 12.960000000000672, n_buffer :100000 , eps : 20.55


 20%|█▉        | 58902/300000 [3:12:38<14:23:52,  4.65it/s]

지금 다 먹고 26500번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 58903/300000 [3:12:38<13:55:46,  4.81it/s]

지금 다 먹고 26501번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 58905/300000 [3:12:39<14:29:59,  4.62it/s]

지금 다 먹고 26502번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26503번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58907/300000 [3:12:39<13:17:06,  5.04it/s]

지금 다 먹고 26504번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 26505번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 58910/300000 [3:12:40<13:51:16,  4.83it/s]

지금 다 먹고 26506번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 58912/300000 [3:12:40<14:00:19,  4.78it/s]

지금 다 먹고 26507번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 26508번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 58914/300000 [3:12:40<13:35:50,  4.93it/s]

지금 다 먹고 26509번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 58916/300000 [3:12:41<14:41:13,  4.56it/s]

지금 다 먹고 26510번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 58918/300000 [3:12:41<14:30:49,  4.61it/s]

지금 다 먹고 26511번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 26512번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 58922/300000 [3:12:42<15:28:25,  4.33it/s]

지금 다 먹고 26513번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 
지금 다 먹고 26514번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 58924/300000 [3:12:43<13:30:42,  4.96it/s]

지금 다 먹고 26515번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 26516번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 58926/300000 [3:12:43<12:32:26,  5.34it/s]

지금 다 먹고 26517번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26518번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 20%|█▉        | 58929/300000 [3:12:44<14:04:11,  4.76it/s]

지금 다 먹고 26519번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58930/300000 [3:12:44<13:49:03,  4.85it/s]

지금 다 먹고 26520번째 도착완료 
  그리고 총 보상은 : 14.900000000000002 
지금 다 먹고 26521번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 20%|█▉        | 58932/300000 [3:12:44<12:50:32,  5.21it/s]

지금 다 먹고 26522번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 26523번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 20%|█▉        | 58935/300000 [3:12:45<13:30:37,  4.96it/s]

지금 다 먹고 26524번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26525번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 58937/300000 [3:12:45<12:42:23,  5.27it/s]

지금 다 먹고 26526번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 26527번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58939/300000 [3:12:46<13:03:43,  5.13it/s]

지금 다 먹고 26528번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 26529번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 20%|█▉        | 58941/300000 [3:12:46<12:27:42,  5.37it/s]

지금 다 먹고 26530번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26531번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 58943/300000 [3:12:46<12:00:06,  5.58it/s]

지금 다 먹고 26532번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58946/300000 [3:12:47<14:29:39,  4.62it/s]

지금 다 먹고 26533번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26534번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|█▉        | 58948/300000 [3:12:47<13:10:08,  5.08it/s]

지금 다 먹고 26535번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 20%|█▉        | 58950/300000 [3:12:48<13:33:55,  4.94it/s]

지금 다 먹고 26536번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26537번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 58952/300000 [3:12:48<12:50:40,  5.21it/s]

지금 다 먹고 26538번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 26539번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 58954/300000 [3:12:49<12:09:38,  5.51it/s]

지금 다 먹고 26540번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58956/300000 [3:12:49<13:21:18,  5.01it/s]

지금 다 먹고 26541번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 26542번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 58958/300000 [3:12:49<12:22:30,  5.41it/s]

지금 다 먹고 26543번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26544번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 58960/300000 [3:12:50<11:55:28,  5.61it/s]

지금 다 먹고 26545번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26546번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 58963/300000 [3:12:50<12:58:10,  5.16it/s]

지금 다 먹고 26547번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 26548번째 도착완료 
  그리고 총 보상은 : 22.0 


 20%|█▉        | 58965/300000 [3:12:51<12:46:05,  5.24it/s]

지금 다 먹고 26549번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|█▉        | 58967/300000 [3:12:51<13:16:10,  5.05it/s]

지금 다 먹고 26550번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 58969/300000 [3:12:52<14:52:11,  4.50it/s]

지금 다 먹고 26551번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 58970/300000 [3:12:52<15:00:39,  4.46it/s]

지금 다 먹고 26552번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 58971/300000 [3:12:52<14:32:50,  4.60it/s]

지금 다 먹고 26553번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26554번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|█▉        | 58973/300000 [3:12:52<13:14:05,  5.06it/s]

지금 다 먹고 26555번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26556번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 58976/300000 [3:12:53<13:56:46,  4.80it/s]

지금 다 먹고 26557번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 58977/300000 [3:12:53<14:06:29,  4.75it/s]

지금 다 먹고 26558번째 도착완료 
  그리고 총 보상은 : 19.800000000000008 
지금 다 먹고 26559번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|█▉        | 58980/300000 [3:12:54<15:47:03,  4.24it/s]

지금 다 먹고 26560번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 58981/300000 [3:12:54<14:53:48,  4.49it/s]

지금 다 먹고 26561번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 26562번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 58983/300000 [3:12:55<13:11:42,  5.07it/s]

지금 다 먹고 26563번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 26564번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 58986/300000 [3:12:55<13:57:52,  4.79it/s]

지금 다 먹고 26565번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26566번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 58988/300000 [3:12:56<13:25:56,  4.98it/s]

지금 다 먹고 26567번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 58990/300000 [3:12:56<14:27:09,  4.63it/s]

지금 다 먹고 26568번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26569번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 58992/300000 [3:12:56<12:52:40,  5.20it/s]

지금 다 먹고 26570번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 58994/300000 [3:12:57<13:32:27,  4.94it/s]

지금 다 먹고 26571번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 58997/300000 [3:12:58<14:57:00,  4.48it/s]

지금 다 먹고 26572번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 26573번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 58999/300000 [3:12:58<13:56:58,  4.80it/s]

지금 다 먹고 26574번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|█▉        | 59001/300000 [3:12:58<15:27:13,  4.33it/s]

지금 다 먹고 26575번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.500000000000004
 end : True
 clear : True
episode :10, score = 13.176000000001142, n_buffer :100000 , eps : 20.5


 20%|█▉        | 59003/300000 [3:12:59<15:00:00,  4.46it/s]

지금 다 먹고 26576번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 26577번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59005/300000 [3:12:59<13:45:50,  4.86it/s]

지금 다 먹고 26578번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|█▉        | 59007/300000 [3:13:00<14:52:46,  4.50it/s]

지금 다 먹고 26579번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26580번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59009/300000 [3:13:00<13:55:29,  4.81it/s]

지금 다 먹고 26581번째 도착완료 
  그리고 총 보상은 : 6.099999999999998 
지금 다 먹고 26582번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59011/300000 [3:13:01<12:50:36,  5.21it/s]

지금 다 먹고 26583번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26584번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59013/300000 [3:13:01<12:06:59,  5.52it/s]

지금 다 먹고 26585번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 26586번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59016/300000 [3:13:01<13:15:54,  5.05it/s]

지금 다 먹고 26587번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 26588번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59018/300000 [3:13:02<12:14:51,  5.47it/s]

지금 다 먹고 26589번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26590번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 20%|█▉        | 59020/300000 [3:13:02<12:03:55,  5.55it/s]

지금 다 먹고 26591번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26592번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59022/300000 [3:13:03<11:55:19,  5.61it/s]

지금 다 먹고 26593번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 26594번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 59024/300000 [3:13:03<12:37:09,  5.30it/s]

지금 다 먹고 26595번째 도착완료 
  그리고 총 보상은 : 22.80000000000001 
지금 다 먹고 26596번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59027/300000 [3:13:04<14:26:17,  4.64it/s]

지금 다 먹고 26597번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 26598번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59029/300000 [3:13:04<13:45:48,  4.86it/s]

지금 다 먹고 26599번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 59030/300000 [3:13:04<14:47:14,  4.53it/s]

지금 다 먹고 26600번째 도착완료 
  그리고 총 보상은 : 11.700000000000028 
지금 다 먹고 26601번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 59032/300000 [3:13:05<14:47:20,  4.53it/s]

지금 다 먹고 26602번째 도착완료 
  그리고 총 보상은 : 17.5 


 20%|█▉        | 59033/300000 [3:13:05<14:35:18,  4.59it/s]

지금 다 먹고 26603번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59034/300000 [3:13:05<13:40:12,  4.90it/s]

지금 다 먹고 26604번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26605번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 59036/300000 [3:13:05<12:54:36,  5.18it/s]

지금 다 먹고 26606번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 26607번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 59038/300000 [3:13:06<12:36:12,  5.31it/s]

지금 다 먹고 26608번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 26609번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 59040/300000 [3:13:06<12:38:22,  5.30it/s]

지금 다 먹고 26610번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 26611번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59042/300000 [3:13:07<12:24:33,  5.39it/s]

지금 다 먹고 26612번째 도착완료 
  그리고 총 보상은 : 25.3 
지금 다 먹고 26613번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|█▉        | 59044/300000 [3:13:07<11:51:38,  5.64it/s]

지금 다 먹고 26614번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 26615번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 20%|█▉        | 59046/300000 [3:13:07<12:28:59,  5.36it/s]

지금 다 먹고 26616번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59048/300000 [3:13:08<14:45:52,  4.53it/s]

지금 다 먹고 26617번째 도착완료 
  그리고 총 보상은 : 2.9999999999999787 


 20%|█▉        | 59049/300000 [3:13:08<14:39:18,  4.57it/s]

지금 다 먹고 26618번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 20%|█▉        | 59050/300000 [3:13:08<14:18:47,  4.68it/s]

지금 다 먹고 26619번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26620번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59052/300000 [3:13:09<12:56:48,  5.17it/s]

지금 다 먹고 26621번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26622번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59054/300000 [3:13:09<12:37:26,  5.30it/s]

지금 다 먹고 26623번째 도착완료 
  그리고 총 보상은 : 20.100000000000005 
지금 다 먹고 26624번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 20%|█▉        | 59056/300000 [3:13:09<12:09:28,  5.50it/s]

지금 다 먹고 26625번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26626번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59058/300000 [3:13:10<12:48:27,  5.23it/s]

지금 다 먹고 26627번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26628번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|█▉        | 59060/300000 [3:13:10<13:20:15,  5.02it/s]

지금 다 먹고 26629번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 26630번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59063/300000 [3:13:11<13:51:41,  4.83it/s]

지금 다 먹고 26631번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59065/300000 [3:13:11<13:59:09,  4.79it/s]

지금 다 먹고 26632번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 26633번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59067/300000 [3:13:12<12:49:29,  5.22it/s]

지금 다 먹고 26634번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26635번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59069/300000 [3:13:12<12:29:39,  5.36it/s]

지금 다 먹고 26636번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59071/300000 [3:13:12<14:16:34,  4.69it/s]

지금 다 먹고 26637번째 도착완료 
  그리고 총 보상은 : 5.599999999999998 
지금 다 먹고 26638번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59073/300000 [3:13:13<13:10:13,  5.08it/s]

지금 다 먹고 26639번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 
지금 다 먹고 26640번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 20%|█▉        | 59075/300000 [3:13:13<12:29:15,  5.36it/s]

지금 다 먹고 26641번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 26642번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59077/300000 [3:13:13<12:22:40,  5.41it/s]

지금 다 먹고 26643번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 
지금 다 먹고 26644번째 도착완료 
  그리고 총 보상은 : 28.0 


 20%|█▉        | 59080/300000 [3:13:14<15:14:05,  4.39it/s]

지금 다 먹고 26645번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59082/300000 [3:13:15<15:37:20,  4.28it/s]

지금 다 먹고 26646번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 26647번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 20%|█▉        | 59084/300000 [3:13:15<14:24:41,  4.64it/s]

지금 다 먹고 26648번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59085/300000 [3:13:15<13:59:40,  4.78it/s]

지금 다 먹고 26649번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26650번째 도착완료 
  그리고 총 보상은 : 23.90000000000001 


 20%|█▉        | 59088/300000 [3:13:16<15:40:30,  4.27it/s]

지금 다 먹고 26651번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26652번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59090/300000 [3:13:17<16:19:22,  4.10it/s]

지금 다 먹고 26653번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 20%|█▉        | 59091/300000 [3:13:17<15:50:44,  4.22it/s]

지금 다 먹고 26654번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59092/300000 [3:13:17<15:07:01,  4.43it/s]

지금 다 먹고 26655번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59095/300000 [3:13:18<16:15:01,  4.12it/s]

지금 다 먹고 26656번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 26657번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 59097/300000 [3:13:18<15:17:22,  4.38it/s]

지금 다 먹고 26658번째 도착완료 
  그리고 총 보상은 : 22.2 
지금 다 먹고 26659번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59099/300000 [3:13:19<13:54:45,  4.81it/s]

지금 다 먹고 26660번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 26661번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59101/300000 [3:13:19<14:06:40,  4.74it/s]

지금 다 먹고 26662번째 도착완료 
  그리고 총 보상은 : 24.6 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.6
 end : True
 clear : True
episode :8, score = 18.553000000001997, n_buffer :100000 , eps : 20.450000000000003


 20%|█▉        | 59102/300000 [3:13:19<14:03:29,  4.76it/s]

지금 다 먹고 26663번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26664번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|█▉        | 59104/300000 [3:13:20<13:58:52,  4.79it/s]

지금 다 먹고 26665번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26666번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|█▉        | 59106/300000 [3:13:20<14:14:29,  4.70it/s]

지금 다 먹고 26667번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26668번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 


 20%|█▉        | 59108/300000 [3:13:20<13:40:07,  4.90it/s]

지금 다 먹고 26669번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26670번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59110/300000 [3:13:21<14:09:26,  4.73it/s]

지금 다 먹고 26671번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|█▉        | 59111/300000 [3:13:21<14:58:23,  4.47it/s]

지금 다 먹고 26672번째 도착완료 
  그리고 총 보상은 : 17.300000000000022 


 20%|█▉        | 59112/300000 [3:13:21<15:26:26,  4.33it/s]

지금 다 먹고 26673번째 도착완료 
  그리고 총 보상은 : 15.600000000000021 
지금 다 먹고 26674번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|█▉        | 59114/300000 [3:13:22<15:41:31,  4.26it/s]

지금 다 먹고 26675번째 도착완료 
  그리고 총 보상은 : -19.200000000000024 


 20%|█▉        | 59116/300000 [3:13:22<16:05:46,  4.16it/s]

지금 다 먹고 26676번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59117/300000 [3:13:23<15:37:12,  4.28it/s]

지금 다 먹고 26677번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 
지금 다 먹고 26678번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59119/300000 [3:13:23<13:40:32,  4.89it/s]

지금 다 먹고 26679번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26680번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59122/300000 [3:13:24<13:53:16,  4.82it/s]

지금 다 먹고 26681번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26682번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 59124/300000 [3:13:24<12:46:25,  5.24it/s]

지금 다 먹고 26683번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59126/300000 [3:13:24<13:32:06,  4.94it/s]

지금 다 먹고 26684번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26685번째 도착완료 
  그리고 총 보상은 : 21.60000000000001 


 20%|█▉        | 59128/300000 [3:13:25<13:12:36,  5.07it/s]

지금 다 먹고 26686번째 도착완료 
  그리고 총 보상은 : 8.299999999999986 
지금 다 먹고 26687번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59130/300000 [3:13:25<12:38:16,  5.29it/s]

지금 다 먹고 26688번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26689번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59134/300000 [3:13:26<14:54:57,  4.49it/s]

지금 다 먹고 26690번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26691번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59136/300000 [3:13:26<13:45:18,  4.86it/s]

지금 다 먹고 26692번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|█▉        | 59137/300000 [3:13:27<15:21:34,  4.36it/s]

지금 다 먹고 26693번째 도착완료 
  그리고 총 보상은 : 10.100000000000017 


 20%|█▉        | 59139/300000 [3:13:27<15:04:45,  4.44it/s]

지금 다 먹고 26694번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 26695번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59141/300000 [3:13:28<13:58:37,  4.79it/s]

지금 다 먹고 26696번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 20%|█▉        | 59143/300000 [3:13:28<15:00:57,  4.46it/s]

지금 다 먹고 26697번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59145/300000 [3:13:29<15:05:37,  4.43it/s]

지금 다 먹고 26698번째 도착완료 
  그리고 총 보상은 : 15.700000000000003 
지금 다 먹고 26699번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59147/300000 [3:13:29<13:38:54,  4.90it/s]

지금 다 먹고 26700번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26701번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59150/300000 [3:13:29<13:43:18,  4.88it/s]

지금 다 먹고 26702번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26703번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|█▉        | 59152/300000 [3:13:30<12:35:16,  5.31it/s]

지금 다 먹고 26704번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26705번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59154/300000 [3:13:30<12:48:03,  5.23it/s]

지금 다 먹고 26706번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|█▉        | 59156/300000 [3:13:31<14:20:47,  4.66it/s]

지금 다 먹고 26707번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 26708번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59158/300000 [3:13:31<13:03:37,  5.12it/s]

지금 다 먹고 26709번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59160/300000 [3:13:32<14:05:42,  4.75it/s]

지금 다 먹고 26710번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 26711번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59162/300000 [3:13:32<13:22:54,  5.00it/s]

지금 다 먹고 26712번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59164/300000 [3:13:32<14:49:14,  4.51it/s]

지금 다 먹고 26713번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59167/300000 [3:13:33<16:03:04,  4.17it/s]

지금 다 먹고 26714번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 26715번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|█▉        | 59169/300000 [3:13:34<13:58:53,  4.78it/s]

지금 다 먹고 26716번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26717번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59171/300000 [3:13:34<12:56:18,  5.17it/s]

지금 다 먹고 26718번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 20%|█▉        | 59173/300000 [3:13:34<13:52:26,  4.82it/s]

지금 다 먹고 26719번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 26720번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 20%|█▉        | 59176/300000 [3:13:35<14:27:54,  4.62it/s]

지금 다 먹고 26721번째 도착완료 
  그리고 총 보상은 : 23.000000000000007 


 20%|█▉        | 59178/300000 [3:13:36<14:45:50,  4.53it/s]

지금 다 먹고 26722번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 26723번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59180/300000 [3:13:36<13:10:13,  5.08it/s]

지금 다 먹고 26724번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 26725번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59182/300000 [3:13:36<12:45:07,  5.25it/s]

지금 다 먹고 26726번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 20%|█▉        | 59184/300000 [3:13:37<14:02:51,  4.76it/s]

지금 다 먹고 26727번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59185/300000 [3:13:37<13:34:17,  4.93it/s]

지금 다 먹고 26728번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26729번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59187/300000 [3:13:37<13:17:16,  5.03it/s]

지금 다 먹고 26730번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26731번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59190/300000 [3:13:38<13:38:48,  4.90it/s]

지금 다 먹고 26732번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 26733번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 20%|█▉        | 59192/300000 [3:13:38<12:46:42,  5.23it/s]

지금 다 먹고 26734번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|█▉        | 59194/300000 [3:13:39<14:13:44,  4.70it/s]

지금 다 먹고 26735번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59195/300000 [3:13:39<13:42:25,  4.88it/s]

지금 다 먹고 26736번째 도착완료 
  그리고 총 보상은 : 21.5 
지금 다 먹고 26737번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 59197/300000 [3:13:39<12:57:42,  5.16it/s]

지금 다 먹고 26738번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26739번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59199/300000 [3:13:40<12:48:53,  5.22it/s]

지금 다 먹고 26740번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|█▉        | 59202/300000 [3:13:40<14:44:52,  4.54it/s]

epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [200.   1.   0. 100.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.5
 총 받은 보상 :-80.49999999999997
 end : True
 clear : True
episode :6, score = 12.816000000000109, n_buffer :100000 , eps : 20.400000000000002
지금 다 먹고 26741번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 26742번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 

 20%|█▉        | 59203/300000 [3:13:41<13:56:20,  4.80it/s]


지금 다 먹고 26743번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59205/300000 [3:13:41<12:52:58,  5.19it/s]

지금 다 먹고 26744번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59207/300000 [3:13:41<14:09:42,  4.72it/s]

지금 다 먹고 26745번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 26746번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59209/300000 [3:13:42<14:22:06,  4.66it/s]

지금 다 먹고 26747번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 20%|█▉        | 59211/300000 [3:13:42<14:16:52,  4.68it/s]

지금 다 먹고 26748번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59213/300000 [3:13:43<14:29:14,  4.62it/s]

지금 다 먹고 26749번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26750번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59215/300000 [3:13:43<13:21:07,  5.01it/s]

지금 다 먹고 26751번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 26752번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 20%|█▉        | 59218/300000 [3:13:44<14:10:50,  4.72it/s]

지금 다 먹고 26753번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26754번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 20%|█▉        | 59220/300000 [3:13:44<12:56:56,  5.17it/s]

지금 다 먹고 26755번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26756번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 59222/300000 [3:13:45<12:15:27,  5.46it/s]

지금 다 먹고 26757번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|█▉        | 59224/300000 [3:13:45<13:36:59,  4.91it/s]

지금 다 먹고 26758번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59225/300000 [3:13:45<13:39:38,  4.90it/s]

지금 다 먹고 26759번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 
지금 다 먹고 26760번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59228/300000 [3:13:46<14:10:08,  4.72it/s]

지금 다 먹고 26761번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 26762번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59230/300000 [3:13:46<13:12:38,  5.06it/s]

지금 다 먹고 26763번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 26764번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 59232/300000 [3:13:47<12:08:17,  5.51it/s]

지금 다 먹고 26765번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26766번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59235/300000 [3:13:47<14:12:15,  4.71it/s]

지금 다 먹고 26767번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 26768번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|█▉        | 59237/300000 [3:13:48<13:05:21,  5.11it/s]

지금 다 먹고 26769번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 26770번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59239/300000 [3:13:48<12:55:23,  5.17it/s]

지금 다 먹고 26771번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59241/300000 [3:13:48<13:36:11,  4.92it/s]

지금 다 먹고 26772번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 26773번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 59243/300000 [3:13:49<12:37:38,  5.30it/s]

지금 다 먹고 26774번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59245/300000 [3:13:49<14:03:02,  4.76it/s]

지금 다 먹고 26775번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 26776번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 59247/300000 [3:13:50<13:21:51,  5.00it/s]

지금 다 먹고 26777번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26778번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59249/300000 [3:13:50<12:30:16,  5.35it/s]

지금 다 먹고 26779번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26780번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59252/300000 [3:13:51<13:31:33,  4.94it/s]

지금 다 먹고 26781번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26782번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59254/300000 [3:13:51<13:39:42,  4.89it/s]

지금 다 먹고 26783번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 26784번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59256/300000 [3:13:51<12:47:05,  5.23it/s]

지금 다 먹고 26785번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59258/300000 [3:13:52<13:35:36,  4.92it/s]

지금 다 먹고 26786번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 26787번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59260/300000 [3:13:52<13:39:39,  4.90it/s]

지금 다 먹고 26788번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 20%|█▉        | 59262/300000 [3:13:53<15:27:05,  4.33it/s]

지금 다 먹고 26789번째 도착완료 
  그리고 총 보상은 : 13.500000000000014 
지금 다 먹고 26790번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59264/300000 [3:13:53<13:29:45,  4.95it/s]

지금 다 먹고 26791번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26792번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59266/300000 [3:13:53<12:27:32,  5.37it/s]

지금 다 먹고 26793번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26794번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 20%|█▉        | 59269/300000 [3:13:54<13:20:06,  5.01it/s]

지금 다 먹고 26795번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 26796번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|█▉        | 59271/300000 [3:13:54<13:22:33,  5.00it/s]

지금 다 먹고 26797번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 26798번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59273/300000 [3:13:55<12:14:39,  5.46it/s]

지금 다 먹고 26799번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|█▉        | 59275/300000 [3:13:55<13:33:54,  4.93it/s]

지금 다 먹고 26800번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59277/300000 [3:13:56<14:28:47,  4.62it/s]

지금 다 먹고 26801번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26802번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59279/300000 [3:13:56<13:13:14,  5.06it/s]

지금 다 먹고 26803번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26804번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59281/300000 [3:13:56<12:11:13,  5.49it/s]

지금 다 먹고 26805번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 26806번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59283/300000 [3:13:57<11:51:06,  5.64it/s]

지금 다 먹고 26807번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 26808번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 


 20%|█▉        | 59285/300000 [3:13:57<12:05:54,  5.53it/s]

지금 다 먹고 26809번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 26810번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 59287/300000 [3:13:58<12:35:01,  5.31it/s]

지금 다 먹고 26811번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26812번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59289/300000 [3:13:58<12:12:44,  5.48it/s]

지금 다 먹고 26813번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26814번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59292/300000 [3:13:59<14:04:23,  4.75it/s]

지금 다 먹고 26815번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 
지금 다 먹고 26816번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 20%|█▉        | 59294/300000 [3:13:59<12:51:54,  5.20it/s]

지금 다 먹고 26817번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59296/300000 [3:13:59<13:47:30,  4.85it/s]

지금 다 먹고 26818번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 26819번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59298/300000 [3:14:00<12:45:35,  5.24it/s]

지금 다 먹고 26820번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 26821번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59300/300000 [3:14:00<12:10:57,  5.49it/s]

지금 다 먹고 26822번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 26823번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59301/300000 [3:14:00<12:25:52,  5.38it/s]

epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.500000000000007
 end : True
 clear : True
episode :4, score = 17.217000000001065, n_buffer :100000 , eps : 20.35


 20%|█▉        | 59303/300000 [3:14:01<14:14:20,  4.70it/s]

지금 다 먹고 26824번째 도착완료 
  그리고 총 보상은 : 21.70000000000001 
지금 다 먹고 26825번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59305/300000 [3:14:01<12:59:19,  5.15it/s]

지금 다 먹고 26826번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 26827번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59309/300000 [3:14:02<15:16:25,  4.38it/s]

지금 다 먹고 26828번째 도착완료 
  그리고 총 보상은 : 16.500000000000007 
지금 다 먹고 26829번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 59311/300000 [3:14:02<14:05:37,  4.74it/s]

지금 다 먹고 26830번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59312/300000 [3:14:03<14:39:15,  4.56it/s]

지금 다 먹고 26831번째 도착완료 
  그리고 총 보상은 : 18.700000000000006 
지금 다 먹고 26832번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59314/300000 [3:14:03<13:15:53,  5.04it/s]

지금 다 먹고 26833번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 26834번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59316/300000 [3:14:03<12:36:02,  5.31it/s]

지금 다 먹고 26835번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 26836번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 59320/300000 [3:14:04<14:28:56,  4.62it/s]

지금 다 먹고 26837번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 26838번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 20%|█▉        | 59322/300000 [3:14:05<13:48:02,  4.84it/s]

지금 다 먹고 26839번째 도착완료 
  그리고 총 보상은 : 24.200000000000014 
지금 다 먹고 26840번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59324/300000 [3:14:05<12:47:33,  5.23it/s]

지금 다 먹고 26841번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59326/300000 [3:14:06<13:50:30,  4.83it/s]

지금 다 먹고 26842번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 
지금 다 먹고 26843번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59328/300000 [3:14:06<12:49:53,  5.21it/s]

지금 다 먹고 26844번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|█▉        | 59330/300000 [3:14:06<13:30:19,  4.95it/s]

지금 다 먹고 26845번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 26846번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 59332/300000 [3:14:07<13:31:45,  4.94it/s]

지금 다 먹고 26847번째 도착완료 
  그리고 총 보상은 : 14.300000000000026 
지금 다 먹고 26848번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 59334/300000 [3:14:07<12:27:24,  5.37it/s]

지금 다 먹고 26849번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26850번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 59336/300000 [3:14:07<12:11:08,  5.49it/s]

지금 다 먹고 26851번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 26852번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|█▉        | 59338/300000 [3:14:08<12:05:58,  5.53it/s]

지금 다 먹고 26853번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 26854번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 20%|█▉        | 59340/300000 [3:14:08<11:49:40,  5.65it/s]

지금 다 먹고 26855번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26856번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59343/300000 [3:14:09<13:08:26,  5.09it/s]

지금 다 먹고 26857번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59344/300000 [3:14:09<14:39:06,  4.56it/s]

지금 다 먹고 26858번째 도착완료 
  그리고 총 보상은 : 20.30000000000001 
지금 다 먹고 26859번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59346/300000 [3:14:09<13:21:41,  5.00it/s]

지금 다 먹고 26860번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 26861번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59348/300000 [3:14:10<12:41:55,  5.26it/s]

지금 다 먹고 26862번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 26863번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59350/300000 [3:14:10<12:10:18,  5.49it/s]

지금 다 먹고 26864번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 26865번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59352/300000 [3:14:11<12:20:14,  5.42it/s]

지금 다 먹고 26866번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 20%|█▉        | 59354/300000 [3:14:11<13:40:26,  4.89it/s]

지금 다 먹고 26867번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 26868번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59356/300000 [3:14:11<12:57:48,  5.16it/s]

지금 다 먹고 26869번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26870번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 20%|█▉        | 59358/300000 [3:14:12<12:55:03,  5.17it/s]

지금 다 먹고 26871번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59360/300000 [3:14:12<14:53:19,  4.49it/s]

지금 다 먹고 26872번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 20%|█▉        | 59361/300000 [3:14:12<14:56:15,  4.47it/s]

지금 다 먹고 26873번째 도착완료 
  그리고 총 보상은 : 21.30000000000001 
지금 다 먹고 26874번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59364/300000 [3:14:13<14:49:32,  4.51it/s]

지금 다 먹고 26875번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 
지금 다 먹고 26876번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59366/300000 [3:14:13<13:04:41,  5.11it/s]

지금 다 먹고 26877번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26878번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|█▉        | 59369/300000 [3:14:14<14:06:46,  4.74it/s]

지금 다 먹고 26879번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59371/300000 [3:14:15<15:15:55,  4.38it/s]

지금 다 먹고 26880번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26881번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59373/300000 [3:14:15<13:33:18,  4.93it/s]

지금 다 먹고 26882번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 26883번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 20%|█▉        | 59375/300000 [3:14:15<13:27:55,  4.96it/s]

지금 다 먹고 26884번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59377/300000 [3:14:16<14:15:16,  4.69it/s]

지금 다 먹고 26885번째 도착완료 
  그리고 총 보상은 : 24.900000000000013 
지금 다 먹고 26886번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59379/300000 [3:14:16<12:55:46,  5.17it/s]

지금 다 먹고 26887번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 26888번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59381/300000 [3:14:17<12:51:21,  5.20it/s]

지금 다 먹고 26889번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 26890번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 59383/300000 [3:14:17<12:50:04,  5.21it/s]

지금 다 먹고 26891번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 
지금 다 먹고 26892번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59385/300000 [3:14:17<12:57:14,  5.16it/s]

지금 다 먹고 26893번째 도착완료 
  그리고 총 보상은 : 20.900000000000002 


 20%|█▉        | 59386/300000 [3:14:18<13:23:30,  4.99it/s]

지금 다 먹고 26894번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59387/300000 [3:14:18<13:51:10,  4.82it/s]

지금 다 먹고 26895번째 도착완료 
  그리고 총 보상은 : 22.8 


 20%|█▉        | 59388/300000 [3:14:18<13:34:28,  4.92it/s]

지금 다 먹고 26896번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 59389/300000 [3:14:18<13:33:58,  4.93it/s]

지금 다 먹고 26897번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 26898번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59391/300000 [3:14:19<12:58:46,  5.15it/s]

지금 다 먹고 26899번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59392/300000 [3:14:19<13:13:11,  5.06it/s]

지금 다 먹고 26900번째 도착완료 
  그리고 총 보상은 : 21.90000000000001 


 20%|█▉        | 59394/300000 [3:14:19<14:32:01,  4.60it/s]

지금 다 먹고 26901번째 도착완료 
  그리고 총 보상은 : 22.200000000000014 
지금 다 먹고 26902번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59396/300000 [3:14:20<13:11:38,  5.07it/s]

지금 다 먹고 26903번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59398/300000 [3:14:20<14:27:35,  4.62it/s]

지금 다 먹고 26904번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 26905번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59400/300000 [3:14:20<13:21:48,  5.00it/s]

지금 다 먹고 26906번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26907번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59402/300000 [3:14:21<12:35:29,  5.31it/s]

epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :28.400000000000006
 end : True
 clear : True
episode :2, score = 17.256000000001332, n_buffer :100000 , eps : 20.3
지금 다 먹고 26908번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|█▉        | 59403/300000 [3:14:21<12:37:09,  5.30it/s]

지금 다 먹고 26909번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 59405/300000 [3:14:21<13:25:09,  4.98it/s]

지금 다 먹고 26910번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 26911번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|█▉        | 59407/300000 [3:14:22<12:40:34,  5.27it/s]

지금 다 먹고 26912번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|█▉        | 59409/300000 [3:14:22<13:59:33,  4.78it/s]

지금 다 먹고 26913번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|█▉        | 59411/300000 [3:14:23<14:23:50,  4.64it/s]

지금 다 먹고 26914번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26915번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 20%|█▉        | 59413/300000 [3:14:23<13:21:00,  5.01it/s]

지금 다 먹고 26916번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59415/300000 [3:14:24<13:36:41,  4.91it/s]

지금 다 먹고 26917번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59417/300000 [3:14:24<14:01:23,  4.77it/s]

지금 다 먹고 26918번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26919번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59419/300000 [3:14:24<12:34:20,  5.32it/s]

지금 다 먹고 26920번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26921번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59422/300000 [3:14:25<13:35:23,  4.92it/s]

지금 다 먹고 26922번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 26923번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|█▉        | 59424/300000 [3:14:25<12:45:59,  5.23it/s]

지금 다 먹고 26924번째 도착완료 
  그리고 총 보상은 : 25.40000000000001 
지금 다 먹고 26925번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59426/300000 [3:14:26<12:11:06,  5.48it/s]

지금 다 먹고 26926번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|█▉        | 59428/300000 [3:14:26<13:07:33,  5.09it/s]

지금 다 먹고 26927번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 26928번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59430/300000 [3:14:26<12:30:25,  5.34it/s]

지금 다 먹고 26929번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 20%|█▉        | 59432/300000 [3:14:27<13:42:30,  4.87it/s]

지금 다 먹고 26930번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 26931번째 도착완료 
  그리고 총 보상은 : 21.40000000000001 


 20%|█▉        | 59434/300000 [3:14:27<13:13:18,  5.05it/s]

지금 다 먹고 26932번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 26933번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59436/300000 [3:14:28<12:36:21,  5.30it/s]

지금 다 먹고 26934번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 26935번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 59439/300000 [3:14:28<14:03:47,  4.75it/s]

지금 다 먹고 26936번째 도착완료 
  그리고 총 보상은 : 21.799999999999997 
지금 다 먹고 26937번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59441/300000 [3:14:29<12:51:56,  5.19it/s]

지금 다 먹고 26938번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 26939번째 도착완료 
  그리고 총 보상은 : 27.5 


 20%|█▉        | 59443/300000 [3:14:29<12:22:42,  5.40it/s]

지금 다 먹고 26940번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59445/300000 [3:14:30<13:28:13,  4.96it/s]

지금 다 먹고 26941번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 26942번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 59447/300000 [3:14:30<13:09:48,  5.08it/s]

지금 다 먹고 26943번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59449/300000 [3:14:30<13:44:43,  4.86it/s]

지금 다 먹고 26944번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 26945번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 59451/300000 [3:14:31<12:34:01,  5.32it/s]

지금 다 먹고 26946번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 26947번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59453/300000 [3:14:31<12:49:37,  5.21it/s]

지금 다 먹고 26948번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59456/300000 [3:14:32<14:53:58,  4.48it/s]

지금 다 먹고 26949번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26950번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59458/300000 [3:14:32<13:36:16,  4.91it/s]

지금 다 먹고 26951번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 26952번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 59460/300000 [3:14:33<13:16:51,  5.03it/s]

지금 다 먹고 26953번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59462/300000 [3:14:33<13:45:18,  4.86it/s]

지금 다 먹고 26954번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 26955번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59464/300000 [3:14:33<12:38:27,  5.29it/s]

지금 다 먹고 26956번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59466/300000 [3:14:34<13:47:25,  4.85it/s]

지금 다 먹고 26957번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 26958번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 59468/300000 [3:14:34<12:40:30,  5.27it/s]

지금 다 먹고 26959번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 26960번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59470/300000 [3:14:35<12:36:55,  5.30it/s]

지금 다 먹고 26961번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 26962번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 20%|█▉        | 59473/300000 [3:14:35<13:17:16,  5.03it/s]

지금 다 먹고 26963번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 26964번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 20%|█▉        | 59475/300000 [3:14:36<12:41:14,  5.27it/s]

지금 다 먹고 26965번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 26966번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59477/300000 [3:14:36<12:16:34,  5.44it/s]

지금 다 먹고 26967번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59479/300000 [3:14:36<13:45:24,  4.86it/s]

지금 다 먹고 26968번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59481/300000 [3:14:37<15:29:57,  4.31it/s]

지금 다 먹고 26969번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 26970번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59483/300000 [3:14:37<13:39:11,  4.89it/s]

지금 다 먹고 26971번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|█▉        | 59484/300000 [3:14:37<13:54:22,  4.80it/s]

지금 다 먹고 26972번째 도착완료 
  그리고 총 보상은 : 21.00000000000001 
지금 다 먹고 26973번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 59486/300000 [3:14:38<13:00:53,  5.13it/s]

지금 다 먹고 26974번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 26975번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59488/300000 [3:14:38<12:58:37,  5.15it/s]

지금 다 먹고 26976번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59490/300000 [3:14:39<13:35:50,  4.91it/s]

지금 다 먹고 26977번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 26978번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 59492/300000 [3:14:39<13:31:50,  4.94it/s]

지금 다 먹고 26979번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 26980번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 

 20%|█▉        | 59493/300000 [3:14:39<13:12:58,  5.05it/s]


지금 다 먹고 26981번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59496/300000 [3:14:40<15:18:52,  4.36it/s]

지금 다 먹고 26982번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 26983번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59498/300000 [3:14:40<13:33:24,  4.93it/s]

지금 다 먹고 26984번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59500/300000 [3:14:41<14:19:59,  4.66it/s]

지금 다 먹고 26985번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 26986번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59501/300000 [3:14:41<13:38:45,  4.90it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.200000000000003
 end : True
 clear : True
episode :0, score = 15.098000000000939, n_buffer :100000 , eps : 20.25
지금 다 먹고 26987번째 도착완료 
  그리고 총 보상은 : 3.7999999999999226 


 20%|█▉        | 59503/300000 [3:14:41<13:41:34,  4.88it/s]

지금 다 먹고 26988번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 26989번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 20%|█▉        | 59505/300000 [3:14:42<13:58:00,  4.78it/s]

지금 다 먹고 26990번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59507/300000 [3:14:42<14:28:47,  4.61it/s]

지금 다 먹고 26991번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59508/300000 [3:14:43<14:29:14,  4.61it/s]

지금 다 먹고 26992번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 20%|█▉        | 59509/300000 [3:14:43<13:51:29,  4.82it/s]

지금 다 먹고 26993번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 26994번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 


 20%|█▉        | 59511/300000 [3:14:43<14:52:26,  4.49it/s]

지금 다 먹고 26995번째 도착완료 
  그리고 총 보상은 : 3.8999999999999417 


 20%|█▉        | 59513/300000 [3:14:44<15:38:23,  4.27it/s]

지금 다 먹고 26996번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 26997번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 


 20%|█▉        | 59515/300000 [3:14:44<15:14:50,  4.38it/s]

지금 다 먹고 26998번째 도착완료 
  그리고 총 보상은 : 17.200000000000014 
지금 다 먹고 26999번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59517/300000 [3:14:45<14:52:01,  4.49it/s]

지금 다 먹고 27000번째 도착완료 
  그리고 총 보상은 : 2.9999999999999147 
지금 다 먹고 27001번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59519/300000 [3:14:45<13:47:56,  4.84it/s]

지금 다 먹고 27002번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 27003번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59521/300000 [3:14:45<12:43:28,  5.25it/s]

지금 다 먹고 27004번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 27005번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59524/300000 [3:14:46<13:13:30,  5.05it/s]

지금 다 먹고 27006번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27007번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|█▉        | 59526/300000 [3:14:46<13:50:38,  4.83it/s]

지금 다 먹고 27008번째 도착완료 
  그리고 총 보상은 : 14.900000000000023 
지금 다 먹고 27009번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59528/300000 [3:14:47<12:58:29,  5.15it/s]

지금 다 먹고 27010번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|█▉        | 59530/300000 [3:14:47<14:41:58,  4.54it/s]

지금 다 먹고 27011번째 도착완료 
  그리고 총 보상은 : 22.1 
지금 다 먹고 27012번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 20%|█▉        | 59532/300000 [3:14:48<14:08:36,  4.72it/s]

지금 다 먹고 27013번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 20%|█▉        | 59534/300000 [3:14:48<15:51:00,  4.21it/s]

지금 다 먹고 27014번째 도착완료 
  그리고 총 보상은 : 15.100000000000007 


 20%|█▉        | 59535/300000 [3:14:48<15:11:23,  4.40it/s]

지금 다 먹고 27015번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 27016번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59537/300000 [3:14:49<13:13:59,  5.05it/s]

지금 다 먹고 27017번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 27018번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59539/300000 [3:14:49<12:21:13,  5.41it/s]

지금 다 먹고 27019번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59542/300000 [3:14:50<14:05:18,  4.74it/s]

지금 다 먹고 27020번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 27021번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59544/300000 [3:14:50<12:56:36,  5.16it/s]

지금 다 먹고 27022번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 27023번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59547/300000 [3:14:51<13:26:36,  4.97it/s]

지금 다 먹고 27024번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 27025번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 20%|█▉        | 59549/300000 [3:14:51<14:17:45,  4.67it/s]

지금 다 먹고 27026번째 도착완료 
  그리고 총 보상은 : -12.800000000000061 
지금 다 먹고 27027번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59551/300000 [3:14:51<12:49:19,  5.21it/s]

지금 다 먹고 27028번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27029번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 59553/300000 [3:14:52<12:16:24,  5.44it/s]

지금 다 먹고 27030번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27031번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59556/300000 [3:14:53<14:00:18,  4.77it/s]

지금 다 먹고 27032번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 27033번째 도착완료 
  그리고 총 보상은 : 13.000000000000009 


 20%|█▉        | 59558/300000 [3:14:53<12:44:55,  5.24it/s]

지금 다 먹고 27034번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 27035번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59560/300000 [3:14:53<12:41:59,  5.26it/s]

지금 다 먹고 27036번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|█▉        | 59561/300000 [3:14:53<13:06:25,  5.10it/s]

지금 다 먹고 27037번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 27038번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|█▉        | 59564/300000 [3:14:54<13:52:29,  4.81it/s]

지금 다 먹고 27039번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 27040번째 도착완료 
  그리고 총 보상은 : 8.999999999999993 


 20%|█▉        | 59566/300000 [3:14:55<13:45:42,  4.85it/s]

지금 다 먹고 27041번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 20%|█▉        | 59568/300000 [3:14:55<14:18:04,  4.67it/s]

지금 다 먹고 27042번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 27043번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 20%|█▉        | 59570/300000 [3:14:55<13:12:18,  5.06it/s]

지금 다 먹고 27044번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59573/300000 [3:14:56<15:16:00,  4.37it/s]

지금 다 먹고 27045번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59575/300000 [3:14:57<14:44:36,  4.53it/s]

지금 다 먹고 27046번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 27047번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59577/300000 [3:14:57<13:06:43,  5.09it/s]

지금 다 먹고 27048번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 27049번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 59579/300000 [3:14:57<13:08:59,  5.08it/s]

지금 다 먹고 27050번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 59581/300000 [3:14:58<13:41:21,  4.88it/s]

지금 다 먹고 27051번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 27052번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|█▉        | 59583/300000 [3:14:58<12:40:21,  5.27it/s]

지금 다 먹고 27053번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59585/300000 [3:14:59<13:56:00,  4.79it/s]

지금 다 먹고 27054번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59587/300000 [3:14:59<13:45:29,  4.85it/s]

지금 다 먹고 27055번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27056번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59589/300000 [3:14:59<12:39:04,  5.28it/s]

지금 다 먹고 27057번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27058번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 20%|█▉        | 59592/300000 [3:15:00<14:20:21,  4.66it/s]

지금 다 먹고 27059번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59593/300000 [3:15:00<15:44:11,  4.24it/s]

지금 다 먹고 27060번째 도착완료 
  그리고 총 보상은 : 7.199999999999978 
지금 다 먹고 27061번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59595/300000 [3:15:01<13:36:04,  4.91it/s]

지금 다 먹고 27062번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27063번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 20%|█▉        | 59598/300000 [3:15:01<13:51:11,  4.82it/s]

지금 다 먹고 27064번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 27065번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59600/300000 [3:15:02<13:35:36,  4.91it/s]

지금 다 먹고 27066번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 27067번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59602/300000 [3:15:02<12:47:49,  5.22it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.200000000000003
 end : True
 clear : True
episode :15, score = 14.216000000000877, n_buffer :100000 , eps : 20.200000000000003
지금 다 먹고 27068번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 27069번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59604/300000 [3:15:02<12:03:13,  5.54it/s]

지금 다 먹고 27070번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27071번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 59606/300000 [3:15:03<12:15:34,  5.45it/s]

지금 다 먹고 27072번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59609/300000 [3:15:03<14:05:42,  4.74it/s]

지금 다 먹고 27073번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 27074번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 20%|█▉        | 59611/300000 [3:15:04<13:02:14,  5.12it/s]

지금 다 먹고 27075번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59613/300000 [3:15:04<13:47:02,  4.84it/s]

지금 다 먹고 27076번째 도착완료 
  그리고 총 보상은 : 25.1 


 20%|█▉        | 59615/300000 [3:15:05<15:57:21,  4.18it/s]

지금 다 먹고 27077번째 도착완료 
  그리고 총 보상은 : 18.400000000000016 


 20%|█▉        | 59616/300000 [3:15:05<14:48:15,  4.51it/s]

지금 다 먹고 27078번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 27079번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|█▉        | 59619/300000 [3:15:06<15:18:03,  4.36it/s]

지금 다 먹고 27080번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59620/300000 [3:15:06<14:56:43,  4.47it/s]

지금 다 먹고 27081번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59621/300000 [3:15:06<14:29:30,  4.61it/s]

지금 다 먹고 27082번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 27083번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59623/300000 [3:15:07<13:51:10,  4.82it/s]

지금 다 먹고 27084번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 59624/300000 [3:15:07<13:34:09,  4.92it/s]

지금 다 먹고 27085번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|█▉        | 59626/300000 [3:15:07<14:04:50,  4.74it/s]

지금 다 먹고 27086번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 27087번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|█▉        | 59628/300000 [3:15:08<13:13:36,  5.05it/s]

지금 다 먹고 27088번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 27089번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59630/300000 [3:15:08<13:29:14,  4.95it/s]

지금 다 먹고 27090번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 27091번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|█▉        | 59632/300000 [3:15:08<12:38:28,  5.28it/s]

지금 다 먹고 27092번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 27093번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59634/300000 [3:15:09<12:10:00,  5.49it/s]

지금 다 먹고 27094번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59636/300000 [3:15:09<13:06:26,  5.09it/s]

지금 다 먹고 27095번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 27096번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|█▉        | 59638/300000 [3:15:09<12:17:22,  5.43it/s]

지금 다 먹고 27097번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 27098번째 도착완료 
  그리고 총 보상은 : 25.8 


 20%|█▉        | 59640/300000 [3:15:10<12:15:40,  5.45it/s]

지금 다 먹고 27099번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59643/300000 [3:15:11<14:57:59,  4.46it/s]

지금 다 먹고 27100번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27101번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59645/300000 [3:15:11<13:58:20,  4.78it/s]

지금 다 먹고 27102번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 27103번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59647/300000 [3:15:11<12:43:09,  5.25it/s]

지금 다 먹고 27104번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|█▉        | 59649/300000 [3:15:12<15:07:34,  4.41it/s]

지금 다 먹고 27105번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|█▉        | 59651/300000 [3:15:12<14:36:56,  4.57it/s]

지금 다 먹고 27106번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 27107번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59653/300000 [3:15:13<12:52:40,  5.18it/s]

지금 다 먹고 27108번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 27109번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59655/300000 [3:15:13<12:27:16,  5.36it/s]

지금 다 먹고 27110번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 27111번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 59658/300000 [3:15:14<13:36:14,  4.91it/s]

지금 다 먹고 27112번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59660/300000 [3:15:14<14:15:26,  4.68it/s]

지금 다 먹고 27113번째 도착완료 
  그리고 총 보상은 : 15.7 
지금 다 먹고 27114번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59662/300000 [3:15:14<13:33:49,  4.92it/s]

지금 다 먹고 27115번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 27116번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59664/300000 [3:15:15<12:31:00,  5.33it/s]

지금 다 먹고 27117번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|█▉        | 59666/300000 [3:15:15<14:32:07,  4.59it/s]

지금 다 먹고 27118번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|█▉        | 59667/300000 [3:15:16<13:55:31,  4.79it/s]

지금 다 먹고 27119번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 27120번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 59670/300000 [3:15:16<13:49:35,  4.83it/s]

지금 다 먹고 27121번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 27122번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 59672/300000 [3:15:16<12:36:20,  5.30it/s]

지금 다 먹고 27123번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27124번째 도착완료 
  그리고 총 보상은 : 14.000000000000004 


 20%|█▉        | 59674/300000 [3:15:17<12:43:14,  5.25it/s]

지금 다 먹고 27125번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59677/300000 [3:15:18<14:40:13,  4.55it/s]

지금 다 먹고 27126번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 27127번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|█▉        | 59679/300000 [3:15:18<13:50:31,  4.82it/s]

지금 다 먹고 27128번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 27129번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59681/300000 [3:15:18<12:49:42,  5.20it/s]

지금 다 먹고 27130번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59682/300000 [3:15:19<14:45:45,  4.52it/s]

지금 다 먹고 27131번째 도착완료 
  그리고 총 보상은 : 21.600000000000012 


 20%|█▉        | 59684/300000 [3:15:19<15:13:00,  4.39it/s]

지금 다 먹고 27132번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 27133번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59686/300000 [3:15:20<15:24:38,  4.33it/s]

지금 다 먹고 27134번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 59688/300000 [3:15:20<14:44:41,  4.53it/s]

지금 다 먹고 27135번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 27136번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59690/300000 [3:15:20<13:23:19,  4.99it/s]

지금 다 먹고 27137번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 27138번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59694/300000 [3:15:21<14:42:05,  4.54it/s]

지금 다 먹고 27139번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59695/300000 [3:15:22<15:58:34,  4.18it/s]

지금 다 먹고 27140번째 도착완료 
  그리고 총 보상은 : -35.60000000000008 
지금 다 먹고 27141번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|█▉        | 59697/300000 [3:15:22<14:10:11,  4.71it/s]

지금 다 먹고 27142번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 27143번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 20%|█▉        | 59700/300000 [3:15:23<13:54:36,  4.80it/s]

지금 다 먹고 27144번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 27145번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|█▉        | 59702/300000 [3:15:23<13:17:54,  5.02it/s]

epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.700000000000003
 end : True
 clear : True
episode :13, score = 13.543000000001182, n_buffer :100000 , eps : 20.150000000000002
지금 다 먹고 27146번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|█▉        | 59704/300000 [3:15:23<14:05:49,  4.73it/s]

지금 다 먹고 27147번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 27148번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 59707/300000 [3:15:24<14:18:01,  4.67it/s]

지금 다 먹고 27149번째 도착완료 
  그리고 총 보상은 : 23.1 
지금 다 먹고 27150번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59712/300000 [3:15:25<14:57:17,  4.46it/s]

지금 다 먹고 27151번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 27152번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 20%|█▉        | 59714/300000 [3:15:26<13:49:05,  4.83it/s]

지금 다 먹고 27153번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 27154번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59717/300000 [3:15:26<13:48:38,  4.83it/s]

지금 다 먹고 27155번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 27156번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59719/300000 [3:15:27<13:14:51,  5.04it/s]

지금 다 먹고 27157번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 27158번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59721/300000 [3:15:27<12:21:45,  5.40it/s]

지금 다 먹고 27159번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 27160번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 59723/300000 [3:15:27<12:04:26,  5.53it/s]

지금 다 먹고 27161번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27162번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59725/300000 [3:15:28<11:58:34,  5.57it/s]

지금 다 먹고 27163번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 27164번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 20%|█▉        | 59728/300000 [3:15:28<13:57:37,  4.78it/s]

지금 다 먹고 27165번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 
지금 다 먹고 27166번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 20%|█▉        | 59730/300000 [3:15:29<14:20:30,  4.65it/s]

지금 다 먹고 27167번째 도착완료 
  그리고 총 보상은 : 11.200000000000024 
지금 다 먹고 27168번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59732/300000 [3:15:29<13:22:11,  4.99it/s]

지금 다 먹고 27169번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 20%|█▉        | 59734/300000 [3:15:30<14:38:26,  4.56it/s]

지금 다 먹고 27170번째 도착완료 
  그리고 총 보상은 : 18.500000000000007 


 20%|█▉        | 59735/300000 [3:15:30<14:20:14,  4.66it/s]

지금 다 먹고 27171번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 
지금 다 먹고 27172번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 20%|█▉        | 59737/300000 [3:15:30<13:22:58,  4.99it/s]

지금 다 먹고 27173번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 27174번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59739/300000 [3:15:31<12:36:57,  5.29it/s]

지금 다 먹고 27175번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 27176번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59741/300000 [3:15:31<12:23:52,  5.38it/s]

지금 다 먹고 27177번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 27178번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59745/300000 [3:15:32<14:37:58,  4.56it/s]

지금 다 먹고 27179번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 
지금 다 먹고 27180번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|█▉        | 59747/300000 [3:15:32<13:29:10,  4.95it/s]

지금 다 먹고 27181번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 
지금 다 먹고 27182번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59749/300000 [3:15:33<13:14:58,  5.04it/s]

지금 다 먹고 27183번째 도착완료 
  그리고 총 보상은 : 21.80000000000001 


 20%|█▉        | 59751/300000 [3:15:33<14:33:08,  4.59it/s]

지금 다 먹고 27184번째 도착완료 
  그리고 총 보상은 : 17.30000000000001 
지금 다 먹고 27185번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|█▉        | 59753/300000 [3:15:33<13:22:30,  4.99it/s]

지금 다 먹고 27186번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 27187번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 20%|█▉        | 59755/300000 [3:15:34<13:25:33,  4.97it/s]

지금 다 먹고 27188번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 
지금 다 먹고 27189번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|█▉        | 59757/300000 [3:15:34<12:22:59,  5.39it/s]

지금 다 먹고 27190번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|█▉        | 59758/300000 [3:15:34<13:25:19,  4.97it/s]

지금 다 먹고 27191번째 도착완료 
  그리고 총 보상은 : 13.30000000000003 
지금 다 먹고 27192번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59762/300000 [3:15:35<14:43:56,  4.53it/s]

지금 다 먹고 27193번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59763/300000 [3:15:36<14:12:14,  4.70it/s]

지금 다 먹고 27194번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 
지금 다 먹고 27195번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 

 20%|█▉        | 59764/300000 [3:15:36<14:09:12,  4.71it/s]


지금 다 먹고 27196번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|█▉        | 59766/300000 [3:15:36<12:58:47,  5.14it/s]

지금 다 먹고 27197번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 20%|█▉        | 59768/300000 [3:15:37<13:30:37,  4.94it/s]

지금 다 먹고 27198번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|█▉        | 59770/300000 [3:15:37<14:39:16,  4.55it/s]

지금 다 먹고 27199번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 
지금 다 먹고 27200번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|█▉        | 59772/300000 [3:15:37<13:03:07,  5.11it/s]

지금 다 먹고 27201번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 27202번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 20%|█▉        | 59774/300000 [3:15:38<12:23:13,  5.39it/s]

지금 다 먹고 27203번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 27204번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|█▉        | 59776/300000 [3:15:38<12:11:05,  5.48it/s]

지금 다 먹고 27205번째 도착완료 
  그리고 총 보상은 : 19.7 


 20%|█▉        | 59779/300000 [3:15:39<14:31:46,  4.59it/s]

지금 다 먹고 27206번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 27207번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|█▉        | 59781/300000 [3:15:39<13:32:57,  4.92it/s]

지금 다 먹고 27208번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 27209번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59783/300000 [3:15:40<13:28:57,  4.95it/s]

지금 다 먹고 27210번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|█▉        | 59785/300000 [3:15:40<14:33:19,  4.58it/s]

지금 다 먹고 27211번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 20%|█▉        | 59787/300000 [3:15:41<15:11:15,  4.39it/s]

지금 다 먹고 27212번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 27213번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59789/300000 [3:15:41<13:32:01,  4.93it/s]

지금 다 먹고 27214번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 27215번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|█▉        | 59791/300000 [3:15:41<12:38:56,  5.28it/s]

지금 다 먹고 27216번째 도착완료 
  그리고 총 보상은 : 21.799999999999997 
지금 다 먹고 27217번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 20%|█▉        | 59793/300000 [3:15:42<12:03:43,  5.53it/s]

지금 다 먹고 27218번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59796/300000 [3:15:42<14:05:48,  4.73it/s]

지금 다 먹고 27219번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|█▉        | 59797/300000 [3:15:43<14:43:25,  4.53it/s]

지금 다 먹고 27220번째 도착완료 
  그리고 총 보상은 : -3.000000000000014 


 20%|█▉        | 59799/300000 [3:15:43<14:22:36,  4.64it/s]

지금 다 먹고 27221번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27222번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 


 20%|█▉        | 59802/300000 [3:15:44<14:10:50,  4.71it/s]

epi = 11
 마지막 상태 :
[[200.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0. 100.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-28.900000000000095
 end : True
 clear : True
episode :11, score = 12.549000000000934, n_buffer :100000 , eps : 20.1
지금 다 먹고 27223번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|█▉        | 59807/300000 [3:15:45<15:46:29,  4.23it/s]

지금 다 먹고 27224번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 27225번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|█▉        | 59809/300000 [3:15:45<14:46:55,  4.51it/s]

지금 다 먹고 27226번째 도착완료 
  그리고 총 보상은 : 12.900000000000029 
지금 다 먹고 27227번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|█▉        | 59813/300000 [3:15:46<15:14:53,  4.38it/s]

지금 다 먹고 27228번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|█▉        | 59814/300000 [3:15:47<15:48:03,  4.22it/s]

지금 다 먹고 27229번째 도착완료 
  그리고 총 보상은 : 2.9999999999999822 


 20%|█▉        | 59816/300000 [3:15:47<14:47:58,  4.51it/s]

지금 다 먹고 27230번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|█▉        | 59824/300000 [3:15:49<16:55:16,  3.94it/s]

지금 다 먹고 27231번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|█▉        | 59826/300000 [3:15:50<17:49:59,  3.74it/s]

지금 다 먹고 27232번째 도착완료 
  그리고 총 보상은 : 18.900000000000013 


 20%|█▉        | 59827/300000 [3:15:50<16:35:03,  4.02it/s]

지금 다 먹고 27233번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 


 20%|█▉        | 59829/300000 [3:15:50<16:24:31,  4.07it/s]

지금 다 먹고 27234번째 도착완료 
  그리고 총 보상은 : 8.59999999999999 
지금 다 먹고 27235번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|█▉        | 59832/300000 [3:15:51<15:44:14,  4.24it/s]

지금 다 먹고 27236번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 27237번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59836/300000 [3:15:52<16:14:06,  4.11it/s]

지금 다 먹고 27238번째 도착완료 
  그리고 총 보상은 : 12.100000000000035 


 20%|█▉        | 59840/300000 [3:15:53<17:43:50,  3.76it/s]

지금 다 먹고 27239번째 도착완료 
  그리고 총 보상은 : -2.200000000000074 
지금 다 먹고 27240번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|█▉        | 59843/300000 [3:15:54<14:44:53,  4.52it/s]

지금 다 먹고 27241번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27242번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 20%|█▉        | 59847/300000 [3:15:55<16:17:43,  4.09it/s]

지금 다 먹고 27243번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|█▉        | 59850/300000 [3:15:56<15:34:48,  4.28it/s]

지금 다 먹고 27244번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59858/300000 [3:15:58<16:40:24,  4.00it/s]

지금 다 먹고 27245번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|█▉        | 59860/300000 [3:15:58<16:30:37,  4.04it/s]

지금 다 먹고 27246번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 


 20%|█▉        | 59864/300000 [3:15:59<15:31:08,  4.30it/s]

지금 다 먹고 27247번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59867/300000 [3:16:00<15:06:55,  4.41it/s]

지금 다 먹고 27248번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59873/300000 [3:16:02<16:02:35,  4.16it/s]

지금 다 먹고 27249번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|█▉        | 59874/300000 [3:16:02<16:48:59,  3.97it/s]

지금 다 먹고 27250번째 도착완료 
  그리고 총 보상은 : 1.1999999999999247 


 20%|█▉        | 59875/300000 [3:16:02<15:36:28,  4.27it/s]

지금 다 먹고 27251번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59877/300000 [3:16:03<15:32:39,  4.29it/s]

지금 다 먹고 27252번째 도착완료 
  그리고 총 보상은 : 25.4 


 20%|█▉        | 59878/300000 [3:16:03<14:41:00,  4.54it/s]

지금 다 먹고 27253번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 20%|█▉        | 59881/300000 [3:16:03<14:44:20,  4.53it/s]

지금 다 먹고 27254번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 20%|█▉        | 59884/300000 [3:16:04<16:19:36,  4.09it/s]

지금 다 먹고 27255번째 도착완료 
  그리고 총 보상은 : 18.500000000000004 


 20%|█▉        | 59890/300000 [3:16:06<16:24:36,  4.06it/s]

지금 다 먹고 27256번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59892/300000 [3:16:06<16:30:30,  4.04it/s]

지금 다 먹고 27257번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59894/300000 [3:16:07<16:18:39,  4.09it/s]

지금 다 먹고 27258번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|█▉        | 59895/300000 [3:16:07<15:27:26,  4.31it/s]

지금 다 먹고 27259번째 도착완료 
  그리고 총 보상은 : 14.900000000000006 


 20%|█▉        | 59898/300000 [3:16:08<15:48:43,  4.22it/s]

지금 다 먹고 27260번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|█▉        | 59901/300000 [3:16:09<17:38:57,  3.78it/s]

지금 다 먹고 27261번째 도착완료 
  그리고 총 보상은 : 15.500000000000025 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :15.500000000000025
 end : True
 clear : True
episode :9, score = -24.180999999998626, n_buffer :100000 , eps : 20.05


 20%|█▉        | 59904/300000 [3:16:09<16:15:22,  4.10it/s]

지금 다 먹고 27262번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 27263번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59906/300000 [3:16:10<14:23:18,  4.64it/s]

지금 다 먹고 27264번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 20%|█▉        | 59907/300000 [3:16:10<14:30:11,  4.60it/s]

지금 다 먹고 27265번째 도착완료 
  그리고 총 보상은 : 18.6 


 20%|█▉        | 59909/300000 [3:16:10<14:42:32,  4.53it/s]

지금 다 먹고 27266번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|█▉        | 59910/300000 [3:16:11<15:16:59,  4.36it/s]

지금 다 먹고 27267번째 도착완료 
  그리고 총 보상은 : 10.700000000000038 
지금 다 먹고 27268번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 20%|█▉        | 59912/300000 [3:16:11<14:27:19,  4.61it/s]

지금 다 먹고 27269번째 도착완료 
  그리고 총 보상은 : -6.800000000000033 
지금 다 먹고 27270번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|█▉        | 59914/300000 [3:16:12<14:22:16,  4.64it/s]

지금 다 먹고 27271번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 27272번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59916/300000 [3:16:12<14:22:44,  4.64it/s]

지금 다 먹고 27273번째 도착완료 
  그리고 총 보상은 : -10.100000000000101 


 20%|█▉        | 59917/300000 [3:16:12<14:23:56,  4.63it/s]

지금 다 먹고 27274번째 도착완료 
  그리고 총 보상은 : 18.900000000000013 


 20%|█▉        | 59919/300000 [3:16:13<14:54:44,  4.47it/s]

지금 다 먹고 27275번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 27276번째 도착완료 
  그리고 총 보상은 : 23.6 


 20%|█▉        | 59921/300000 [3:16:13<15:24:19,  4.33it/s]

지금 다 먹고 27277번째 도착완료 
  그리고 총 보상은 : 9.100000000000035 
지금 다 먹고 27278번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 20%|█▉        | 59923/300000 [3:16:13<14:06:17,  4.73it/s]

지금 다 먹고 27279번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 20%|█▉        | 59924/300000 [3:16:14<15:07:10,  4.41it/s]

지금 다 먹고 27280번째 도착완료 
  그리고 총 보상은 : 10.800000000000002 


 20%|█▉        | 59926/300000 [3:16:14<15:43:09,  4.24it/s]

지금 다 먹고 27281번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 27282번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|█▉        | 59928/300000 [3:16:15<13:50:47,  4.82it/s]

지금 다 먹고 27283번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 27284번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59931/300000 [3:16:15<15:03:10,  4.43it/s]

지금 다 먹고 27285번째 도착완료 
  그리고 총 보상은 : 10.800000000000022 


 20%|█▉        | 59932/300000 [3:16:16<15:49:39,  4.21it/s]

지금 다 먹고 27286번째 도착완료 
  그리고 총 보상은 : 22.800000000000008 


 20%|█▉        | 59933/300000 [3:16:16<15:20:57,  4.34it/s]

지금 다 먹고 27287번째 도착완료 
  그리고 총 보상은 : 18.200000000000014 


 20%|█▉        | 59935/300000 [3:16:16<15:13:59,  4.38it/s]

지금 다 먹고 27288번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|█▉        | 59942/300000 [3:16:18<15:49:29,  4.21it/s]

지금 다 먹고 27289번째 도착완료 
  그리고 총 보상은 : 24.6 
지금 다 먹고 27290번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|█▉        | 59944/300000 [3:16:18<14:10:57,  4.70it/s]

지금 다 먹고 27291번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|█▉        | 59946/300000 [3:16:19<14:25:25,  4.62it/s]

지금 다 먹고 27292번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|█▉        | 59949/300000 [3:16:20<15:23:30,  4.33it/s]

지금 다 먹고 27293번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|█▉        | 59952/300000 [3:16:20<17:16:34,  3.86it/s]

지금 다 먹고 27294번째 도착완료 
  그리고 총 보상은 : 18.90000000000001 


 20%|█▉        | 59958/300000 [3:16:22<16:30:09,  4.04it/s]

지금 다 먹고 27295번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59959/300000 [3:16:22<16:48:03,  3.97it/s]

지금 다 먹고 27296번째 도착완료 
  그리고 총 보상은 : 8.6 
지금 다 먹고 27297번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|█▉        | 59961/300000 [3:16:23<14:58:50,  4.45it/s]

지금 다 먹고 27298번째 도착완료 
  그리고 총 보상은 : 15.100000000000012 


 20%|█▉        | 59963/300000 [3:16:23<15:16:45,  4.36it/s]

지금 다 먹고 27299번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|█▉        | 59964/300000 [3:16:23<14:50:55,  4.49it/s]

지금 다 먹고 27300번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 
지금 다 먹고 27301번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 


 20%|█▉        | 59966/300000 [3:16:24<13:28:34,  4.95it/s]

지금 다 먹고 27302번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27303번째 도착완료 
  그리고 총 보상은 : 25.0 


 20%|█▉        | 59969/300000 [3:16:24<14:56:21,  4.46it/s]

지금 다 먹고 27304번째 도착완료 
  그리고 총 보상은 : 6.200000000000003 


 20%|█▉        | 59975/300000 [3:16:26<16:16:30,  4.10it/s]

지금 다 먹고 27305번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 59978/300000 [3:16:27<16:25:30,  4.06it/s]

지금 다 먹고 27306번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|█▉        | 59980/300000 [3:16:27<15:44:13,  4.24it/s]

지금 다 먹고 27307번째 도착완료 
  그리고 총 보상은 : 22.799999999999997 


 20%|█▉        | 59983/300000 [3:16:28<16:02:27,  4.16it/s]

지금 다 먹고 27308번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|█▉        | 59985/300000 [3:16:29<16:10:15,  4.12it/s]

지금 다 먹고 27309번째 도착완료 
  그리고 총 보상은 : 21.20000000000001 


 20%|█▉        | 59986/300000 [3:16:29<15:24:54,  4.33it/s]

지금 다 먹고 27310번째 도착완료 
  그리고 총 보상은 : 24.500000000000014 


 20%|█▉        | 59991/300000 [3:16:30<16:00:34,  4.16it/s]

지금 다 먹고 27311번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 27312번째 도착완료 
  그리고 총 보상은 : 25.1 


 20%|█▉        | 59994/300000 [3:16:31<14:54:29,  4.47it/s]

지금 다 먹고 27313번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 
지금 다 먹고 27314번째 도착완료 
  그리고 총 보상은 : 13.900000000000006 


 20%|█▉        | 59996/300000 [3:16:31<14:24:38,  4.63it/s]

지금 다 먹고 27315번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 27316번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 20%|█▉        | 59999/300000 [3:16:32<14:46:27,  4.51it/s]

지금 다 먹고 27317번째 도착완료 
  그리고 총 보상은 : 21.00000000000001 
지금 다 먹고 27318번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60001/300000 [3:16:32<14:34:49,  4.57it/s]

지금 다 먹고 27319번째 도착완료 
  그리고 총 보상은 : 12.900000000000006 
epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :12.900000000000006
 end : True
 clear : True
episode :7, score = 0.3600000000000887, n_buffer :100000 , eps : 20.0


 20%|██        | 60003/300000 [3:16:33<14:59:04,  4.45it/s]

지금 다 먹고 27320번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60010/300000 [3:16:35<16:56:02,  3.94it/s]

지금 다 먹고 27321번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 27322번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|██        | 60012/300000 [3:16:35<14:38:46,  4.55it/s]

지금 다 먹고 27323번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 27324번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 20%|██        | 60014/300000 [3:16:35<13:26:50,  4.96it/s]

지금 다 먹고 27325번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60017/300000 [3:16:36<15:36:38,  4.27it/s]

지금 다 먹고 27326번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 60019/300000 [3:16:37<16:01:28,  4.16it/s]

지금 다 먹고 27327번째 도착완료 
  그리고 총 보상은 : 20.6 


 20%|██        | 60020/300000 [3:16:37<16:30:19,  4.04it/s]

지금 다 먹고 27328번째 도착완료 
  그리고 총 보상은 : 13.40000000000003 


 20%|██        | 60021/300000 [3:16:37<16:02:06,  4.16it/s]

지금 다 먹고 27329번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 20%|██        | 60023/300000 [3:16:38<15:55:04,  4.19it/s]

지금 다 먹고 27330번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 


 20%|██        | 60025/300000 [3:16:38<17:09:45,  3.88it/s]

지금 다 먹고 27331번째 도착완료 
  그리고 총 보상은 : 7.299999999999974 


 20%|██        | 60027/300000 [3:16:39<17:24:21,  3.83it/s]

지금 다 먹고 27332번째 도착완료 
  그리고 총 보상은 : 14.200000000000035 
지금 다 먹고 27333번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60029/300000 [3:16:39<15:12:44,  4.38it/s]

지금 다 먹고 27334번째 도착완료 
  그리고 총 보상은 : 18.30000000000001 
지금 다 먹고 27335번째 도착완료 
  그리고 총 보상은 : 16.3 


 20%|██        | 60031/300000 [3:16:39<14:49:42,  4.50it/s]

지금 다 먹고 27336번째 도착완료 
  그리고 총 보상은 : 14.800000000000022 


 20%|██        | 60034/300000 [3:16:40<15:20:38,  4.34it/s]

지금 다 먹고 27337번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60037/300000 [3:16:41<15:36:58,  4.27it/s]

지금 다 먹고 27338번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|██        | 60040/300000 [3:16:42<17:20:40,  3.84it/s]

지금 다 먹고 27339번째 도착완료 
  그리고 총 보상은 : 5.300000000000024 


 20%|██        | 60043/300000 [3:16:43<16:18:30,  4.09it/s]

지금 다 먹고 27340번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60044/300000 [3:16:43<16:18:39,  4.09it/s]

지금 다 먹고 27341번째 도착완료 
  그리고 총 보상은 : 5.900000000000025 
지금 다 먹고 27342번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60046/300000 [3:16:43<13:58:19,  4.77it/s]

지금 다 먹고 27343번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60047/300000 [3:16:43<14:22:59,  4.63it/s]

지금 다 먹고 27344번째 도착완료 
  그리고 총 보상은 : 18.500000000000014 
지금 다 먹고 27345번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60051/300000 [3:16:44<14:33:49,  4.58it/s]

지금 다 먹고 27346번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60054/300000 [3:16:45<14:53:14,  4.48it/s]

지금 다 먹고 27347번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60060/300000 [3:16:47<16:32:48,  4.03it/s]

지금 다 먹고 27348번째 도착완료 
  그리고 총 보상은 : 3.9000000000000057 


 20%|██        | 60062/300000 [3:16:47<15:26:51,  4.31it/s]

지금 다 먹고 27349번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|██        | 60064/300000 [3:16:47<14:59:40,  4.44it/s]

지금 다 먹고 27350번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 27351번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|██        | 60068/300000 [3:16:48<14:45:29,  4.52it/s]

지금 다 먹고 27352번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60070/300000 [3:16:49<15:18:06,  4.36it/s]

지금 다 먹고 27353번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 27354번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60078/300000 [3:16:51<18:10:24,  3.67it/s]

지금 다 먹고 27355번째 도착완료 
  그리고 총 보상은 : 8.500000000000005 
지금 다 먹고 27356번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 60080/300000 [3:16:51<16:14:54,  4.10it/s]

지금 다 먹고 27357번째 도착완료 
  그리고 총 보상은 : 10.000000000000021 


 20%|██        | 60081/300000 [3:16:52<15:52:56,  4.20it/s]

지금 다 먹고 27358번째 도착완료 
  그리고 총 보상은 : 14.300000000000004 
지금 다 먹고 27359번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|██        | 60085/300000 [3:16:53<15:15:52,  4.37it/s]

지금 다 먹고 27360번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60087/300000 [3:16:53<16:53:03,  3.95it/s]

지금 다 먹고 27361번째 도착완료 
  그리고 총 보상은 : 7.000000000000028 


 20%|██        | 60088/300000 [3:16:53<17:01:27,  3.91it/s]

지금 다 먹고 27362번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 


 20%|██        | 60089/300000 [3:16:54<16:29:45,  4.04it/s]

지금 다 먹고 27363번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 20%|██        | 60093/300000 [3:16:55<18:44:07,  3.56it/s]

지금 다 먹고 27364번째 도착완료 
  그리고 총 보상은 : 13.90000000000002 


 20%|██        | 60094/300000 [3:16:55<17:03:39,  3.91it/s]

지금 다 먹고 27365번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 60095/300000 [3:16:55<16:08:19,  4.13it/s]

지금 다 먹고 27366번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 
지금 다 먹고 27367번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 60097/300000 [3:16:56<14:04:14,  4.74it/s]

지금 다 먹고 27368번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 27369번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|██        | 60099/300000 [3:16:56<13:55:16,  4.79it/s]

지금 다 먹고 27370번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60102/300000 [3:16:57<14:44:40,  4.52it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [200.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1. 100.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ←
 마지막 보상 : -0.1
 총 받은 보상 :-23.300000000000065
 end : True
 clear : True
episode :5, score = -0.7889999999997371, n_buffer :100000 , eps : 19.950000000000003
지금 다 먹고 27371번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60105/300000 [3:16:57<14:51:15,  4.49it/s]

지금 다 먹고 27372번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|██        | 60108/300000 [3:16:58<16:08:46,  4.13it/s]

지금 다 먹고 27373번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 20%|██        | 60111/300000 [3:16:59<16:02:25,  4.15it/s]

지금 다 먹고 27374번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|██        | 60113/300000 [3:16:59<16:01:53,  4.16it/s]

지금 다 먹고 27375번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 60114/300000 [3:17:00<16:07:03,  4.13it/s]

지금 다 먹고 27376번째 도착완료 
  그리고 총 보상은 : 14.900000000000006 


 20%|██        | 60116/300000 [3:17:00<15:08:27,  4.40it/s]

지금 다 먹고 27377번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 60118/300000 [3:17:01<15:25:49,  4.32it/s]

지금 다 먹고 27378번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 27379번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60122/300000 [3:17:01<14:55:09,  4.47it/s]

지금 다 먹고 27380번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60123/300000 [3:17:02<15:22:36,  4.33it/s]

지금 다 먹고 27381번째 도착완료 
  그리고 총 보상은 : 14.500000000000018 


 20%|██        | 60127/300000 [3:17:03<15:51:27,  4.20it/s]

지금 다 먹고 27382번째 도착완료 
  그리고 총 보상은 : 23.200000000000006 
지금 다 먹고 27383번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60129/300000 [3:17:03<15:57:38,  4.17it/s]

지금 다 먹고 27384번째 도착완료 
  그리고 총 보상은 : 10.400000000000032 
지금 다 먹고 27385번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 60131/300000 [3:17:04<16:22:53,  4.07it/s]

지금 다 먹고 27386번째 도착완료 
  그리고 총 보상은 : 2.800000000000015 
지금 다 먹고 27387번째 도착완료 
  그리고 총 보상은 : 25.6 


 20%|██        | 60133/300000 [3:17:04<14:20:55,  4.64it/s]

지금 다 먹고 27388번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60136/300000 [3:17:05<15:15:07,  4.37it/s]

지금 다 먹고 27389번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60137/300000 [3:17:05<15:25:50,  4.32it/s]

지금 다 먹고 27390번째 도착완료 
  그리고 총 보상은 : 15.700000000000024 


 20%|██        | 60139/300000 [3:17:06<15:24:49,  4.32it/s]

지금 다 먹고 27391번째 도착완료 
  그리고 총 보상은 : 20.5 


 20%|██        | 60140/300000 [3:17:06<16:06:20,  4.14it/s]

지금 다 먹고 27392번째 도착완료 
  그리고 총 보상은 : 13.100000000000007 


 20%|██        | 60145/300000 [3:17:07<15:55:51,  4.18it/s]

지금 다 먹고 27393번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60147/300000 [3:17:08<14:59:18,  4.45it/s]

지금 다 먹고 27394번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 27395번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 60150/300000 [3:17:08<15:12:13,  4.38it/s]

지금 다 먹고 27396번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|██        | 60153/300000 [3:17:09<14:57:53,  4.45it/s]

지금 다 먹고 27397번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|██        | 60162/300000 [3:17:11<16:03:56,  4.15it/s]

지금 다 먹고 27398번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 60164/300000 [3:17:12<15:32:29,  4.29it/s]

지금 다 먹고 27399번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 60165/300000 [3:17:12<15:09:09,  4.40it/s]

지금 다 먹고 27400번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 20%|██        | 60166/300000 [3:17:12<16:13:48,  4.10it/s]

지금 다 먹고 27401번째 도착완료 
  그리고 총 보상은 : -31.800000000000033 
지금 다 먹고 27402번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60171/300000 [3:17:14<17:49:18,  3.74it/s]

지금 다 먹고 27403번째 도착완료 
  그리고 총 보상은 : 18.300000000000004 


 20%|██        | 60172/300000 [3:17:14<16:38:47,  4.00it/s]

지금 다 먹고 27404번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 
지금 다 먹고 27405번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 60176/300000 [3:17:15<16:43:33,  3.98it/s]

지금 다 먹고 27406번째 도착완료 
  그리고 총 보상은 : 6.500000000000039 


 20%|██        | 60179/300000 [3:17:16<16:42:45,  3.99it/s]

지금 다 먹고 27407번째 도착완료 
  그리고 총 보상은 : 16.7 


 20%|██        | 60181/300000 [3:17:16<15:43:41,  4.24it/s]

지금 다 먹고 27408번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60182/300000 [3:17:16<15:30:51,  4.29it/s]

지금 다 먹고 27409번째 도착완료 
  그리고 총 보상은 : 14.400000000000025 


 20%|██        | 60184/300000 [3:17:17<15:06:26,  4.41it/s]

지금 다 먹고 27410번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60187/300000 [3:17:17<15:03:43,  4.42it/s]

지금 다 먹고 27411번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 60189/300000 [3:17:18<16:30:41,  4.03it/s]

지금 다 먹고 27412번째 도착완료 
  그리고 총 보상은 : 15.100000000000021 
지금 다 먹고 27413번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60196/300000 [3:17:20<16:27:15,  4.05it/s]

지금 다 먹고 27414번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60197/300000 [3:17:20<15:55:17,  4.18it/s]

지금 다 먹고 27415번째 도착완료 
  그리고 총 보상은 : 19.000000000000014 
지금 다 먹고 27416번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 60199/300000 [3:17:20<15:36:16,  4.27it/s]

지금 다 먹고 27417번째 도착완료 
  그리고 총 보상은 : 14.900000000000004 


 20%|██        | 60200/300000 [3:17:21<15:34:47,  4.28it/s]

지금 다 먹고 27418번째 도착완료 
  그리고 총 보상은 : -18.30000000000002 
지금 다 먹고 27419번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60201/300000 [3:17:21<14:19:25,  4.65it/s]

epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.500000000000004
 end : True
 clear : True
episode :3, score = -2.4480000000001136, n_buffer :100000 , eps : 19.900000000000002


 20%|██        | 60203/300000 [3:17:21<15:48:12,  4.21it/s]

지금 다 먹고 27420번째 도착완료 
  그리고 총 보상은 : 8.800000000000047 
지금 다 먹고 27421번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60207/300000 [3:17:22<16:04:37,  4.14it/s]

지금 다 먹고 27422번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 60210/300000 [3:17:23<15:51:09,  4.20it/s]

지금 다 먹고 27423번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 60213/300000 [3:17:24<16:33:54,  4.02it/s]

지금 다 먹고 27424번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 20%|██        | 60215/300000 [3:17:24<15:38:10,  4.26it/s]

지금 다 먹고 27425번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60216/300000 [3:17:25<15:17:12,  4.36it/s]

지금 다 먹고 27426번째 도착완료 
  그리고 총 보상은 : 18.900000000000006 


 20%|██        | 60218/300000 [3:17:25<14:56:32,  4.46it/s]

지금 다 먹고 27427번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|██        | 60224/300000 [3:17:27<16:24:40,  4.06it/s]

지금 다 먹고 27428번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60227/300000 [3:17:27<16:31:34,  4.03it/s]

지금 다 먹고 27429번째 도착완료 
  그리고 총 보상은 : 15.200000000000022 


 20%|██        | 60229/300000 [3:17:28<17:07:57,  3.89it/s]

지금 다 먹고 27430번째 도착완료 
  그리고 총 보상은 : 16.400000000000016 


 20%|██        | 60230/300000 [3:17:28<16:29:54,  4.04it/s]

지금 다 먹고 27431번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|██        | 60232/300000 [3:17:29<15:50:55,  4.20it/s]

지금 다 먹고 27432번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60235/300000 [3:17:29<16:34:23,  4.02it/s]

지금 다 먹고 27433번째 도착완료 
  그리고 총 보상은 : 17.200000000000014 


 20%|██        | 60238/300000 [3:17:30<16:11:22,  4.11it/s]

지금 다 먹고 27434번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60239/300000 [3:17:30<15:43:35,  4.23it/s]

지금 다 먹고 27435번째 도착완료 
  그리고 총 보상은 : 18.40000000000002 


 20%|██        | 60246/300000 [3:17:32<17:21:32,  3.84it/s]

지금 다 먹고 27436번째 도착완료 
  그리고 총 보상은 : 12.700000000000037 


 20%|██        | 60248/300000 [3:17:33<16:17:00,  4.09it/s]

지금 다 먹고 27437번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 27438번째 도착완료 
  그리고 총 보상은 : 25.8 


 20%|██        | 60251/300000 [3:17:33<16:32:16,  4.03it/s]

지금 다 먹고 27439번째 도착완료 
  그리고 총 보상은 : 18.100000000000012 


 20%|██        | 60252/300000 [3:17:34<17:11:39,  3.87it/s]

지금 다 먹고 27440번째 도착완료 
  그리고 총 보상은 : 10.099999999999996 


 20%|██        | 60255/300000 [3:17:34<16:14:13,  4.10it/s]

지금 다 먹고 27441번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|██        | 60256/300000 [3:17:35<15:25:52,  4.32it/s]

지금 다 먹고 27442번째 도착완료 
  그리고 총 보상은 : 14.300000000000006 


 20%|██        | 60258/300000 [3:17:35<14:34:51,  4.57it/s]

지금 다 먹고 27443번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 27444번째 도착완료 
  그리고 총 보상은 : 22.6 


 20%|██        | 60260/300000 [3:17:35<13:56:54,  4.77it/s]

지금 다 먹고 27445번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 20%|██        | 60264/300000 [3:17:37<16:31:48,  4.03it/s]

지금 다 먹고 27446번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 20%|██        | 60266/300000 [3:17:37<15:50:40,  4.20it/s]

지금 다 먹고 27447번째 도착완료 
  그리고 총 보상은 : 24.400000000000013 
지금 다 먹고 27448번째 도착완료 
  그리고 총 보상은 : 19.3 


 20%|██        | 60268/300000 [3:17:37<14:30:10,  4.59it/s]

지금 다 먹고 27449번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|██        | 60269/300000 [3:17:38<14:32:03,  4.58it/s]

지금 다 먹고 27450번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 


 20%|██        | 60272/300000 [3:17:38<14:38:42,  4.55it/s]

지금 다 먹고 27451번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 60275/300000 [3:17:39<14:25:22,  4.62it/s]

지금 다 먹고 27452번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60278/300000 [3:17:40<16:21:53,  4.07it/s]

지금 다 먹고 27453번째 도착완료 
  그리고 총 보상은 : 12.60000000000003 


 20%|██        | 60283/300000 [3:17:41<16:37:26,  4.01it/s]

지금 다 먹고 27454번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|██        | 60286/300000 [3:17:42<15:52:35,  4.19it/s]

지금 다 먹고 27455번째 도착완료 
  그리고 총 보상은 : 21.4 


 20%|██        | 60289/300000 [3:17:43<15:18:38,  4.35it/s]

지금 다 먹고 27456번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60291/300000 [3:17:43<16:24:05,  4.06it/s]

지금 다 먹고 27457번째 도착완료 
  그리고 총 보상은 : 12.600000000000028 


 20%|██        | 60292/300000 [3:17:43<16:31:30,  4.03it/s]

지금 다 먹고 27458번째 도착완료 
  그리고 총 보상은 : 16.500000000000018 


 20%|██        | 60298/300000 [3:17:45<16:36:42,  4.01it/s]

지금 다 먹고 27459번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 27460번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 


 20%|██        | 60300/300000 [3:17:45<15:22:28,  4.33it/s]

지금 다 먹고 27461번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 20%|██        | 60302/300000 [3:17:46<15:10:39,  4.39it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-26.100000000000072
 end : True
 clear : True
episode :1, score = -6.622000000001775, n_buffer :100000 , eps : 19.85
지금 다 먹고 27462번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 20%|██        | 60303/300000 [3:17:46<14:46:38,  4.51it/s]

지금 다 먹고 27463번째 도착완료 
  그리고 총 보상은 : 14.500000000000012 


 20%|██        | 60306/300000 [3:17:47<15:32:45,  4.28it/s]

지금 다 먹고 27464번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|██        | 60307/300000 [3:17:47<15:43:12,  4.24it/s]

지금 다 먹고 27465번째 도착완료 
  그리고 총 보상은 : -9.20000000000001 


 20%|██        | 60308/300000 [3:17:47<16:15:50,  4.09it/s]

지금 다 먹고 27466번째 도착완료 
  그리고 총 보상은 : 13.30000000000003 


 20%|██        | 60309/300000 [3:17:48<15:55:50,  4.18it/s]

지금 다 먹고 27467번째 도착완료 
  그리고 총 보상은 : 16.900000000000002 


 20%|██        | 60310/300000 [3:17:48<15:40:16,  4.25it/s]

지금 다 먹고 27468번째 도착완료 
  그리고 총 보상은 : 15.300000000000027 


 20%|██        | 60314/300000 [3:17:49<17:00:33,  3.91it/s]

지금 다 먹고 27469번째 도착완료 
  그리고 총 보상은 : 14.700000000000017 
지금 다 먹고 27470번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60317/300000 [3:17:50<15:43:34,  4.23it/s]

지금 다 먹고 27471번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60318/300000 [3:17:50<14:59:49,  4.44it/s]

지금 다 먹고 27472번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 20%|██        | 60319/300000 [3:17:50<16:04:16,  4.14it/s]

지금 다 먹고 27473번째 도착완료 
  그리고 총 보상은 : -28.70000000000011 
지금 다 먹고 27474번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60323/300000 [3:17:51<15:04:18,  4.42it/s]

지금 다 먹고 27475번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60326/300000 [3:17:52<15:11:28,  4.38it/s]

지금 다 먹고 27476번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|██        | 60331/300000 [3:17:53<16:07:55,  4.13it/s]

지금 다 먹고 27477번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 27478번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 60333/300000 [3:17:53<15:43:51,  4.23it/s]

지금 다 먹고 27479번째 도착완료 
  그리고 총 보상은 : 16.600000000000005 


 20%|██        | 60336/300000 [3:17:54<16:17:23,  4.09it/s]

지금 다 먹고 27480번째 도착완료 
  그리고 총 보상은 : 18.80000000000001 


 20%|██        | 60337/300000 [3:17:54<16:03:19,  4.15it/s]

지금 다 먹고 27481번째 도착완료 
  그리고 총 보상은 : 3.2999999999999936 


 20%|██        | 60338/300000 [3:17:55<16:34:56,  4.01it/s]

지금 다 먹고 27482번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 20%|██        | 60340/300000 [3:17:55<15:34:15,  4.28it/s]

지금 다 먹고 27483번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 60341/300000 [3:17:55<15:00:12,  4.44it/s]

지금 다 먹고 27484번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 


 20%|██        | 60342/300000 [3:17:56<15:45:49,  4.22it/s]

지금 다 먹고 27485번째 도착완료 
  그리고 총 보상은 : 3.8000000000000362 
지금 다 먹고 27486번째 도착완료 
  그리고 총 보상은 : 17.1 


 20%|██        | 60344/300000 [3:17:56<15:27:15,  4.31it/s]

지금 다 먹고 27487번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 20%|██        | 60346/300000 [3:17:57<16:37:24,  4.00it/s]

지금 다 먹고 27488번째 도착완료 
  그리고 총 보상은 : 11.600000000000039 


 20%|██        | 60349/300000 [3:17:57<15:43:49,  4.23it/s]

지금 다 먹고 27489번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60350/300000 [3:17:58<16:41:41,  3.99it/s]

지금 다 먹고 27490번째 도착완료 
  그리고 총 보상은 : 13.200000000000037 
지금 다 먹고 27491번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 60352/300000 [3:17:58<14:30:33,  4.59it/s]

지금 다 먹고 27492번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|██        | 60353/300000 [3:17:58<14:31:28,  4.58it/s]

지금 다 먹고 27493번째 도착완료 
  그리고 총 보상은 : 14.30000000000002 


 20%|██        | 60354/300000 [3:17:58<14:58:14,  4.45it/s]

지금 다 먹고 27494번째 도착완료 
  그리고 총 보상은 : 10.00000000000002 


 20%|██        | 60357/300000 [3:17:59<15:05:56,  4.41it/s]

지금 다 먹고 27495번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60358/300000 [3:17:59<14:59:50,  4.44it/s]

지금 다 먹고 27496번째 도착완료 
  그리고 총 보상은 : -0.9000000000000128 


 20%|██        | 60359/300000 [3:18:00<15:08:48,  4.39it/s]

지금 다 먹고 27497번째 도착완료 
  그리고 총 보상은 : 8.10000000000003 
지금 다 먹고 27498번째 도착완료 
  그리고 총 보상은 : 18.0 


 20%|██        | 60366/300000 [3:18:02<16:53:08,  3.94it/s]

지금 다 먹고 27499번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60368/300000 [3:18:02<16:06:49,  4.13it/s]

지금 다 먹고 27500번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 
지금 다 먹고 27501번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 20%|██        | 60371/300000 [3:18:03<16:05:20,  4.14it/s]

지금 다 먹고 27502번째 도착완료 
  그리고 총 보상은 : 8.100000000000014 


 20%|██        | 60374/300000 [3:18:03<15:52:48,  4.19it/s]

지금 다 먹고 27503번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60375/300000 [3:18:04<16:35:04,  4.01it/s]

지금 다 먹고 27504번째 도착완료 
  그리고 총 보상은 : 7.499999999999982 


 20%|██        | 60377/300000 [3:18:04<16:10:01,  4.12it/s]

지금 다 먹고 27505번째 도착완료 
  그리고 총 보상은 : 15.5 


 20%|██        | 60378/300000 [3:18:04<15:27:24,  4.31it/s]

지금 다 먹고 27506번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 20%|██        | 60385/300000 [3:18:06<16:19:14,  4.08it/s]

지금 다 먹고 27507번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 27508번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|██        | 60388/300000 [3:18:07<15:33:33,  4.28it/s]

지금 다 먹고 27509번째 도착완료 
  그리고 총 보상은 : 1.399999999999995 


 20%|██        | 60391/300000 [3:18:08<15:47:33,  4.21it/s]

지금 다 먹고 27510번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60392/300000 [3:18:08<15:43:53,  4.23it/s]

지금 다 먹고 27511번째 도착완료 
  그리고 총 보상은 : 18.000000000000004 


 20%|██        | 60394/300000 [3:18:09<16:46:44,  3.97it/s]

지금 다 먹고 27512번째 도착완료 
  그리고 총 보상은 : 8.70000000000001 


 20%|██        | 60395/300000 [3:18:09<18:06:28,  3.68it/s]

지금 다 먹고 27513번째 도착완료 
  그리고 총 보상은 : 12.000000000000034 


 20%|██        | 60397/300000 [3:18:09<18:21:59,  3.62it/s]

지금 다 먹고 27514번째 도착완료 
  그리고 총 보상은 : -1.000000000000039 


 20%|██        | 60400/300000 [3:18:10<17:05:16,  3.89it/s]

지금 다 먹고 27515번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 60401/300000 [3:18:11<18:31:46,  3.59it/s]

epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1. 100.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 200.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-14.799999999999967
 end : True
 clear : True
episode :16, score = -1.0599999999999137, n_buffer :100000 , eps : 19.8
지금 다 먹고 27516번째 도착완료 
  그리고 총 보상은 : 22.700000000000014 


 20%|██        | 60404/300000 [3:18:11<16:17:24,  4.09it/s]

지금 다 먹고 27517번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 20%|██        | 60405/300000 [3:18:11<15:27:11,  4.31it/s]

지금 다 먹고 27518번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60408/300000 [3:18:12<15:32:55,  4.28it/s]

지금 다 먹고 27519번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 20%|██        | 60411/300000 [3:18:13<15:31:57,  4.28it/s]

지금 다 먹고 27520번째 도착완료 
  그리고 총 보상은 : 18.5 


 20%|██        | 60419/300000 [3:18:15<16:29:25,  4.04it/s]

지금 다 먹고 27521번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|██        | 60420/300000 [3:18:15<16:42:10,  3.98it/s]

지금 다 먹고 27522번째 도착완료 
  그리고 총 보상은 : 11.900000000000013 


 20%|██        | 60421/300000 [3:18:15<15:53:02,  4.19it/s]

지금 다 먹고 27523번째 도착완료 
  그리고 총 보상은 : 18.500000000000004 
지금 다 먹고 27524번째 도착완료 
  그리고 총 보상은 : 20.999999999999996 


 20%|██        | 60425/300000 [3:18:16<15:10:02,  4.39it/s]

지금 다 먹고 27525번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60428/300000 [3:18:17<15:19:51,  4.34it/s]

지금 다 먹고 27526번째 도착완료 
  그리고 총 보상은 : 10.900000000000006 
지금 다 먹고 27527번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 20%|██        | 60434/300000 [3:18:19<17:30:22,  3.80it/s]

지금 다 먹고 27528번째 도착완료 
  그리고 총 보상은 : 12.500000000000004 


 20%|██        | 60436/300000 [3:18:19<15:56:48,  4.17it/s]

지금 다 먹고 27529번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 20%|██        | 60437/300000 [3:18:19<15:17:02,  4.35it/s]

지금 다 먹고 27530번째 도착완료 
  그리고 총 보상은 : 18.60000000000001 
지금 다 먹고 27531번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 60439/300000 [3:18:20<14:58:14,  4.45it/s]

지금 다 먹고 27532번째 도착완료 
  그리고 총 보상은 : 13.700000000000006 


 20%|██        | 60442/300000 [3:18:21<15:11:53,  4.38it/s]

지금 다 먹고 27533번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60445/300000 [3:18:21<15:36:53,  4.26it/s]

지금 다 먹고 27534번째 도착완료 
  그리고 총 보상은 : 17.299999999999997 


 20%|██        | 60451/300000 [3:18:23<16:05:59,  4.13it/s]

지금 다 먹고 27535번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 60453/300000 [3:18:23<15:03:30,  4.42it/s]

지금 다 먹고 27536번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 60456/300000 [3:18:24<16:46:17,  3.97it/s]

지금 다 먹고 27537번째 도착완료 
  그리고 총 보상은 : 21.1 


 20%|██        | 60459/300000 [3:18:25<17:34:44,  3.79it/s]

지금 다 먹고 27538번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60470/300000 [3:18:28<17:32:35,  3.79it/s]

지금 다 먹고 27539번째 도착완료 
  그리고 총 보상은 : 8.800000000000002 


 20%|██        | 60472/300000 [3:18:28<16:10:36,  4.11it/s]

지금 다 먹고 27540번째 도착완료 
  그리고 총 보상은 : 24.1 


 20%|██        | 60473/300000 [3:18:29<16:25:20,  4.05it/s]

지금 다 먹고 27541번째 도착완료 
  그리고 총 보상은 : 1.1999999999999744 


 20%|██        | 60476/300000 [3:18:29<15:38:51,  4.25it/s]

지금 다 먹고 27542번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 60479/300000 [3:18:30<16:48:19,  3.96it/s]

지금 다 먹고 27543번째 도착완료 
  그리고 총 보상은 : 11.100000000000003 


 20%|██        | 60482/300000 [3:18:31<17:28:17,  3.81it/s]

지금 다 먹고 27544번째 도착완료 
  그리고 총 보상은 : 11.30000000000003 


 20%|██        | 60485/300000 [3:18:32<16:25:02,  4.05it/s]

지금 다 먹고 27545번째 도착완료 
  그리고 총 보상은 : 25.50000000000001 


 20%|██        | 60486/300000 [3:18:32<15:50:12,  4.20it/s]

지금 다 먹고 27546번째 도착완료 
  그리고 총 보상은 : 20.00000000000001 
지금 다 먹고 27547번째 도착완료 
  그리고 총 보상은 : 20.6 


 20%|██        | 60489/300000 [3:18:33<14:12:34,  4.68it/s]

지금 다 먹고 27548번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 27549번째 도착완료 
  그리고 총 보상은 : 18.7 


 20%|██        | 60493/300000 [3:18:34<15:34:08,  4.27it/s]

지금 다 먹고 27550번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60501/300000 [3:18:36<17:36:14,  3.78it/s]

지금 다 먹고 27551번째 도착완료 
  그리고 총 보상은 : 14.300000000000026 
epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :14.300000000000026
 end : True
 clear : True
episode :14, score = -7.610000000001511, n_buffer :100000 , eps : 19.75
지금 다 먹고 27552번째 도착완료 
  그리고 총 보상은 : 23.5 


 20%|██        | 60503/300000 [3:18:36<14:43:33,  4.52it/s]

지금 다 먹고 27553번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 27554번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60505/300000 [3:18:37<14:11:48,  4.69it/s]

지금 다 먹고 27555번째 도착완료 
  그리고 총 보상은 : 17.600000000000016 


 20%|██        | 60507/300000 [3:18:37<15:16:00,  4.36it/s]

지금 다 먹고 27556번째 도착완료 
  그리고 총 보상은 : 15.899999999999997 


 20%|██        | 60510/300000 [3:18:38<16:15:14,  4.09it/s]

지금 다 먹고 27557번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60513/300000 [3:18:39<16:12:06,  4.11it/s]

지금 다 먹고 27558번째 도착완료 
  그리고 총 보상은 : 16.400000000000013 


 20%|██        | 60514/300000 [3:18:39<16:16:50,  4.09it/s]

지금 다 먹고 27559번째 도착완료 
  그리고 총 보상은 : 10.400000000000029 


 20%|██        | 60518/300000 [3:18:40<16:31:26,  4.03it/s]

지금 다 먹고 27560번째 도착완료 
  그리고 총 보상은 : 17.0 


 20%|██        | 60521/300000 [3:18:41<15:58:34,  4.16it/s]

지금 다 먹고 27561번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 27562번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 


 20%|██        | 60523/300000 [3:18:41<14:32:56,  4.57it/s]

지금 다 먹고 27563번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 20%|██        | 60524/300000 [3:18:41<14:26:48,  4.60it/s]

지금 다 먹고 27564번째 도착완료 
  그리고 총 보상은 : -2.000000000000014 


 20%|██        | 60527/300000 [3:18:42<16:09:30,  4.12it/s]

지금 다 먹고 27565번째 도착완료 
  그리고 총 보상은 : 25.100000000000012 


 20%|██        | 60528/300000 [3:18:42<15:27:19,  4.30it/s]

지금 다 먹고 27566번째 도착완료 
  그리고 총 보상은 : 15.200000000000003 


 20%|██        | 60529/300000 [3:18:43<15:58:55,  4.16it/s]

지금 다 먹고 27567번째 도착완료 
  그리고 총 보상은 : 12.000000000000028 


 20%|██        | 60530/300000 [3:18:43<16:56:59,  3.92it/s]

지금 다 먹고 27568번째 도착완료 
  그리고 총 보상은 : 13.100000000000037 


 20%|██        | 60535/300000 [3:18:44<17:18:49,  3.84it/s]

지금 다 먹고 27569번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 27570번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60538/300000 [3:18:45<15:50:30,  4.20it/s]

지금 다 먹고 27571번째 도착완료 
  그리고 총 보상은 : 10.1 
지금 다 먹고 27572번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 


 20%|██        | 60540/300000 [3:18:45<14:42:39,  4.52it/s]

지금 다 먹고 27573번째 도착완료 
  그리고 총 보상은 : 20.800000000000015 
지금 다 먹고 27574번째 도착완료 
  그리고 총 보상은 : 20.7 


 20%|██        | 60544/300000 [3:18:46<15:03:33,  4.42it/s]

지금 다 먹고 27575번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 20%|██        | 60550/300000 [3:18:48<18:06:44,  3.67it/s]

지금 다 먹고 27576번째 도착완료 
  그리고 총 보상은 : -27.500000000000064 


 20%|██        | 60553/300000 [3:18:49<15:53:15,  4.19it/s]

지금 다 먹고 27577번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60555/300000 [3:18:49<15:03:22,  4.42it/s]

지금 다 먹고 27578번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 27579번째 도착완료 
  그리고 총 보상은 : 16.0 

 20%|██        | 60556/300000 [3:18:49<14:30:18,  4.59it/s]




 20%|██        | 60558/300000 [3:18:50<14:39:58,  4.54it/s]

지금 다 먹고 27580번째 도착완료 
  그리고 총 보상은 : 23.3 


 20%|██        | 60561/300000 [3:18:50<15:44:16,  4.23it/s]

지금 다 먹고 27581번째 도착완료 
  그리고 총 보상은 : 22.1 


 20%|██        | 60563/300000 [3:18:51<15:17:01,  4.35it/s]

지금 다 먹고 27582번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 20%|██        | 60564/300000 [3:18:51<15:01:53,  4.42it/s]

지금 다 먹고 27583번째 도착완료 
  그리고 총 보상은 : 19.60000000000001 


 20%|██        | 60565/300000 [3:18:51<15:25:03,  4.31it/s]

지금 다 먹고 27584번째 도착완료 
  그리고 총 보상은 : 12.700000000000037 


 20%|██        | 60567/300000 [3:18:52<17:14:33,  3.86it/s]

지금 다 먹고 27585번째 도착완료 
  그리고 총 보상은 : 10.000000000000014 


 20%|██        | 60568/300000 [3:18:52<16:49:11,  3.95it/s]

지금 다 먹고 27586번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 20%|██        | 60569/300000 [3:18:52<16:33:51,  4.02it/s]

지금 다 먹고 27587번째 도착완료 
  그리고 총 보상은 : 15.90000000000002 
지금 다 먹고 27588번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60572/300000 [3:18:53<14:29:06,  4.59it/s]

지금 다 먹고 27589번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60573/300000 [3:18:53<15:17:31,  4.35it/s]

지금 다 먹고 27590번째 도착완료 
  그리고 총 보상은 : 12.700000000000038 


 20%|██        | 60574/300000 [3:18:54<15:07:49,  4.40it/s]

지금 다 먹고 27591번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 27592번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|██        | 60578/300000 [3:18:54<14:37:05,  4.55it/s]

지금 다 먹고 27593번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60579/300000 [3:18:55<15:10:39,  4.38it/s]

지금 다 먹고 27594번째 도착완료 
  그리고 총 보상은 : -17.300000000000026 


 20%|██        | 60581/300000 [3:18:55<16:25:20,  4.05it/s]

지금 다 먹고 27595번째 도착완료 
  그리고 총 보상은 : 2.499999999999954 


 20%|██        | 60584/300000 [3:18:56<19:56:48,  3.33it/s]

지금 다 먹고 27596번째 도착완료 
  그리고 총 보상은 : -3.5000000000000284 


 20%|██        | 60586/300000 [3:18:57<18:12:00,  3.65it/s]

지금 다 먹고 27597번째 도착완료 
  그리고 총 보상은 : 7.6999999999999975 
지금 다 먹고 27598번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 


 20%|██        | 60588/300000 [3:18:57<15:38:10,  4.25it/s]

지금 다 먹고 27599번째 도착완료 
  그리고 총 보상은 : 17.400000000000016 
지금 다 먹고 27600번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 60590/300000 [3:18:57<13:30:11,  4.92it/s]

지금 다 먹고 27601번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60592/300000 [3:18:58<14:42:33,  4.52it/s]

지금 다 먹고 27602번째 도착완료 
  그리고 총 보상은 : 14.300000000000015 
지금 다 먹고 27603번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 20%|██        | 60596/300000 [3:18:59<16:18:59,  4.08it/s]

지금 다 먹고 27604번째 도착완료 
  그리고 총 보상은 : 13.200000000000026 


 20%|██        | 60597/300000 [3:18:59<15:59:08,  4.16it/s]

지금 다 먹고 27605번째 도착완료 
  그리고 총 보상은 : 15.400000000000029 


 20%|██        | 60601/300000 [3:19:00<16:50:35,  3.95it/s]

지금 다 먹고 27606번째 도착완료 
  그리고 총 보상은 : 20.90000000000001 
epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :20.90000000000001
 end : True
 clear : True
episode :12, score = -1.732999999999656, n_buffer :100000 , eps : 19.7


 20%|██        | 60602/300000 [3:19:00<16:17:25,  4.08it/s]

지금 다 먹고 27607번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 


 20%|██        | 60604/300000 [3:19:01<15:37:07,  4.26it/s]

지금 다 먹고 27608번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 20%|██        | 60606/300000 [3:19:01<14:36:11,  4.55it/s]

지금 다 먹고 27609번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 27610번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 20%|██        | 60609/300000 [3:19:02<15:26:30,  4.31it/s]

지금 다 먹고 27611번째 도착완료 
  그리고 총 보상은 : 3.099999999999987 


 20%|██        | 60612/300000 [3:19:03<16:40:19,  3.99it/s]

지금 다 먹고 27612번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 27613번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 20%|██        | 60614/300000 [3:19:03<14:52:26,  4.47it/s]

지금 다 먹고 27614번째 도착완료 
  그리고 총 보상은 : 5.699999999999999 
지금 다 먹고 27615번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|██        | 60616/300000 [3:19:04<13:58:07,  4.76it/s]

지금 다 먹고 27616번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60620/300000 [3:19:05<15:39:35,  4.25it/s]

지금 다 먹고 27617번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 
지금 다 먹고 27618번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60623/300000 [3:19:05<14:26:15,  4.61it/s]

지금 다 먹고 27619번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 27620번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|██        | 60625/300000 [3:19:06<13:59:19,  4.75it/s]

지금 다 먹고 27621번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 
지금 다 먹고 27622번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60629/300000 [3:19:07<14:29:20,  4.59it/s]

지금 다 먹고 27623번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60630/300000 [3:19:07<14:24:05,  4.62it/s]

지금 다 먹고 27624번째 도착완료 
  그리고 총 보상은 : 19.500000000000007 
지금 다 먹고 27625번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|██        | 60632/300000 [3:19:07<13:10:55,  5.04it/s]

지금 다 먹고 27626번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 27627번째 도착완료 
  그리고 총 보상은 : 24.1 


 20%|██        | 60636/300000 [3:19:08<15:16:06,  4.35it/s]

지금 다 먹고 27628번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60637/300000 [3:19:08<15:20:52,  4.33it/s]

지금 다 먹고 27629번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 20%|██        | 60639/300000 [3:19:09<15:47:29,  4.21it/s]

지금 다 먹고 27630번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 27631번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|██        | 60643/300000 [3:19:10<16:38:43,  3.99it/s]

지금 다 먹고 27632번째 도착완료 
  그리고 총 보상은 : 17.6 


 20%|██        | 60646/300000 [3:19:11<15:30:37,  4.29it/s]

지금 다 먹고 27633번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|██        | 60647/300000 [3:19:11<15:24:18,  4.32it/s]

지금 다 먹고 27634번째 도착완료 
  그리고 총 보상은 : -4.800000000000033 
지금 다 먹고 27635번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 60652/300000 [3:19:12<16:32:58,  4.02it/s]

지금 다 먹고 27636번째 도착완료 
  그리고 총 보상은 : 25.0 
지금 다 먹고 27637번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|██        | 60654/300000 [3:19:12<15:07:45,  4.39it/s]

지금 다 먹고 27638번째 도착완료 
  그리고 총 보상은 : 15.700000000000024 


 20%|██        | 60656/300000 [3:19:13<14:57:21,  4.45it/s]

지금 다 먹고 27639번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 60657/300000 [3:19:13<15:17:40,  4.35it/s]

지금 다 먹고 27640번째 도착완료 
  그리고 총 보상은 : 11.70000000000003 
지금 다 먹고 27641번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|██        | 60659/300000 [3:19:14<13:58:53,  4.76it/s]

지금 다 먹고 27642번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|██        | 60660/300000 [3:19:14<13:58:14,  4.76it/s]

지금 다 먹고 27643번째 도착완료 
  그리고 총 보상은 : 14.000000000000004 


 20%|██        | 60663/300000 [3:19:14<14:39:30,  4.54it/s]

지금 다 먹고 27644번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 27645번째 도착완료 
  그리고 총 보상은 : 22.2 


 20%|██        | 60665/300000 [3:19:15<14:33:12,  4.57it/s]

지금 다 먹고 27646번째 도착완료 
  그리고 총 보상은 : 6.800000000000001 


 20%|██        | 60667/300000 [3:19:15<14:41:16,  4.53it/s]

지금 다 먹고 27647번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60669/300000 [3:19:16<15:20:44,  4.33it/s]

지금 다 먹고 27648번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 20%|██        | 60673/300000 [3:19:17<16:35:00,  4.01it/s]

지금 다 먹고 27649번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 27650번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 20%|██        | 60675/300000 [3:19:17<14:11:42,  4.68it/s]

지금 다 먹고 27651번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 


 20%|██        | 60677/300000 [3:19:18<15:19:13,  4.34it/s]

지금 다 먹고 27652번째 도착완료 
  그리고 총 보상은 : 5.299999999999992 


 20%|██        | 60678/300000 [3:19:18<15:29:39,  4.29it/s]

지금 다 먹고 27653번째 도착완료 
  그리고 총 보상은 : 15.4 


 20%|██        | 60680/300000 [3:19:19<16:11:39,  4.10it/s]

지금 다 먹고 27654번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|██        | 60681/300000 [3:19:19<16:39:33,  3.99it/s]

지금 다 먹고 27655번째 도착완료 
  그리고 총 보상은 : 12.500000000000018 
지금 다 먹고 27656번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60683/300000 [3:19:19<15:24:50,  4.31it/s]

지금 다 먹고 27657번째 도착완료 
  그리고 총 보상은 : -5.000000000000011 
지금 다 먹고 27658번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60686/300000 [3:19:20<15:50:47,  4.19it/s]

지금 다 먹고 27659번째 도착완료 
  그리고 총 보상은 : 18.20000000000001 


 20%|██        | 60687/300000 [3:19:20<17:12:56,  3.86it/s]

지금 다 먹고 27660번째 도착완료 
  그리고 총 보상은 : 6.000000000000048 


 20%|██        | 60688/300000 [3:19:20<16:06:50,  4.13it/s]

지금 다 먹고 27661번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 20%|██        | 60690/300000 [3:19:21<15:24:00,  4.32it/s]

지금 다 먹고 27662번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 27663번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|██        | 60694/300000 [3:19:22<14:45:51,  4.50it/s]

지금 다 먹고 27664번째 도착완료 
  그리고 총 보상은 : 20.599999999999998 


 20%|██        | 60697/300000 [3:19:23<15:51:42,  4.19it/s]

지금 다 먹고 27665번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 


 20%|██        | 60698/300000 [3:19:23<15:55:39,  4.17it/s]

지금 다 먹고 27666번째 도착완료 
  그리고 총 보상은 : -24.100000000000044 


 20%|██        | 60699/300000 [3:19:23<16:13:32,  4.10it/s]

지금 다 먹고 27667번째 도착완료 
  그리고 총 보상은 : -12.000000000000014 


 20%|██        | 60701/300000 [3:19:24<18:17:27,  3.63it/s]

epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0. 200.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0. 100.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-27.700000000000067
 end : True
 clear : True
episode :10, score = 1.235000000000178, n_buffer :100000 , eps : 19.650000000000002


 20%|██        | 60703/300000 [3:19:24<16:47:02,  3.96it/s]

지금 다 먹고 27668번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 20%|██        | 60704/300000 [3:19:24<15:36:30,  4.26it/s]

지금 다 먹고 27669번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 27670번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|██        | 60706/300000 [3:19:25<13:48:42,  4.81it/s]

지금 다 먹고 27671번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 27672번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|██        | 60708/300000 [3:19:25<13:14:41,  5.02it/s]

지금 다 먹고 27673번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 


 20%|██        | 60709/300000 [3:19:25<13:20:21,  4.98it/s]

지금 다 먹고 27674번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 20%|██        | 60710/300000 [3:19:26<13:41:57,  4.85it/s]

지금 다 먹고 27675번째 도착완료 
  그리고 총 보상은 : 19.500000000000018 


 20%|██        | 60711/300000 [3:19:26<14:09:45,  4.69it/s]

지금 다 먹고 27676번째 도착완료 
  그리고 총 보상은 : -15.400000000000006 
지금 다 먹고 27677번째 도착완료 
  그리고 총 보상은 : 16.40000000000001 


 20%|██        | 60714/300000 [3:19:26<13:57:07,  4.76it/s]

지금 다 먹고 27678번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 60715/300000 [3:19:27<14:04:28,  4.72it/s]

지금 다 먹고 27679번째 도착완료 
  그리고 총 보상은 : 17.400000000000016 


 20%|██        | 60716/300000 [3:19:27<14:54:27,  4.46it/s]

지금 다 먹고 27680번째 도착완료 
  그리고 총 보상은 : -17.300000000000026 


 20%|██        | 60717/300000 [3:19:27<14:32:07,  4.57it/s]

지금 다 먹고 27681번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 
지금 다 먹고 27682번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 20%|██        | 60720/300000 [3:19:28<14:00:17,  4.75it/s]

지금 다 먹고 27683번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 27684번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 60722/300000 [3:19:28<12:59:37,  5.12it/s]

지금 다 먹고 27685번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 27686번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60724/300000 [3:19:28<12:56:36,  5.14it/s]

지금 다 먹고 27687번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 27688번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60726/300000 [3:19:29<12:20:28,  5.39it/s]

지금 다 먹고 27689번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27690번째 도착완료 
  그리고 총 보상은 : 25.1 


 20%|██        | 60728/300000 [3:19:29<12:48:33,  5.19it/s]

지금 다 먹고 27691번째 도착완료 
  그리고 총 보상은 : 15.100000000000001 


 20%|██        | 60729/300000 [3:19:29<13:12:33,  5.03it/s]

지금 다 먹고 27692번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60731/300000 [3:19:30<13:39:49,  4.86it/s]

지금 다 먹고 27693번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 27694번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 20%|██        | 60733/300000 [3:19:30<12:41:00,  5.24it/s]

지금 다 먹고 27695번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 60734/300000 [3:19:30<13:55:56,  4.77it/s]

지금 다 먹고 27696번째 도착완료 
  그리고 총 보상은 : 5.200000000000021 


 20%|██        | 60735/300000 [3:19:31<13:48:58,  4.81it/s]

지금 다 먹고 27697번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 20%|██        | 60737/300000 [3:19:31<15:25:38,  4.31it/s]

지금 다 먹고 27698번째 도착완료 
  그리고 총 보상은 : 14.900000000000034 
지금 다 먹고 27699번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 20%|██        | 60739/300000 [3:19:32<14:00:41,  4.74it/s]

지금 다 먹고 27700번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 27701번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 20%|██        | 60741/300000 [3:19:32<12:53:03,  5.16it/s]

지금 다 먹고 27702번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 27703번째 도착완료 
  그리고 총 보상은 : 15.300000000000002 


 20%|██        | 60743/300000 [3:19:32<12:25:09,  5.35it/s]

지금 다 먹고 27704번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 27705번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 20%|██        | 60745/300000 [3:19:33<13:09:50,  5.05it/s]

지금 다 먹고 27706번째 도착완료 
  그리고 총 보상은 : 4.199999999999951 
지금 다 먹고 27707번째 도착완료 
  그리고 총 보상은 : 21.8 


 20%|██        | 60747/300000 [3:19:33<12:36:45,  5.27it/s]

지금 다 먹고 27708번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27709번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60749/300000 [3:19:33<12:22:21,  5.37it/s]

지금 다 먹고 27710번째 도착완료 
  그리고 총 보상은 : 20.7 
지금 다 먹고 27711번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 20%|██        | 60751/300000 [3:19:34<12:07:23,  5.48it/s]

지금 다 먹고 27712번째 도착완료 
  그리고 총 보상은 : 21.9 
지금 다 먹고 27713번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60755/300000 [3:19:35<14:40:54,  4.53it/s]

지금 다 먹고 27714번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 
지금 다 먹고 27715번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 60758/300000 [3:19:35<14:10:17,  4.69it/s]

지금 다 먹고 27716번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 27717번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60760/300000 [3:19:36<12:56:08,  5.14it/s]

지금 다 먹고 27718번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 60761/300000 [3:19:36<14:41:29,  4.52it/s]

지금 다 먹고 27719번째 도착완료 
  그리고 총 보상은 : -9.200000000000024 


 20%|██        | 60762/300000 [3:19:36<14:19:08,  4.64it/s]

지금 다 먹고 27720번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 27721번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 60765/300000 [3:19:37<14:55:17,  4.45it/s]

지금 다 먹고 27722번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60766/300000 [3:19:37<14:13:01,  4.67it/s]

지금 다 먹고 27723번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 27724번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 20%|██        | 60768/300000 [3:19:37<13:38:26,  4.87it/s]

지금 다 먹고 27725번째 도착완료 
  그리고 총 보상은 : 1.4999999999999858 


 20%|██        | 60769/300000 [3:19:38<14:20:11,  4.64it/s]

지금 다 먹고 27726번째 도착완료 
  그리고 총 보상은 : -16.20000000000003 


 20%|██        | 60771/300000 [3:19:38<15:08:10,  4.39it/s]

지금 다 먹고 27727번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|██        | 60772/300000 [3:19:38<15:26:40,  4.30it/s]

지금 다 먹고 27728번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 
지금 다 먹고 27729번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 60774/300000 [3:19:39<13:47:10,  4.82it/s]

지금 다 먹고 27730번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 27731번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 60776/300000 [3:19:39<12:35:00,  5.28it/s]

지금 다 먹고 27732번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 27733번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60778/300000 [3:19:40<13:36:11,  4.88it/s]

지금 다 먹고 27734번째 도착완료 
  그리고 총 보상은 : 19.200000000000014 


 20%|██        | 60779/300000 [3:19:40<14:29:49,  4.58it/s]

지금 다 먹고 27735번째 도착완료 
  그리고 총 보상은 : -4.700000000000017 


 20%|██        | 60780/300000 [3:19:40<14:30:57,  4.58it/s]

지금 다 먹고 27736번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 60782/300000 [3:19:41<14:55:26,  4.45it/s]

지금 다 먹고 27737번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27738번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|██        | 60784/300000 [3:19:41<13:40:57,  4.86it/s]

지금 다 먹고 27739번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 27740번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|██        | 60786/300000 [3:19:41<13:29:14,  4.93it/s]

지금 다 먹고 27741번째 도착완료 
  그리고 총 보상은 : 20.600000000000012 
지금 다 먹고 27742번째 도착완료 
  그리고 총 보상은 : 21.600000000000005 


 20%|██        | 60788/300000 [3:19:42<13:12:53,  5.03it/s]

지금 다 먹고 27743번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 27744번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 20%|██        | 60790/300000 [3:19:42<13:25:17,  4.95it/s]

지금 다 먹고 27745번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 20%|██        | 60791/300000 [3:19:42<13:31:52,  4.91it/s]

지금 다 먹고 27746번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 20%|██        | 60792/300000 [3:19:43<13:58:28,  4.75it/s]

지금 다 먹고 27747번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|██        | 60793/300000 [3:19:43<13:38:05,  4.87it/s]

지금 다 먹고 27748번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 27749번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 60795/300000 [3:19:43<12:53:23,  5.15it/s]

지금 다 먹고 27750번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 27751번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|██        | 60797/300000 [3:19:43<12:20:26,  5.38it/s]

지금 다 먹고 27752번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 27753번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 20%|██        | 60799/300000 [3:19:44<12:23:34,  5.36it/s]

지금 다 먹고 27754번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60800/300000 [3:19:44<13:27:53,  4.93it/s]

지금 다 먹고 27755번째 도착완료 
  그리고 총 보상은 : 12.10000000000003 


 20%|██        | 60801/300000 [3:19:44<13:40:20,  4.86it/s]

지금 다 먹고 27756번째 도착완료 
  그리고 총 보상은 : 18.30000000000002 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :18.30000000000002
 end : True
 clear : True
episode :8, score = 15.792000000000549, n_buffer :100000 , eps : 19.6
지금 다 먹고 27757번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|██        | 60803/300000 [3:19:45<12:24:46,  5.35it/s]

지금 다 먹고 27758번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 27759번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 


 20%|██        | 60805/300000 [3:19:45<13:46:14,  4.83it/s]

지금 다 먹고 27760번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 


 20%|██        | 60806/300000 [3:19:45<13:38:43,  4.87it/s]

지금 다 먹고 27761번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 27762번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 20%|██        | 60808/300000 [3:19:46<13:42:10,  4.85it/s]

지금 다 먹고 27763번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 
지금 다 먹고 27764번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60810/300000 [3:19:46<12:51:55,  5.16it/s]

지금 다 먹고 27765번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 60811/300000 [3:19:46<13:13:19,  5.02it/s]

지금 다 먹고 27766번째 도착완료 
  그리고 총 보상은 : 19.5 


 20%|██        | 60812/300000 [3:19:46<14:03:48,  4.72it/s]

지금 다 먹고 27767번째 도착완료 
  그리고 총 보상은 : 13.900000000000022 


 20%|██        | 60814/300000 [3:19:47<15:23:34,  4.32it/s]

지금 다 먹고 27768번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 20%|██        | 60816/300000 [3:19:47<14:52:53,  4.46it/s]

지금 다 먹고 27769번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 27770번째 도착완료 
  그리고 총 보상은 : 23.0 


 20%|██        | 60819/300000 [3:19:48<17:03:46,  3.89it/s]

지금 다 먹고 27771번째 도착완료 
  그리고 총 보상은 : 7.799999999999965 


 20%|██        | 60820/300000 [3:19:48<16:05:02,  4.13it/s]

지금 다 먹고 27772번째 도착완료 
  그리고 총 보상은 : 4.299999999999995 
지금 다 먹고 27773번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 20%|██        | 60822/300000 [3:19:49<14:08:53,  4.70it/s]

지금 다 먹고 27774번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 27775번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 20%|██        | 60824/300000 [3:19:49<13:24:49,  4.95it/s]

지금 다 먹고 27776번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 60826/300000 [3:19:50<15:10:23,  4.38it/s]

지금 다 먹고 27777번째 도착완료 
  그리고 총 보상은 : 23.600000000000012 


 20%|██        | 60827/300000 [3:19:50<15:17:11,  4.35it/s]

지금 다 먹고 27778번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 20%|██        | 60828/300000 [3:19:50<15:17:19,  4.35it/s]

지금 다 먹고 27779번째 도착완료 
  그리고 총 보상은 : 20.10000000000001 
지금 다 먹고 27780번째 도착완료 
  그리고 총 보상은 : 25.5 


 20%|██        | 60830/300000 [3:19:51<13:53:33,  4.78it/s]

지금 다 먹고 27781번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 27782번째 도착완료 
  그리고 총 보상은 : 25.6 


 20%|██        | 60833/300000 [3:19:51<13:37:57,  4.87it/s]

지금 다 먹고 27783번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 60834/300000 [3:19:51<14:08:37,  4.70it/s]

지금 다 먹고 27784번째 도착완료 
  그리고 총 보상은 : 9.400000000000023 
지금 다 먹고 27785번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 60836/300000 [3:19:52<13:56:51,  4.76it/s]

지금 다 먹고 27786번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60837/300000 [3:19:52<13:34:09,  4.90it/s]

지금 다 먹고 27787번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 27788번째 도착완료 
  그리고 총 보상은 : 24.400000000000013 


 20%|██        | 60839/300000 [3:19:52<13:33:08,  4.90it/s]

지금 다 먹고 27789번째 도착완료 
  그리고 총 보상은 : 7.999999999999993 
지금 다 먹고 27790번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 20%|██        | 60841/300000 [3:19:53<13:27:09,  4.94it/s]

지금 다 먹고 27791번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 60842/300000 [3:19:53<13:14:38,  5.02it/s]

지금 다 먹고 27792번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 


 20%|██        | 60843/300000 [3:19:53<13:33:52,  4.90it/s]

지금 다 먹고 27793번째 도착완료 
  그리고 총 보상은 : 10.599999999999989 
지금 다 먹고 27794번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60845/300000 [3:19:54<14:14:20,  4.67it/s]

지금 다 먹고 27795번째 도착완료 
  그리고 총 보상은 : 1.999999999999936 


 20%|██        | 60846/300000 [3:19:54<14:21:39,  4.63it/s]

지금 다 먹고 27796번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 
지금 다 먹고 27797번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 60848/300000 [3:19:54<12:57:40,  5.13it/s]

지금 다 먹고 27798번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60850/300000 [3:19:55<13:24:22,  4.96it/s]

지금 다 먹고 27799번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60852/300000 [3:19:55<13:36:24,  4.88it/s]

지금 다 먹고 27800번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 27801번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60854/300000 [3:19:56<14:01:42,  4.74it/s]

지금 다 먹고 27802번째 도착완료 
  그리고 총 보상은 : 17.1 


 20%|██        | 60855/300000 [3:19:56<14:03:08,  4.73it/s]

지금 다 먹고 27803번째 도착완료 
  그리고 총 보상은 : 18.700000000000003 


 20%|██        | 60856/300000 [3:19:56<13:41:04,  4.85it/s]

지금 다 먹고 27804번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 27805번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 20%|██        | 60858/300000 [3:19:56<13:57:22,  4.76it/s]

지금 다 먹고 27806번째 도착완료 
  그리고 총 보상은 : 20.200000000000003 


 20%|██        | 60860/300000 [3:19:57<14:23:48,  4.61it/s]

지금 다 먹고 27807번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 27808번째 도착완료 
  그리고 총 보상은 : 23.0 


 20%|██        | 60863/300000 [3:19:58<15:21:42,  4.32it/s]

지금 다 먹고 27809번째 도착완료 
  그리고 총 보상은 : 23.6 


 20%|██        | 60864/300000 [3:19:58<14:21:40,  4.63it/s]

지금 다 먹고 27810번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27811번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 60867/300000 [3:19:58<13:53:28,  4.78it/s]

지금 다 먹고 27812번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60869/300000 [3:19:59<14:08:34,  4.70it/s]

지금 다 먹고 27813번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|██        | 60871/300000 [3:19:59<14:20:29,  4.63it/s]

지금 다 먹고 27814번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 27815번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 20%|██        | 60873/300000 [3:20:00<13:25:45,  4.95it/s]

지금 다 먹고 27816번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 27817번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 20%|██        | 60875/300000 [3:20:00<12:37:38,  5.26it/s]

지금 다 먹고 27818번째 도착완료 
  그리고 총 보상은 : 24.400000000000013 
지금 다 먹고 27819번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 60877/300000 [3:20:00<12:25:10,  5.35it/s]

지금 다 먹고 27820번째 도착완료 
  그리고 총 보상은 : 19.1 
지금 다 먹고 27821번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 60880/300000 [3:20:01<13:16:06,  5.01it/s]

지금 다 먹고 27822번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 27823번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 20%|██        | 60882/300000 [3:20:01<13:05:32,  5.07it/s]

지금 다 먹고 27824번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60884/300000 [3:20:02<14:02:04,  4.73it/s]

지금 다 먹고 27825번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 60886/300000 [3:20:02<14:36:17,  4.55it/s]

지금 다 먹고 27826번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 27827번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60888/300000 [3:20:03<14:28:48,  4.59it/s]

지금 다 먹고 27828번째 도착완료 
  그리고 총 보상은 : 6.2000000000000295 
지금 다 먹고 27829번째 도착완료 
  그리고 총 보상은 : 14.200000000000006 


 20%|██        | 60890/300000 [3:20:03<13:03:35,  5.09it/s]

지금 다 먹고 27830번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 27831번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 60892/300000 [3:20:03<13:23:31,  4.96it/s]

지금 다 먹고 27832번째 도착완료 
  그리고 총 보상은 : -5.5000000000000355 
지금 다 먹고 27833번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60894/300000 [3:20:04<13:40:36,  4.86it/s]

지금 다 먹고 27834번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 20%|██        | 60895/300000 [3:20:04<13:12:49,  5.03it/s]

지금 다 먹고 27835번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60897/300000 [3:20:05<13:44:57,  4.83it/s]

지금 다 먹고 27836번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 27837번째 도착완료 
  그리고 총 보상은 : 23.200000000000014 


 20%|██        | 60899/300000 [3:20:05<13:18:15,  4.99it/s]

지금 다 먹고 27838번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 60901/300000 [3:20:05<13:46:53,  4.82it/s]

지금 다 먹고 27839번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.400000000000006
 end : True
 clear : True
episode :6, score = 13.994000000000831, n_buffer :100000 , eps : 19.55


 20%|██        | 60902/300000 [3:20:06<13:59:16,  4.75it/s]

지금 다 먹고 27840번째 도착완료 
  그리고 총 보상은 : -0.6000000000000263 
지금 다 먹고 27841번째 도착완료 
  그리고 총 보상은 : 22.4 


 20%|██        | 60904/300000 [3:20:06<13:27:28,  4.94it/s]

지금 다 먹고 27842번째 도착완료 
  그리고 총 보상은 : 20.999999999999996 
지금 다 먹고 27843번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 20%|██        | 60907/300000 [3:20:07<13:43:37,  4.84it/s]

지금 다 먹고 27844번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 27845번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 60909/300000 [3:20:07<13:09:47,  5.05it/s]

지금 다 먹고 27846번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27847번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 60911/300000 [3:20:07<12:14:20,  5.43it/s]

지금 다 먹고 27848번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 27849번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60914/300000 [3:20:08<14:17:19,  4.65it/s]

지금 다 먹고 27850번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 27851번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 60916/300000 [3:20:08<12:50:25,  5.17it/s]

지금 다 먹고 27852번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|██        | 60918/300000 [3:20:09<13:48:08,  4.81it/s]

지금 다 먹고 27853번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60920/300000 [3:20:09<15:44:07,  4.22it/s]

지금 다 먹고 27854번째 도착완료 
  그리고 총 보상은 : 17.700000000000003 


 20%|██        | 60921/300000 [3:20:10<15:30:53,  4.28it/s]

지금 다 먹고 27855번째 도착완료 
  그리고 총 보상은 : 15.500000000000004 


 20%|██        | 60922/300000 [3:20:10<14:30:10,  4.58it/s]

지금 다 먹고 27856번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 60924/300000 [3:20:10<14:12:18,  4.68it/s]

지금 다 먹고 27857번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 27858번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 60926/300000 [3:20:11<12:53:26,  5.15it/s]

지금 다 먹고 27859번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 27860번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 60928/300000 [3:20:11<12:22:27,  5.37it/s]

지금 다 먹고 27861번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 27862번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|██        | 60932/300000 [3:20:12<14:39:52,  4.53it/s]

지금 다 먹고 27863번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 


 20%|██        | 60933/300000 [3:20:12<14:06:46,  4.71it/s]

지금 다 먹고 27864번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 27865번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 


 20%|██        | 60935/300000 [3:20:12<12:59:37,  5.11it/s]

지금 다 먹고 27866번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60937/300000 [3:20:13<14:28:56,  4.59it/s]

지금 다 먹고 27867번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 60939/300000 [3:20:13<14:33:19,  4.56it/s]

지금 다 먹고 27868번째 도착완료 
  그리고 총 보상은 : 23.40000000000001 


 20%|██        | 60941/300000 [3:20:14<14:26:27,  4.60it/s]

지금 다 먹고 27869번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 27870번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 60943/300000 [3:20:14<14:10:04,  4.69it/s]

지금 다 먹고 27871번째 도착완료 
  그리고 총 보상은 : -13.600000000000001 
지금 다 먹고 27872번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 60945/300000 [3:20:15<12:56:47,  5.13it/s]

지금 다 먹고 27873번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 27874번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 60947/300000 [3:20:15<12:30:40,  5.31it/s]

지금 다 먹고 27875번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 27876번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 60950/300000 [3:20:16<13:07:57,  5.06it/s]

지금 다 먹고 27877번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 27878번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|██        | 60952/300000 [3:20:16<13:12:42,  5.03it/s]

지금 다 먹고 27879번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 60953/300000 [3:20:16<13:43:20,  4.84it/s]

지금 다 먹고 27880번째 도착완료 
  그리고 총 보상은 : 12.400000000000018 
지금 다 먹고 27881번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|██        | 60955/300000 [3:20:17<13:30:36,  4.91it/s]

지금 다 먹고 27882번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 27883번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|██        | 60957/300000 [3:20:17<13:22:40,  4.96it/s]

지금 다 먹고 27884번째 도착완료 
  그리고 총 보상은 : -2.000000000000032 
지금 다 먹고 27885번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60959/300000 [3:20:17<12:29:06,  5.32it/s]

지금 다 먹고 27886번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 27887번째 도착완료 
  그리고 총 보상은 : 22.70000000000001 


 20%|██        | 60961/300000 [3:20:18<12:58:33,  5.12it/s]

지금 다 먹고 27888번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27889번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 60963/300000 [3:20:18<12:16:24,  5.41it/s]

지금 다 먹고 27890번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 60965/300000 [3:20:19<14:14:37,  4.66it/s]

지금 다 먹고 27891번째 도착완료 
  그리고 총 보상은 : 19.000000000000007 
지금 다 먹고 27892번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 60967/300000 [3:20:19<12:46:19,  5.20it/s]

지금 다 먹고 27893번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27894번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|██        | 60971/300000 [3:20:20<13:59:22,  4.75it/s]

지금 다 먹고 27895번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 20%|██        | 60972/300000 [3:20:20<14:28:16,  4.59it/s]

지금 다 먹고 27896번째 도착완료 
  그리고 총 보상은 : 18.2 


 20%|██        | 60973/300000 [3:20:20<14:24:28,  4.61it/s]

지금 다 먹고 27897번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 60974/300000 [3:20:20<14:03:17,  4.72it/s]

지금 다 먹고 27898번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|██        | 60975/300000 [3:20:21<13:42:32,  4.84it/s]

지금 다 먹고 27899번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 
지금 다 먹고 27900번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|██        | 60977/300000 [3:20:21<12:43:41,  5.22it/s]

지금 다 먹고 27901번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 27902번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 60979/300000 [3:20:21<12:59:22,  5.11it/s]

지금 다 먹고 27903번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 27904번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 60982/300000 [3:20:22<13:38:48,  4.87it/s]

지금 다 먹고 27905번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 20%|██        | 60984/300000 [3:20:22<14:14:57,  4.66it/s]

지금 다 먹고 27906번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 27907번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 60986/300000 [3:20:23<12:46:40,  5.20it/s]

지금 다 먹고 27908번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 27909번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|██        | 60988/300000 [3:20:23<12:36:20,  5.27it/s]

지금 다 먹고 27910번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 
지금 다 먹고 27911번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 60990/300000 [3:20:24<12:13:43,  5.43it/s]

지금 다 먹고 27912번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 27913번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 60992/300000 [3:20:24<12:23:34,  5.36it/s]

지금 다 먹고 27914번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 27915번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|██        | 60994/300000 [3:20:24<12:11:06,  5.45it/s]

지금 다 먹고 27916번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 27917번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 20%|██        | 60996/300000 [3:20:25<11:58:37,  5.54it/s]

지금 다 먹고 27918번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 27919번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|██        | 60998/300000 [3:20:25<12:45:56,  5.20it/s]

지금 다 먹고 27920번째 도착완료 
  그리고 총 보상은 : 16.80000000000001 
지금 다 먹고 27921번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 61001/300000 [3:20:26<13:39:52,  4.86it/s]

지금 다 먹고 27922번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.000000000000007
 end : True
 clear : True
episode :4, score = 15.400000000000437, n_buffer :100000 , eps : 19.5
지금 다 먹고 27923번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61003/300000 [3:20:26<13:00:32,  5.10it/s]

지금 다 먹고 27924번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27925번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|██        | 61005/300000 [3:20:26<13:08:48,  5.05it/s]

지금 다 먹고 27926번째 도착완료 
  그리고 총 보상은 : 24.900000000000013 


 20%|██        | 61007/300000 [3:20:27<15:47:32,  4.20it/s]

지금 다 먹고 27927번째 도착완료 
  그리고 총 보상은 : -27.500000000000043 


 20%|██        | 61008/300000 [3:20:27<14:41:32,  4.52it/s]

지금 다 먹고 27928번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 27929번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61010/300000 [3:20:28<13:29:11,  4.92it/s]

지금 다 먹고 27930번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 27931번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61012/300000 [3:20:28<13:22:31,  4.96it/s]

지금 다 먹고 27932번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 


 20%|██        | 61013/300000 [3:20:28<14:15:20,  4.66it/s]

지금 다 먹고 27933번째 도착완료 
  그리고 총 보상은 : 19.20000000000001 


 20%|██        | 61014/300000 [3:20:28<14:27:43,  4.59it/s]

지금 다 먹고 27934번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 20%|██        | 61015/300000 [3:20:29<13:56:05,  4.76it/s]

지금 다 먹고 27935번째 도착완료 
  그리고 총 보상은 : 23.0 
지금 다 먹고 27936번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 61018/300000 [3:20:29<13:34:54,  4.89it/s]

지금 다 먹고 27937번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 27938번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 61020/300000 [3:20:30<12:35:59,  5.27it/s]

지금 다 먹고 27939번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 61021/300000 [3:20:30<13:03:05,  5.09it/s]

지금 다 먹고 27940번째 도착완료 
  그리고 총 보상은 : 17.100000000000016 
지금 다 먹고 27941번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|██        | 61023/300000 [3:20:30<12:36:32,  5.26it/s]

지금 다 먹고 27942번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 
지금 다 먹고 27943번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|██        | 61025/300000 [3:20:31<12:49:56,  5.17it/s]

지금 다 먹고 27944번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 61026/300000 [3:20:31<12:44:24,  5.21it/s]

지금 다 먹고 27945번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 
지금 다 먹고 27946번째 도착완료 
  그리고 총 보상은 : 22.4 


 20%|██        | 61028/300000 [3:20:31<12:09:28,  5.46it/s]

지금 다 먹고 27947번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 27948번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 20%|██        | 61030/300000 [3:20:31<12:41:59,  5.23it/s]

지금 다 먹고 27949번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 27950번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 61032/300000 [3:20:32<12:59:46,  5.11it/s]

지금 다 먹고 27951번째 도착완료 
  그리고 총 보상은 : 18.700000000000003 
지금 다 먹고 27952번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 61034/300000 [3:20:32<12:21:43,  5.37it/s]

지금 다 먹고 27953번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 27954번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 61036/300000 [3:20:33<12:14:06,  5.43it/s]

지금 다 먹고 27955번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 27956번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 61038/300000 [3:20:33<11:58:15,  5.54it/s]

지금 다 먹고 27957번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 
지금 다 먹고 27958번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 20%|██        | 61040/300000 [3:20:33<11:59:14,  5.54it/s]

지금 다 먹고 27959번째 도착완료 
  그리고 총 보상은 : 16.0 
지금 다 먹고 27960번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 20%|██        | 61043/300000 [3:20:34<13:57:44,  4.75it/s]

지금 다 먹고 27961번째 도착완료 
  그리고 총 보상은 : 17.80000000000001 
지금 다 먹고 27962번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 20%|██        | 61045/300000 [3:20:34<13:03:20,  5.08it/s]

지금 다 먹고 27963번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 27964번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61047/300000 [3:20:35<13:16:57,  5.00it/s]

지금 다 먹고 27965번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|██        | 61049/300000 [3:20:35<13:56:38,  4.76it/s]

지금 다 먹고 27966번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 


 20%|██        | 61051/300000 [3:20:36<14:30:24,  4.58it/s]

지금 다 먹고 27967번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 27968번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 61053/300000 [3:20:36<13:20:53,  4.97it/s]

지금 다 먹고 27969번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 61054/300000 [3:20:36<13:37:08,  4.87it/s]

지금 다 먹고 27970번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 20%|██        | 61055/300000 [3:20:36<14:56:08,  4.44it/s]

지금 다 먹고 27971번째 도착완료 
  그리고 총 보상은 : -2.300000000000022 
지금 다 먹고 27972번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 20%|██        | 61057/300000 [3:20:37<14:15:14,  4.66it/s]

지금 다 먹고 27973번째 도착완료 
  그리고 총 보상은 : 22.900000000000006 
지금 다 먹고 27974번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 20%|██        | 61059/300000 [3:20:37<13:07:24,  5.06it/s]

지금 다 먹고 27975번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 27976번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61061/300000 [3:20:38<13:28:16,  4.93it/s]

지금 다 먹고 27977번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 61062/300000 [3:20:38<13:28:49,  4.92it/s]

지금 다 먹고 27978번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61064/300000 [3:20:38<15:58:57,  4.15it/s]

지금 다 먹고 27979번째 도착완료 
  그리고 총 보상은 : -7.500000000000057 
지금 다 먹고 27980번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|██        | 61067/300000 [3:20:39<15:08:10,  4.38it/s]

지금 다 먹고 27981번째 도착완료 
  그리고 총 보상은 : 18.1 


 20%|██        | 61069/300000 [3:20:40<14:45:03,  4.50it/s]

지금 다 먹고 27982번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 27983번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61071/300000 [3:20:40<12:57:14,  5.12it/s]

지금 다 먹고 27984번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 27985번째 도착완료 
  그리고 총 보상은 : 20.8 


 20%|██        | 61073/300000 [3:20:40<12:23:39,  5.35it/s]

지금 다 먹고 27986번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61074/300000 [3:20:40<12:36:07,  5.27it/s]

지금 다 먹고 27987번째 도착완료 
  그리고 총 보상은 : 16.50000000000001 
지금 다 먹고 27988번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|██        | 61076/300000 [3:20:41<12:14:57,  5.42it/s]

지금 다 먹고 27989번째 도착완료 
  그리고 총 보상은 : 24.600000000000005 
지금 다 먹고 27990번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61078/300000 [3:20:41<12:05:25,  5.49it/s]

지금 다 먹고 27991번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 27992번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 61080/300000 [3:20:42<13:10:18,  5.04it/s]

지금 다 먹고 27993번째 도착완료 
  그리고 총 보상은 : 18.600000000000016 


 20%|██        | 61081/300000 [3:20:42<13:13:23,  5.02it/s]

지금 다 먹고 27994번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 27995번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 61083/300000 [3:20:42<13:34:58,  4.89it/s]

지금 다 먹고 27996번째 도착완료 
  그리고 총 보상은 : 20.700000000000006 
지금 다 먹고 27997번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61086/300000 [3:20:43<13:51:33,  4.79it/s]

지금 다 먹고 27998번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 27999번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61088/300000 [3:20:43<12:28:24,  5.32it/s]

지금 다 먹고 28000번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 61090/300000 [3:20:44<13:19:10,  4.98it/s]

지금 다 먹고 28001번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|██        | 61092/300000 [3:20:44<13:52:55,  4.78it/s]

지금 다 먹고 28002번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 28003번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 61094/300000 [3:20:44<12:45:23,  5.20it/s]

지금 다 먹고 28004번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 28005번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 61096/300000 [3:20:45<12:30:01,  5.31it/s]

지금 다 먹고 28006번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 28007번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 61098/300000 [3:20:45<12:16:09,  5.41it/s]

지금 다 먹고 28008번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 28009번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61100/300000 [3:20:46<12:22:31,  5.36it/s]

지금 다 먹고 28010번째 도착완료 
  그리고 총 보상은 : 20.5 
지금 다 먹고 28011번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61102/300000 [3:20:46<12:02:05,  5.51it/s]

epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.800000000000004
 end : True
 clear : True
episode :2, score = 17.974000000001716, n_buffer :100000 , eps : 19.45
지금 다 먹고 28012번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61103/300000 [3:20:46<11:56:14,  5.56it/s]

지금 다 먹고 28013번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28014번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 20%|██        | 61107/300000 [3:20:47<14:01:24,  4.73it/s]

지금 다 먹고 28015번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 28016번째 도착완료 
  그리고 총 보상은 : 26.6 


 20%|██        | 61109/300000 [3:20:47<13:11:49,  5.03it/s]

지금 다 먹고 28017번째 도착완료 
  그리고 총 보상은 : 16.900000000000002 
지금 다 먹고 28018번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 20%|██        | 61111/300000 [3:20:48<12:34:46,  5.28it/s]

지금 다 먹고 28019번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28020번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 61113/300000 [3:20:48<12:27:36,  5.33it/s]

지금 다 먹고 28021번째 도착완료 
  그리고 총 보상은 : 24.40000000000001 


 20%|██        | 61114/300000 [3:20:48<12:33:04,  5.29it/s]

지금 다 먹고 28022번째 도착완료 
  그리고 총 보상은 : 11.9 


 20%|██        | 61116/300000 [3:20:49<13:24:32,  4.95it/s]

지금 다 먹고 28023번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28024번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61118/300000 [3:20:49<12:49:59,  5.17it/s]

지금 다 먹고 28025번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 28026번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61120/300000 [3:20:49<12:05:44,  5.49it/s]

지금 다 먹고 28027번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 61121/300000 [3:20:50<12:58:49,  5.11it/s]

지금 다 먹고 28028번째 도착완료 
  그리고 총 보상은 : 15.900000000000013 


 20%|██        | 61122/300000 [3:20:50<13:49:48,  4.80it/s]

지금 다 먹고 28029번째 도착완료 
  그리고 총 보상은 : 11.500000000000018 


 20%|██        | 61124/300000 [3:20:50<15:33:25,  4.27it/s]

지금 다 먹고 28030번째 도착완료 
  그리고 총 보상은 : 14.200000000000008 


 20%|██        | 61127/300000 [3:20:51<16:59:14,  3.91it/s]

지금 다 먹고 28031번째 도착완료 
  그리고 총 보상은 : 10.80000000000002 
지금 다 먹고 28032번째 도착완료 
  그리고 총 보상은 : 24.200000000000014 


 20%|██        | 61129/300000 [3:20:52<14:25:18,  4.60it/s]

지금 다 먹고 28033번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 28034번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 20%|██        | 61131/300000 [3:20:52<12:51:41,  5.16it/s]

지금 다 먹고 28035번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 61133/300000 [3:20:52<14:16:03,  4.65it/s]

지금 다 먹고 28036번째 도착완료 
  그리고 총 보상은 : 16.8 


 20%|██        | 61135/300000 [3:20:53<15:04:13,  4.40it/s]

지금 다 먹고 28037번째 도착완료 
  그리고 총 보상은 : 14.30000000000001 
지금 다 먹고 28038번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 61137/300000 [3:20:53<13:28:03,  4.93it/s]

지금 다 먹고 28039번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61141/300000 [3:20:54<15:11:25,  4.37it/s]

지금 다 먹고 28040번째 도착완료 
  그리고 총 보상은 : 23.700000000000017 
지금 다 먹고 28041번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 61143/300000 [3:20:55<13:37:00,  4.87it/s]

지금 다 먹고 28042번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 20%|██        | 61146/300000 [3:20:55<15:07:41,  4.39it/s]

지금 다 먹고 28043번째 도착완료 
  그리고 총 보상은 : 13.500000000000009 
지금 다 먹고 28044번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61149/300000 [3:20:56<14:03:31,  4.72it/s]

지금 다 먹고 28045번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 20%|██        | 61152/300000 [3:20:57<16:12:21,  4.09it/s]

지금 다 먹고 28046번째 도착완료 
  그리고 총 보상은 : -19.200000000000045 
지금 다 먹고 28047번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 

 20%|██        | 61153/300000 [3:20:57<15:19:54,  4.33it/s]


지금 다 먹고 28048번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61156/300000 [3:20:58<15:03:37,  4.41it/s]

지금 다 먹고 28049번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 28050번째 도착완료 
  그리고 총 보상은 : 15.3 


 20%|██        | 61158/300000 [3:20:58<13:47:50,  4.81it/s]

지금 다 먹고 28051번째 도착완료 
  그리고 총 보상은 : 24.500000000000014 
지금 다 먹고 28052번째 도착완료 
  그리고 총 보상은 : 23.5 


 20%|██        | 61160/300000 [3:20:58<13:03:26,  5.08it/s]

지금 다 먹고 28053번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 28054번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 20%|██        | 61162/300000 [3:20:59<13:07:22,  5.06it/s]

지금 다 먹고 28055번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 61163/300000 [3:20:59<13:19:16,  4.98it/s]

지금 다 먹고 28056번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61164/300000 [3:20:59<13:14:23,  5.01it/s]

지금 다 먹고 28057번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 28058번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61166/300000 [3:21:00<12:29:00,  5.31it/s]

지금 다 먹고 28059번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28060번째 도착완료 
  그리고 총 보상은 : 23.800000000000015 


 20%|██        | 61168/300000 [3:21:00<13:12:16,  5.02it/s]

지금 다 먹고 28061번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 28062번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|██        | 61170/300000 [3:21:00<12:46:01,  5.20it/s]

지금 다 먹고 28063번째 도착완료 
  그리고 총 보상은 : 20.1 
지금 다 먹고 28064번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61172/300000 [3:21:01<12:15:14,  5.41it/s]

지금 다 먹고 28065번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 28066번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61174/300000 [3:21:01<12:00:14,  5.53it/s]

지금 다 먹고 28067번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 20%|██        | 61175/300000 [3:21:01<13:37:53,  4.87it/s]

지금 다 먹고 28068번째 도착완료 
  그리고 총 보상은 : 8.20000000000003 


 20%|██        | 61176/300000 [3:21:02<13:52:55,  4.78it/s]

지금 다 먹고 28069번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 28070번째 도착완료 
  그리고 총 보상은 : 26.40000000000001 


 20%|██        | 61178/300000 [3:21:02<13:44:38,  4.83it/s]

지금 다 먹고 28071번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28072번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61180/300000 [3:21:02<13:27:02,  4.93it/s]

지금 다 먹고 28073번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28074번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 

 20%|██        | 61181/300000 [3:21:03<13:21:21,  4.97it/s]


지금 다 먹고 28075번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 61183/300000 [3:21:03<12:16:19,  5.41it/s]

지금 다 먹고 28076번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 20%|██        | 61184/300000 [3:21:03<12:47:57,  5.18it/s]

지금 다 먹고 28077번째 도착완료 
  그리고 총 보상은 : 12.500000000000023 
지금 다 먹고 28078번째 도착완료 
  그리고 총 보상은 : 21.299999999999997 


 20%|██        | 61186/300000 [3:21:03<12:38:14,  5.25it/s]

지금 다 먹고 28079번째 도착완료 
  그리고 총 보상은 : 19.599999999999998 
지금 다 먹고 28080번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 61188/300000 [3:21:04<12:22:31,  5.36it/s]

지금 다 먹고 28081번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 28082번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61190/300000 [3:21:04<11:56:30,  5.55it/s]

지금 다 먹고 28083번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 61192/300000 [3:21:05<13:10:22,  5.04it/s]

지금 다 먹고 28084번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|██        | 61193/300000 [3:21:05<13:13:33,  5.02it/s]

지금 다 먹고 28085번째 도착완료 
  그리고 총 보상은 : 18.800000000000008 
지금 다 먹고 28086번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61195/300000 [3:21:05<12:27:15,  5.33it/s]

지금 다 먹고 28087번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28088번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|██        | 61197/300000 [3:21:06<13:01:16,  5.09it/s]

지금 다 먹고 28089번째 도착완료 
  그리고 총 보상은 : 22.20000000000001 
지금 다 먹고 28090번째 도착완료 
  그리고 총 보상은 : 25.100000000000012 


 20%|██        | 61199/300000 [3:21:06<12:40:58,  5.23it/s]

지금 다 먹고 28091번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 28092번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 61201/300000 [3:21:06<12:30:04,  5.31it/s]

지금 다 먹고 28093번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.400000000000006
 end : True
 clear : True
episode :0, score = 14.659999999999854, n_buffer :100000 , eps : 19.400000000000002


 20%|██        | 61203/300000 [3:21:07<13:30:21,  4.91it/s]

지금 다 먹고 28094번째 도착완료 
  그리고 총 보상은 : 19.2 


 20%|██        | 61204/300000 [3:21:07<13:40:27,  4.85it/s]

지금 다 먹고 28095번째 도착완료 
  그리고 총 보상은 : 6.200000000000008 
지금 다 먹고 28096번째 도착완료 
  그리고 총 보상은 : 23.600000000000016 


 20%|██        | 61206/300000 [3:21:07<12:54:22,  5.14it/s]

지금 다 먹고 28097번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 28098번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 61210/300000 [3:21:08<14:41:28,  4.51it/s]

지금 다 먹고 28099번째 도착완료 
  그리고 총 보상은 : 18.2 
지금 다 먹고 28100번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 


 20%|██        | 61212/300000 [3:21:09<13:15:33,  5.00it/s]

지금 다 먹고 28101번째 도착완료 
  그리고 총 보상은 : 22.299999999999997 
지금 다 먹고 28102번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 20%|██        | 61214/300000 [3:21:09<12:49:58,  5.17it/s]

지금 다 먹고 28103번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 28104번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61216/300000 [3:21:09<12:19:27,  5.38it/s]

지금 다 먹고 28105번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28106번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|██        | 61218/300000 [3:21:10<12:59:19,  5.11it/s]

지금 다 먹고 28107번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 20%|██        | 61219/300000 [3:21:10<12:58:22,  5.11it/s]

지금 다 먹고 28108번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 28109번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|██        | 61221/300000 [3:21:10<12:16:28,  5.40it/s]

지금 다 먹고 28110번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 28111번째 도착완료 
  그리고 총 보상은 : 26.1 


 20%|██        | 61223/300000 [3:21:11<11:42:30,  5.66it/s]

지금 다 먹고 28112번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28113번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 61225/300000 [3:21:11<11:47:59,  5.62it/s]

지금 다 먹고 28114번째 도착완료 
  그리고 총 보상은 : 19.1 
지금 다 먹고 28115번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 20%|██        | 61227/300000 [3:21:11<13:10:48,  5.03it/s]

지금 다 먹고 28116번째 도착완료 
  그리고 총 보상은 : -7.500000000000071 
지금 다 먹고 28117번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 61229/300000 [3:21:12<12:31:35,  5.29it/s]

지금 다 먹고 28118번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28119번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61231/300000 [3:21:12<12:53:25,  5.15it/s]

지금 다 먹고 28120번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28121번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 20%|██        | 61233/300000 [3:21:13<12:16:02,  5.41it/s]

지금 다 먹고 28122번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 28123번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 20%|██        | 61236/300000 [3:21:13<13:08:59,  5.04it/s]

지금 다 먹고 28124번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 20%|██        | 61238/300000 [3:21:14<15:35:11,  4.26it/s]

지금 다 먹고 28125번째 도착완료 
  그리고 총 보상은 : 14.600000000000005 


 20%|██        | 61239/300000 [3:21:14<14:30:02,  4.57it/s]

지금 다 먹고 28126번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28127번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61241/300000 [3:21:14<13:02:08,  5.09it/s]

지금 다 먹고 28128번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 61243/300000 [3:21:15<14:01:46,  4.73it/s]

지금 다 먹고 28129번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 28130번째 도착완료 
  그리고 총 보상은 : 20.0 


 20%|██        | 61245/300000 [3:21:15<13:39:31,  4.86it/s]

지금 다 먹고 28131번째 도착완료 
  그리고 총 보상은 : 20.300000000000008 
지금 다 먹고 28132번째 도착완료 
  그리고 총 보상은 : 14.300000000000004 


 20%|██        | 61247/300000 [3:21:16<13:44:58,  4.82it/s]

지금 다 먹고 28133번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28134번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 

 20%|██        | 61248/300000 [3:21:16<13:43:51,  4.83it/s]




 20%|██        | 61249/300000 [3:21:16<13:58:00,  4.75it/s]

지금 다 먹고 28135번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61250/300000 [3:21:16<13:37:48,  4.87it/s]

지금 다 먹고 28136번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 28137번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61252/300000 [3:21:17<12:30:54,  5.30it/s]

지금 다 먹고 28138번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 61254/300000 [3:21:17<12:55:27,  5.13it/s]

지금 다 먹고 28139번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 61255/300000 [3:21:17<14:01:56,  4.73it/s]

지금 다 먹고 28140번째 도착완료 
  그리고 총 보상은 : -21.800000000000033 
지금 다 먹고 28141번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 61257/300000 [3:21:18<12:58:15,  5.11it/s]

지금 다 먹고 28142번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 28143번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61260/300000 [3:21:18<13:43:12,  4.83it/s]

지금 다 먹고 28144번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 


 20%|██        | 61261/300000 [3:21:18<14:35:40,  4.54it/s]

지금 다 먹고 28145번째 도착완료 
  그리고 총 보상은 : -2.099999999999987 
지금 다 먹고 28146번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|██        | 61263/300000 [3:21:19<13:14:08,  5.01it/s]

지금 다 먹고 28147번째 도착완료 
  그리고 총 보상은 : 20.099999999999998 
지금 다 먹고 28148번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|██        | 61265/300000 [3:21:19<12:45:44,  5.20it/s]

지금 다 먹고 28149번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 28150번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61267/300000 [3:21:20<11:58:20,  5.54it/s]

지금 다 먹고 28151번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 28152번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 61269/300000 [3:21:20<11:43:18,  5.66it/s]

지금 다 먹고 28153번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 61271/300000 [3:21:20<12:58:25,  5.11it/s]

지금 다 먹고 28154번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|██        | 61273/300000 [3:21:21<14:03:51,  4.71it/s]

지금 다 먹고 28155번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28156번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61275/300000 [3:21:21<12:43:33,  5.21it/s]

지금 다 먹고 28157번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 28158번째 도착완료 
  그리고 총 보상은 : 11.900000000000007 


 20%|██        | 61277/300000 [3:21:22<12:45:46,  5.20it/s]

지금 다 먹고 28159번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61278/300000 [3:21:22<13:03:48,  5.08it/s]

지금 다 먹고 28160번째 도착완료 
  그리고 총 보상은 : -7.3000000000000185 
지금 다 먹고 28161번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 20%|██        | 61280/300000 [3:21:22<12:34:47,  5.27it/s]

지금 다 먹고 28162번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 28163번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 61282/300000 [3:21:22<12:46:48,  5.19it/s]

지금 다 먹고 28164번째 도착완료 
  그리고 총 보상은 : 3.4999999999999964 
지금 다 먹고 28165번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 20%|██        | 61284/300000 [3:21:23<12:11:34,  5.44it/s]

지금 다 먹고 28166번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 28167번째 도착완료 
  그리고 총 보상은 : 23.400000000000006 


 20%|██        | 61286/300000 [3:21:23<12:02:50,  5.50it/s]

지금 다 먹고 28168번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61288/300000 [3:21:24<13:27:20,  4.93it/s]

지금 다 먹고 28169번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|██        | 61289/300000 [3:21:24<13:40:36,  4.85it/s]

지금 다 먹고 28170번째 도착완료 
  그리고 총 보상은 : -0.9000000000000128 
지금 다 먹고 28171번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 20%|██        | 61291/300000 [3:21:24<12:46:22,  5.19it/s]

지금 다 먹고 28172번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28173번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 20%|██        | 61294/300000 [3:21:25<13:27:11,  4.93it/s]

지금 다 먹고 28174번째 도착완료 
  그리고 총 보상은 : 25.400000000000013 
지금 다 먹고 28175번째 도착완료 
  그리고 총 보상은 : 12.100000000000001 


 20%|██        | 61296/300000 [3:21:25<12:44:34,  5.20it/s]

지금 다 먹고 28176번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28177번째 도착완료 
  그리고 총 보상은 : 13.600000000000003 


 20%|██        | 61298/300000 [3:21:26<12:50:16,  5.16it/s]

지금 다 먹고 28178번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 28179번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 61300/300000 [3:21:26<13:48:15,  4.80it/s]

지금 다 먹고 28180번째 도착완료 
  그리고 총 보상은 : 14.600000000000007 
지금 다 먹고 28181번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 20%|██        | 61301/300000 [3:21:26<14:17:25,  4.64it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.000000000000004
 end : True
 clear : True
episode :15, score = 16.679000000001007, n_buffer :100000 , eps : 19.35
지금 다 먹고 28182번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 20%|██        | 61303/300000 [3:21:27<13:18:11,  4.98it/s]

지금 다 먹고 28183번째 도착완료 
  그리고 총 보상은 : 27.6 


 20%|██        | 61305/300000 [3:21:27<13:30:43,  4.91it/s]

지금 다 먹고 28184번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 61307/300000 [3:21:28<14:01:41,  4.73it/s]

지금 다 먹고 28185번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28186번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61309/300000 [3:21:28<13:09:57,  5.04it/s]

지금 다 먹고 28187번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 61311/300000 [3:21:28<14:09:42,  4.68it/s]

지금 다 먹고 28188번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 28189번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61313/300000 [3:21:29<13:20:33,  4.97it/s]

지금 다 먹고 28190번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 28191번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 61315/300000 [3:21:29<12:35:08,  5.27it/s]

지금 다 먹고 28192번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 28193번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 61317/300000 [3:21:29<12:22:09,  5.36it/s]

지금 다 먹고 28194번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 28195번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61319/300000 [3:21:30<13:15:38,  5.00it/s]

지금 다 먹고 28196번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 28197번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 61321/300000 [3:21:30<12:12:23,  5.43it/s]

지금 다 먹고 28198번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 28199번째 도착완료 
  그리고 총 보상은 : 11.000000000000005 


 20%|██        | 61323/300000 [3:21:31<13:22:51,  4.95it/s]

지금 다 먹고 28200번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 


 20%|██        | 61324/300000 [3:21:31<13:50:16,  4.79it/s]

지금 다 먹고 28201번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61325/300000 [3:21:31<13:15:08,  5.00it/s]

지금 다 먹고 28202번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 28203번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 61328/300000 [3:21:32<14:38:55,  4.53it/s]

지금 다 먹고 28204번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 28205번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 20%|██        | 61331/300000 [3:21:32<14:26:22,  4.59it/s]

지금 다 먹고 28206번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28207번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 20%|██        | 61333/300000 [3:21:33<13:14:00,  5.01it/s]

지금 다 먹고 28208번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 
지금 다 먹고 28209번째 도착완료 
  그리고 총 보상은 : 16.700000000000003 


 20%|██        | 61335/300000 [3:21:33<12:28:52,  5.31it/s]

지금 다 먹고 28210번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28211번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61337/300000 [3:21:34<12:04:07,  5.49it/s]

지금 다 먹고 28212번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 20%|██        | 61339/300000 [3:21:34<13:25:12,  4.94it/s]

지금 다 먹고 28213번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 20%|██        | 61341/300000 [3:21:34<13:50:11,  4.79it/s]

지금 다 먹고 28214번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 61342/300000 [3:21:35<14:22:59,  4.61it/s]

지금 다 먹고 28215번째 도착완료 
  그리고 총 보상은 : 1.799999999999983 


 20%|██        | 61343/300000 [3:21:35<14:21:00,  4.62it/s]

지금 다 먹고 28216번째 도착완료 
  그리고 총 보상은 : 17.400000000000006 
지금 다 먹고 28217번째 도착완료 
  그리고 총 보상은 : 23.000000000000004 


 20%|██        | 61345/300000 [3:21:35<12:58:47,  5.11it/s]

지금 다 먹고 28218번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 28219번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 61347/300000 [3:21:36<12:18:16,  5.39it/s]

지금 다 먹고 28220번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 28221번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 


 20%|██        | 61349/300000 [3:21:36<12:13:22,  5.42it/s]

지금 다 먹고 28222번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 28223번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 20%|██        | 61351/300000 [3:21:36<12:45:13,  5.20it/s]

지금 다 먹고 28224번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 20%|██        | 61352/300000 [3:21:37<13:35:27,  4.88it/s]

지금 다 먹고 28225번째 도착완료 
  그리고 총 보상은 : -1.8000000000000398 
지금 다 먹고 28226번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 


 20%|██        | 61354/300000 [3:21:37<12:54:43,  5.13it/s]

지금 다 먹고 28227번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 61355/300000 [3:21:37<13:44:11,  4.83it/s]

지금 다 먹고 28228번째 도착완료 
  그리고 총 보상은 : 12.100000000000035 


 20%|██        | 61357/300000 [3:21:38<14:06:33,  4.70it/s]

지금 다 먹고 28229번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 28230번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 61359/300000 [3:21:38<13:02:43,  5.08it/s]

지금 다 먹고 28231번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 20%|██        | 61362/300000 [3:21:39<14:51:56,  4.46it/s]

지금 다 먹고 28232번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 28233번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 61364/300000 [3:21:39<13:32:38,  4.89it/s]

지금 다 먹고 28234번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 
지금 다 먹고 28235번째 도착완료 
  그리고 총 보상은 : 16.0 


 20%|██        | 61366/300000 [3:21:40<12:50:55,  5.16it/s]

지금 다 먹고 28236번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 28237번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 20%|██        | 61368/300000 [3:21:40<12:53:06,  5.14it/s]

지금 다 먹고 28238번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 28239번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 61370/300000 [3:21:40<13:13:03,  5.01it/s]

지금 다 먹고 28240번째 도착완료 
  그리고 총 보상은 : 22.100000000000005 
지금 다 먹고 28241번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 20%|██        | 61373/300000 [3:21:41<13:43:27,  4.83it/s]

지금 다 먹고 28242번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 28243번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61375/300000 [3:21:41<12:38:02,  5.25it/s]

지금 다 먹고 28244번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28245번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61377/300000 [3:21:42<12:22:55,  5.35it/s]

지금 다 먹고 28246번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 61379/300000 [3:21:42<14:15:43,  4.65it/s]

지금 다 먹고 28247번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 
지금 다 먹고 28248번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 20%|██        | 61381/300000 [3:21:43<13:52:10,  4.78it/s]

지금 다 먹고 28249번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61382/300000 [3:21:43<13:16:51,  4.99it/s]

지금 다 먹고 28250번째 도착완료 
  그리고 총 보상은 : 23.1 
지금 다 먹고 28251번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 20%|██        | 61384/300000 [3:21:43<12:45:26,  5.20it/s]

지금 다 먹고 28252번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 28253번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61387/300000 [3:21:44<13:49:17,  4.80it/s]

지금 다 먹고 28254번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 28255번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 20%|██        | 61390/300000 [3:21:44<14:15:46,  4.65it/s]

지금 다 먹고 28256번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 28257번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61392/300000 [3:21:45<12:49:43,  5.17it/s]

지금 다 먹고 28258번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28259번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 20%|██        | 61396/300000 [3:21:46<14:12:59,  4.66it/s]

지금 다 먹고 28260번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61397/300000 [3:21:46<14:15:45,  4.65it/s]

지금 다 먹고 28261번째 도착완료 
  그리고 총 보상은 : 12.399999999999999 


 20%|██        | 61398/300000 [3:21:46<13:56:11,  4.76it/s]

지금 다 먹고 28262번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 28263번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|██        | 61400/300000 [3:21:46<12:57:40,  5.11it/s]

지금 다 먹고 28264번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 28265번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 61401/300000 [3:21:47<12:49:28,  5.17it/s]

epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.700000000000003
 end : True
 clear : True
episode :13, score = 15.865000000001084, n_buffer :100000 , eps : 19.3
지금 다 먹고 28266번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 


 20%|██        | 61403/300000 [3:21:47<13:19:10,  4.98it/s]

지금 다 먹고 28267번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28268번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 20%|██        | 61405/300000 [3:21:47<13:09:33,  5.04it/s]

지금 다 먹고 28269번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 20%|██        | 61407/300000 [3:21:48<14:45:31,  4.49it/s]

지금 다 먹고 28270번째 도착완료 
  그리고 총 보상은 : 19.1 


 20%|██        | 61409/300000 [3:21:48<15:27:48,  4.29it/s]

지금 다 먹고 28271번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 61410/300000 [3:21:49<15:29:06,  4.28it/s]

지금 다 먹고 28272번째 도착완료 
  그리고 총 보상은 : 17.50000000000001 
지금 다 먹고 28273번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 20%|██        | 61413/300000 [3:21:49<14:58:53,  4.42it/s]

지금 다 먹고 28274번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61414/300000 [3:21:50<15:55:10,  4.16it/s]

지금 다 먹고 28275번째 도착완료 
  그리고 총 보상은 : -22.300000000000033 


 20%|██        | 61415/300000 [3:21:50<15:29:26,  4.28it/s]

지금 다 먹고 28276번째 도착완료 
  그리고 총 보상은 : 22.90000000000001 
지금 다 먹고 28277번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 20%|██        | 61417/300000 [3:21:50<13:55:06,  4.76it/s]

지금 다 먹고 28278번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28279번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 20%|██        | 61419/300000 [3:21:51<12:46:03,  5.19it/s]

지금 다 먹고 28280번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 28281번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61421/300000 [3:21:51<12:24:56,  5.34it/s]

지금 다 먹고 28282번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61422/300000 [3:21:51<13:15:25,  5.00it/s]

지금 다 먹고 28283번째 도착완료 
  그리고 총 보상은 : -19.70000000000001 


 20%|██        | 61424/300000 [3:21:52<14:00:25,  4.73it/s]

지금 다 먹고 28284번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 28285번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 20%|██        | 61426/300000 [3:21:52<12:51:42,  5.15it/s]

지금 다 먹고 28286번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28287번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61428/300000 [3:21:52<12:55:07,  5.13it/s]

지금 다 먹고 28288번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 20%|██        | 61430/300000 [3:21:53<14:31:53,  4.56it/s]

지금 다 먹고 28289번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 20%|██        | 61431/300000 [3:21:53<13:59:49,  4.73it/s]

지금 다 먹고 28290번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 28291번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 20%|██        | 61433/300000 [3:21:54<13:43:22,  4.83it/s]

지금 다 먹고 28292번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 61434/300000 [3:21:54<13:53:49,  4.77it/s]

지금 다 먹고 28293번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 


 20%|██        | 61435/300000 [3:21:54<13:56:03,  4.76it/s]

지금 다 먹고 28294번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28295번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 

 20%|██        | 61436/300000 [3:21:54<13:35:04,  4.88it/s]


지금 다 먹고 28296번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 61439/300000 [3:21:55<13:49:52,  4.79it/s]

지금 다 먹고 28297번째 도착완료 
  그리고 총 보상은 : 28.1 


 20%|██        | 61441/300000 [3:21:55<14:14:30,  4.65it/s]

지금 다 먹고 28298번째 도착완료 
  그리고 총 보상은 : 28.6 


 20%|██        | 61443/300000 [3:21:56<14:43:57,  4.50it/s]

지금 다 먹고 28299번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 28300번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 61445/300000 [3:21:56<13:00:11,  5.10it/s]

지금 다 먹고 28301번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 20%|██        | 61447/300000 [3:21:56<13:40:54,  4.84it/s]

지금 다 먹고 28302번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 20%|██        | 61448/300000 [3:21:57<13:43:23,  4.83it/s]

지금 다 먹고 28303번째 도착완료 
  그리고 총 보상은 : 21.40000000000001 
지금 다 먹고 28304번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 20%|██        | 61450/300000 [3:21:57<12:35:05,  5.27it/s]

지금 다 먹고 28305번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28306번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 20%|██        | 61452/300000 [3:21:57<12:44:27,  5.20it/s]

지금 다 먹고 28307번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28308번째 도착완료 
  그리고 총 보상은 : 27.1 


 20%|██        | 61454/300000 [3:21:58<12:17:23,  5.39it/s]

지금 다 먹고 28309번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 28310번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|██        | 61456/300000 [3:21:58<12:45:55,  5.19it/s]

지금 다 먹고 28311번째 도착완료 
  그리고 총 보상은 : 26.5 


 20%|██        | 61458/300000 [3:21:59<13:59:12,  4.74it/s]

지금 다 먹고 28312번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 28313번째 도착완료 
  그리고 총 보상은 : 22.5 


 20%|██        | 61460/300000 [3:21:59<12:38:35,  5.24it/s]

지금 다 먹고 28314번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 28315번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61462/300000 [3:21:59<12:09:01,  5.45it/s]

지금 다 먹고 28316번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61464/300000 [3:22:00<14:37:52,  4.53it/s]

지금 다 먹고 28317번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 20%|██        | 61466/300000 [3:22:00<16:30:25,  4.01it/s]

지금 다 먹고 28318번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61467/300000 [3:22:01<15:29:58,  4.27it/s]

지금 다 먹고 28319번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 28320번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 20%|██        | 61469/300000 [3:22:01<14:17:24,  4.64it/s]

지금 다 먹고 28321번째 도착완료 
  그리고 총 보상은 : 16.60000000000001 
지금 다 먹고 28322번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 20%|██        | 61471/300000 [3:22:01<12:46:46,  5.18it/s]

지금 다 먹고 28323번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28324번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 20%|██        | 61475/300000 [3:22:02<14:03:29,  4.71it/s]

지금 다 먹고 28325번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 28326번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 20%|██        | 61477/300000 [3:22:03<12:44:05,  5.20it/s]

지금 다 먹고 28327번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 28328번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 20%|██        | 61479/300000 [3:22:03<12:31:05,  5.29it/s]

지금 다 먹고 28329번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 28330번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61481/300000 [3:22:03<12:16:05,  5.40it/s]

지금 다 먹고 28331번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 20%|██        | 61482/300000 [3:22:04<12:46:51,  5.18it/s]

지금 다 먹고 28332번째 도착완료 
  그리고 총 보상은 : 15.400000000000004 
지금 다 먹고 28333번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 20%|██        | 61484/300000 [3:22:04<12:32:30,  5.28it/s]

지금 다 먹고 28334번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28335번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 20%|██        | 61486/300000 [3:22:04<11:56:34,  5.55it/s]

지금 다 먹고 28336번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 28337번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 20%|██        | 61488/300000 [3:22:05<11:46:17,  5.63it/s]

지금 다 먹고 28338번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 28339번째 도착완료 
  그리고 총 보상은 : 23.50000000000001 


 20%|██        | 61490/300000 [3:22:05<11:55:30,  5.56it/s]

지금 다 먹고 28340번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 20%|██        | 61492/300000 [3:22:05<13:24:13,  4.94it/s]

지금 다 먹고 28341번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 20%|██        | 61493/300000 [3:22:06<14:04:31,  4.71it/s]

지금 다 먹고 28342번째 도착완료 
  그리고 총 보상은 : -3.0000000000000213 
지금 다 먹고 28343번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 20%|██        | 61496/300000 [3:22:06<14:11:53,  4.67it/s]

지금 다 먹고 28344번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 20%|██        | 61497/300000 [3:22:07<15:00:01,  4.42it/s]

지금 다 먹고 28345번째 도착완료 
  그리고 총 보상은 : -1.2000000000000242 
지금 다 먹고 28346번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 20%|██        | 61500/300000 [3:22:07<14:09:45,  4.68it/s]

지금 다 먹고 28347번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28348번째 도착완료 
  그리고 총 보상은 : 21.70000000000001 

 21%|██        | 61501/300000 [3:22:07<13:50:18,  4.79it/s]


epi = 11
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :21.70000000000001
 end : True
 clear : True
episode :11, score = 15.092000000001025, n_buffer :100000 , eps : 19.25


 21%|██        | 61502/300000 [3:22:08<13:46:53,  4.81it/s]

지금 다 먹고 28349번째 도착완료 
  그리고 총 보상은 : 20.100000000000005 
지금 다 먹고 28350번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 61504/300000 [3:22:08<12:41:52,  5.22it/s]

지금 다 먹고 28351번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 28352번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 61506/300000 [3:22:08<13:30:34,  4.90it/s]

지금 다 먹고 28353번째 도착완료 
  그리고 총 보상은 : 8.900000000000023 
지금 다 먹고 28354번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 61509/300000 [3:22:09<13:36:46,  4.87it/s]

지금 다 먹고 28355번째 도착완료 
  그리고 총 보상은 : 19.9 
지금 다 먹고 28356번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61511/300000 [3:22:09<12:50:59,  5.16it/s]

지금 다 먹고 28357번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 61512/300000 [3:22:10<14:14:18,  4.65it/s]

지금 다 먹고 28358번째 도착완료 
  그리고 총 보상은 : 3.499999999999922 
지금 다 먹고 28359번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 61515/300000 [3:22:10<14:31:38,  4.56it/s]

지금 다 먹고 28360번째 도착완료 
  그리고 총 보상은 : 23.400000000000002 


 21%|██        | 61516/300000 [3:22:11<14:54:23,  4.44it/s]

지금 다 먹고 28361번째 도착완료 
  그리고 총 보상은 : -3.000000000000007 
지금 다 먹고 28362번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61519/300000 [3:22:11<14:03:10,  4.71it/s]

지금 다 먹고 28363번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 28364번째 도착완료 
  그리고 총 보상은 : 20.300000000000004 


 21%|██        | 61521/300000 [3:22:12<13:02:55,  5.08it/s]

지금 다 먹고 28365번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28366번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61524/300000 [3:22:12<13:16:41,  4.99it/s]

지금 다 먹고 28367번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 61526/300000 [3:22:13<13:42:12,  4.83it/s]

지금 다 먹고 28368번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 
지금 다 먹고 28369번째 도착완료 
  그리고 총 보상은 : 18.30000000000002 


 21%|██        | 61528/300000 [3:22:13<12:59:44,  5.10it/s]

지금 다 먹고 28370번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28371번째 도착완료 
  그리고 총 보상은 : 11.299999999999994 


 21%|██        | 61530/300000 [3:22:13<12:24:32,  5.34it/s]

지금 다 먹고 28372번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 61532/300000 [3:22:14<13:33:11,  4.89it/s]

지금 다 먹고 28373번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 


 21%|██        | 61534/300000 [3:22:14<13:56:15,  4.75it/s]

지금 다 먹고 28374번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 21%|██        | 61535/300000 [3:22:14<13:58:39,  4.74it/s]

지금 다 먹고 28375번째 도착완료 
  그리고 총 보상은 : 3.4999999999999822 
지금 다 먹고 28376번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 


 21%|██        | 61537/300000 [3:22:15<12:51:39,  5.15it/s]

지금 다 먹고 28377번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28378번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 61539/300000 [3:22:15<12:02:47,  5.50it/s]

지금 다 먹고 28379번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 28380번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 61541/300000 [3:22:16<11:43:28,  5.65it/s]

지금 다 먹고 28381번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 28382번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 61543/300000 [3:22:16<11:59:20,  5.52it/s]

지금 다 먹고 28383번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 61544/300000 [3:22:16<13:32:51,  4.89it/s]

지금 다 먹고 28384번째 도착완료 
  그리고 총 보상은 : 13.600000000000026 
지금 다 먹고 28385번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 

 21%|██        | 61545/300000 [3:22:16<13:11:47,  5.02it/s]


지금 다 먹고 28386번째 도착완료 
  그리고 총 보상은 : 18.4 


 21%|██        | 61547/300000 [3:22:17<12:25:06,  5.33it/s]

지금 다 먹고 28387번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61549/300000 [3:22:17<14:06:20,  4.70it/s]

지금 다 먹고 28388번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 61550/300000 [3:22:17<13:35:10,  4.88it/s]

지금 다 먹고 28389번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 28390번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 61552/300000 [3:22:18<12:38:37,  5.24it/s]

지금 다 먹고 28391번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28392번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 21%|██        | 61554/300000 [3:22:18<12:31:18,  5.29it/s]

지금 다 먹고 28393번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28394번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 61556/300000 [3:22:18<12:26:28,  5.32it/s]

지금 다 먹고 28395번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28396번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 61558/300000 [3:22:19<12:04:59,  5.48it/s]

지금 다 먹고 28397번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61560/300000 [3:22:19<13:11:11,  5.02it/s]

지금 다 먹고 28398번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61561/300000 [3:22:20<14:18:17,  4.63it/s]

지금 다 먹고 28399번째 도착완료 
  그리고 총 보상은 : 7.099999999999996 


 21%|██        | 61562/300000 [3:22:20<14:13:55,  4.65it/s]

지금 다 먹고 28400번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 28401번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 61564/300000 [3:22:20<13:42:44,  4.83it/s]

지금 다 먹고 28402번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 61566/300000 [3:22:21<14:57:52,  4.43it/s]

지금 다 먹고 28403번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 61568/300000 [3:22:21<14:49:28,  4.47it/s]

지금 다 먹고 28404번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28405번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 


 21%|██        | 61570/300000 [3:22:22<13:50:03,  4.79it/s]

지금 다 먹고 28406번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 
지금 다 먹고 28407번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 61572/300000 [3:22:22<13:10:21,  5.03it/s]

지금 다 먹고 28408번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 21%|██        | 61574/300000 [3:22:22<13:31:15,  4.90it/s]

지금 다 먹고 28409번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 28410번째 도착완료 
  그리고 총 보상은 : 23.200000000000017 


 21%|██        | 61577/300000 [3:22:23<14:26:12,  4.59it/s]

지금 다 먹고 28411번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 61579/300000 [3:22:23<14:14:50,  4.65it/s]

지금 다 먹고 28412번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 28413번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 61581/300000 [3:22:24<13:37:13,  4.86it/s]

지금 다 먹고 28414번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 61583/300000 [3:22:24<14:19:10,  4.62it/s]

지금 다 먹고 28415번째 도착완료 
  그리고 총 보상은 : 10.80000000000001 
지금 다 먹고 28416번째 도착완료 
  그리고 총 보상은 : 20.10000000000001 


 21%|██        | 61585/300000 [3:22:25<13:11:29,  5.02it/s]

지금 다 먹고 28417번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 61586/300000 [3:22:25<13:21:54,  4.96it/s]

지금 다 먹고 28418번째 도착완료 
  그리고 총 보상은 : -2.100000000000037 
지금 다 먹고 28419번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 61588/300000 [3:22:25<12:13:38,  5.42it/s]

지금 다 먹고 28420번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 28421번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61590/300000 [3:22:26<11:55:29,  5.55it/s]

지금 다 먹고 28422번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 28423번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 61592/300000 [3:22:26<11:49:12,  5.60it/s]

지금 다 먹고 28424번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 61594/300000 [3:22:26<13:04:05,  5.07it/s]

지금 다 먹고 28425번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 28426번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 61596/300000 [3:22:27<13:28:45,  4.91it/s]

지금 다 먹고 28427번째 도착완료 
  그리고 총 보상은 : 17.700000000000003 
지금 다 먹고 28428번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61600/300000 [3:22:28<14:48:27,  4.47it/s]

지금 다 먹고 28429번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 28430번째 도착완료 
  그리고 총 보상은 : 17.3 


 21%|██        | 61602/300000 [3:22:28<13:13:53,  5.00it/s]

epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :17.3
 end : True
 clear : True
episode :9, score = 14.173000000001263, n_buffer :100000 , eps : 19.2
지금 다 먹고 28431번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 28432번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 61604/300000 [3:22:28<12:21:09,  5.36it/s]

지금 다 먹고 28433번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 28434번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 21%|██        | 61606/300000 [3:22:29<13:36:32,  4.87it/s]

지금 다 먹고 28435번째 도착완료 
  그리고 총 보상은 : 16.300000000000008 
지금 다 먹고 28436번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61609/300000 [3:22:30<13:47:28,  4.80it/s]

지금 다 먹고 28437번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 61611/300000 [3:22:30<14:39:13,  4.52it/s]

지금 다 먹고 28438번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 61612/300000 [3:22:30<14:06:28,  4.69it/s]

지금 다 먹고 28439번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 21%|██        | 61613/300000 [3:22:30<14:43:08,  4.50it/s]

지금 다 먹고 28440번째 도착완료 
  그리고 총 보상은 : 8.900000000000023 
지금 다 먹고 28441번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 61615/300000 [3:22:31<13:17:28,  4.98it/s]

지금 다 먹고 28442번째 도착완료 
  그리고 총 보상은 : 25.6 


 21%|██        | 61617/300000 [3:22:31<14:41:12,  4.51it/s]

지금 다 먹고 28443번째 도착완료 
  그리고 총 보상은 : 17.500000000000007 
지금 다 먹고 28444번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 61619/300000 [3:22:32<13:29:56,  4.91it/s]

지금 다 먹고 28445번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 28446번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 61621/300000 [3:22:32<13:15:17,  5.00it/s]

지금 다 먹고 28447번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 28448번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 61623/300000 [3:22:32<13:11:14,  5.02it/s]

지금 다 먹고 28449번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 28450번째 도착완료 
  그리고 총 보상은 : 26.6 


 21%|██        | 61625/300000 [3:22:33<13:12:40,  5.01it/s]

지금 다 먹고 28451번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28452번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 61628/300000 [3:22:33<13:12:10,  5.02it/s]

지금 다 먹고 28453번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61630/300000 [3:22:34<14:48:38,  4.47it/s]

지금 다 먹고 28454번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28455번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 

 21%|██        | 61631/300000 [3:22:34<13:57:45,  4.74it/s]


지금 다 먹고 28456번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 61634/300000 [3:22:35<13:31:01,  4.90it/s]

지금 다 먹고 28457번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 28458번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61636/300000 [3:22:35<12:38:17,  5.24it/s]

지금 다 먹고 28459번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28460번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61638/300000 [3:22:35<12:02:04,  5.50it/s]

지금 다 먹고 28461번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 28462번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 61640/300000 [3:22:36<11:55:06,  5.56it/s]

지금 다 먹고 28463번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28464번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61642/300000 [3:22:36<12:04:07,  5.49it/s]

지금 다 먹고 28465번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 28466번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 61645/300000 [3:22:37<13:49:17,  4.79it/s]

지금 다 먹고 28467번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 21%|██        | 61646/300000 [3:22:37<13:46:15,  4.81it/s]

지금 다 먹고 28468번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 
지금 다 먹고 28469번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 61648/300000 [3:22:37<13:00:05,  5.09it/s]

지금 다 먹고 28470번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28471번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61651/300000 [3:22:38<13:21:09,  4.96it/s]

지금 다 먹고 28472번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28473번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 61653/300000 [3:22:38<13:22:31,  4.95it/s]

지금 다 먹고 28474번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 61654/300000 [3:22:39<13:14:27,  5.00it/s]

지금 다 먹고 28475번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 28476번째 도착완료 
  그리고 총 보상은 : 13.000000000000005 


 21%|██        | 61656/300000 [3:22:39<12:30:32,  5.29it/s]

지금 다 먹고 28477번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28478번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 61658/300000 [3:22:39<12:17:34,  5.39it/s]

지금 다 먹고 28479번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61659/300000 [3:22:40<13:13:40,  5.00it/s]

지금 다 먹고 28480번째 도착완료 
  그리고 총 보상은 : 16.700000000000003 
지금 다 먹고 28481번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 61662/300000 [3:22:40<13:58:18,  4.74it/s]

지금 다 먹고 28482번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 28483번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 61664/300000 [3:22:41<12:36:33,  5.25it/s]

지금 다 먹고 28484번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28485번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 61666/300000 [3:22:41<11:51:59,  5.58it/s]

지금 다 먹고 28486번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61668/300000 [3:22:41<13:33:27,  4.88it/s]

지금 다 먹고 28487번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28488번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 61670/300000 [3:22:42<12:44:10,  5.20it/s]

지금 다 먹고 28489번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 28490번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 61672/300000 [3:22:42<12:39:22,  5.23it/s]

지금 다 먹고 28491번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28492번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 61674/300000 [3:22:43<12:17:59,  5.38it/s]

지금 다 먹고 28493번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 
지금 다 먹고 28494번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 61676/300000 [3:22:43<11:53:47,  5.56it/s]

지금 다 먹고 28495번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 28496번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61679/300000 [3:22:44<14:08:54,  4.68it/s]

지금 다 먹고 28497번째 도착완료 
  그리고 총 보상은 : 28.000000000000007 


 21%|██        | 61680/300000 [3:22:44<13:34:59,  4.87it/s]

지금 다 먹고 28498번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28499번째 도착완료 
  그리고 총 보상은 : 26.6 


 21%|██        | 61682/300000 [3:22:44<12:26:54,  5.32it/s]

지금 다 먹고 28500번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28501번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 21%|██        | 61685/300000 [3:22:45<14:03:42,  4.71it/s]

지금 다 먹고 28502번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 28503번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 61687/300000 [3:22:45<12:48:05,  5.17it/s]

지금 다 먹고 28504번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 28505번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 21%|██        | 61689/300000 [3:22:46<13:06:57,  5.05it/s]

지금 다 먹고 28506번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 21%|██        | 61690/300000 [3:22:46<12:51:58,  5.15it/s]

지금 다 먹고 28507번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 28508번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 21%|██        | 61692/300000 [3:22:46<12:33:43,  5.27it/s]

지금 다 먹고 28509번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 28510번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 21%|██        | 61694/300000 [3:22:46<12:21:56,  5.35it/s]

지금 다 먹고 28511번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 61696/300000 [3:22:47<13:50:29,  4.78it/s]

지금 다 먹고 28512번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 21%|██        | 61697/300000 [3:22:47<15:16:29,  4.33it/s]

지금 다 먹고 28513번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 61699/300000 [3:22:48<15:34:51,  4.25it/s]

지금 다 먹고 28514번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 61700/300000 [3:22:48<15:23:21,  4.30it/s]

지금 다 먹고 28515번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 61701/300000 [3:22:48<17:19:40,  3.82it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0. 100.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : →
 마지막 보상 : -0.5
 총 받은 보상 :-29.300000000000097
 end : True
 clear : True
episode :7, score = 17.744000000001662, n_buffer :100000 , eps : 19.15
지금 다 먹고 28516번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 21%|██        | 61703/300000 [3:22:49<15:51:06,  4.18it/s]

지금 다 먹고 28517번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 
지금 다 먹고 28518번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 61705/300000 [3:22:49<13:53:56,  4.76it/s]

지금 다 먹고 28519번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28520번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 21%|██        | 61707/300000 [3:22:49<13:07:05,  5.05it/s]

지금 다 먹고 28521번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28522번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 21%|██        | 61709/300000 [3:22:50<13:08:02,  5.04it/s]

지금 다 먹고 28523번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28524번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 61711/300000 [3:22:50<13:23:25,  4.94it/s]

지금 다 먹고 28525번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 61713/300000 [3:22:51<15:06:26,  4.38it/s]

지금 다 먹고 28526번째 도착완료 
  그리고 총 보상은 : 18.2 


 21%|██        | 61714/300000 [3:22:51<15:27:45,  4.28it/s]

지금 다 먹고 28527번째 도착완료 
  그리고 총 보상은 : 16.800000000000022 


 21%|██        | 61715/300000 [3:22:51<15:40:18,  4.22it/s]

지금 다 먹고 28528번째 도착완료 
  그리고 총 보상은 : 23.5 


 21%|██        | 61716/300000 [3:22:51<14:44:38,  4.49it/s]

지금 다 먹고 28529번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 28530번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61719/300000 [3:22:52<15:19:32,  4.32it/s]

지금 다 먹고 28531번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 28532번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61721/300000 [3:22:53<13:40:57,  4.84it/s]

지금 다 먹고 28533번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 28534번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 21%|██        | 61723/300000 [3:22:53<13:20:42,  4.96it/s]

지금 다 먹고 28535번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 28536번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61725/300000 [3:22:53<12:37:40,  5.24it/s]

지금 다 먹고 28537번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 28538번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 61727/300000 [3:22:54<12:07:07,  5.46it/s]

지금 다 먹고 28539번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 28540번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61730/300000 [3:22:54<13:34:41,  4.87it/s]

지금 다 먹고 28541번째 도착완료 
  그리고 총 보상은 : 11.200000000000003 


 21%|██        | 61731/300000 [3:22:55<14:11:31,  4.66it/s]

지금 다 먹고 28542번째 도착완료 
  그리고 총 보상은 : 16.400000000000016 
지금 다 먹고 28543번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61733/300000 [3:22:55<12:51:52,  5.14it/s]

지금 다 먹고 28544번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28545번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 61736/300000 [3:22:56<13:42:07,  4.83it/s]

지금 다 먹고 28546번째 도착완료 
  그리고 총 보상은 : 19.50000000000001 
지금 다 먹고 28547번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61738/300000 [3:22:56<12:47:39,  5.17it/s]

지금 다 먹고 28548번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28549번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 61740/300000 [3:22:56<12:27:47,  5.31it/s]

지금 다 먹고 28550번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 28551번째 도착완료 
  그리고 총 보상은 : 25.5 


 21%|██        | 61742/300000 [3:22:57<12:28:46,  5.30it/s]

지금 다 먹고 28552번째 도착완료 
  그리고 총 보상은 : 24.100000000000005 
지금 다 먹고 28553번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 61744/300000 [3:22:57<12:36:38,  5.25it/s]

지금 다 먹고 28554번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 61747/300000 [3:22:58<14:05:46,  4.69it/s]

지금 다 먹고 28555번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 28556번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61749/300000 [3:22:58<13:43:49,  4.82it/s]

지금 다 먹고 28557번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 28558번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61751/300000 [3:22:58<12:55:43,  5.12it/s]

지금 다 먹고 28559번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61753/300000 [3:22:59<13:46:28,  4.80it/s]

지금 다 먹고 28560번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 28561번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61755/300000 [3:22:59<14:04:09,  4.70it/s]

지금 다 먹고 28562번째 도착완료 
  그리고 총 보상은 : 8.800000000000024 
지금 다 먹고 28563번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61757/300000 [3:23:00<12:46:14,  5.18it/s]

지금 다 먹고 28564번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28565번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 21%|██        | 61759/300000 [3:23:00<12:56:51,  5.11it/s]

지금 다 먹고 28566번째 도착완료 
  그리고 총 보상은 : 18.90000000000001 
지금 다 먹고 28567번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 61761/300000 [3:23:00<12:28:35,  5.30it/s]

지금 다 먹고 28568번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 
지금 다 먹고 28569번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61764/300000 [3:23:01<12:50:51,  5.15it/s]

지금 다 먹고 28570번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 28571번째 도착완료 
  그리고 총 보상은 : 24.8 


 21%|██        | 61766/300000 [3:23:01<13:05:20,  5.06it/s]

지금 다 먹고 28572번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 28573번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61768/300000 [3:23:02<13:23:35,  4.94it/s]

지금 다 먹고 28574번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 61771/300000 [3:23:03<14:16:19,  4.64it/s]

지금 다 먹고 28575번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 28576번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 61773/300000 [3:23:03<12:50:55,  5.15it/s]

지금 다 먹고 28577번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 28578번째 도착완료 
  그리고 총 보상은 : 21.40000000000001 


 21%|██        | 61775/300000 [3:23:03<13:49:24,  4.79it/s]

지금 다 먹고 28579번째 도착완료 
  그리고 총 보상은 : 14.100000000000005 


 21%|██        | 61776/300000 [3:23:04<13:52:34,  4.77it/s]

지금 다 먹고 28580번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28581번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61778/300000 [3:23:04<13:50:11,  4.78it/s]

지금 다 먹고 28582번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 21%|██        | 61779/300000 [3:23:04<13:30:21,  4.90it/s]

지금 다 먹고 28583번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61780/300000 [3:23:04<14:00:19,  4.72it/s]

지금 다 먹고 28584번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 
지금 다 먹고 28585번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61782/300000 [3:23:05<14:07:53,  4.68it/s]

지금 다 먹고 28586번째 도착완료 
  그리고 총 보상은 : 23.700000000000006 
지금 다 먹고 28587번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 61784/300000 [3:23:05<13:30:57,  4.90it/s]

지금 다 먹고 28588번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 
지금 다 먹고 28589번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 61788/300000 [3:23:06<15:06:16,  4.38it/s]

지금 다 먹고 28590번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61789/300000 [3:23:06<14:25:41,  4.59it/s]

지금 다 먹고 28591번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 28592번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 61791/300000 [3:23:07<12:45:07,  5.19it/s]

지금 다 먹고 28593번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 28594번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 21%|██        | 61793/300000 [3:23:07<12:13:04,  5.42it/s]

지금 다 먹고 28595번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28596번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61795/300000 [3:23:07<11:49:11,  5.60it/s]

지금 다 먹고 28597번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28598번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61798/300000 [3:23:08<12:47:44,  5.17it/s]

지금 다 먹고 28599번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 28600번째 도착완료 
  그리고 총 보상은 : 20.500000000000004 


 21%|██        | 61800/300000 [3:23:08<12:18:13,  5.38it/s]

지금 다 먹고 28601번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 28602번째 도착완료 
  그리고 총 보상은 : 21.6 


 21%|██        | 61802/300000 [3:23:09<12:00:16,  5.51it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :21.6
 end : True
 clear : True
episode :5, score = 18.210000000001674, n_buffer :100000 , eps : 19.1
지금 다 먹고 28603번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 61804/300000 [3:23:09<12:52:58,  5.14it/s]

지금 다 먹고 28604번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 61805/300000 [3:23:09<13:08:55,  5.03it/s]

지금 다 먹고 28605번째 도착완료 
  그리고 총 보상은 : 16.599999999999998 
지금 다 먹고 28606번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 21%|██        | 61807/300000 [3:23:10<12:15:53,  5.39it/s]

지금 다 먹고 28607번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28608번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 61809/300000 [3:23:10<12:36:02,  5.25it/s]

지금 다 먹고 28609번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 28610번째 도착완료 
  그리고 총 보상은 : 26.1 


 21%|██        | 61811/300000 [3:23:10<12:11:46,  5.42it/s]

지금 다 먹고 28611번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 28612번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 21%|██        | 61813/300000 [3:23:11<11:38:38,  5.68it/s]

지금 다 먹고 28613번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 61815/300000 [3:23:11<12:42:51,  5.20it/s]

지금 다 먹고 28614번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 28615번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 61817/300000 [3:23:12<12:20:56,  5.36it/s]

지금 다 먹고 28616번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 28617번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 61819/300000 [3:23:12<12:30:59,  5.29it/s]

지금 다 먹고 28618번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 61821/300000 [3:23:12<13:14:00,  5.00it/s]

지금 다 먹고 28619번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 21%|██        | 61823/300000 [3:23:13<13:38:38,  4.85it/s]

지금 다 먹고 28620번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28621번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 61825/300000 [3:23:13<12:44:57,  5.19it/s]

지금 다 먹고 28622번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28623번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 21%|██        | 61827/300000 [3:23:14<13:22:16,  4.95it/s]

지금 다 먹고 28624번째 도착완료 
  그리고 총 보상은 : 20.00000000000001 
지금 다 먹고 28625번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 61830/300000 [3:23:14<13:22:20,  4.95it/s]

지금 다 먹고 28626번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61832/300000 [3:23:15<14:13:32,  4.65it/s]

지금 다 먹고 28627번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 28628번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 61834/300000 [3:23:15<12:56:40,  5.11it/s]

지금 다 먹고 28629번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 
지금 다 먹고 28630번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61836/300000 [3:23:15<12:17:10,  5.38it/s]

지금 다 먹고 28631번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 61838/300000 [3:23:16<13:13:13,  5.00it/s]

지금 다 먹고 28632번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 21%|██        | 61839/300000 [3:23:16<13:37:05,  4.86it/s]

지금 다 먹고 28633번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 21%|██        | 61840/300000 [3:23:16<13:37:22,  4.86it/s]

지금 다 먹고 28634번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 28635번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61842/300000 [3:23:17<12:34:52,  5.26it/s]

지금 다 먹고 28636번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28637번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 61844/300000 [3:23:17<12:12:20,  5.42it/s]

지금 다 먹고 28638번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 28639번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 61846/300000 [3:23:17<12:00:39,  5.51it/s]

지금 다 먹고 28640번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28641번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 61849/300000 [3:23:18<12:55:55,  5.12it/s]

지금 다 먹고 28642번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 28643번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 61851/300000 [3:23:18<12:32:07,  5.28it/s]

지금 다 먹고 28644번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 61852/300000 [3:23:19<14:16:26,  4.63it/s]

지금 다 먹고 28645번째 도착완료 
  그리고 총 보상은 : -0.8999999999999773 
지금 다 먹고 28646번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 61855/300000 [3:23:19<14:48:16,  4.47it/s]

지금 다 먹고 28647번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 
지금 다 먹고 28648번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 


 21%|██        | 61857/300000 [3:23:20<14:01:17,  4.72it/s]

지금 다 먹고 28649번째 도착완료 
  그리고 총 보상은 : 24.800000000000008 


 21%|██        | 61858/300000 [3:23:20<13:54:19,  4.76it/s]

지금 다 먹고 28650번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28651번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 61860/300000 [3:23:20<12:49:16,  5.16it/s]

지금 다 먹고 28652번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28653번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 21%|██        | 61862/300000 [3:23:21<12:13:36,  5.41it/s]

지금 다 먹고 28654번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 28655번째 도착완료 
  그리고 총 보상은 : 21.3 


 21%|██        | 61864/300000 [3:23:21<11:56:38,  5.54it/s]

지금 다 먹고 28656번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 61866/300000 [3:23:21<12:50:56,  5.15it/s]

지금 다 먹고 28657번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 28658번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 61868/300000 [3:23:22<12:14:56,  5.40it/s]

지금 다 먹고 28659번째 도착완료 
  그리고 총 보상은 : 26.1 
지금 다 먹고 28660번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61870/300000 [3:23:22<11:58:28,  5.52it/s]

지금 다 먹고 28661번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 61873/300000 [3:23:23<13:58:08,  4.74it/s]

지금 다 먹고 28662번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 61874/300000 [3:23:23<13:50:02,  4.78it/s]

지금 다 먹고 28663번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 
지금 다 먹고 28664번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 21%|██        | 61876/300000 [3:23:23<12:45:23,  5.19it/s]

지금 다 먹고 28665번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 61877/300000 [3:23:24<13:28:03,  4.91it/s]

지금 다 먹고 28666번째 도착완료 
  그리고 총 보상은 : 17.600000000000016 
지금 다 먹고 28667번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61879/300000 [3:23:24<13:14:39,  4.99it/s]

지금 다 먹고 28668번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 61880/300000 [3:23:24<14:30:21,  4.56it/s]

지금 다 먹고 28669번째 도착완료 
  그리고 총 보상은 : 12.000000000000044 
지금 다 먹고 28670번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61883/300000 [3:23:25<13:34:07,  4.87it/s]

지금 다 먹고 28671번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 28672번째 도착완료 
  그리고 총 보상은 : 18.100000000000012 


 21%|██        | 61885/300000 [3:23:25<13:47:26,  4.80it/s]

지금 다 먹고 28673번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 21%|██        | 61886/300000 [3:23:26<14:40:49,  4.51it/s]

지금 다 먹고 28674번째 도착완료 
  그리고 총 보상은 : 15.70000000000002 
지금 다 먹고 28675번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61891/300000 [3:23:27<15:31:22,  4.26it/s]

지금 다 먹고 28676번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28677번째 도착완료 
  그리고 총 보상은 : 25.6 


 21%|██        | 61893/300000 [3:23:27<13:47:19,  4.80it/s]

지금 다 먹고 28678번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 28679번째 도착완료 
  그리고 총 보상은 : 20.400000000000006 


 21%|██        | 61895/300000 [3:23:28<13:12:14,  5.01it/s]

지금 다 먹고 28680번째 도착완료 
  그리고 총 보상은 : 22.900000000000013 
지금 다 먹고 28681번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61897/300000 [3:23:28<12:34:47,  5.26it/s]

지금 다 먹고 28682번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 28683번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 61900/300000 [3:23:29<12:55:31,  5.12it/s]

지금 다 먹고 28684번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 28685번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 61902/300000 [3:23:29<12:20:12,  5.36it/s]

epi = 3
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.000000000000004
 end : True
 clear : True
episode :3, score = 16.30400000000196, n_buffer :100000 , eps : 19.05
지금 다 먹고 28686번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 61903/300000 [3:23:29<12:22:29,  5.34it/s]

지금 다 먹고 28687번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 28688번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 61905/300000 [3:23:29<12:10:42,  5.43it/s]

지금 다 먹고 28689번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 


 21%|██        | 61906/300000 [3:23:30<13:03:55,  5.06it/s]

지금 다 먹고 28690번째 도착완료 
  그리고 총 보상은 : 16.800000000000004 
지금 다 먹고 28691번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61908/300000 [3:23:30<12:43:44,  5.20it/s]

지금 다 먹고 28692번째 도착완료 
  그리고 총 보상은 : 23.1 


 21%|██        | 61909/300000 [3:23:30<13:39:59,  4.84it/s]

지금 다 먹고 28693번째 도착완료 
  그리고 총 보상은 : 16.50000000000002 
지금 다 먹고 28694번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 61911/300000 [3:23:31<14:39:12,  4.51it/s]

지금 다 먹고 28695번째 도착완료 
  그리고 총 보상은 : 12.500000000000039 
지금 다 먹고 28696번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 21%|██        | 61913/300000 [3:23:31<13:27:38,  4.91it/s]

지금 다 먹고 28697번째 도착완료 
  그리고 총 보상은 : 26.6 


 21%|██        | 61914/300000 [3:23:31<13:54:26,  4.76it/s]

지금 다 먹고 28698번째 도착완료 
  그리고 총 보상은 : 22.4 
지금 다 먹고 28699번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 61916/300000 [3:23:32<13:00:19,  5.09it/s]

지금 다 먹고 28700번째 도착완료 
  그리고 총 보상은 : 17.400000000000002 
지금 다 먹고 28701번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 61919/300000 [3:23:32<14:59:01,  4.41it/s]

지금 다 먹고 28702번째 도착완료 
  그리고 총 보상은 : 12.800000000000011 


 21%|██        | 61920/300000 [3:23:33<14:10:08,  4.67it/s]

지금 다 먹고 28703번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 61921/300000 [3:23:33<14:11:48,  4.66it/s]

지금 다 먹고 28704번째 도착완료 
  그리고 총 보상은 : -3.0999999999999908 


 21%|██        | 61923/300000 [3:23:33<14:35:27,  4.53it/s]

지금 다 먹고 28705번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 28706번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 61925/300000 [3:23:34<13:33:06,  4.88it/s]

지금 다 먹고 28707번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 61926/300000 [3:23:34<13:56:38,  4.74it/s]

지금 다 먹고 28708번째 도착완료 
  그리고 총 보상은 : 17.700000000000024 
지금 다 먹고 28709번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 21%|██        | 61928/300000 [3:23:34<13:44:38,  4.81it/s]

지금 다 먹고 28710번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 28711번째 도착완료 
  그리고 총 보상은 : 22.300000000000008 


 21%|██        | 61930/300000 [3:23:35<14:13:09,  4.65it/s]

지금 다 먹고 28712번째 도착완료 
  그리고 총 보상은 : 24.0 


 21%|██        | 61932/300000 [3:23:35<14:15:00,  4.64it/s]

지금 다 먹고 28713번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61934/300000 [3:23:36<14:49:33,  4.46it/s]

지금 다 먹고 28714번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 61935/300000 [3:23:36<13:54:48,  4.75it/s]

지금 다 먹고 28715번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61936/300000 [3:23:36<13:48:08,  4.79it/s]

지금 다 먹고 28716번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 
지금 다 먹고 28717번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 61938/300000 [3:23:36<13:09:37,  5.02it/s]

지금 다 먹고 28718번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 61940/300000 [3:23:37<14:19:44,  4.61it/s]

지금 다 먹고 28719번째 도착완료 
  그리고 총 보상은 : 22.00000000000001 
지금 다 먹고 28720번째 도착완료 
  그리고 총 보상은 : 26.0 


 21%|██        | 61942/300000 [3:23:37<13:20:50,  4.95it/s]

지금 다 먹고 28721번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28722번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 21%|██        | 61944/300000 [3:23:38<14:11:12,  4.66it/s]

지금 다 먹고 28723번째 도착완료 
  그리고 총 보상은 : 9.500000000000023 


 21%|██        | 61945/300000 [3:23:38<15:04:13,  4.39it/s]

지금 다 먹고 28724번째 도착완료 
  그리고 총 보상은 : 16.600000000000005 


 21%|██        | 61946/300000 [3:23:38<16:06:28,  4.11it/s]

지금 다 먹고 28725번째 도착완료 
  그리고 총 보상은 : 9.500000000000016 
지금 다 먹고 28726번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 61948/300000 [3:23:39<14:13:37,  4.65it/s]

지금 다 먹고 28727번째 도착완료 
  그리고 총 보상은 : 20.100000000000005 
지금 다 먹고 28728번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61951/300000 [3:23:39<14:05:09,  4.69it/s]

지금 다 먹고 28729번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61953/300000 [3:23:40<14:40:42,  4.50it/s]

지금 다 먹고 28730번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28731번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61955/300000 [3:23:40<13:59:11,  4.73it/s]

지금 다 먹고 28732번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 61957/300000 [3:23:41<14:26:38,  4.58it/s]

지금 다 먹고 28733번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 
지금 다 먹고 28734번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 61959/300000 [3:23:41<12:54:06,  5.13it/s]

지금 다 먹고 28735번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 
지금 다 먹고 28736번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 61961/300000 [3:23:41<12:46:24,  5.18it/s]

지금 다 먹고 28737번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 61962/300000 [3:23:42<12:37:41,  5.24it/s]

지금 다 먹고 28738번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28739번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 21%|██        | 61964/300000 [3:23:42<12:06:09,  5.46it/s]

지금 다 먹고 28740번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 28741번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 61966/300000 [3:23:42<11:55:23,  5.55it/s]

지금 다 먹고 28742번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 61968/300000 [3:23:43<13:28:06,  4.91it/s]

지금 다 먹고 28743번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 61970/300000 [3:23:43<14:06:21,  4.69it/s]

지금 다 먹고 28744번째 도착완료 
  그리고 총 보상은 : 21.500000000000007 


 21%|██        | 61972/300000 [3:23:44<14:31:15,  4.55it/s]

지금 다 먹고 28745번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 61974/300000 [3:23:44<16:15:40,  4.07it/s]

지금 다 먹고 28746번째 도착완료 
  그리고 총 보상은 : 15.200000000000017 


 21%|██        | 61975/300000 [3:23:44<16:04:33,  4.11it/s]

지금 다 먹고 28747번째 도착완료 
  그리고 총 보상은 : 21.90000000000001 


 21%|██        | 61976/300000 [3:23:45<15:21:51,  4.30it/s]

지금 다 먹고 28748번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 61977/300000 [3:23:45<15:02:23,  4.40it/s]

지금 다 먹고 28749번째 도착완료 
  그리고 총 보상은 : 16.700000000000014 
지금 다 먹고 28750번째 도착완료 
  그리고 총 보상은 : 21.80000000000001 


 21%|██        | 61979/300000 [3:23:45<13:44:13,  4.81it/s]

지금 다 먹고 28751번째 도착완료 
  그리고 총 보상은 : 22.0 
지금 다 먹고 28752번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 61981/300000 [3:23:46<13:11:13,  5.01it/s]

지금 다 먹고 28753번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 28754번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 61983/300000 [3:23:46<13:01:10,  5.08it/s]

지금 다 먹고 28755번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 61985/300000 [3:23:46<14:32:00,  4.55it/s]

지금 다 먹고 28756번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 61986/300000 [3:23:47<13:51:34,  4.77it/s]

지금 다 먹고 28757번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 28758번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 


 21%|██        | 61988/300000 [3:23:47<12:48:47,  5.16it/s]

지금 다 먹고 28759번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 28760번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61991/300000 [3:23:48<13:42:45,  4.82it/s]

지금 다 먹고 28761번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 28762번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 61993/300000 [3:23:48<14:20:44,  4.61it/s]

지금 다 먹고 28763번째 도착완료 
  그리고 총 보상은 : 15.500000000000007 
지금 다 먹고 28764번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 21%|██        | 61996/300000 [3:23:49<13:47:00,  4.80it/s]

지금 다 먹고 28765번째 도착완료 
  그리고 총 보상은 : 14.100000000000007 
지금 다 먹고 28766번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 61998/300000 [3:23:49<12:35:38,  5.25it/s]

지금 다 먹고 28767번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 61999/300000 [3:23:49<13:02:06,  5.07it/s]

지금 다 먹고 28768번째 도착완료 
  그리고 총 보상은 : 20.200000000000003 
지금 다 먹고 28769번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62002/300000 [3:23:50<14:18:59,  4.62it/s]

epi = 1
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1. 200.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0. 100.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-24.900000000000055
 end : True
 clear : True
episode :1, score = 15.772000000001634, n_buffer :100000 , eps : 19.0
지금 다 먹고 28770번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 


 21%|██        | 62003/300000 [3:23:50<13:35:42,  4.86it/s]

지금 다 먹고 28771번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 28772번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 


 21%|██        | 62005/300000 [3:23:51<13:03:15,  5.06it/s]

지금 다 먹고 28773번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28774번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62008/300000 [3:23:51<13:57:46,  4.73it/s]

지금 다 먹고 28775번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 28776번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62010/300000 [3:23:52<13:06:25,  5.04it/s]

지금 다 먹고 28777번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 28778번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 62012/300000 [3:23:52<14:23:17,  4.59it/s]

지금 다 먹고 28779번째 도착완료 
  그리고 총 보상은 : 20.800000000000004 


 21%|██        | 62013/300000 [3:23:52<14:53:30,  4.44it/s]

지금 다 먹고 28780번째 도착완료 
  그리고 총 보상은 : 13.40000000000001 


 21%|██        | 62014/300000 [3:23:52<14:25:24,  4.58it/s]

지금 다 먹고 28781번째 도착완료 
  그리고 총 보상은 : 21.20000000000001 
지금 다 먹고 28782번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 


 21%|██        | 62016/300000 [3:23:53<13:41:57,  4.83it/s]

지금 다 먹고 28783번째 도착완료 
  그리고 총 보상은 : 23.30000000000001 
지금 다 먹고 28784번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62019/300000 [3:23:54<13:59:04,  4.73it/s]

지금 다 먹고 28785번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 28786번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62021/300000 [3:23:54<13:19:07,  4.96it/s]

지금 다 먹고 28787번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 28788번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 

 21%|██        | 62022/300000 [3:23:54<13:26:49,  4.92it/s]


지금 다 먹고 28789번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62025/300000 [3:23:55<14:29:24,  4.56it/s]

지금 다 먹고 28790번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 28791번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62027/300000 [3:23:55<13:02:09,  5.07it/s]

지금 다 먹고 28792번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 28793번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 


 21%|██        | 62029/300000 [3:23:56<12:29:58,  5.29it/s]

지금 다 먹고 28794번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 28795번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62031/300000 [3:23:56<12:01:04,  5.50it/s]

지금 다 먹고 28796번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62032/300000 [3:23:56<14:13:24,  4.65it/s]

지금 다 먹고 28797번째 도착완료 
  그리고 총 보상은 : 8.999999999999984 
지금 다 먹고 28798번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 62034/300000 [3:23:57<13:33:36,  4.87it/s]

지금 다 먹고 28799번째 도착완료 
  그리고 총 보상은 : 27.5 


 21%|██        | 62036/300000 [3:23:57<13:31:52,  4.89it/s]

지금 다 먹고 28800번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62038/300000 [3:23:57<13:44:15,  4.81it/s]

지금 다 먹고 28801번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 28802번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62040/300000 [3:23:58<13:24:12,  4.93it/s]

지금 다 먹고 28803번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62042/300000 [3:23:58<14:41:34,  4.50it/s]

지금 다 먹고 28804번째 도착완료 
  그리고 총 보상은 : 22.100000000000012 
지금 다 먹고 28805번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62044/300000 [3:23:59<13:39:49,  4.84it/s]

지금 다 먹고 28806번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28807번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 21%|██        | 62046/300000 [3:23:59<12:51:10,  5.14it/s]

지금 다 먹고 28808번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 


 21%|██        | 62047/300000 [3:23:59<13:34:24,  4.87it/s]

지금 다 먹고 28809번째 도착완료 
  그리고 총 보상은 : 17.000000000000014 
지금 다 먹고 28810번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62049/300000 [3:24:00<12:59:16,  5.09it/s]

지금 다 먹고 28811번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 28812번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62051/300000 [3:24:00<12:28:51,  5.30it/s]

지금 다 먹고 28813번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62053/300000 [3:24:01<14:22:15,  4.60it/s]

지금 다 먹고 28814번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62055/300000 [3:24:01<14:13:32,  4.65it/s]

지금 다 먹고 28815번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 28816번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62057/300000 [3:24:01<13:06:52,  5.04it/s]

지금 다 먹고 28817번째 도착완료 
  그리고 총 보상은 : 26.6 


 21%|██        | 62059/300000 [3:24:02<14:02:03,  4.71it/s]

지금 다 먹고 28818번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 28819번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62061/300000 [3:24:02<13:19:44,  4.96it/s]

지금 다 먹고 28820번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 28821번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 62063/300000 [3:24:03<12:49:49,  5.15it/s]

지금 다 먹고 28822번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 
지금 다 먹고 28823번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 21%|██        | 62065/300000 [3:24:03<12:13:24,  5.41it/s]

지금 다 먹고 28824번째 도착완료 
  그리고 총 보상은 : 24.000000000000004 
지금 다 먹고 28825번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62068/300000 [3:24:04<13:24:25,  4.93it/s]

지금 다 먹고 28826번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62070/300000 [3:24:04<15:13:13,  4.34it/s]

지금 다 먹고 28827번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62072/300000 [3:24:05<14:52:47,  4.44it/s]

지금 다 먹고 28828번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 28829번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62074/300000 [3:24:05<13:35:53,  4.86it/s]

지금 다 먹고 28830번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62076/300000 [3:24:05<14:16:13,  4.63it/s]

지금 다 먹고 28831번째 도착완료 
  그리고 총 보상은 : 24.000000000000014 
지금 다 먹고 28832번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62078/300000 [3:24:06<13:38:30,  4.84it/s]

지금 다 먹고 28833번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 62079/300000 [3:24:06<14:03:34,  4.70it/s]

지금 다 먹고 28834번째 도착완료 
  그리고 총 보상은 : 20.100000000000012 
지금 다 먹고 28835번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62081/300000 [3:24:06<12:53:43,  5.13it/s]

지금 다 먹고 28836번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 62082/300000 [3:24:07<13:52:20,  4.76it/s]

지금 다 먹고 28837번째 도착완료 
  그리고 총 보상은 : 17.700000000000017 
지금 다 먹고 28838번째 도착완료 
  그리고 총 보상은 : 23.50000000000001 


 21%|██        | 62084/300000 [3:24:07<12:44:56,  5.18it/s]

지금 다 먹고 28839번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 28840번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62087/300000 [3:24:08<13:39:25,  4.84it/s]

지금 다 먹고 28841번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 


 21%|██        | 62089/300000 [3:24:08<14:37:27,  4.52it/s]

지금 다 먹고 28842번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 28843번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 62091/300000 [3:24:08<13:46:10,  4.80it/s]

지금 다 먹고 28844번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62092/300000 [3:24:09<13:49:19,  4.78it/s]

지금 다 먹고 28845번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 28846번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 21%|██        | 62094/300000 [3:24:09<12:41:19,  5.21it/s]

지금 다 먹고 28847번째 도착완료 
  그리고 총 보상은 : 26.0 
지금 다 먹고 28848번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 21%|██        | 62096/300000 [3:24:09<12:37:01,  5.24it/s]

지금 다 먹고 28849번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 28850번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62098/300000 [3:24:10<12:09:25,  5.44it/s]

지금 다 먹고 28851번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28852번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 21%|██        | 62100/300000 [3:24:10<12:03:48,  5.48it/s]

지금 다 먹고 28853번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 28854번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 62102/300000 [3:24:10<11:43:30,  5.64it/s]

epi = 16
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.200000000000003
 end : True
 clear : True
episode :16, score = 17.113000000001453, n_buffer :100000 , eps : 18.95
지금 다 먹고 28855번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62104/300000 [3:24:11<12:28:49,  5.29it/s]

지금 다 먹고 28856번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 28857번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 21%|██        | 62106/300000 [3:24:11<12:17:54,  5.37it/s]

지금 다 먹고 28858번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 
지금 다 먹고 28859번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 62108/300000 [3:24:12<12:11:14,  5.42it/s]

지금 다 먹고 28860번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 21%|██        | 62110/300000 [3:24:12<13:31:43,  4.88it/s]

지금 다 먹고 28861번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 28862번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62112/300000 [3:24:12<12:45:44,  5.18it/s]

지금 다 먹고 28863번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 28864번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62114/300000 [3:24:13<12:17:36,  5.38it/s]

지금 다 먹고 28865번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 28866번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 62116/300000 [3:24:13<12:12:51,  5.41it/s]

지금 다 먹고 28867번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 28868번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62118/300000 [3:24:14<12:25:22,  5.32it/s]

지금 다 먹고 28869번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 28870번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62121/300000 [3:24:14<13:21:47,  4.94it/s]

지금 다 먹고 28871번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 28872번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62123/300000 [3:24:15<13:43:13,  4.82it/s]

지금 다 먹고 28873번째 도착완료 
  그리고 총 보상은 : 16.80000000000002 
지금 다 먹고 28874번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62125/300000 [3:24:15<12:28:56,  5.29it/s]

지금 다 먹고 28875번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62127/300000 [3:24:15<13:25:27,  4.92it/s]

지금 다 먹고 28876번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28877번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 62129/300000 [3:24:16<12:58:20,  5.09it/s]

지금 다 먹고 28878번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 21%|██        | 62130/300000 [3:24:16<13:42:14,  4.82it/s]

지금 다 먹고 28879번째 도착완료 
  그리고 총 보상은 : 16.100000000000023 


 21%|██        | 62131/300000 [3:24:16<14:46:55,  4.47it/s]

지금 다 먹고 28880번째 도착완료 
  그리고 총 보상은 : 19.000000000000007 


 21%|██        | 62132/300000 [3:24:16<14:17:34,  4.62it/s]

지금 다 먹고 28881번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 62133/300000 [3:24:17<14:04:06,  4.70it/s]

지금 다 먹고 28882번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62134/300000 [3:24:17<13:57:36,  4.73it/s]

지금 다 먹고 28883번째 도착완료 
  그리고 총 보상은 : 19.900000000000002 


 21%|██        | 62136/300000 [3:24:17<13:53:53,  4.75it/s]

지금 다 먹고 28884번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62138/300000 [3:24:18<14:17:43,  4.62it/s]

지금 다 먹고 28885번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62140/300000 [3:24:18<14:37:15,  4.52it/s]

지금 다 먹고 28886번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 28887번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62142/300000 [3:24:19<13:27:35,  4.91it/s]

지금 다 먹고 28888번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62144/300000 [3:24:19<14:23:21,  4.59it/s]

지금 다 먹고 28889번째 도착완료 
  그리고 총 보상은 : 18.700000000000014 
지금 다 먹고 28890번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 21%|██        | 62146/300000 [3:24:19<13:16:25,  4.98it/s]

지금 다 먹고 28891번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 28892번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 

 21%|██        | 62147/300000 [3:24:20<13:24:54,  4.93it/s]


지금 다 먹고 28893번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62149/300000 [3:24:20<12:26:30,  5.31it/s]

지금 다 먹고 28894번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 28895번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 62151/300000 [3:24:20<12:04:31,  5.47it/s]

지금 다 먹고 28896번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 28897번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62155/300000 [3:24:21<14:26:43,  4.57it/s]

지금 다 먹고 28898번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62157/300000 [3:24:22<14:30:54,  4.55it/s]

지금 다 먹고 28899번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 28900번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 21%|██        | 62159/300000 [3:24:22<13:15:50,  4.98it/s]

지금 다 먹고 28901번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62161/300000 [3:24:23<14:25:02,  4.58it/s]

지금 다 먹고 28902번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 


 21%|██        | 62163/300000 [3:24:23<14:48:36,  4.46it/s]

지금 다 먹고 28903번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 28904번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 21%|██        | 62165/300000 [3:24:23<13:07:10,  5.04it/s]

지금 다 먹고 28905번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28906번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62167/300000 [3:24:24<12:55:37,  5.11it/s]

지금 다 먹고 28907번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 21%|██        | 62168/300000 [3:24:24<12:57:56,  5.10it/s]

지금 다 먹고 28908번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 28909번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62170/300000 [3:24:24<12:28:54,  5.29it/s]

지금 다 먹고 28910번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62172/300000 [3:24:25<13:39:28,  4.84it/s]

지금 다 먹고 28911번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 28912번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62174/300000 [3:24:25<12:31:15,  5.28it/s]

지금 다 먹고 28913번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 28914번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 21%|██        | 62176/300000 [3:24:26<12:04:01,  5.47it/s]

지금 다 먹고 28915번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62178/300000 [3:24:26<13:07:26,  5.03it/s]

지금 다 먹고 28916번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 28917번째 도착완료 
  그리고 총 보상은 : 20.7 


 21%|██        | 62180/300000 [3:24:26<12:40:24,  5.21it/s]

지금 다 먹고 28918번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 


 21%|██        | 62181/300000 [3:24:27<12:57:47,  5.10it/s]

지금 다 먹고 28919번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 
지금 다 먹고 28920번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 21%|██        | 62183/300000 [3:24:27<12:56:48,  5.10it/s]

지금 다 먹고 28921번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 
지금 다 먹고 28922번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62185/300000 [3:24:27<12:09:43,  5.43it/s]

지금 다 먹고 28923번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 28924번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 


 21%|██        | 62187/300000 [3:24:28<11:43:32,  5.63it/s]

지금 다 먹고 28925번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62189/300000 [3:24:28<13:31:41,  4.88it/s]

지금 다 먹고 28926번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 28927번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62191/300000 [3:24:29<15:11:40,  4.35it/s]

지금 다 먹고 28928번째 도착완료 
  그리고 총 보상은 : 10.400000000000011 


 21%|██        | 62192/300000 [3:24:29<14:53:00,  4.44it/s]

지금 다 먹고 28929번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 


 21%|██        | 62193/300000 [3:24:29<14:25:12,  4.58it/s]

지금 다 먹고 28930번째 도착완료 
  그리고 총 보상은 : 17.0 


 21%|██        | 62195/300000 [3:24:29<14:26:28,  4.57it/s]

지금 다 먹고 28931번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 28932번째 도착완료 
  그리고 총 보상은 : 9.900000000000002 


 21%|██        | 62197/300000 [3:24:30<13:48:00,  4.79it/s]

지금 다 먹고 28933번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 21%|██        | 62198/300000 [3:24:30<14:00:32,  4.72it/s]

지금 다 먹고 28934번째 도착완료 
  그리고 총 보상은 : 23.60000000000001 


 21%|██        | 62199/300000 [3:24:30<13:29:56,  4.89it/s]

지금 다 먹고 28935번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 28936번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62201/300000 [3:24:31<12:34:51,  5.25it/s]

지금 다 먹고 28937번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
epi = 14
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.900000000000006
 end : True
 clear : True
episode :14, score = 16.22900000000084, n_buffer :100000 , eps : 18.9
지금 다 먹고 28938번째 도착완료 
  그리고 총 보상은 : 20.80000000000001 

 21%|██        | 62202/300000 [3:24:31<12:42:28,  5.20it/s]


지금 다 먹고 28939번째 도착완료 
  그리고 총 보상은 : 25.0 


 21%|██        | 62204/300000 [3:24:31<12:12:11,  5.41it/s]

지금 다 먹고 28940번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 21%|██        | 62206/300000 [3:24:32<13:04:29,  5.05it/s]

지금 다 먹고 28941번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 28942번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62209/300000 [3:24:32<14:11:37,  4.65it/s]

지금 다 먹고 28943번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 28944번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62212/300000 [3:24:33<13:50:15,  4.77it/s]

지금 다 먹고 28945번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 28946번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62214/300000 [3:24:33<14:25:10,  4.58it/s]

지금 다 먹고 28947번째 도착완료 
  그리고 총 보상은 : 11.400000000000018 


 21%|██        | 62215/300000 [3:24:34<15:34:46,  4.24it/s]

지금 다 먹고 28948번째 도착완료 
  그리고 총 보상은 : 22.40000000000001 


 21%|██        | 62216/300000 [3:24:34<14:58:24,  4.41it/s]

지금 다 먹고 28949번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 62217/300000 [3:24:34<15:18:19,  4.32it/s]

지금 다 먹고 28950번째 도착완료 
  그리고 총 보상은 : 12.600000000000021 
지금 다 먹고 28951번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 


 21%|██        | 62219/300000 [3:24:34<13:32:58,  4.87it/s]

지금 다 먹고 28952번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 28953번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 62221/300000 [3:24:35<12:21:07,  5.35it/s]

지금 다 먹고 28954번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 28955번째 도착완료 
  그리고 총 보상은 : 24.5 


 21%|██        | 62223/300000 [3:24:35<12:15:11,  5.39it/s]

지금 다 먹고 28956번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62225/300000 [3:24:36<14:00:00,  4.72it/s]

지금 다 먹고 28957번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 21%|██        | 62226/300000 [3:24:36<15:05:50,  4.37it/s]

지금 다 먹고 28958번째 도착완료 
  그리고 총 보상은 : 16.90000000000002 
지금 다 먹고 28959번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 

 21%|██        | 62227/300000 [3:24:36<14:15:09,  4.63it/s]




 21%|██        | 62229/300000 [3:24:37<16:01:50,  4.12it/s]

지금 다 먹고 28960번째 도착완료 
  그리고 총 보상은 : 17.200000000000006 
지금 다 먹고 28961번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62231/300000 [3:24:37<14:25:35,  4.58it/s]

지금 다 먹고 28962번째 도착완료 
  그리고 총 보상은 : 25.000000000000014 
지금 다 먹고 28963번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 21%|██        | 62233/300000 [3:24:37<14:19:49,  4.61it/s]

지금 다 먹고 28964번째 도착완료 
  그리고 총 보상은 : 18.900000000000002 


 21%|██        | 62234/300000 [3:24:38<14:27:37,  4.57it/s]

지금 다 먹고 28965번째 도착완료 
  그리고 총 보상은 : 16.700000000000003 
지금 다 먹고 28966번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62236/300000 [3:24:38<13:28:19,  4.90it/s]

지금 다 먹고 28967번째 도착완료 
  그리고 총 보상은 : 19.3 
지금 다 먹고 28968번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62238/300000 [3:24:38<12:29:42,  5.29it/s]

지금 다 먹고 28969번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 28970번째 도착완료 
  그리고 총 보상은 : 25.6 


 21%|██        | 62240/300000 [3:24:39<11:48:40,  5.59it/s]

지금 다 먹고 28971번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 
지금 다 먹고 28972번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62242/300000 [3:24:39<11:40:11,  5.66it/s]

지금 다 먹고 28973번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 
지금 다 먹고 28974번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62244/300000 [3:24:39<11:52:10,  5.56it/s]

지금 다 먹고 28975번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62246/300000 [3:24:40<14:42:34,  4.49it/s]

지금 다 먹고 28976번째 도착완료 
  그리고 총 보상은 : 20.3 
지금 다 먹고 28977번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62248/300000 [3:24:40<14:50:54,  4.45it/s]

지금 다 먹고 28978번째 도착완료 
  그리고 총 보상은 : 19.40000000000001 


 21%|██        | 62249/300000 [3:24:41<14:46:01,  4.47it/s]

지금 다 먹고 28979번째 도착완료 
  그리고 총 보상은 : 21.300000000000015 
지금 다 먹고 28980번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 21%|██        | 62251/300000 [3:24:41<13:07:39,  5.03it/s]

지금 다 먹고 28981번째 도착완료 
  그리고 총 보상은 : 24.700000000000014 
지금 다 먹고 28982번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62253/300000 [3:24:41<12:19:39,  5.36it/s]

지금 다 먹고 28983번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 28984번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 62255/300000 [3:24:42<11:43:21,  5.63it/s]

지금 다 먹고 28985번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62257/300000 [3:24:42<14:44:45,  4.48it/s]

지금 다 먹고 28986번째 도착완료 
  그리고 총 보상은 : -5.900000000000027 


 21%|██        | 62259/300000 [3:24:43<14:53:53,  4.43it/s]

지금 다 먹고 28987번째 도착완료 
  그리고 총 보상은 : 5.400000000000006 
지금 다 먹고 28988번째 도착완료 
  그리고 총 보상은 : 25.1 


 21%|██        | 62261/300000 [3:24:43<13:09:54,  5.02it/s]

지금 다 먹고 28989번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62263/300000 [3:24:44<13:46:00,  4.80it/s]

지금 다 먹고 28990번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 28991번째 도착완료 
  그리고 총 보상은 : 11.400000000000002 


 21%|██        | 62265/300000 [3:24:44<13:47:04,  4.79it/s]

지금 다 먹고 28992번째 도착완료 
  그리고 총 보상은 : 9.000000000000005 
지금 다 먹고 28993번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 62267/300000 [3:24:44<12:54:03,  5.12it/s]

지금 다 먹고 28994번째 도착완료 
  그리고 총 보상은 : 17.800000000000004 


 21%|██        | 62268/300000 [3:24:45<14:20:45,  4.60it/s]

지금 다 먹고 28995번째 도착완료 
  그리고 총 보상은 : -24.200000000000024 


 21%|██        | 62269/300000 [3:24:45<13:39:31,  4.83it/s]

지금 다 먹고 28996번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 
지금 다 먹고 28997번째 도착완료 
  그리고 총 보상은 : 20.6 


 21%|██        | 62272/300000 [3:24:45<13:22:17,  4.94it/s]

지금 다 먹고 28998번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62274/300000 [3:24:46<13:31:30,  4.88it/s]

지금 다 먹고 28999번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62276/300000 [3:24:46<15:25:52,  4.28it/s]

지금 다 먹고 29000번째 도착완료 
  그리고 총 보상은 : 0.9000000000000021 
지금 다 먹고 29001번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 62278/300000 [3:24:47<13:53:52,  4.75it/s]

지금 다 먹고 29002번째 도착완료 
  그리고 총 보상은 : 6.500000000000005 


 21%|██        | 62279/300000 [3:24:47<14:54:37,  4.43it/s]

지금 다 먹고 29003번째 도착완료 
  그리고 총 보상은 : 4.799999999999965 


 21%|██        | 62280/300000 [3:24:47<14:33:43,  4.53it/s]

지금 다 먹고 29004번째 도착완료 
  그리고 총 보상은 : 15.300000000000008 
지금 다 먹고 29005번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62283/300000 [3:24:48<14:16:32,  4.63it/s]

지금 다 먹고 29006번째 도착완료 
  그리고 총 보상은 : 11.100000000000005 
지금 다 먹고 29007번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 21%|██        | 62285/300000 [3:24:48<13:52:20,  4.76it/s]

지금 다 먹고 29008번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 21%|██        | 62286/300000 [3:24:48<13:16:02,  4.98it/s]

지금 다 먹고 29009번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 29010번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 


 21%|██        | 62288/300000 [3:24:49<12:36:35,  5.24it/s]

지금 다 먹고 29011번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29012번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62291/300000 [3:24:49<13:00:05,  5.08it/s]

지금 다 먹고 29013번째 도착완료 
  그리고 총 보상은 : 24.0 
지금 다 먹고 29014번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 21%|██        | 62293/300000 [3:24:50<12:51:25,  5.14it/s]

지금 다 먹고 29015번째 도착완료 
  그리고 총 보상은 : 9.400000000000007 
지금 다 먹고 29016번째 도착완료 
  그리고 총 보상은 : 16.000000000000004 


 21%|██        | 62295/300000 [3:24:50<12:39:29,  5.22it/s]

지금 다 먹고 29017번째 도착완료 
  그리고 총 보상은 : 17.200000000000003 


 21%|██        | 62297/300000 [3:24:51<13:29:39,  4.89it/s]

지금 다 먹고 29018번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 29019번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62299/300000 [3:24:51<12:25:18,  5.32it/s]

지금 다 먹고 29020번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62300/300000 [3:24:51<12:50:05,  5.14it/s]

지금 다 먹고 29021번째 도착완료 
  그리고 총 보상은 : 18.900000000000006 
지금 다 먹고 29022번째 도착완료 
  그리고 총 보상은 : 11.300000000000006 


 21%|██        | 62302/300000 [3:24:51<12:22:48,  5.33it/s]

epi = 12
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :11.300000000000006
 end : True
 clear : True
episode :12, score = 14.004000000001296, n_buffer :100000 , eps : 18.85
지금 다 먹고 29023번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 62303/300000 [3:24:52<12:09:37,  5.43it/s]

지금 다 먹고 29024번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 62304/300000 [3:24:52<13:00:14,  5.08it/s]

지금 다 먹고 29025번째 도착완료 
  그리고 총 보상은 : 12.800000000000018 
지금 다 먹고 29026번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 62306/300000 [3:24:52<12:14:55,  5.39it/s]

지금 다 먹고 29027번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62307/300000 [3:24:52<13:38:48,  4.84it/s]

지금 다 먹고 29028번째 도착완료 
  그리고 총 보상은 : 6.4000000000000234 
지금 다 먹고 29029번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62309/300000 [3:24:53<12:36:23,  5.24it/s]

지금 다 먹고 29030번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29031번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 21%|██        | 62311/300000 [3:24:53<13:05:41,  5.04it/s]

지금 다 먹고 29032번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62312/300000 [3:24:53<13:03:04,  5.06it/s]

지금 다 먹고 29033번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62314/300000 [3:24:54<13:32:05,  4.88it/s]

지금 다 먹고 29034번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 29035번째 도착완료 
  그리고 총 보상은 : 21.500000000000007 


 21%|██        | 62316/300000 [3:24:54<13:03:05,  5.06it/s]

지금 다 먹고 29036번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 29037번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 62318/300000 [3:24:55<12:26:35,  5.31it/s]

지금 다 먹고 29038번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 29039번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62320/300000 [3:24:55<11:55:32,  5.54it/s]

지금 다 먹고 29040번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 29041번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62322/300000 [3:24:55<12:37:09,  5.23it/s]

지금 다 먹고 29042번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 29043번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62325/300000 [3:24:56<13:10:06,  5.01it/s]

지금 다 먹고 29044번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62327/300000 [3:24:56<13:43:53,  4.81it/s]

지금 다 먹고 29045번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29046번째 도착완료 
  그리고 총 보상은 : 25.1 


 21%|██        | 62329/300000 [3:24:57<12:36:17,  5.24it/s]

지금 다 먹고 29047번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 29048번째 도착완료 
  그리고 총 보상은 : 17.500000000000014 

 21%|██        | 62330/300000 [3:24:57<13:03:29,  5.06it/s]


지금 다 먹고 29049번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 62331/300000 [3:24:57<13:10:13,  5.01it/s]

지금 다 먹고 29050번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62333/300000 [3:24:58<12:35:45,  5.24it/s]

지금 다 먹고 29051번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 29052번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62335/300000 [3:24:58<12:40:57,  5.21it/s]

지금 다 먹고 29053번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 
지금 다 먹고 29054번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 21%|██        | 62337/300000 [3:24:58<12:14:38,  5.39it/s]

지금 다 먹고 29055번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29056번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62340/300000 [3:24:59<12:55:20,  5.11it/s]

지금 다 먹고 29057번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62342/300000 [3:24:59<13:37:31,  4.85it/s]

지금 다 먹고 29058번째 도착완료 
  그리고 총 보상은 : 22.7 


 21%|██        | 62344/300000 [3:25:00<14:55:42,  4.42it/s]

지금 다 먹고 29059번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 


 21%|██        | 62345/300000 [3:25:00<15:25:49,  4.28it/s]

지금 다 먹고 29060번째 도착완료 
  그리고 총 보상은 : 16.700000000000017 
지금 다 먹고 29061번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62348/300000 [3:25:01<14:54:27,  4.43it/s]

지금 다 먹고 29062번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 29063번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62350/300000 [3:25:01<13:10:57,  5.01it/s]

지금 다 먹고 29064번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29065번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62352/300000 [3:25:02<12:56:37,  5.10it/s]

지금 다 먹고 29066번째 도착완료 
  그리고 총 보상은 : 21.600000000000012 
지금 다 먹고 29067번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 21%|██        | 62354/300000 [3:25:02<12:28:25,  5.29it/s]

지금 다 먹고 29068번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 29069번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62356/300000 [3:25:02<12:08:02,  5.44it/s]

지금 다 먹고 29070번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 29071번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62359/300000 [3:25:03<13:08:15,  5.02it/s]

지금 다 먹고 29072번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 21%|██        | 62361/300000 [3:25:03<13:39:58,  4.83it/s]

지금 다 먹고 29073번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29074번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62363/300000 [3:25:04<12:25:36,  5.31it/s]

지금 다 먹고 29075번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62365/300000 [3:25:04<13:41:44,  4.82it/s]

지금 다 먹고 29076번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 
지금 다 먹고 29077번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62367/300000 [3:25:05<14:20:38,  4.60it/s]

지금 다 먹고 29078번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62368/300000 [3:25:05<13:40:47,  4.83it/s]

지금 다 먹고 29079번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 29080번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 21%|██        | 62370/300000 [3:25:05<13:06:09,  5.04it/s]

지금 다 먹고 29081번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 21%|██        | 62371/300000 [3:25:05<13:12:32,  5.00it/s]

지금 다 먹고 29082번째 도착완료 
  그리고 총 보상은 : 17.0 
지금 다 먹고 29083번째 도착완료 
  그리고 총 보상은 : 22.400000000000006 


 21%|██        | 62373/300000 [3:25:06<13:02:22,  5.06it/s]

지금 다 먹고 29084번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 29085번째 도착완료 
  그리고 총 보상은 : 27.500000000000007 


 21%|██        | 62376/300000 [3:25:06<13:19:38,  4.95it/s]

지금 다 먹고 29086번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 29087번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 


 21%|██        | 62378/300000 [3:25:07<12:35:44,  5.24it/s]

지금 다 먹고 29088번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 
지금 다 먹고 29089번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62380/300000 [3:25:07<11:52:16,  5.56it/s]

지금 다 먹고 29090번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62382/300000 [3:25:08<13:45:18,  4.80it/s]

지금 다 먹고 29091번째 도착완료 
  그리고 총 보상은 : 18.300000000000008 
지금 다 먹고 29092번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62384/300000 [3:25:08<14:44:55,  4.48it/s]

지금 다 먹고 29093번째 도착완료 
  그리고 총 보상은 : 14.600000000000016 
지금 다 먹고 29094번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 

 21%|██        | 62385/300000 [3:25:08<14:03:12,  4.70it/s]


지금 다 먹고 29095번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62387/300000 [3:25:09<13:11:59,  5.00it/s]

지금 다 먹고 29096번째 도착완료 
  그리고 총 보상은 : 25.00000000000001 
지금 다 먹고 29097번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 62389/300000 [3:25:09<12:40:38,  5.21it/s]

지금 다 먹고 29098번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 29099번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 21%|██        | 62391/300000 [3:25:09<12:51:35,  5.13it/s]

지금 다 먹고 29100번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 62393/300000 [3:25:10<14:34:55,  4.53it/s]

지금 다 먹고 29101번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 62395/300000 [3:25:10<15:04:52,  4.38it/s]

지금 다 먹고 29102번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29103번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62397/300000 [3:25:11<13:43:31,  4.81it/s]

지금 다 먹고 29104번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62398/300000 [3:25:11<13:19:23,  4.95it/s]

지금 다 먹고 29105번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 29106번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 62400/300000 [3:25:11<12:24:17,  5.32it/s]

지금 다 먹고 29107번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 29108번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 21%|██        | 62401/300000 [3:25:11<12:32:33,  5.26it/s]

epi = 10
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :24.500000000000004
 end : True
 clear : True
episode :10, score = 17.87800000000165, n_buffer :100000 , eps : 18.8
지금 다 먹고 29109번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 


 21%|██        | 62403/300000 [3:25:12<13:42:07,  4.82it/s]

지금 다 먹고 29110번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62404/300000 [3:25:12<13:32:44,  4.87it/s]

지금 다 먹고 29111번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 29112번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62406/300000 [3:25:13<13:28:41,  4.90it/s]

지금 다 먹고 29113번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62407/300000 [3:25:13<13:25:44,  4.91it/s]

지금 다 먹고 29114번째 도착완료 
  그리고 총 보상은 : 16.200000000000003 
지금 다 먹고 29115번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62410/300000 [3:25:13<13:54:36,  4.74it/s]

지금 다 먹고 29116번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62412/300000 [3:25:14<15:56:57,  4.14it/s]

지금 다 먹고 29117번째 도착완료 
  그리고 총 보상은 : 20.200000000000003 


 21%|██        | 62413/300000 [3:25:14<15:02:37,  4.39it/s]

지금 다 먹고 29118번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 29119번째 도착완료 
  그리고 총 보상은 : 22.7 


 21%|██        | 62416/300000 [3:25:15<14:19:04,  4.61it/s]

지금 다 먹고 29120번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 62418/300000 [3:25:15<14:25:05,  4.58it/s]

지금 다 먹고 29121번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29122번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62420/300000 [3:25:16<13:16:11,  4.97it/s]

지금 다 먹고 29123번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 29124번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 62422/300000 [3:25:16<14:11:46,  4.65it/s]

지금 다 먹고 29125번째 도착완료 
  그리고 총 보상은 : 20.100000000000012 


 21%|██        | 62423/300000 [3:25:16<14:01:52,  4.70it/s]

지금 다 먹고 29126번째 도착완료 
  그리고 총 보상은 : 21.1 
지금 다 먹고 29127번째 도착완료 
  그리고 총 보상은 : 25.400000000000002 


 21%|██        | 62424/300000 [3:25:16<14:05:35,  4.68it/s]

지금 다 먹고 29128번째 도착완료 
  그리고 총 보상은 : 28.6 

 21%|██        | 62425/300000 [3:25:17<13:27:19,  4.90it/s]




 21%|██        | 62427/300000 [3:25:17<13:40:04,  4.83it/s]

지금 다 먹고 29129번째 도착완료 
  그리고 총 보상은 : 24.900000000000002 
지금 다 먹고 29130번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 62429/300000 [3:25:17<12:38:20,  5.22it/s]

지금 다 먹고 29131번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 29132번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 62431/300000 [3:25:18<12:13:16,  5.40it/s]

지금 다 먹고 29133번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62433/300000 [3:25:18<14:08:59,  4.66it/s]

지금 다 먹고 29134번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29135번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62435/300000 [3:25:19<12:55:50,  5.10it/s]

지금 다 먹고 29136번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 29137번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 21%|██        | 62437/300000 [3:25:19<12:25:07,  5.31it/s]

지금 다 먹고 29138번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 29139번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62439/300000 [3:25:19<12:11:27,  5.41it/s]

지금 다 먹고 29140번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 29141번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62441/300000 [3:25:20<12:42:47,  5.19it/s]

지금 다 먹고 29142번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 29143번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62444/300000 [3:25:20<13:06:09,  5.04it/s]

지금 다 먹고 29144번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 29145번째 도착완료 
  그리고 총 보상은 : 17.000000000000004 


 21%|██        | 62446/300000 [3:25:21<12:24:48,  5.32it/s]

지금 다 먹고 29146번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 29147번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62448/300000 [3:25:21<11:55:15,  5.54it/s]

지금 다 먹고 29148번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62450/300000 [3:25:22<15:29:39,  4.26it/s]

지금 다 먹고 29149번째 도착완료 
  그리고 총 보상은 : 6.000000000000027 


 21%|██        | 62452/300000 [3:25:22<15:47:31,  4.18it/s]

지금 다 먹고 29150번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29151번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62454/300000 [3:25:23<13:56:01,  4.74it/s]

지금 다 먹고 29152번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29153번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 62456/300000 [3:25:23<12:37:33,  5.23it/s]

지금 다 먹고 29154번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29155번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62458/300000 [3:25:23<12:08:33,  5.43it/s]

지금 다 먹고 29156번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 29157번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62461/300000 [3:25:24<13:51:52,  4.76it/s]

지금 다 먹고 29158번째 도착완료 
  그리고 총 보상은 : 20.100000000000016 


 21%|██        | 62463/300000 [3:25:24<15:10:16,  4.35it/s]

지금 다 먹고 29159번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 29160번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62465/300000 [3:25:25<13:20:29,  4.95it/s]

지금 다 먹고 29161번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62467/300000 [3:25:25<14:10:48,  4.65it/s]

지금 다 먹고 29162번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29163번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 62469/300000 [3:25:26<13:15:20,  4.98it/s]

지금 다 먹고 29164번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62470/300000 [3:25:26<13:11:48,  5.00it/s]

지금 다 먹고 29165번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 29166번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62472/300000 [3:25:26<12:38:48,  5.22it/s]

지금 다 먹고 29167번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 
지금 다 먹고 29168번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 62474/300000 [3:25:27<12:49:57,  5.14it/s]

지금 다 먹고 29169번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 21%|██        | 62475/300000 [3:25:27<12:47:39,  5.16it/s]

지금 다 먹고 29170번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 29171번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62478/300000 [3:25:27<13:18:56,  4.95it/s]

지금 다 먹고 29172번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62480/300000 [3:25:28<14:12:28,  4.64it/s]

지금 다 먹고 29173번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 29174번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62482/300000 [3:25:28<12:59:04,  5.08it/s]

지금 다 먹고 29175번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62484/300000 [3:25:29<14:16:55,  4.62it/s]

지금 다 먹고 29176번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 29177번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62486/300000 [3:25:29<12:45:06,  5.17it/s]

지금 다 먹고 29178번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29179번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62488/300000 [3:25:29<12:13:06,  5.40it/s]

지금 다 먹고 29180번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29181번째 도착완료 
  그리고 총 보상은 : 21.5 


 21%|██        | 62490/300000 [3:25:30<11:53:32,  5.55it/s]

지금 다 먹고 29182번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 29183번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 62492/300000 [3:25:30<12:30:36,  5.27it/s]

지금 다 먹고 29184번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
지금 다 먹고 29185번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62495/300000 [3:25:31<13:36:57,  4.85it/s]

지금 다 먹고 29186번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62497/300000 [3:25:31<13:59:55,  4.71it/s]

지금 다 먹고 29187번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29188번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62499/300000 [3:25:32<12:33:02,  5.26it/s]

지금 다 먹고 29189번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 62501/300000 [3:25:32<13:32:45,  4.87it/s]

지금 다 먹고 29190번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
epi = 8
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.300000000000004
 end : True
 clear : True
episode :8, score = 16.018000000001116, n_buffer :100000 , eps : 18.75
지금 다 먹고 29191번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 62503/300000 [3:25:32<12:27:05,  5.30it/s]

지금 다 먹고 29192번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29193번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62505/300000 [3:25:33<12:54:40,  5.11it/s]

지금 다 먹고 29194번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 21%|██        | 62506/300000 [3:25:33<13:04:07,  5.05it/s]

지금 다 먹고 29195번째 도착완료 
  그리고 총 보상은 : 17.700000000000003 


 21%|██        | 62507/300000 [3:25:33<13:28:45,  4.89it/s]

지금 다 먹고 29196번째 도착완료 
  그리고 총 보상은 : 14.600000000000016 


 21%|██        | 62509/300000 [3:25:34<15:13:19,  4.33it/s]

지금 다 먹고 29197번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62510/300000 [3:25:34<14:31:41,  4.54it/s]

지금 다 먹고 29198번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62512/300000 [3:25:34<14:14:15,  4.63it/s]

지금 다 먹고 29199번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62513/300000 [3:25:35<14:45:32,  4.47it/s]

지금 다 먹고 29200번째 도착완료 
  그리고 총 보상은 : 13.900000000000034 


 21%|██        | 62514/300000 [3:25:35<14:42:19,  4.49it/s]

지금 다 먹고 29201번째 도착완료 
  그리고 총 보상은 : 17.200000000000017 


 21%|██        | 62520/300000 [3:25:36<16:54:28,  3.90it/s]

지금 다 먹고 29202번째 도착완료 
  그리고 총 보상은 : 18.60000000000001 
지금 다 먹고 29203번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 62522/300000 [3:25:37<14:27:29,  4.56it/s]

지금 다 먹고 29204번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29205번째 도착완료 
  그리고 총 보상은 : 18.4 


 21%|██        | 62524/300000 [3:25:37<14:22:41,  4.59it/s]

지금 다 먹고 29206번째 도착완료 
  그리고 총 보상은 : 20.200000000000006 


 21%|██        | 62525/300000 [3:25:38<15:22:55,  4.29it/s]

지금 다 먹고 29207번째 도착완료 
  그리고 총 보상은 : -42.500000000000014 


 21%|██        | 62526/300000 [3:25:38<14:47:35,  4.46it/s]

지금 다 먹고 29208번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 29209번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62529/300000 [3:25:38<14:26:49,  4.57it/s]

지금 다 먹고 29210번째 도착완료 
  그리고 총 보상은 : 19.200000000000014 
지금 다 먹고 29211번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62531/300000 [3:25:39<13:01:15,  5.07it/s]

지금 다 먹고 29212번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62533/300000 [3:25:39<13:45:40,  4.79it/s]

지금 다 먹고 29213번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62535/300000 [3:25:40<15:11:36,  4.34it/s]

지금 다 먹고 29214번째 도착완료 
  그리고 총 보상은 : 15.000000000000005 


 21%|██        | 62536/300000 [3:25:40<14:26:35,  4.57it/s]

지금 다 먹고 29215번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62537/300000 [3:25:40<13:43:34,  4.81it/s]

지금 다 먹고 29216번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 29217번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62539/300000 [3:25:40<12:58:38,  5.08it/s]

지금 다 먹고 29218번째 도착완료 
  그리고 총 보상은 : 11.200000000000006 
지금 다 먹고 29219번째 도착완료 
  그리고 총 보상은 : 20.7 


 21%|██        | 62541/300000 [3:25:41<12:59:19,  5.08it/s]

지금 다 먹고 29220번째 도착완료 
  그리고 총 보상은 : 10.200000000000001 
지금 다 먹고 29221번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62543/300000 [3:25:41<12:37:47,  5.22it/s]

지금 다 먹고 29222번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62546/300000 [3:25:42<16:13:22,  4.07it/s]

지금 다 먹고 29223번째 도착완료 
  그리고 총 보상은 : 6.89999999999999 


 21%|██        | 62547/300000 [3:25:42<15:12:45,  4.34it/s]

지금 다 먹고 29224번째 도착완료 
  그리고 총 보상은 : 25.900000000000002 
지금 다 먹고 29225번째 도착완료 
  그리고 총 보상은 : 23.600000000000005 


 21%|██        | 62549/300000 [3:25:43<14:03:49,  4.69it/s]

지금 다 먹고 29226번째 도착완료 
  그리고 총 보상은 : 18.000000000000004 
지금 다 먹고 29227번째 도착완료 
  그리고 총 보상은 : 16.6 


 21%|██        | 62552/300000 [3:25:43<13:57:51,  4.72it/s]

지금 다 먹고 29228번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 29229번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62554/300000 [3:25:44<13:37:40,  4.84it/s]

지금 다 먹고 29230번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 62555/300000 [3:25:44<13:53:10,  4.75it/s]

지금 다 먹고 29231번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 62556/300000 [3:25:44<13:50:29,  4.77it/s]

지금 다 먹고 29232번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62557/300000 [3:25:44<13:36:56,  4.84it/s]

지금 다 먹고 29233번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29234번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 

 21%|██        | 62558/300000 [3:25:45<13:36:18,  4.85it/s]


지금 다 먹고 29235번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62560/300000 [3:25:45<12:42:02,  5.19it/s]

지금 다 먹고 29236번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 29237번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62563/300000 [3:25:46<13:42:45,  4.81it/s]

지금 다 먹고 29238번째 도착완료 
  그리고 총 보상은 : 20.1 
지금 다 먹고 29239번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62565/300000 [3:25:46<13:38:00,  4.84it/s]

지금 다 먹고 29240번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 62566/300000 [3:25:46<14:00:45,  4.71it/s]

지금 다 먹고 29241번째 도착완료 
  그리고 총 보상은 : 15.000000000000018 
지금 다 먹고 29242번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 


 21%|██        | 62569/300000 [3:25:47<13:44:33,  4.80it/s]

지금 다 먹고 29243번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 29244번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62571/300000 [3:25:47<12:47:20,  5.16it/s]

지금 다 먹고 29245번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 29246번째 도착완료 
  그리고 총 보상은 : 24.700000000000006 


 21%|██        | 62573/300000 [3:25:48<12:54:56,  5.11it/s]

지금 다 먹고 29247번째 도착완료 
  그리고 총 보상은 : 15.300000000000013 
지금 다 먹고 29248번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 62575/300000 [3:25:48<12:49:38,  5.14it/s]

지금 다 먹고 29249번째 도착완료 
  그리고 총 보상은 : 20.700000000000006 
지금 다 먹고 29250번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 21%|██        | 62578/300000 [3:25:49<14:28:19,  4.56it/s]

지금 다 먹고 29251번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 29252번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62580/300000 [3:25:49<13:00:04,  5.07it/s]

지금 다 먹고 29253번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 29254번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62582/300000 [3:25:49<12:19:51,  5.35it/s]

지금 다 먹고 29255번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 
지금 다 먹고 29256번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 

 21%|██        | 62583/300000 [3:25:50<12:58:07,  5.09it/s]


지금 다 먹고 29257번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62586/300000 [3:25:50<13:45:20,  4.79it/s]

지금 다 먹고 29258번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 29259번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62588/300000 [3:25:51<13:01:39,  5.06it/s]

지금 다 먹고 29260번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62589/300000 [3:25:51<14:55:47,  4.42it/s]

지금 다 먹고 29261번째 도착완료 
  그리고 총 보상은 : 8.20000000000002 


 21%|██        | 62590/300000 [3:25:51<14:26:45,  4.57it/s]

지금 다 먹고 29262번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62591/300000 [3:25:51<14:35:58,  4.52it/s]

지금 다 먹고 29263번째 도착완료 
  그리고 총 보상은 : 14.900000000000015 
지금 다 먹고 29264번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62593/300000 [3:25:52<13:33:14,  4.87it/s]

지금 다 먹고 29265번째 도착완료 
  그리고 총 보상은 : 16.5 
지금 다 먹고 29266번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62597/300000 [3:25:53<14:44:55,  4.47it/s]

지금 다 먹고 29267번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62599/300000 [3:25:53<14:26:19,  4.57it/s]

지금 다 먹고 29268번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 29269번째 도착완료 
  그리고 총 보상은 : 25.700000000000006 


 21%|██        | 62601/300000 [3:25:53<13:12:07,  4.99it/s]

지금 다 먹고 29270번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 
epi = 6
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.500000000000004
 end : True
 clear : True
episode :6, score = 11.08500000000018, n_buffer :100000 , eps : 18.7


 21%|██        | 62603/300000 [3:25:54<14:36:26,  4.51it/s]

지금 다 먹고 29271번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 
지금 다 먹고 29272번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62605/300000 [3:25:54<13:46:44,  4.79it/s]

지금 다 먹고 29273번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 29274번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 62607/300000 [3:25:55<13:38:31,  4.83it/s]

지금 다 먹고 29275번째 도착완료 
  그리고 총 보상은 : 21.500000000000007 
지금 다 먹고 29276번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 62609/300000 [3:25:55<14:16:07,  4.62it/s]

지금 다 먹고 29277번째 도착완료 
  그리고 총 보상은 : 9.900000000000036 
지금 다 먹고 29278번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62611/300000 [3:25:56<13:03:37,  5.05it/s]

지금 다 먹고 29279번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 29280번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 62614/300000 [3:25:56<13:45:46,  4.79it/s]

지금 다 먹고 29281번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 29282번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62616/300000 [3:25:57<12:36:04,  5.23it/s]

지금 다 먹고 29283번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 29284번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 62618/300000 [3:25:57<12:10:19,  5.42it/s]

지금 다 먹고 29285번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 29286번째 도착완료 
  그리고 총 보상은 : 20.700000000000003 


 21%|██        | 62620/300000 [3:25:57<13:33:40,  4.86it/s]

지금 다 먹고 29287번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 21%|██        | 62621/300000 [3:25:58<13:47:23,  4.78it/s]

지금 다 먹고 29288번째 도착완료 
  그리고 총 보상은 : 17.7 


 21%|██        | 62622/300000 [3:25:58<13:39:17,  4.83it/s]

지금 다 먹고 29289번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 62623/300000 [3:25:58<14:01:01,  4.70it/s]

지금 다 먹고 29290번째 도착완료 
  그리고 총 보상은 : 18.80000000000002 


 21%|██        | 62624/300000 [3:25:58<13:56:16,  4.73it/s]

지금 다 먹고 29291번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 
지금 다 먹고 29292번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 21%|██        | 62626/300000 [3:25:59<13:24:42,  4.92it/s]

지금 다 먹고 29293번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 
지금 다 먹고 29294번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62628/300000 [3:25:59<12:27:41,  5.29it/s]

지금 다 먹고 29295번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 29296번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62631/300000 [3:26:00<13:03:51,  5.05it/s]

지금 다 먹고 29297번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 29298번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62633/300000 [3:26:00<12:48:33,  5.15it/s]

지금 다 먹고 29299번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 29300번째 도착완료 
  그리고 총 보상은 : 23.1 


 21%|██        | 62635/300000 [3:26:00<12:28:14,  5.29it/s]

지금 다 먹고 29301번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62637/300000 [3:26:01<14:50:04,  4.44it/s]

지금 다 먹고 29302번째 도착완료 
  그리고 총 보상은 : 22.2 
지금 다 먹고 29303번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 62639/300000 [3:26:01<14:09:50,  4.66it/s]

지금 다 먹고 29304번째 도착완료 
  그리고 총 보상은 : 17.70000000000001 
지금 다 먹고 29305번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62641/300000 [3:26:02<13:30:16,  4.88it/s]

지금 다 먹고 29306번째 도착완료 
  그리고 총 보상은 : 21.300000000000004 


 21%|██        | 62642/300000 [3:26:02<14:20:03,  4.60it/s]

지금 다 먹고 29307번째 도착완료 
  그리고 총 보상은 : 17.100000000000016 


 21%|██        | 62643/300000 [3:26:02<14:26:49,  4.56it/s]

지금 다 먹고 29308번째 도착완료 
  그리고 총 보상은 : 21.700000000000006 
지금 다 먹고 29309번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62645/300000 [3:26:02<13:19:04,  4.95it/s]

지금 다 먹고 29310번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 29311번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 62648/300000 [3:26:03<14:39:10,  4.50it/s]

지금 다 먹고 29312번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29313번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62650/300000 [3:26:04<14:04:36,  4.68it/s]

지금 다 먹고 29314번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62651/300000 [3:26:04<14:46:48,  4.46it/s]

지금 다 먹고 29315번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 


 21%|██        | 62652/300000 [3:26:04<14:10:52,  4.65it/s]

지금 다 먹고 29316번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62654/300000 [3:26:05<14:42:48,  4.48it/s]

지금 다 먹고 29317번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 
지금 다 먹고 29318번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62656/300000 [3:26:05<14:09:04,  4.66it/s]

지금 다 먹고 29319번째 도착완료 
  그리고 총 보상은 : 18.400000000000013 
지금 다 먹고 29320번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 21%|██        | 62658/300000 [3:26:05<13:27:49,  4.90it/s]

지금 다 먹고 29321번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62659/300000 [3:26:06<13:52:19,  4.75it/s]

지금 다 먹고 29322번째 도착완료 
  그리고 총 보상은 : 21.500000000000004 
지금 다 먹고 29323번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 21%|██        | 62660/300000 [3:26:06<14:10:05,  4.65it/s]

지금 다 먹고 29324번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62662/300000 [3:26:06<15:06:34,  4.36it/s]

지금 다 먹고 29325번째 도착완료 
  그리고 총 보상은 : 23.800000000000015 
지금 다 먹고 29326번째 도착완료 
  그리고 총 보상은 : 23.800000000000004 


 21%|██        | 62665/300000 [3:26:07<14:46:29,  4.46it/s]

지금 다 먹고 29327번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 29328번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 62667/300000 [3:26:07<14:51:51,  4.44it/s]

지금 다 먹고 29329번째 도착완료 
  그리고 총 보상은 : 19.2 
지금 다 먹고 29330번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62669/300000 [3:26:08<13:56:34,  4.73it/s]

지금 다 먹고 29331번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62671/300000 [3:26:08<14:25:49,  4.57it/s]

지금 다 먹고 29332번째 도착완료 
  그리고 총 보상은 : 19.300000000000008 
지금 다 먹고 29333번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62673/300000 [3:26:09<13:19:58,  4.94it/s]

지금 다 먹고 29334번째 도착완료 
  그리고 총 보상은 : 21.5 


 21%|██        | 62674/300000 [3:26:09<13:42:06,  4.81it/s]

지금 다 먹고 29335번째 도착완료 
  그리고 총 보상은 : 19.90000000000001 


 21%|██        | 62675/300000 [3:26:09<14:06:31,  4.67it/s]

지금 다 먹고 29336번째 도착완료 
  그리고 총 보상은 : 16.50000000000001 
지금 다 먹고 29337번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62677/300000 [3:26:09<13:06:12,  5.03it/s]

지금 다 먹고 29338번째 도착완료 
  그리고 총 보상은 : 25.600000000000005 
지금 다 먹고 29339번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62679/300000 [3:26:10<12:16:48,  5.37it/s]

지금 다 먹고 29340번째 도착완료 
  그리고 총 보상은 : 26.6 
지금 다 먹고 29341번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62682/300000 [3:26:10<14:00:09,  4.71it/s]

지금 다 먹고 29342번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 
지금 다 먹고 29343번째 도착완료 
  그리고 총 보상은 : 25.0 


 21%|██        | 62684/300000 [3:26:11<12:42:04,  5.19it/s]

지금 다 먹고 29344번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62686/300000 [3:26:11<13:22:33,  4.93it/s]

지금 다 먹고 29345번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 
지금 다 먹고 29346번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 21%|██        | 62688/300000 [3:26:12<13:31:48,  4.87it/s]

지금 다 먹고 29347번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 
지금 다 먹고 29348번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62690/300000 [3:26:12<13:10:29,  5.00it/s]

지금 다 먹고 29349번째 도착완료 
  그리고 총 보상은 : 17.6 
지금 다 먹고 29350번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 21%|██        | 62692/300000 [3:26:12<12:55:55,  5.10it/s]

지금 다 먹고 29351번째 도착완료 
  그리고 총 보상은 : 22.6 


 21%|██        | 62693/300000 [3:26:13<13:02:05,  5.06it/s]

지금 다 먹고 29352번째 도착완료 
  그리고 총 보상은 : 15.800000000000006 
지금 다 먹고 29353번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 21%|██        | 62695/300000 [3:26:13<12:16:12,  5.37it/s]

지금 다 먹고 29354번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29355번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 62697/300000 [3:26:13<12:04:17,  5.46it/s]

지금 다 먹고 29356번째 도착완료 
  그리고 총 보상은 : 14.900000000000002 


 21%|██        | 62699/300000 [3:26:14<14:02:25,  4.69it/s]

지금 다 먹고 29357번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 
지금 다 먹고 29358번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62701/300000 [3:26:14<13:28:37,  4.89it/s]

지금 다 먹고 29359번째 도착완료 
  그리고 총 보상은 : 21.900000000000006 
epi = 4
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :21.900000000000006
 end : True
 clear : True
episode :4, score = 18.516000000001842, n_buffer :100000 , eps : 18.65
지금 다 먹고 29360번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62703/300000 [3:26:15<12:36:03,  5.23it/s]

지금 다 먹고 29361번째 도착완료 
  그리고 총 보상은 : 15.300000000000004 


 21%|██        | 62705/300000 [3:26:15<13:36:35,  4.84it/s]

지금 다 먹고 29362번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 
지금 다 먹고 29363번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62707/300000 [3:26:15<12:56:58,  5.09it/s]

지금 다 먹고 29364번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 29365번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62709/300000 [3:26:16<12:26:14,  5.30it/s]

지금 다 먹고 29366번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 29367번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 62711/300000 [3:26:16<12:16:42,  5.37it/s]

지금 다 먹고 29368번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 29369번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62713/300000 [3:26:17<12:38:55,  5.21it/s]

지금 다 먹고 29370번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 62714/300000 [3:26:17<12:05:04,  5.45it/s]

지금 다 먹고 29371번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62716/300000 [3:26:17<12:56:03,  5.10it/s]

지금 다 먹고 29372번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62718/300000 [3:26:18<13:52:51,  4.75it/s]

지금 다 먹고 29373번째 도착완료 
  그리고 총 보상은 : 22.800000000000004 
지금 다 먹고 29374번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62720/300000 [3:26:18<12:19:50,  5.35it/s]

지금 다 먹고 29375번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62722/300000 [3:26:18<13:52:15,  4.75it/s]

지금 다 먹고 29376번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 29377번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 21%|██        | 62724/300000 [3:26:19<12:43:53,  5.18it/s]

지금 다 먹고 29378번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 29379번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 62726/300000 [3:26:19<12:29:56,  5.27it/s]

지금 다 먹고 29380번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62727/300000 [3:26:19<13:04:22,  5.04it/s]

지금 다 먹고 29381번째 도착완료 
  그리고 총 보상은 : 18.20000000000002 
지금 다 먹고 29382번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 21%|██        | 62729/300000 [3:26:20<12:06:45,  5.44it/s]

지금 다 먹고 29383번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62730/300000 [3:26:20<12:53:30,  5.11it/s]

지금 다 먹고 29384번째 도착완료 
  그리고 총 보상은 : 18.70000000000001 
지금 다 먹고 29385번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62733/300000 [3:26:21<13:02:36,  5.05it/s]

지금 다 먹고 29386번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29387번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 62735/300000 [3:26:21<12:17:02,  5.37it/s]

지금 다 먹고 29388번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 29389번째 도착완료 
  그리고 총 보상은 : 25.6 


 21%|██        | 62737/300000 [3:26:21<12:07:14,  5.44it/s]

지금 다 먹고 29390번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62739/300000 [3:26:22<13:29:21,  4.89it/s]

지금 다 먹고 29391번째 도착완료 
  그리고 총 보상은 : 21.9 
지금 다 먹고 29392번째 도착완료 
  그리고 총 보상은 : 21.799999999999997 


 21%|██        | 62741/300000 [3:26:22<13:00:55,  5.06it/s]

지금 다 먹고 29393번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 21%|██        | 62742/300000 [3:26:22<13:46:12,  4.79it/s]

지금 다 먹고 29394번째 도착완료 
  그리고 총 보상은 : 19.500000000000014 


 21%|██        | 62743/300000 [3:26:23<14:01:52,  4.70it/s]

지금 다 먹고 29395번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 
지금 다 먹고 29396번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 


 21%|██        | 62745/300000 [3:26:23<12:38:49,  5.21it/s]

지금 다 먹고 29397번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 29398번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62747/300000 [3:26:23<12:37:49,  5.22it/s]

지금 다 먹고 29399번째 도착완료 
  그리고 총 보상은 : 16.7 
지금 다 먹고 29400번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62750/300000 [3:26:24<14:22:15,  4.59it/s]

지금 다 먹고 29401번째 도착완료 
  그리고 총 보상은 : 12.100000000000017 


 21%|██        | 62751/300000 [3:26:24<14:15:30,  4.62it/s]

지금 다 먹고 29402번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 
지금 다 먹고 29403번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62753/300000 [3:26:25<13:52:07,  4.75it/s]

지금 다 먹고 29404번째 도착완료 
  그리고 총 보상은 : 24.000000000000007 
지금 다 먹고 29405번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62756/300000 [3:26:25<13:20:43,  4.94it/s]

지금 다 먹고 29406번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 29407번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62758/300000 [3:26:26<12:49:49,  5.14it/s]

지금 다 먹고 29408번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 
지금 다 먹고 29409번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 


 21%|██        | 62760/300000 [3:26:26<12:45:39,  5.16it/s]

지금 다 먹고 29410번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 
지금 다 먹고 29411번째 도착완료 
  그리고 총 보상은 : 19.900000000000016 


 21%|██        | 62762/300000 [3:26:26<12:37:41,  5.22it/s]

지금 다 먹고 29412번째 도착완료 
  그리고 총 보상은 : 22.700000000000006 
지금 다 먹고 29413번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 62764/300000 [3:26:27<12:45:04,  5.17it/s]

지금 다 먹고 29414번째 도착완료 
  그리고 총 보상은 : 21.300000000000008 
지금 다 먹고 29415번째 도착완료 
  그리고 총 보상은 : 18.7 


 21%|██        | 62767/300000 [3:26:27<12:57:09,  5.09it/s]

지금 다 먹고 29416번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 29417번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62769/300000 [3:26:28<12:42:47,  5.18it/s]

지금 다 먹고 29418번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 21%|██        | 62770/300000 [3:26:28<13:49:47,  4.76it/s]

지금 다 먹고 29419번째 도착완료 
  그리고 총 보상은 : 16.300000000000026 
지금 다 먹고 29420번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 62774/300000 [3:26:29<14:35:21,  4.52it/s]

지금 다 먹고 29421번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 29422번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 21%|██        | 62776/300000 [3:26:29<12:59:26,  5.07it/s]

지금 다 먹고 29423번째 도착완료 
  그리고 총 보상은 : 24.1 


 21%|██        | 62777/300000 [3:26:29<14:32:11,  4.53it/s]

지금 다 먹고 29424번째 도착완료 
  그리고 총 보상은 : 6.700000000000047 


 21%|██        | 62778/300000 [3:26:30<14:31:30,  4.54it/s]

지금 다 먹고 29425번째 도착완료 
  그리고 총 보상은 : 24.600000000000016 
지금 다 먹고 29426번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 62780/300000 [3:26:30<13:21:39,  4.93it/s]

지금 다 먹고 29427번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 
지금 다 먹고 29428번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62782/300000 [3:26:30<12:24:06,  5.31it/s]

지금 다 먹고 29429번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 29430번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 62784/300000 [3:26:31<12:47:10,  5.15it/s]

지금 다 먹고 29431번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 21%|██        | 62786/300000 [3:26:31<13:46:21,  4.78it/s]

지금 다 먹고 29432번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 29433번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 62788/300000 [3:26:32<12:50:30,  5.13it/s]

지금 다 먹고 29434번째 도착완료 
  그리고 총 보상은 : 18.400000000000006 


 21%|██        | 62790/300000 [3:26:32<14:15:59,  4.62it/s]

지금 다 먹고 29435번째 도착완료 
  그리고 총 보상은 : 24.20000000000001 


 21%|██        | 62791/300000 [3:26:32<13:30:00,  4.88it/s]

지금 다 먹고 29436번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62792/300000 [3:26:32<13:35:56,  4.85it/s]

지금 다 먹고 29437번째 도착완료 
  그리고 총 보상은 : 19.900000000000006 
지금 다 먹고 29438번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 21%|██        | 62794/300000 [3:26:33<12:45:51,  5.16it/s]

지금 다 먹고 29439번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 
지금 다 먹고 29440번째 도착완료 
  그리고 총 보상은 : 22.3 


 21%|██        | 62796/300000 [3:26:33<12:32:20,  5.25it/s]

지금 다 먹고 29441번째 도착완료 
  그리고 총 보상은 : 24.1 
지금 다 먹고 29442번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62798/300000 [3:26:34<12:52:04,  5.12it/s]

지금 다 먹고 29443번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 
지금 다 먹고 29444번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62800/300000 [3:26:34<14:02:40,  4.69it/s]

지금 다 먹고 29445번째 도착완료 
  그리고 총 보상은 : 9.199999999999996 
지금 다 먹고 29446번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62802/300000 [3:26:34<13:05:40,  5.03it/s]

epi = 2
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.300000000000004
 end : True
 clear : True
episode :2, score = 17.682000000001793, n_buffer :100000 , eps : 18.6
지금 다 먹고 29447번째 도착완료 
  그리고 총 보상은 : 21.400000000000002 


 21%|██        | 62803/300000 [3:26:35<13:31:13,  4.87it/s]

지금 다 먹고 29448번째 도착완료 
  그리고 총 보상은 : 23.00000000000001 
지금 다 먹고 29449번째 도착완료 
  그리고 총 보상은 : 23.6 


 21%|██        | 62805/300000 [3:26:35<12:42:09,  5.19it/s]

지금 다 먹고 29450번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62807/300000 [3:26:35<13:14:30,  4.98it/s]

지금 다 먹고 29451번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 29452번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62809/300000 [3:26:36<13:24:32,  4.91it/s]

지금 다 먹고 29453번째 도착완료 
  그리고 총 보상은 : 25.80000000000001 


 21%|██        | 62810/300000 [3:26:36<13:41:16,  4.81it/s]

지금 다 먹고 29454번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 
지금 다 먹고 29455번째 도착완료 
  그리고 총 보상은 : 18.800000000000004 


 21%|██        | 62812/300000 [3:26:36<13:18:20,  4.95it/s]

지금 다 먹고 29456번째 도착완료 
  그리고 총 보상은 : 14.600000000000001 


 21%|██        | 62813/300000 [3:26:37<14:14:23,  4.63it/s]

지금 다 먹고 29457번째 도착완료 
  그리고 총 보상은 : 16.70000000000001 


 21%|██        | 62814/300000 [3:26:37<13:53:34,  4.74it/s]

지금 다 먹고 29458번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 21%|██        | 62815/300000 [3:26:37<14:11:07,  4.64it/s]

지금 다 먹고 29459번째 도착완료 
  그리고 총 보상은 : 10.300000000000017 
지금 다 먹고 29460번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62818/300000 [3:26:38<13:24:20,  4.91it/s]

지금 다 먹고 29461번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62820/300000 [3:26:38<14:17:39,  4.61it/s]

지금 다 먹고 29462번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 29463번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 62822/300000 [3:26:39<13:10:34,  5.00it/s]

지금 다 먹고 29464번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62824/300000 [3:26:39<14:34:18,  4.52it/s]

지금 다 먹고 29465번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 29466번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62826/300000 [3:26:39<13:29:09,  4.89it/s]

지금 다 먹고 29467번째 도착완료 
  그리고 총 보상은 : 21.30000000000001 


 21%|██        | 62828/300000 [3:26:40<15:34:43,  4.23it/s]

지금 다 먹고 29468번째 도착완료 
  그리고 총 보상은 : 20.800000000000008 


 21%|██        | 62829/300000 [3:26:40<15:34:09,  4.23it/s]

지금 다 먹고 29469번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 


 21%|██        | 62830/300000 [3:26:40<15:22:21,  4.29it/s]

지금 다 먹고 29470번째 도착완료 
  그리고 총 보상은 : 21.100000000000005 


 21%|██        | 62831/300000 [3:26:41<14:46:38,  4.46it/s]

지금 다 먹고 29471번째 도착완료 
  그리고 총 보상은 : 25.6 


 21%|██        | 62833/300000 [3:26:41<14:13:55,  4.63it/s]

지금 다 먹고 29472번째 도착완료 
  그리고 총 보상은 : 28.1 
지금 다 먹고 29473번째 도착완료 
  그리고 총 보상은 : 22.900000000000002 


 21%|██        | 62835/300000 [3:26:41<12:56:18,  5.09it/s]

지금 다 먹고 29474번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 29475번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 62837/300000 [3:26:42<13:34:12,  4.85it/s]

지금 다 먹고 29476번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62838/300000 [3:26:42<13:30:08,  4.88it/s]

지금 다 먹고 29477번째 도착완료 
  그리고 총 보상은 : 13.200000000000005 
지금 다 먹고 29478번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62841/300000 [3:26:43<15:04:02,  4.37it/s]

지금 다 먹고 29479번째 도착완료 
  그리고 총 보상은 : 17.900000000000002 
지금 다 먹고 29480번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62843/300000 [3:26:43<13:35:00,  4.85it/s]

지금 다 먹고 29481번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 29482번째 도착완료 
  그리고 총 보상은 : 21.10000000000001 

 21%|██        | 62844/300000 [3:26:43<13:20:55,  4.94it/s]


지금 다 먹고 29483번째 도착완료 
  그리고 총 보상은 : 23.400000000000013 


 21%|██        | 62846/300000 [3:26:44<13:11:16,  5.00it/s]

지금 다 먹고 29484번째 도착완료 
  그리고 총 보상은 : 14.200000000000003 
지금 다 먹고 29485번째 도착완료 
  그리고 총 보상은 : 26.300000000000008 


 21%|██        | 62848/300000 [3:26:44<13:09:11,  5.01it/s]

지금 다 먹고 29486번째 도착완료 
  그리고 총 보상은 : 22.3 
지금 다 먹고 29487번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 21%|██        | 62850/300000 [3:26:45<13:01:58,  5.05it/s]

지금 다 먹고 29488번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 62852/300000 [3:26:45<13:37:04,  4.84it/s]

지금 다 먹고 29489번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 62854/300000 [3:26:45<13:53:03,  4.74it/s]

지금 다 먹고 29490번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29491번째 도착완료 
  그리고 총 보상은 : 23.500000000000004 


 21%|██        | 62856/300000 [3:26:46<13:36:56,  4.84it/s]

지금 다 먹고 29492번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 62857/300000 [3:26:46<15:05:40,  4.36it/s]

지금 다 먹고 29493번째 도착완료 
  그리고 총 보상은 : 5.60000000000003 


 21%|██        | 62858/300000 [3:26:46<14:26:07,  4.56it/s]

지금 다 먹고 29494번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29495번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 62860/300000 [3:26:47<13:26:53,  4.90it/s]

지금 다 먹고 29496번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 29497번째 도착완료 
  그리고 총 보상은 : 25.200000000000003 


 21%|██        | 62862/300000 [3:26:47<12:57:00,  5.09it/s]

지금 다 먹고 29498번째 도착완료 
  그리고 총 보상은 : 23.00000000000001 


 21%|██        | 62864/300000 [3:26:48<13:56:21,  4.73it/s]

지금 다 먹고 29499번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 21%|██        | 62865/300000 [3:26:48<15:01:31,  4.38it/s]

지금 다 먹고 29500번째 도착완료 
  그리고 총 보상은 : 14.400000000000018 


 21%|██        | 62866/300000 [3:26:48<14:46:46,  4.46it/s]

지금 다 먹고 29501번째 도착완료 
  그리고 총 보상은 : 23.3 
지금 다 먹고 29502번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62869/300000 [3:26:49<14:10:32,  4.65it/s]

지금 다 먹고 29503번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 29504번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62871/300000 [3:26:49<12:40:09,  5.20it/s]

지금 다 먹고 29505번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29506번째 도착완료 
  그리고 총 보상은 : 26.6 


 21%|██        | 62873/300000 [3:26:49<12:12:38,  5.39it/s]

지금 다 먹고 29507번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62874/300000 [3:26:50<13:17:09,  4.96it/s]

지금 다 먹고 29508번째 도착완료 
  그리고 총 보상은 : 12.500000000000018 


 21%|██        | 62875/300000 [3:26:50<12:50:52,  5.13it/s]

지금 다 먹고 29509번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 
지금 다 먹고 29510번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 62877/300000 [3:26:50<12:05:47,  5.45it/s]

지금 다 먹고 29511번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 
지금 다 먹고 29512번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 62880/300000 [3:26:51<13:59:32,  4.71it/s]

지금 다 먹고 29513번째 도착완료 
  그리고 총 보상은 : -1.7000000000000313 
지금 다 먹고 29514번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 21%|██        | 62882/300000 [3:26:51<13:08:02,  5.01it/s]

지금 다 먹고 29515번째 도착완료 
  그리고 총 보상은 : 24.600000000000012 


 21%|██        | 62884/300000 [3:26:52<14:15:14,  4.62it/s]

지금 다 먹고 29516번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62886/300000 [3:26:52<14:42:51,  4.48it/s]

지금 다 먹고 29517번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62888/300000 [3:26:53<14:59:18,  4.39it/s]

지금 다 먹고 29518번째 도착완료 
  그리고 총 보상은 : 22.200000000000003 


 21%|██        | 62889/300000 [3:26:53<14:57:12,  4.40it/s]

지금 다 먹고 29519번째 도착완료 
  그리고 총 보상은 : 24.500000000000014 
지금 다 먹고 29520번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62892/300000 [3:26:53<14:21:40,  4.59it/s]

지금 다 먹고 29521번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 21%|██        | 62893/300000 [3:26:54<14:28:29,  4.55it/s]

지금 다 먹고 29522번째 도착완료 
  그리고 총 보상은 : -13.400000000000006 
지금 다 먹고 29523번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 62895/300000 [3:26:54<13:15:16,  4.97it/s]

지금 다 먹고 29524번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 62897/300000 [3:26:55<13:55:02,  4.73it/s]

지금 다 먹고 29525번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 21%|██        | 62898/300000 [3:26:55<13:39:47,  4.82it/s]

지금 다 먹고 29526번째 도착완료 
  그리고 총 보상은 : 22.300000000000004 
지금 다 먹고 29527번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 62900/300000 [3:26:55<13:15:56,  4.96it/s]

지금 다 먹고 29528번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 29529번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 62901/300000 [3:26:55<12:59:06,  5.07it/s]

epi = 0
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :27.900000000000006
 end : True
 clear : True
episode :0, score = 15.450000000001351, n_buffer :100000 , eps : 18.55


 21%|██        | 62903/300000 [3:26:56<14:28:13,  4.55it/s]

지금 다 먹고 29530번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62905/300000 [3:26:56<14:23:34,  4.58it/s]

지금 다 먹고 29531번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 29532번째 도착완료 
  그리고 총 보상은 : 23.40000000000001 


 21%|██        | 62907/300000 [3:26:57<13:36:24,  4.84it/s]

지금 다 먹고 29533번째 도착완료 
  그리고 총 보상은 : 18.100000000000005 


 21%|██        | 62909/300000 [3:26:57<15:25:15,  4.27it/s]

지금 다 먹고 29534번째 도착완료 
  그리고 총 보상은 : 17.400000000000016 
지금 다 먹고 29535번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62911/300000 [3:26:58<14:21:14,  4.59it/s]

지금 다 먹고 29536번째 도착완료 
  그리고 총 보상은 : 15.900000000000006 


 21%|██        | 62912/300000 [3:26:58<14:16:45,  4.61it/s]

지금 다 먹고 29537번째 도착완료 
  그리고 총 보상은 : 25.000000000000007 


 21%|██        | 62913/300000 [3:26:58<14:03:23,  4.69it/s]

지금 다 먹고 29538번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 29539번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 

 21%|██        | 62914/300000 [3:26:58<13:42:41,  4.80it/s]




 21%|██        | 62915/300000 [3:26:58<13:20:44,  4.93it/s]

지금 다 먹고 29540번째 도착완료 
  그리고 총 보상은 : 21.400000000000006 
지금 다 먹고 29541번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 62917/300000 [3:26:59<12:51:55,  5.12it/s]

지금 다 먹고 29542번째 도착완료 
  그리고 총 보상은 : 23.30000000000001 
지금 다 먹고 29543번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62919/300000 [3:26:59<12:46:52,  5.15it/s]

지금 다 먹고 29544번째 도착완료 
  그리고 총 보상은 : 4.500000000000014 
지금 다 먹고 29545번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 62922/300000 [3:27:00<13:54:11,  4.74it/s]

지금 다 먹고 29546번째 도착완료 
  그리고 총 보상은 : 22.6 
지금 다 먹고 29547번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 62924/300000 [3:27:00<13:14:30,  4.97it/s]

지금 다 먹고 29548번째 도착완료 
  그리고 총 보상은 : 20.9 
지금 다 먹고 29549번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 21%|██        | 62927/300000 [3:27:01<13:28:37,  4.89it/s]

지금 다 먹고 29550번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 62928/300000 [3:27:01<13:54:53,  4.73it/s]

지금 다 먹고 29551번째 도착완료 
  그리고 총 보상은 : 19.70000000000001 
지금 다 먹고 29552번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 62930/300000 [3:27:01<12:56:40,  5.09it/s]

지금 다 먹고 29553번째 도착완료 
  그리고 총 보상은 : 22.20000000000001 
지금 다 먹고 29554번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 62932/300000 [3:27:02<12:24:57,  5.30it/s]

지금 다 먹고 29555번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29556번째 도착완료 
  그리고 총 보상은 : 25.1 


 21%|██        | 62935/300000 [3:27:02<12:52:00,  5.12it/s]

지금 다 먹고 29557번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62937/300000 [3:27:03<13:25:11,  4.91it/s]

지금 다 먹고 29558번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62939/300000 [3:27:03<14:06:31,  4.67it/s]

지금 다 먹고 29559번째 도착완료 
  그리고 총 보상은 : 23.300000000000008 


 21%|██        | 62940/300000 [3:27:04<15:15:24,  4.32it/s]

지금 다 먹고 29560번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 21%|██        | 62941/300000 [3:27:04<14:23:42,  4.57it/s]

지금 다 먹고 29561번째 도착완료 
  그리고 총 보상은 : 23.700000000000003 


 21%|██        | 62943/300000 [3:27:04<15:02:51,  4.38it/s]

지금 다 먹고 29562번째 도착완료 
  그리고 총 보상은 : 19.200000000000014 
지금 다 먹고 29563번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62945/300000 [3:27:05<13:09:15,  5.01it/s]

지금 다 먹고 29564번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 
지금 다 먹고 29565번째 도착완료 
  그리고 총 보상은 : 22.5 


 21%|██        | 62947/300000 [3:27:05<12:30:51,  5.26it/s]

지금 다 먹고 29566번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 
지금 다 먹고 29567번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 62949/300000 [3:27:05<12:16:55,  5.36it/s]

지금 다 먹고 29568번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 
지금 다 먹고 29569번째 도착완료 
  그리고 총 보상은 : 27.400000000000002 


 21%|██        | 62951/300000 [3:27:06<11:47:04,  5.59it/s]

지금 다 먹고 29570번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 29571번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 62954/300000 [3:27:06<12:50:55,  5.12it/s]

지금 다 먹고 29572번째 도착완료 
  그리고 총 보상은 : 28.0 


 21%|██        | 62956/300000 [3:27:07<13:40:44,  4.81it/s]

지금 다 먹고 29573번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 62957/300000 [3:27:07<13:56:38,  4.72it/s]

지금 다 먹고 29574번째 도착완료 
  그리고 총 보상은 : 19.700000000000014 
지금 다 먹고 29575번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 62960/300000 [3:27:08<13:51:02,  4.75it/s]

지금 다 먹고 29576번째 도착완료 
  그리고 총 보상은 : 23.6 
지금 다 먹고 29577번째 도착완료 
  그리고 총 보상은 : 23.900000000000002 


 21%|██        | 62962/300000 [3:27:08<12:52:53,  5.11it/s]

지금 다 먹고 29578번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 29579번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 62964/300000 [3:27:08<12:29:44,  5.27it/s]

지금 다 먹고 29580번째 도착완료 
  그리고 총 보상은 : 24.600000000000012 
지금 다 먹고 29581번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 


 21%|██        | 62966/300000 [3:27:09<13:34:17,  4.85it/s]

지금 다 먹고 29582번째 도착완료 
  그리고 총 보상은 : -3.900000000000041 


 21%|██        | 62967/300000 [3:27:09<13:42:21,  4.80it/s]

지금 다 먹고 29583번째 도착완료 
  그리고 총 보상은 : 23.1 


 21%|██        | 62968/300000 [3:27:09<14:20:11,  4.59it/s]

지금 다 먹고 29584번째 도착완료 
  그리고 총 보상은 : -3.900000000000041 
지금 다 먹고 29585번째 도착완료 
  그리고 총 보상은 : 5.0000000000000036 


 21%|██        | 62971/300000 [3:27:10<15:25:16,  4.27it/s]

지금 다 먹고 29586번째 도착완료 
  그리고 총 보상은 : 19.900000000000016 


 21%|██        | 62973/300000 [3:27:10<15:41:52,  4.19it/s]

지금 다 먹고 29587번째 도착완료 
  그리고 총 보상은 : 20.40000000000001 


 21%|██        | 62974/300000 [3:27:11<15:58:32,  4.12it/s]

지금 다 먹고 29588번째 도착완료 
  그리고 총 보상은 : 12.80000000000003 
지금 다 먹고 29589번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 62977/300000 [3:27:11<14:22:06,  4.58it/s]

지금 다 먹고 29590번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29591번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 62979/300000 [3:27:12<13:53:08,  4.74it/s]

지금 다 먹고 29592번째 도착완료 
  그리고 총 보상은 : -5.400000000000016 
지금 다 먹고 29593번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 21%|██        | 62981/300000 [3:27:12<13:11:05,  4.99it/s]

지금 다 먹고 29594번째 도착완료 
  그리고 총 보상은 : 26.40000000000001 


 21%|██        | 62982/300000 [3:27:12<13:36:52,  4.84it/s]

지금 다 먹고 29595번째 도착완료 
  그리고 총 보상은 : 18.100000000000005 
지금 다 먹고 29596번째 도착완료 
  그리고 총 보상은 : 21.000000000000004 

 21%|██        | 62983/300000 [3:27:12<13:39:19,  4.82it/s]


지금 다 먹고 29597번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 62985/300000 [3:27:13<13:12:44,  4.98it/s]

지금 다 먹고 29598번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29599번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 62988/300000 [3:27:14<14:38:16,  4.50it/s]

지금 다 먹고 29600번째 도착완료 
  그리고 총 보상은 : 16.600000000000016 


 21%|██        | 62990/300000 [3:27:14<15:01:20,  4.38it/s]

지금 다 먹고 29601번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 29602번째 도착완료 
  그리고 총 보상은 : 26.6 


 21%|██        | 62992/300000 [3:27:14<13:38:02,  4.83it/s]

지금 다 먹고 29603번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 62995/300000 [3:27:15<15:11:36,  4.33it/s]

지금 다 먹고 29604번째 도착완료 
  그리고 총 보상은 : 13.300000000000006 


 21%|██        | 62996/300000 [3:27:15<14:43:48,  4.47it/s]

지금 다 먹고 29605번째 도착완료 
  그리고 총 보상은 : -0.5000000000000391 
지금 다 먹고 29606번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 62998/300000 [3:27:16<12:57:06,  5.08it/s]

지금 다 먹고 29607번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 29608번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 63000/300000 [3:27:16<12:28:21,  5.28it/s]

지금 다 먹고 29609번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 
지금 다 먹고 29610번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 63002/300000 [3:27:16<12:19:02,  5.34it/s]

epi = 15
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :26.900000000000002
 end : True
 clear : True
episode :15, score = 13.24900000000029, n_buffer :100000 , eps : 18.5
지금 다 먹고 29611번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 63003/300000 [3:27:17<12:45:11,  5.16it/s]

지금 다 먹고 29612번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63005/300000 [3:27:17<14:06:37,  4.67it/s]

지금 다 먹고 29613번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 63007/300000 [3:27:18<14:09:20,  4.65it/s]

지금 다 먹고 29614번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 29615번째 도착완료 
  그리고 총 보상은 : 18.500000000000004 


 21%|██        | 63009/300000 [3:27:18<13:20:37,  4.93it/s]

지금 다 먹고 29616번째 도착완료 
  그리고 총 보상은 : 27.5 


 21%|██        | 63011/300000 [3:27:19<15:41:12,  4.20it/s]

지금 다 먹고 29617번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 21%|██        | 63012/300000 [3:27:19<14:13:38,  4.63it/s]

지금 다 먹고 29618번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 29619번째 도착완료 
  그리고 총 보상은 : 17.200000000000003 


 21%|██        | 63014/300000 [3:27:19<13:06:18,  5.02it/s]

지금 다 먹고 29620번째 도착완료 
  그리고 총 보상은 : 14.900000000000004 
지금 다 먹고 29621번째 도착완료 
  그리고 총 보상은 : 9.800000000000008 


 21%|██        | 63016/300000 [3:27:19<13:10:32,  5.00it/s]

지금 다 먹고 29622번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 29623번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63018/300000 [3:27:20<12:16:54,  5.36it/s]

지금 다 먹고 29624번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 29625번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 63020/300000 [3:27:20<11:56:39,  5.51it/s]

지금 다 먹고 29626번째 도착완료 
  그리고 총 보상은 : 28.6 
지금 다 먹고 29627번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 21%|██        | 63022/300000 [3:27:21<12:29:47,  5.27it/s]

지금 다 먹고 29628번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 
지금 다 먹고 29629번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 63024/300000 [3:27:21<12:18:24,  5.35it/s]

지금 다 먹고 29630번째 도착완료 
  그리고 총 보상은 : 23.500000000000007 


 21%|██        | 63025/300000 [3:27:21<13:04:26,  5.03it/s]

지금 다 먹고 29631번째 도착완료 
  그리고 총 보상은 : 20.000000000000007 
지금 다 먹고 29632번째 도착완료 
  그리고 총 보상은 : 17.1 


 21%|██        | 63028/300000 [3:27:22<13:36:20,  4.84it/s]

지금 다 먹고 29633번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 29634번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 63030/300000 [3:27:22<13:28:50,  4.88it/s]

지금 다 먹고 29635번째 도착완료 
  그리고 총 보상은 : 17.700000000000006 
지금 다 먹고 29636번째 도착완료 
  그리고 총 보상은 : 24.60000000000001 


 21%|██        | 63032/300000 [3:27:23<13:56:16,  4.72it/s]

지금 다 먹고 29637번째 도착완료 
  그리고 총 보상은 : 17.900000000000002 
지금 다 먹고 29638번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63034/300000 [3:27:23<12:40:13,  5.20it/s]

지금 다 먹고 29639번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29640번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 63036/300000 [3:27:23<12:08:21,  5.42it/s]

지금 다 먹고 29641번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29642번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 21%|██        | 63039/300000 [3:27:24<13:03:11,  5.04it/s]

지금 다 먹고 29643번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 63041/300000 [3:27:24<14:42:41,  4.47it/s]

지금 다 먹고 29644번째 도착완료 
  그리고 총 보상은 : 26.400000000000002 
지금 다 먹고 29645번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 63043/300000 [3:27:25<12:58:28,  5.07it/s]

지금 다 먹고 29646번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 63045/300000 [3:27:25<13:42:35,  4.80it/s]

지금 다 먹고 29647번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 29648번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63047/300000 [3:27:26<12:48:57,  5.14it/s]

지금 다 먹고 29649번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29650번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 


 21%|██        | 63049/300000 [3:27:26<12:37:22,  5.21it/s]

지금 다 먹고 29651번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 29652번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63051/300000 [3:27:26<12:16:25,  5.36it/s]

지금 다 먹고 29653번째 도착완료 
  그리고 총 보상은 : 21.200000000000003 
지금 다 먹고 29654번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 63053/300000 [3:27:27<11:47:18,  5.58it/s]

지금 다 먹고 29655번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 29656번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 63055/300000 [3:27:27<12:16:42,  5.36it/s]

지금 다 먹고 29657번째 도착완료 
  그리고 총 보상은 : 15.800000000000018 
지금 다 먹고 29658번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 63058/300000 [3:27:28<13:08:55,  5.01it/s]

지금 다 먹고 29659번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 29660번째 도착완료 
  그리고 총 보상은 : 22.8 


 21%|██        | 63060/300000 [3:27:28<12:18:31,  5.35it/s]

지금 다 먹고 29661번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 63063/300000 [3:27:29<13:51:43,  4.75it/s]

지금 다 먹고 29662번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 
지금 다 먹고 29663번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 63065/300000 [3:27:29<13:21:58,  4.92it/s]

지금 다 먹고 29664번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 29665번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 63067/300000 [3:27:30<12:44:59,  5.16it/s]

지금 다 먹고 29666번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63068/300000 [3:27:30<12:39:46,  5.20it/s]

지금 다 먹고 29667번째 도착완료 
  그리고 총 보상은 : 15.200000000000005 
지금 다 먹고 29668번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 63071/300000 [3:27:30<13:47:19,  4.77it/s]

지금 다 먹고 29669번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 63073/300000 [3:27:31<14:01:01,  4.70it/s]

지금 다 먹고 29670번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 21%|██        | 63075/300000 [3:27:31<14:18:25,  4.60it/s]

지금 다 먹고 29671번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 29672번째 도착완료 
  그리고 총 보상은 : 25.60000000000001 


 21%|██        | 63077/300000 [3:27:32<13:51:53,  4.75it/s]

지금 다 먹고 29673번째 도착완료 
  그리고 총 보상은 : 10.100000000000003 


 21%|██        | 63079/300000 [3:27:32<13:59:38,  4.70it/s]

지금 다 먹고 29674번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 29675번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63081/300000 [3:27:33<12:44:11,  5.17it/s]

지금 다 먹고 29676번째 도착완료 
  그리고 총 보상은 : 24.300000000000008 
지금 다 먹고 29677번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 63083/300000 [3:27:33<12:13:44,  5.38it/s]

지금 다 먹고 29678번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 29679번째 도착완료 
  그리고 총 보상은 : 25.000000000000014 


 21%|██        | 63085/300000 [3:27:33<12:13:51,  5.38it/s]

지금 다 먹고 29680번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 
지금 다 먹고 29681번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 63087/300000 [3:27:34<12:34:19,  5.23it/s]

지금 다 먹고 29682번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 21%|██        | 63088/300000 [3:27:34<12:51:23,  5.12it/s]

지금 다 먹고 29683번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 63090/300000 [3:27:34<14:12:49,  4.63it/s]

지금 다 먹고 29684번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63092/300000 [3:27:35<15:48:21,  4.16it/s]

지금 다 먹고 29685번째 도착완료 
  그리고 총 보상은 : 25.000000000000014 


 21%|██        | 63093/300000 [3:27:35<14:30:52,  4.53it/s]

지금 다 먹고 29686번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 29687번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 21%|██        | 63095/300000 [3:27:35<13:42:00,  4.80it/s]

지금 다 먹고 29688번째 도착완료 
  그리고 총 보상은 : 20.2 
지금 다 먹고 29689번째 도착완료 
  그리고 총 보상은 : 23.100000000000012 


 21%|██        | 63097/300000 [3:27:36<15:04:28,  4.37it/s]

지금 다 먹고 29690번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 63098/300000 [3:27:36<14:25:16,  4.56it/s]

지금 다 먹고 29691번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 29692번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 63100/300000 [3:27:37<14:18:09,  4.60it/s]

지금 다 먹고 29693번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 63101/300000 [3:27:37<14:34:55,  4.51it/s]

지금 다 먹고 29694번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
epi = 13
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :25.800000000000004
 end : True
 clear : True
episode :13, score = 16.560000000001295, n_buffer :100000 , eps : 18.45


 21%|██        | 63102/300000 [3:27:37<13:42:07,  4.80it/s]

지금 다 먹고 29695번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 63103/300000 [3:27:37<14:22:41,  4.58it/s]

지금 다 먹고 29696번째 도착완료 
  그리고 총 보상은 : -7.700000000000038 


 21%|██        | 63105/300000 [3:27:38<13:59:30,  4.70it/s]

지금 다 먹고 29697번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63107/300000 [3:27:38<14:01:10,  4.69it/s]

지금 다 먹고 29698번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 
지금 다 먹고 29699번째 도착완료 
  그리고 총 보상은 : 17.5 


 21%|██        | 63109/300000 [3:27:38<13:03:37,  5.04it/s]

지금 다 먹고 29700번째 도착완료 
  그리고 총 보상은 : 24.500000000000014 
지금 다 먹고 29701번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 63111/300000 [3:27:39<12:17:37,  5.35it/s]

지금 다 먹고 29702번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 21%|██        | 63113/300000 [3:27:39<13:42:14,  4.80it/s]

지금 다 먹고 29703번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 29704번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 


 21%|██        | 63115/300000 [3:27:40<13:06:31,  5.02it/s]

지금 다 먹고 29705번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63116/300000 [3:27:40<13:13:57,  4.97it/s]

지금 다 먹고 29706번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29707번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 63118/300000 [3:27:40<13:54:57,  4.73it/s]

지금 다 먹고 29708번째 도착완료 
  그리고 총 보상은 : 25.800000000000008 


 21%|██        | 63119/300000 [3:27:41<14:21:35,  4.58it/s]

지금 다 먹고 29709번째 도착완료 
  그리고 총 보상은 : 24.100000000000016 


 21%|██        | 63120/300000 [3:27:41<13:54:14,  4.73it/s]

지금 다 먹고 29710번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 29711번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 63122/300000 [3:27:41<12:41:01,  5.19it/s]

지금 다 먹고 29712번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63124/300000 [3:27:42<13:51:17,  4.75it/s]

지금 다 먹고 29713번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63126/300000 [3:27:42<15:00:01,  4.39it/s]

지금 다 먹고 29714번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 
지금 다 먹고 29715번째 도착완료 
  그리고 총 보상은 : 19.400000000000002 


 21%|██        | 63128/300000 [3:27:43<14:45:38,  4.46it/s]

지금 다 먹고 29716번째 도착완료 
  그리고 총 보상은 : 9.699999999999989 


 21%|██        | 63130/300000 [3:27:43<15:14:23,  4.32it/s]

지금 다 먹고 29717번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29718번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 63132/300000 [3:27:43<13:29:07,  4.88it/s]

지금 다 먹고 29719번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 29720번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 63134/300000 [3:27:44<13:15:25,  4.96it/s]

지금 다 먹고 29721번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 63135/300000 [3:27:44<13:18:42,  4.94it/s]

지금 다 먹고 29722번째 도착완료 
  그리고 총 보상은 : 25.90000000000001 


 21%|██        | 63136/300000 [3:27:44<14:19:36,  4.59it/s]

지금 다 먹고 29723번째 도착완료 
  그리고 총 보상은 : -5.000000000000014 


 21%|██        | 63137/300000 [3:27:45<15:28:37,  4.25it/s]

지금 다 먹고 29724번째 도착완료 
  그리고 총 보상은 : 19.30000000000002 


 21%|██        | 63138/300000 [3:27:45<14:28:35,  4.54it/s]

지금 다 먹고 29725번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29726번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63143/300000 [3:27:46<15:40:40,  4.20it/s]

지금 다 먹고 29727번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29728번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 63147/300000 [3:27:47<14:59:36,  4.39it/s]

지금 다 먹고 29729번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 29730번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 63149/300000 [3:27:47<14:19:17,  4.59it/s]

지금 다 먹고 29731번째 도착완료 
  그리고 총 보상은 : 21.700000000000003 


 21%|██        | 63150/300000 [3:27:47<14:21:16,  4.58it/s]

지금 다 먹고 29732번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 63151/300000 [3:27:48<14:17:02,  4.61it/s]

지금 다 먹고 29733번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 63152/300000 [3:27:48<15:56:10,  4.13it/s]

지금 다 먹고 29734번째 도착완료 
  그리고 총 보상은 : -44.799999999999955 
지금 다 먹고 29735번째 도착완료 
  그리고 총 보상은 : 25.100000000000005 


 21%|██        | 63154/300000 [3:27:48<14:32:19,  4.53it/s]

지금 다 먹고 29736번째 도착완료 
  그리고 총 보상은 : 18.60000000000002 
지금 다 먹고 29737번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63156/300000 [3:27:49<12:56:40,  5.08it/s]

지금 다 먹고 29738번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63158/300000 [3:27:49<13:16:30,  4.96it/s]

지금 다 먹고 29739번째 도착완료 
  그리고 총 보상은 : 27.5 
지금 다 먹고 29740번째 도착완료 
  그리고 총 보상은 : 15.7 


 21%|██        | 63160/300000 [3:27:50<12:36:16,  5.22it/s]

지금 다 먹고 29741번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 
지금 다 먹고 29742번째 도착완료 
  그리고 총 보상은 : 23.50000000000001 


 21%|██        | 63162/300000 [3:27:50<12:50:25,  5.12it/s]

지금 다 먹고 29743번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63164/300000 [3:27:50<14:37:25,  4.50it/s]

지금 다 먹고 29744번째 도착완료 
  그리고 총 보상은 : 20.20000000000001 
지금 다 먹고 29745번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63166/300000 [3:27:51<13:12:53,  4.98it/s]

지금 다 먹고 29746번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 29747번째 도착완료 
  그리고 총 보상은 : 24.900000000000006 


 21%|██        | 63168/300000 [3:27:51<12:29:49,  5.26it/s]

지금 다 먹고 29748번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 29749번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63170/300000 [3:27:52<11:48:36,  5.57it/s]

지금 다 먹고 29750번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 
지금 다 먹고 29751번째 도착완료 
  그리고 총 보상은 : 22.700000000000003 


 21%|██        | 63172/300000 [3:27:52<12:17:38,  5.35it/s]

지금 다 먹고 29752번째 도착완료 
  그리고 총 보상은 : 23.3 
지금 다 먹고 29753번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 63175/300000 [3:27:53<13:17:30,  4.95it/s]

지금 다 먹고 29754번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63177/300000 [3:27:53<14:03:51,  4.68it/s]

지금 다 먹고 29755번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 63178/300000 [3:27:53<14:22:19,  4.58it/s]

지금 다 먹고 29756번째 도착완료 
  그리고 총 보상은 : 17.80000000000002 
지금 다 먹고 29757번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 63181/300000 [3:27:54<16:21:00,  4.02it/s]

지금 다 먹고 29758번째 도착완료 
  그리고 총 보상은 : 4.100000000000042 
지금 다 먹고 29759번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 63183/300000 [3:27:54<13:57:29,  4.71it/s]

지금 다 먹고 29760번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 29761번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 21%|██        | 63185/300000 [3:27:55<13:17:09,  4.95it/s]

지금 다 먹고 29762번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 29763번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 63187/300000 [3:27:55<12:19:24,  5.34it/s]

지금 다 먹고 29764번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 29765번째 도착완료 
  그리고 총 보상은 : 19.300000000000015 


 21%|██        | 63189/300000 [3:27:55<12:27:12,  5.28it/s]

지금 다 먹고 29766번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 29767번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 63192/300000 [3:27:56<13:09:01,  5.00it/s]

지금 다 먹고 29768번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 
지금 다 먹고 29769번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 63194/300000 [3:27:56<13:03:47,  5.04it/s]

지금 다 먹고 29770번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
지금 다 먹고 29771번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 


 21%|██        | 63196/300000 [3:27:57<12:49:00,  5.13it/s]

지금 다 먹고 29772번째 도착완료 
  그리고 총 보상은 : 9.499999999999996 


 21%|██        | 63198/300000 [3:27:57<13:24:15,  4.91it/s]

지금 다 먹고 29773번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 63199/300000 [3:27:58<14:14:32,  4.62it/s]

지금 다 먹고 29774번째 도착완료 
  그리고 총 보상은 : 9.100000000000009 
지금 다 먹고 29775번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 63201/300000 [3:27:58<14:18:02,  4.60it/s]

지금 다 먹고 29776번째 도착완료 
  그리고 총 보상은 : 18.50000000000001 
epi = 11
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :18.50000000000001
 end : True
 clear : True
episode :11, score = 13.884000000000192, n_buffer :100000 , eps : 18.4
지금 다 먹고 29777번째 도착완료 
  그리고 총 보상은 : 24.30000000000001 


 21%|██        | 63203/300000 [3:27:58<12:53:03,  5.11it/s]

지금 다 먹고 29778번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 
지금 다 먹고 29779번째 도착완료 
  그리고 총 보상은 : 25.200000000000006 


 21%|██        | 63205/300000 [3:27:59<15:03:44,  4.37it/s]

지금 다 먹고 29780번째 도착완료 
  그리고 총 보상은 : 8.700000000000047 


 21%|██        | 63207/300000 [3:27:59<14:30:31,  4.53it/s]

지금 다 먹고 29781번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63209/300000 [3:28:00<14:25:23,  4.56it/s]

지금 다 먹고 29782번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 63211/300000 [3:28:00<14:30:33,  4.53it/s]

지금 다 먹고 29783번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 29784번째 도착완료 
  그리고 총 보상은 : 24.700000000000003 


 21%|██        | 63213/300000 [3:28:01<13:13:26,  4.97it/s]

지금 다 먹고 29785번째 도착완료 
  그리고 총 보상은 : 22.6 


 21%|██        | 63215/300000 [3:28:01<14:14:42,  4.62it/s]

지금 다 먹고 29786번째 도착완료 
  그리고 총 보상은 : 9.000000000000007 
지금 다 먹고 29787번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 63217/300000 [3:28:01<13:18:37,  4.94it/s]

지금 다 먹고 29788번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 
지금 다 먹고 29789번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 63219/300000 [3:28:02<12:48:49,  5.13it/s]

지금 다 먹고 29790번째 도착완료 
  그리고 총 보상은 : 25.20000000000001 
지금 다 먹고 29791번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 63221/300000 [3:28:02<12:19:00,  5.34it/s]

지금 다 먹고 29792번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 
지금 다 먹고 29793번째 도착완료 
  그리고 총 보상은 : 24.500000000000004 


 21%|██        | 63223/300000 [3:28:03<13:05:40,  5.02it/s]

지금 다 먹고 29794번째 도착완료 
  그리고 총 보상은 : 22.500000000000004 
지금 다 먹고 29795번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63226/300000 [3:28:03<13:30:24,  4.87it/s]

지금 다 먹고 29796번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 63229/300000 [3:28:04<14:35:48,  4.51it/s]

지금 다 먹고 29797번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 63230/300000 [3:28:04<14:24:17,  4.57it/s]

지금 다 먹고 29798번째 도착완료 
  그리고 총 보상은 : 20.000000000000014 


 21%|██        | 63232/300000 [3:28:05<14:26:29,  4.55it/s]

지금 다 먹고 29799번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29800번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 63234/300000 [3:28:05<14:20:53,  4.58it/s]

지금 다 먹고 29801번째 도착완료 
  그리고 총 보상은 : 25.1 


 21%|██        | 63235/300000 [3:28:05<14:01:44,  4.69it/s]

지금 다 먹고 29802번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 
지금 다 먹고 29803번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 


 21%|██        | 63237/300000 [3:28:06<12:56:13,  5.08it/s]

지금 다 먹고 29804번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 29805번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 63239/300000 [3:28:06<12:51:06,  5.12it/s]

지금 다 먹고 29806번째 도착완료 
  그리고 총 보상은 : 24.400000000000006 


 21%|██        | 63240/300000 [3:28:06<13:09:19,  5.00it/s]

지금 다 먹고 29807번째 도착완료 
  그리고 총 보상은 : 21.000000000000007 
지금 다 먹고 29808번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63243/300000 [3:28:07<12:45:53,  5.15it/s]

지금 다 먹고 29809번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 63245/300000 [3:28:07<14:06:20,  4.66it/s]

지금 다 먹고 29810번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 


 21%|██        | 63246/300000 [3:28:07<13:39:58,  4.81it/s]

지금 다 먹고 29811번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 29812번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63249/300000 [3:28:08<14:17:01,  4.60it/s]

지금 다 먹고 29813번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 29814번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 63251/300000 [3:28:09<14:17:34,  4.60it/s]

지금 다 먹고 29815번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 63252/300000 [3:28:09<13:44:16,  4.79it/s]

지금 다 먹고 29816번째 도착완료 
  그리고 총 보상은 : 25.70000000000001 
지금 다 먹고 29817번째 도착완료 
  그리고 총 보상은 : 23.30000000000001 


 21%|██        | 63254/300000 [3:28:09<13:05:41,  5.02it/s]

지금 다 먹고 29818번째 도착완료 
  그리고 총 보상은 : 24.80000000000001 
지금 다 먹고 29819번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63256/300000 [3:28:09<13:07:58,  5.01it/s]

지금 다 먹고 29820번째 도착완료 
  그리고 총 보상은 : 23.800000000000008 


 21%|██        | 63260/300000 [3:28:11<16:50:49,  3.90it/s]

지금 다 먹고 29821번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63262/300000 [3:28:11<16:15:35,  4.04it/s]

지금 다 먹고 29822번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 29823번째 도착완료 
  그리고 총 보상은 : 20.60000000000001 


 21%|██        | 63264/300000 [3:28:12<14:19:15,  4.59it/s]

지금 다 먹고 29824번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63266/300000 [3:28:12<13:55:20,  4.72it/s]

지금 다 먹고 29825번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29826번째 도착완료 
  그리고 총 보상은 : 9.299999999999997 


 21%|██        | 63269/300000 [3:28:13<14:20:06,  4.59it/s]

지금 다 먹고 29827번째 도착완료 
  그리고 총 보상은 : -0.7000000000000028 
지금 다 먹고 29828번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 21%|██        | 63271/300000 [3:28:13<13:44:03,  4.79it/s]

지금 다 먹고 29829번째 도착완료 
  그리고 총 보상은 : 15.100000000000003 


 21%|██        | 63272/300000 [3:28:13<13:11:13,  4.99it/s]

지금 다 먹고 29830번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29831번째 도착완료 
  그리고 총 보상은 : 3.8000000000000007 


 21%|██        | 63274/300000 [3:28:14<13:31:38,  4.86it/s]

지금 다 먹고 29832번째 도착완료 
  그리고 총 보상은 : 25.6 
지금 다 먹고 29833번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 63277/300000 [3:28:14<13:48:15,  4.76it/s]

지금 다 먹고 29834번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 


 21%|██        | 63279/300000 [3:28:15<14:03:04,  4.68it/s]

지금 다 먹고 29835번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 
지금 다 먹고 29836번째 도착완료 
  그리고 총 보상은 : 25.300000000000008 


 21%|██        | 63281/300000 [3:28:15<13:00:25,  5.06it/s]

지금 다 먹고 29837번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 21%|██        | 63283/300000 [3:28:16<13:51:41,  4.74it/s]

지금 다 먹고 29838번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 
지금 다 먹고 29839번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63285/300000 [3:28:16<12:44:24,  5.16it/s]

지금 다 먹고 29840번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 29841번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 


 21%|██        | 63287/300000 [3:28:16<12:05:19,  5.44it/s]

지금 다 먹고 29842번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 29843번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 21%|██        | 63289/300000 [3:28:17<12:29:16,  5.27it/s]

지금 다 먹고 29844번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 63290/300000 [3:28:17<13:27:26,  4.89it/s]

지금 다 먹고 29845번째 도착완료 
  그리고 총 보상은 : 20.20000000000001 
지금 다 먹고 29846번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 63292/300000 [3:28:17<12:25:50,  5.29it/s]

지금 다 먹고 29847번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63294/300000 [3:28:18<13:35:59,  4.83it/s]

지금 다 먹고 29848번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 21%|██        | 63297/300000 [3:28:18<14:14:40,  4.62it/s]

지금 다 먹고 29849번째 도착완료 
  그리고 총 보상은 : 27.1 
지금 다 먹고 29850번째 도착완료 
  그리고 총 보상은 : 15.40000000000001 


 21%|██        | 63299/300000 [3:28:19<14:43:30,  4.47it/s]

지금 다 먹고 29851번째 도착완료 
  그리고 총 보상은 : -3.7999999999999936 
지금 다 먹고 29852번째 도착완료 
  그리고 총 보상은 : 26.1 


 21%|██        | 63301/300000 [3:28:19<13:11:37,  4.98it/s]

지금 다 먹고 29853번째 도착완료 
  그리고 총 보상은 : 15.700000000000001 
epi = 9
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0. 100.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : 20
 총 받은 보상 :15.700000000000001
 end : True
 clear : True
episode :9, score = 11.768999999999918, n_buffer :100000 , eps : 18.35


 21%|██        | 63303/300000 [3:28:20<14:55:00,  4.41it/s]

지금 다 먹고 29854번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 21%|██        | 63305/300000 [3:28:20<14:55:52,  4.40it/s]

지금 다 먹고 29855번째 도착완료 
  그리고 총 보상은 : 26.800000000000008 
지금 다 먹고 29856번째 도착완료 
  그리고 총 보상은 : 22.500000000000007 


 21%|██        | 63307/300000 [3:28:21<14:08:41,  4.65it/s]

지금 다 먹고 29857번째 도착완료 
  그리고 총 보상은 : 22.400000000000002 


 21%|██        | 63308/300000 [3:28:21<14:08:12,  4.65it/s]

지금 다 먹고 29858번째 도착완료 
  그리고 총 보상은 : 18.00000000000001 
지금 다 먹고 29859번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63311/300000 [3:28:21<13:33:25,  4.85it/s]

지금 다 먹고 29860번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63313/300000 [3:28:22<14:25:34,  4.56it/s]

지금 다 먹고 29861번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 63314/300000 [3:28:22<15:08:57,  4.34it/s]

지금 다 먹고 29862번째 도착완료 
  그리고 총 보상은 : 1.7999999999999936 


 21%|██        | 63315/300000 [3:28:22<14:46:59,  4.45it/s]

지금 다 먹고 29863번째 도착완료 
  그리고 총 보상은 : 22.000000000000004 


 21%|██        | 63317/300000 [3:28:23<14:56:56,  4.40it/s]

지금 다 먹고 29864번째 도착완료 
  그리고 총 보상은 : 25.1 
지금 다 먹고 29865번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 63319/300000 [3:28:23<14:12:21,  4.63it/s]

지금 다 먹고 29866번째 도착완료 
  그리고 총 보상은 : 11.900000000000011 
지금 다 먹고 29867번째 도착완료 
  그리고 총 보상은 : 18.900000000000002 


 21%|██        | 63321/300000 [3:28:24<13:33:37,  4.85it/s]

지금 다 먹고 29868번째 도착완료 
  그리고 총 보상은 : 24.70000000000001 
지금 다 먹고 29869번째 도착완료 
  그리고 총 보상은 : 15.700000000000001 

 21%|██        | 63322/300000 [3:28:24<13:09:08,  5.00it/s]


지금 다 먹고 29870번째 도착완료 
  그리고 총 보상은 : 20.200000000000014 


 21%|██        | 63324/300000 [3:28:24<13:07:22,  5.01it/s]

지금 다 먹고 29871번째 도착완료 
  그리고 총 보상은 : 20.599999999999998 
지금 다 먹고 29872번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 


 21%|██        | 63326/300000 [3:28:25<12:51:10,  5.12it/s]

지금 다 먹고 29873번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 63328/300000 [3:28:25<14:11:59,  4.63it/s]

지금 다 먹고 29874번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63330/300000 [3:28:26<14:58:52,  4.39it/s]

지금 다 먹고 29875번째 도착완료 
  그리고 총 보상은 : 20.100000000000012 


 21%|██        | 63331/300000 [3:28:26<15:40:39,  4.19it/s]

지금 다 먹고 29876번째 도착완료 
  그리고 총 보상은 : 13.70000000000003 
지금 다 먹고 29877번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63334/300000 [3:28:27<15:02:44,  4.37it/s]

지금 다 먹고 29878번째 도착완료 
  그리고 총 보상은 : -1.300000000000015 
지금 다 먹고 29879번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 63336/300000 [3:28:27<13:52:08,  4.74it/s]

지금 다 먹고 29880번째 도착완료 
  그리고 총 보상은 : 12.100000000000007 
지금 다 먹고 29881번째 도착완료 
  그리고 총 보상은 : 22.4 


 21%|██        | 63338/300000 [3:28:27<13:44:33,  4.78it/s]

지금 다 먹고 29882번째 도착완료 
  그리고 총 보상은 : 16.9 
지금 다 먹고 29883번째 도착완료 
  그리고 총 보상은 : 26.000000000000007 


 21%|██        | 63340/300000 [3:28:28<12:35:23,  5.22it/s]

지금 다 먹고 29884번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 
지금 다 먹고 29885번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 63342/300000 [3:28:28<13:02:37,  5.04it/s]

지금 다 먹고 29886번째 도착완료 
  그리고 총 보상은 : 14.000000000000027 


 21%|██        | 63345/300000 [3:28:29<14:02:33,  4.68it/s]

지금 다 먹고 29887번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63348/300000 [3:28:30<15:04:31,  4.36it/s]

지금 다 먹고 29888번째 도착완료 
  그리고 총 보상은 : 24.50000000000001 


 21%|██        | 63349/300000 [3:28:30<15:40:20,  4.19it/s]

지금 다 먹고 29889번째 도착완료 
  그리고 총 보상은 : 18.30000000000002 


 21%|██        | 63351/300000 [3:28:30<16:01:18,  4.10it/s]

지금 다 먹고 29890번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 
지금 다 먹고 29891번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63353/300000 [3:28:31<14:11:48,  4.63it/s]

지금 다 먹고 29892번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 63354/300000 [3:28:31<14:47:30,  4.44it/s]

지금 다 먹고 29893번째 도착완료 
  그리고 총 보상은 : -25.600000000000023 
지금 다 먹고 29894번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63356/300000 [3:28:31<13:40:58,  4.80it/s]

지금 다 먹고 29895번째 도착완료 
  그리고 총 보상은 : 19.400000000000006 
지금 다 먹고 29896번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 63358/300000 [3:28:32<13:29:28,  4.87it/s]

지금 다 먹고 29897번째 도착완료 
  그리고 총 보상은 : 16.90000000000002 


 21%|██        | 63359/300000 [3:28:32<14:37:59,  4.49it/s]

지금 다 먹고 29898번째 도착완료 
  그리고 총 보상은 : 18.600000000000012 
지금 다 먹고 29899번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 63362/300000 [3:28:33<13:41:26,  4.80it/s]

지금 다 먹고 29900번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63363/300000 [3:28:33<14:13:01,  4.62it/s]

지금 다 먹고 29901번째 도착완료 
  그리고 총 보상은 : 7.799999999999974 


 21%|██        | 63365/300000 [3:28:33<14:49:16,  4.44it/s]

지금 다 먹고 29902번째 도착완료 
  그리고 총 보상은 : 24.10000000000001 
지금 다 먹고 29903번째 도착완료 
  그리고 총 보상은 : 7.899999999999995 


 21%|██        | 63368/300000 [3:28:34<14:13:11,  4.62it/s]

지금 다 먹고 29904번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 
지금 다 먹고 29905번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 63370/300000 [3:28:34<13:00:29,  5.05it/s]

지금 다 먹고 29906번째 도착완료 
  그리고 총 보상은 : 26.400000000000006 


 21%|██        | 63372/300000 [3:28:35<13:14:24,  4.96it/s]

지금 다 먹고 29907번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 63374/300000 [3:28:35<13:33:02,  4.85it/s]

지금 다 먹고 29908번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 
지금 다 먹고 29909번째 도착완료 
  그리고 총 보상은 : 24.5 


 21%|██        | 63376/300000 [3:28:36<12:55:43,  5.08it/s]

지금 다 먹고 29910번째 도착완료 
  그리고 총 보상은 : 23.100000000000005 
지금 다 먹고 29911번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 21%|██        | 63379/300000 [3:28:36<13:47:26,  4.77it/s]

지금 다 먹고 29912번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63381/300000 [3:28:37<14:32:05,  4.52it/s]

지금 다 먹고 29913번째 도착완료 
  그리고 총 보상은 : 20.400000000000002 


 21%|██        | 63383/300000 [3:28:37<14:30:28,  4.53it/s]

지금 다 먹고 29914번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 


 21%|██        | 63385/300000 [3:28:38<15:01:51,  4.37it/s]

지금 다 먹고 29915번째 도착완료 
  그리고 총 보상은 : 17.000000000000014 
지금 다 먹고 29916번째 도착완료 
  그리고 총 보상은 : 16.5 


 21%|██        | 63387/300000 [3:28:38<16:09:50,  4.07it/s]

지금 다 먹고 29917번째 도착완료 
  그리고 총 보상은 : -22.900000000000063 


 21%|██        | 63388/300000 [3:28:38<15:23:06,  4.27it/s]

지금 다 먹고 29918번째 도착완료 
  그리고 총 보상은 : 25.300000000000004 


 21%|██        | 63389/300000 [3:28:39<16:08:59,  4.07it/s]

지금 다 먹고 29919번째 도착완료 
  그리고 총 보상은 : 6.500000000000039 
지금 다 먹고 29920번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 


 21%|██        | 63391/300000 [3:28:39<15:28:32,  4.25it/s]

지금 다 먹고 29921번째 도착완료 
  그리고 총 보상은 : -25.600000000000065 


 21%|██        | 63393/300000 [3:28:40<16:44:40,  3.93it/s]

지금 다 먹고 29922번째 도착완료 
  그리고 총 보상은 : 16.30000000000002 
지금 다 먹고 29923번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63396/300000 [3:28:40<15:12:35,  4.32it/s]

지금 다 먹고 29924번째 도착완료 
  그리고 총 보상은 : 27.1 


 21%|██        | 63398/300000 [3:28:41<16:24:14,  4.01it/s]

지금 다 먹고 29925번째 도착완료 
  그리고 총 보상은 : 19.500000000000004 
지금 다 먹고 29926번째 도착완료 
  그리고 총 보상은 : 23.3 


 21%|██        | 63400/300000 [3:28:41<14:33:11,  4.52it/s]

지금 다 먹고 29927번째 도착완료 
  그리고 총 보상은 : 8.299999999999997 


 21%|██        | 63401/300000 [3:28:42<16:03:49,  4.09it/s]

epi = 7
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0. 200.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1. 100.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : →
 마지막 보상 : -0.1
 총 받은 보상 :-22.100000000000055
 end : True
 clear : True
episode :7, score = 5.15099999999876, n_buffer :100000 , eps : 18.3
지금 다 먹고 29928번째 도착완료 
  그리고 총 보상은 : 7.300000000000029 


 21%|██        | 63403/300000 [3:28:42<15:43:46,  4.18it/s]

지금 다 먹고 29929번째 도착완료 
  그리고 총 보상은 : 17.4 


 21%|██        | 63406/300000 [3:28:43<16:18:56,  4.03it/s]

지금 다 먹고 29930번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63408/300000 [3:28:43<16:33:56,  3.97it/s]

지금 다 먹고 29931번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 


 21%|██        | 63410/300000 [3:28:44<16:45:40,  3.92it/s]

지금 다 먹고 29932번째 도착완료 
  그리고 총 보상은 : 16.000000000000018 


 21%|██        | 63413/300000 [3:28:45<15:28:44,  4.25it/s]

지금 다 먹고 29933번째 도착완료 
  그리고 총 보상은 : 27.500000000000004 
지금 다 먹고 29934번째 도착완료 
  그리고 총 보상은 : 16.900000000000002 


 21%|██        | 63415/300000 [3:28:45<14:08:30,  4.65it/s]

지금 다 먹고 29935번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 
지금 다 먹고 29936번째 도착완료 
  그리고 총 보상은 : 20.7 


 21%|██        | 63417/300000 [3:28:45<13:11:16,  4.98it/s]

지금 다 먹고 29937번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63419/300000 [3:28:46<14:47:18,  4.44it/s]

지금 다 먹고 29938번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 
지금 다 먹고 29939번째 도착완료 
  그리고 총 보상은 : 14.900000000000002 


 21%|██        | 63423/300000 [3:28:47<16:08:35,  4.07it/s]

지금 다 먹고 29940번째 도착완료 
  그리고 총 보상은 : 16.100000000000023 
지금 다 먹고 29941번째 도착완료 
  그리고 총 보상은 : 2.5999999999999908 


 21%|██        | 63427/300000 [3:28:48<16:19:16,  4.03it/s]

지금 다 먹고 29942번째 도착완료 
  그리고 총 보상은 : 16.6 
지금 다 먹고 29943번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 63430/300000 [3:28:49<15:29:39,  4.24it/s]

지금 다 먹고 29944번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 63431/300000 [3:28:49<14:51:20,  4.42it/s]

지금 다 먹고 29945번째 도착완료 
  그리고 총 보상은 : 2.499999999999986 
지금 다 먹고 29946번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 


 21%|██        | 63433/300000 [3:28:49<13:33:03,  4.85it/s]

지금 다 먹고 29947번째 도착완료 
  그리고 총 보상은 : 8.499999999999996 
지금 다 먹고 29948번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 63436/300000 [3:28:50<14:27:52,  4.54it/s]

지금 다 먹고 29949번째 도착완료 
  그리고 총 보상은 : 16.400000000000016 


 21%|██        | 63437/300000 [3:28:50<14:03:04,  4.68it/s]

지금 다 먹고 29950번째 도착완료 
  그리고 총 보상은 : 12.600000000000012 


 21%|██        | 63439/300000 [3:28:50<14:01:54,  4.68it/s]

지금 다 먹고 29951번째 도착완료 
  그리고 총 보상은 : 26.20000000000001 


 21%|██        | 63442/300000 [3:28:51<14:10:19,  4.64it/s]

지금 다 먹고 29952번째 도착완료 
  그리고 총 보상은 : 20.9 
지금 다 먹고 29953번째 도착완료 
  그리고 총 보상은 : 27.200000000000006 
지금 다 먹고 29954번째 도착완료 
  그리고 총 보상은 : 26.000000000000004 


 21%|██        | 63444/300000 [3:28:51<12:43:27,  5.16it/s]

지금 다 먹고 29955번째 도착완료 
  그리고 총 보상은 : 27.6 
지금 다 먹고 29956번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 63447/300000 [3:28:52<13:29:04,  4.87it/s]

지금 다 먹고 29957번째 도착완료 
  그리고 총 보상은 : 27.700000000000003 


 21%|██        | 63449/300000 [3:28:53<13:43:52,  4.79it/s]

지금 다 먹고 29958번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 
지금 다 먹고 29959번째 도착완료 
  그리고 총 보상은 : 12.8 


 21%|██        | 63451/300000 [3:28:53<12:44:27,  5.16it/s]

지금 다 먹고 29960번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 


 21%|██        | 63453/300000 [3:28:53<15:08:25,  4.34it/s]

지금 다 먹고 29961번째 도착완료 
  그리고 총 보상은 : 10.800000000000018 
지금 다 먹고 29962번째 도착완료 
  그리고 총 보상은 : 17.8 


 21%|██        | 63455/300000 [3:28:54<14:40:19,  4.48it/s]

지금 다 먹고 29963번째 도착완료 
  그리고 총 보상은 : 19.700000000000006 


 21%|██        | 63457/300000 [3:28:54<14:15:13,  4.61it/s]

지금 다 먹고 29964번째 도착완료 
  그리고 총 보상은 : 26.200000000000003 
지금 다 먹고 29965번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 21%|██        | 63459/300000 [3:28:55<13:38:09,  4.82it/s]

지금 다 먹고 29966번째 도착완료 
  그리고 총 보상은 : 22.000000000000007 
지금 다 먹고 29967번째 도착완료 
  그리고 총 보상은 : 21.200000000000006 


 21%|██        | 63460/300000 [3:28:55<13:41:48,  4.80it/s]

지금 다 먹고 29968번째 도착완료 
  그리고 총 보상은 : 27.6 


 21%|██        | 63464/300000 [3:28:56<13:55:47,  4.72it/s]

지금 다 먹고 29969번째 도착완료 
  그리고 총 보상은 : 28.6 


 21%|██        | 63465/300000 [3:28:56<14:54:09,  4.41it/s]

지금 다 먹고 29970번째 도착완료 
  그리고 총 보상은 : 4.099999999999982 


 21%|██        | 63467/300000 [3:28:56<14:37:26,  4.49it/s]

지금 다 먹고 29971번째 도착완료 
  그리고 총 보상은 : 15.100000000000005 
지금 다 먹고 29972번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63470/300000 [3:28:57<14:11:31,  4.63it/s]

지금 다 먹고 29973번째 도착완료 
  그리고 총 보상은 : 22.5 
지금 다 먹고 29974번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 63472/300000 [3:28:57<13:17:32,  4.94it/s]

지금 다 먹고 29975번째 도착완료 
  그리고 총 보상은 : 24.400000000000002 
지금 다 먹고 29976번째 도착완료 
  그리고 총 보상은 : 24.500000000000007 


 21%|██        | 63474/300000 [3:28:58<12:32:13,  5.24it/s]

지금 다 먹고 29977번째 도착완료 
  그리고 총 보상은 : 26.700000000000006 


 21%|██        | 63476/300000 [3:28:58<14:26:24,  4.55it/s]

지금 다 먹고 29978번째 도착완료 
  그리고 총 보상은 : 10.500000000000021 
지금 다 먹고 29979번째 도착완료 
  그리고 총 보상은 : 27.000000000000004 


 21%|██        | 63478/300000 [3:28:59<13:01:50,  5.04it/s]

지금 다 먹고 29980번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 
지금 다 먹고 29981번째 도착완료 
  그리고 총 보상은 : 28.400000000000006 


 21%|██        | 63480/300000 [3:28:59<12:26:36,  5.28it/s]

지금 다 먹고 29982번째 도착완료 
  그리고 총 보상은 : 23.200000000000003 
지금 다 먹고 29983번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 


 21%|██        | 63483/300000 [3:29:00<13:06:59,  5.01it/s]

지금 다 먹고 29984번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63487/300000 [3:29:01<16:05:26,  4.08it/s]

지금 다 먹고 29985번째 도착완료 
  그리고 총 보상은 : 5.200000000000006 
지금 다 먹고 29986번째 도착완료 
  그리고 총 보상은 : 19.299999999999997 


 21%|██        | 63489/300000 [3:29:01<14:25:11,  4.56it/s]

지금 다 먹고 29987번째 도착완료 
  그리고 총 보상은 : 24.300000000000004 
지금 다 먹고 29988번째 도착완료 
  그리고 총 보상은 : 12.800000000000008 


 21%|██        | 63491/300000 [3:29:02<13:05:24,  5.02it/s]

지금 다 먹고 29989번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 21%|██        | 63492/300000 [3:29:02<13:19:22,  4.93it/s]

지금 다 먹고 29990번째 도착완료 
  그리고 총 보상은 : 17.600000000000012 
지금 다 먹고 29991번째 도착완료 
  그리고 총 보상은 : 26.60000000000001 


 21%|██        | 63494/300000 [3:29:02<13:28:48,  4.87it/s]

지금 다 먹고 29992번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 


 21%|██        | 63495/300000 [3:29:02<14:15:29,  4.61it/s]

지금 다 먹고 29993번째 도착완료 
  그리고 총 보상은 : 17.700000000000014 
지금 다 먹고 29994번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 63498/300000 [3:29:03<13:31:18,  4.86it/s]

지금 다 먹고 29995번째 도착완료 
  그리고 총 보상은 : 24.200000000000003 


 21%|██        | 63502/300000 [3:29:04<14:39:39,  4.48it/s]

epi = 5
 마지막 상태 :
[[  0.   0.   0.   0.   0.   0.   0.   0.   0.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [200.   1.   1.   1.   1.   1.   1.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0.   1.   0.]
 [  0.   1.   0.   1.   0.   1.   0. 100.   0.]
 [  1.   1.   0.   1.   0.   1.   0.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  1.   1.   1.   1.   1.   1.   1.   1.   1.]
 [  0.   0.   0.   0.   1.   0.   0.   0.   0.]]
 이 때 한 행동 : ↓
 마지막 보상 : -0.1
 총 받은 보상 :-28.100000000000076
 end : True
 clear : True
episode :5, score = 5.449999999999285, n_buffer :100000 , eps : 18.25
지금 다 먹고 29996번째 도착완료 
  그리고 총 보상은 : 26.700000000000003 


 21%|██        | 63504/300000 [3:29:04<14:28:32,  4.54it/s]

지금 다 먹고 29997번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 63505/300000 [3:29:05<14:28:43,  4.54it/s]

지금 다 먹고 29998번째 도착완료 
  그리고 총 보상은 : -7.4000000000000625 
지금 다 먹고 29999번째 도착완료 
  그리고 총 보상은 : 26.300000000000004 


 21%|██        | 63508/300000 [3:29:05<14:09:23,  4.64it/s]

지금 다 먹고 30000번째 도착완료 
  그리고 총 보상은 : 22.600000000000005 


 21%|██        | 63509/300000 [3:29:05<14:05:58,  4.66it/s]

지금 다 먹고 30001번째 도착완료 
  그리고 총 보상은 : 18.600000000000012 
지금 다 먹고 30002번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 


 21%|██        | 63511/300000 [3:29:06<12:36:12,  5.21it/s]

지금 다 먹고 30003번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 30004번째 도착완료 
  그리고 총 보상은 : 25.500000000000004 


 21%|██        | 63513/300000 [3:29:06<14:22:01,  4.57it/s]

지금 다 먹고 30005번째 도착완료 
  그리고 총 보상은 : 13.700000000000024 


 21%|██        | 63514/300000 [3:29:07<14:40:57,  4.47it/s]

지금 다 먹고 30006번째 도착완료 
  그리고 총 보상은 : 12.600000000000028 
지금 다 먹고 30007번째 도착완료 
  그리고 총 보상은 : 26.800000000000004 


 21%|██        | 63516/300000 [3:29:07<12:40:00,  5.19it/s]

지금 다 먹고 30008번째 도착완료 
  그리고 총 보상은 : 27.800000000000004 
지금 다 먹고 30009번째 도착완료 
  그리고 총 보상은 : 23.6 


 21%|██        | 63519/300000 [3:29:07<13:09:49,  4.99it/s]

지금 다 먹고 30010번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63521/300000 [3:29:08<13:25:33,  4.89it/s]

지금 다 먹고 30011번째 도착완료 
  그리고 총 보상은 : 25.400000000000006 
지금 다 먹고 30012번째 도착완료 
  그리고 총 보상은 : 27.0 


 21%|██        | 63523/300000 [3:29:08<13:10:19,  4.99it/s]

지금 다 먹고 30013번째 도착완료 
  그리고 총 보상은 : 26.200000000000006 
지금 다 먹고 30014번째 도착완료 
  그리고 총 보상은 : 25.700000000000003 


 21%|██        | 63525/300000 [3:29:09<12:35:34,  5.22it/s]

지금 다 먹고 30015번째 도착완료 
  그리고 총 보상은 : 22.1 
지금 다 먹고 30016번째 도착완료 
  그리고 총 보상은 : 22.200000000000006 


 21%|██        | 63527/300000 [3:29:09<12:14:29,  5.37it/s]

지금 다 먹고 30017번째 도착완료 
  그리고 총 보상은 : 23.900000000000006 


 21%|██        | 63529/300000 [3:29:09<13:13:09,  4.97it/s]

지금 다 먹고 30018번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 


 21%|██        | 63532/300000 [3:29:10<14:38:51,  4.48it/s]

지금 다 먹고 30019번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 
지금 다 먹고 30020번째 도착완료 
  그리고 총 보상은 : -0.7000000000000135 


 21%|██        | 63534/300000 [3:29:11<13:17:42,  4.94it/s]

지금 다 먹고 30021번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 63536/300000 [3:29:11<13:52:39,  4.73it/s]

지금 다 먹고 30022번째 도착완료 
  그리고 총 보상은 : 26.900000000000002 


 21%|██        | 63538/300000 [3:29:12<14:19:29,  4.59it/s]

지금 다 먹고 30023번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 30024번째 도착완료 
  그리고 총 보상은 : 28.000000000000004 


 21%|██        | 63540/300000 [3:29:12<12:49:06,  5.12it/s]

지금 다 먹고 30025번째 도착완료 
  그리고 총 보상은 : 27.400000000000006 


 21%|██        | 63541/300000 [3:29:12<14:09:19,  4.64it/s]

지금 다 먹고 30026번째 도착완료 
  그리고 총 보상은 : -11.900000000000016 


 21%|██        | 63542/300000 [3:29:12<14:58:50,  4.38it/s]

지금 다 먹고 30027번째 도착완료 
  그리고 총 보상은 : 11.700000000000005 


 21%|██        | 63543/300000 [3:29:13<14:14:32,  4.61it/s]

지금 다 먹고 30028번째 도착완료 
  그리고 총 보상은 : 25.500000000000007 
지금 다 먹고 30029번째 도착완료 
  그리고 총 보상은 : 26.100000000000005 


 21%|██        | 63546/300000 [3:29:13<13:49:22,  4.75it/s]

지금 다 먹고 30030번째 도착완료 
  그리고 총 보상은 : 26.500000000000004 
지금 다 먹고 30031번째 도착완료 
  그리고 총 보상은 : 28.400000000000002 


 21%|██        | 63548/300000 [3:29:14<12:55:12,  5.08it/s]

지금 다 먹고 30032번째 도착완료 
  그리고 총 보상은 : 21.4 
지금 다 먹고 30033번째 도착완료 
  그리고 총 보상은 : 28.1 


 21%|██        | 63550/300000 [3:29:14<12:02:38,  5.45it/s]

지금 다 먹고 30034번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 
지금 다 먹고 30035번째 도착완료 
  그리고 총 보상은 : 26.500000000000007 


 21%|██        | 63553/300000 [3:29:15<14:12:45,  4.62it/s]

지금 다 먹고 30036번째 도착완료 
  그리고 총 보상은 : 27.900000000000002 


 21%|██        | 63555/300000 [3:29:15<14:55:24,  4.40it/s]

지금 다 먹고 30037번째 도착완료 
  그리고 총 보상은 : 26.900000000000006 
지금 다 먹고 30038번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63557/300000 [3:29:15<13:22:28,  4.91it/s]

지금 다 먹고 30039번째 도착완료 
  그리고 총 보상은 : 24.800000000000004 
지금 다 먹고 30040번째 도착완료 
  그리고 총 보상은 : 25.00000000000001 


 21%|██        | 63559/300000 [3:29:16<12:22:03,  5.31it/s]

지금 다 먹고 30041번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 
지금 다 먹고 30042번째 도착완료 
  그리고 총 보상은 : 24.200000000000006 


 21%|██        | 63561/300000 [3:29:16<12:02:19,  5.46it/s]

지금 다 먹고 30043번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 63563/300000 [3:29:17<13:30:42,  4.86it/s]

지금 다 먹고 30044번째 도착완료 
  그리고 총 보상은 : 21.800000000000004 
지금 다 먹고 30045번째 도착완료 
  그리고 총 보상은 : 27.600000000000005 


 21%|██        | 63566/300000 [3:29:17<14:59:38,  4.38it/s]

지금 다 먹고 30046번째 도착완료 
  그리고 총 보상은 : 18.700000000000017 
지금 다 먹고 30047번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63568/300000 [3:29:18<13:44:43,  4.78it/s]

지금 다 먹고 30048번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 63569/300000 [3:29:18<14:15:21,  4.61it/s]

지금 다 먹고 30049번째 도착완료 
  그리고 총 보상은 : 1.4999999999999645 
지금 다 먹고 30050번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63572/300000 [3:29:19<13:59:11,  4.70it/s]

지금 다 먹고 30051번째 도착완료 
  그리고 총 보상은 : 27.200000000000003 
지금 다 먹고 30052번째 도착완료 
  그리고 총 보상은 : 11.800000000000004 


 21%|██        | 63574/300000 [3:29:19<12:52:58,  5.10it/s]

지금 다 먹고 30053번째 도착완료 
  그리고 총 보상은 : 27.300000000000004 
지금 다 먹고 30054번째 도착완료 
  그리고 총 보상은 : 27.100000000000005 


 21%|██        | 63576/300000 [3:29:19<13:12:50,  4.97it/s]

지금 다 먹고 30055번째 도착완료 
  그리고 총 보상은 : 13.60000000000003 
지금 다 먹고 30056번째 도착완료 
  그리고 총 보상은 : 27.000000000000007 


 21%|██        | 63578/300000 [3:29:20<12:49:28,  5.12it/s]

지금 다 먹고 30057번째 도착완료 
  그리고 총 보상은 : 25.900000000000006 


 21%|██        | 63580/300000 [3:29:20<14:59:02,  4.38it/s]

지금 다 먹고 30058번째 도착완료 
  그리고 총 보상은 : 25.000000000000004 
지금 다 먹고 30059번째 도착완료 
  그리고 총 보상은 : 27.900000000000006 

 21%|██        | 63581/300000 [3:29:20<14:13:19,  4.62it/s]




 21%|██        | 63582/300000 [3:29:21<14:05:19,  4.66it/s]

지금 다 먹고 30060번째 도착완료 
  그리고 총 보상은 : 22.0 
지금 다 먹고 30061번째 도착완료 
  그리고 총 보상은 : 28.200000000000003 


 21%|██        | 63585/300000 [3:29:21<13:53:59,  4.72it/s]

지금 다 먹고 30062번째 도착완료 
  그리고 총 보상은 : 26.10000000000001 


 21%|██        | 63587/300000 [3:29:22<15:11:23,  4.32it/s]

지금 다 먹고 30063번째 도착완료 
  그리고 총 보상은 : 23.300000000000004 


 21%|██        | 63589/300000 [3:29:22<15:31:55,  4.23it/s]

지금 다 먹고 30064번째 도착완료 
  그리고 총 보상은 : 25.10000000000001 
지금 다 먹고 30065번째 도착완료 
  그리고 총 보상은 : 18.4 


 21%|██        | 63591/300000 [3:29:23<13:35:21,  4.83it/s]

지금 다 먹고 30066번째 도착완료 
  그리고 총 보상은 : 25.800000000000004 
지금 다 먹고 30067번째 도착완료 
  그리고 총 보상은 : 26.600000000000005 


 21%|██        | 63593/300000 [3:29:23<13:11:31,  4.98it/s]

NameError: ignored