In [1]:
from Sim import *


import collections

import pdb
import random

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import time
from tqdm import tqdm

reward: -0.1 -0.1 10


  from .autonotebook import tqdm as notebook_tqdm



# DQN Agent

In [2]:
'''
Architecture of Layers

Dqn 에서의 구조
84x84x4 사이즈
순서대로 input, channel, kernel, strdides
Conv2d(x, 32, 8, 4)
conv2d(x, 64, 4, 2)
conv2d(x, 64, 3, 1)
flatten()
dense(x, 512)
dense(x, 2)

이 때 우리는
9x10x1 이고 약 300배 차이가 나므로

Conv2d(x, 16, 4, 2)
conv2d(x, 32, 3, 1)
flatten()
dense(x, 128)
dense(x, 4)

로 변경하면 괜찮을 듯
'''

class QnetCNN(nn.Module):
    def __init__(self):
        super(QnetCNN, self).__init__()
        
        
        self.layer1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=4, stride=2),
            nn.ReLU())

        self.layer2 = nn.Sequential(
            nn.Conv2d(16, 32, kernel_size=3, stride=1),
            nn.ReLU())
    
        #Flatten
        self.flatten = nn.Flatten()
        self.fc1 = nn.Linear(64 , 32)
        self.fc2 = nn.Linear(32, 4)
        
    def forward(self,x):
        
        x = torch.reshape(x, (-1, 1, 10, 9)).to(device)

        #pdb.set_trace()
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)# 4개의 값을 반환
        return x

    def sample_action(self, obs, epsilon):
        out = self.forward(obs) 
        coin = random.random() 
        

        if coin < epsilon:  # 동전던지기, eps 확률로 랜덤하게 행동
            return random.randint(0,3)
        else:
            return out.argmax().item() #Action state 값이 더 높은 index 값 호출


def train(q, q_target, memory, optimizer): 
    for i in range(10):
        s, a, r, s_prime, done_mask = memory.sample(batch_size) #32개를 버퍼에서 뽑아 모아 놓은 s,a,r,s_prime,done_mask

        q_out = q(s)                                   # s 값으로 다음 각 action 값들의 value 값 반환
        q_a = q_out.gather(1,a.to(device))         #선택한 액션값들의 q(s,a) 반환
        max_q_prime = q_target(s_prime).max(1)[0].unsqueeze(1) # 다음 state의 각 q(s,a) 값 반환
        target = torch.tensor(r, device=device) + torch.tensor(gamma, device=device) * max_q_prime * torch.tensor(done_mask, device=device) # 배열 맞춰주기, 쓰러진 경우는 제거
        loss = F.smooth_l1_loss(q_a, target) # DQN 의 손실함수 계산 L1 유클리드

        optimizer.zero_grad() # optimizer 의 모든 parameter 를 0으로 변환
        loss.backward() # loss 에 대한 gradient 계산
        optimizer.step() # 손실값을 바탕으로 Qnet 의 파라미터 업데이트

def model_save(model_dict, opt_dict, epi):
    PATH = './weights/'
    torch.save({
            'model': model_dict,
            'optimizer': opt_dict,
            'epi': epi
            }, PATH + 'all.tar')

## Replay Buffer

In [3]:
class ReplayBuffer():
    
    def __init__(self):
        self.buffer = collections.deque(maxlen=buffer_limit)

    def put(self, transition):
        self.buffer.append(transition)

    def sample(self, n):
        mini_batch = random.sample(self.buffer, n)
        s_lst, a_lst, r_lst, s_prime_lst, done_mask_lst = [], [], [], [], []

        for transition in mini_batch:
            s, a, r, s_prime, done_mask = transition
            s_lst.append(s)
            a_lst.append([a])
            r_lst.append([r])
            s_prime_lst.append(s_prime)
            done_mask_lst.append([done_mask])

        return torch.tensor(s_lst, dtype=torch. float), torch.tensor(a_lst), torch.tensor(r_lst), torch.tensor(s_prime_lst, dtype=torch. float), torch.tensor(done_mask_lst)
        
    def size(self):
        return len(self.buffer)


## Step

In [8]:
import collections
from Sim import *


learning_rate = 0.0005
gamma = 0.99
buffer_limit  = 50000
batch_size = 32

USE_CUDA = torch.cuda.is_available()
device = torch.device('cuda:0' if USE_CUDA else 'cpu')

env = Simulator()

memory = ReplayBuffer()
q = QnetCNN().to(device)
q_target = QnetCNN().to(device)
q_target.load_state_dict(q.state_dict()) # 현재 Qnet 의 파라미터를 q_target 에 load

optimizer = optim.Adam(q.parameters(), lr = learning_rate) # loss 값을 바탕으로 업데이트할 비율 (q_target 말고 q 만 업데이트)

print_interval = 50
score = 0.0
files = pd.read_csv("./data/factory_order_train.csv")
    
for epi in tqdm(range(40000)): 

    if epi%100 == 0:
        model_save(q.state_dict(), optimizer.state_dict(), epi)
        
    items = list(files.iloc[0])[0]
    
    epsilon = max(0.01, 0.50 - 0.02 * (epi//100))

    s = env.reset(0)
    obs = np.asarray(s, dtype=np.float32)
    
    done = False
    first = True
    a_step = 0
    
    while not done:
        
        # Action choose
        if first:
            a = 0
            first = False
        
        else:
            a = q.sample_action(torch.from_numpy(obs).float(), epsilon) 
        s_prime, r, cumul, done, goal_reward = env.step(a)
        
        array = s_prime
        action = ['↑', '↓', '←', '→'][a]
        s_prime = np.asarray(s_prime, dtype=np.float32)
        
        # Calculate
        done_mask = 0.0 if done else 1.0
        memory.put((obs,a,r, s_prime, done_mask))
        
        score += r
        a_step +=1
        
        if a_step ==100: #1000번 했는데도 안되면 강제종료
            done =True
            goal_reward=True
        
        if done :
            break
            
    if memory.size() > 4000:
        train(q, q_target, memory, optimizer)
        
    if epi%print_interval==0 and epi != 0: 
        print(f'{epi} 에서 챙기는 아이템 : {items}\n마지막 행동 : {action}\n 그 때의 마지막 상태 :\n{array}\n마지막 보상 : {r}\n 총 받은 보상 :{cumul}')
        q_target.load_state_dict(q.state_dict()) #q_target 지금걸로 업데이트
        print(f"score = {int(score/print_interval)}, n_buffer : {memory.size()}, eps : {epsilon*100}")
        score = 0.0



  0%|                                                                     | 51/40000 [00:05<1:28:03,  7.56it/s]

50 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  0.3 1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000068
score = -9, n_buffer : 5100, eps : 50.0


  0%|▏                                                                   | 101/40000 [00:15<2:17:02,  4.85it/s]

100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -3, n_buffer : 10100, eps : 48.0


  0%|▎                                                                   | 152/40000 [00:25<2:08:33,  5.17it/s]

150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  0.3 1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000108
score = -4, n_buffer : 15100, eps : 48.0


  1%|▎                                                                   | 202/40000 [00:33<1:50:56,  5.98it/s]

200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -4, n_buffer : 20100, eps : 46.0


  1%|▍                                                                   | 252/40000 [00:41<1:51:55,  5.92it/s]

250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -2, n_buffer : 25100, eps : 46.0


  1%|▌                                                                   | 302/40000 [00:50<1:55:19,  5.74it/s]

300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  0.3 1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 30100, eps : 44.0


  1%|▌                                                                   | 352/40000 [00:58<1:51:11,  5.94it/s]

350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  0.3 1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -3, n_buffer : 35100, eps : 44.0


  1%|▋                                                                   | 402/40000 [01:06<1:34:57,  6.95it/s]

400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000814
score = -3, n_buffer : 40100, eps : 42.0


  1%|▊                                                                   | 452/40000 [01:15<1:46:52,  6.17it/s]

450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 45100, eps : 42.0


  1%|▊                                                                   | 502/40000 [01:23<1:50:07,  5.98it/s]

500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -3, n_buffer : 50000, eps : 40.0


  1%|▉                                                                   | 551/40000 [01:33<2:17:21,  4.79it/s]

550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  0.3 1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -3, n_buffer : 50000, eps : 40.0


  2%|█                                                                   | 602/40000 [01:42<2:08:44,  5.10it/s]

600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  0.3 0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 50000, eps : 38.0


  2%|█                                                                   | 652/40000 [01:53<2:03:05,  5.33it/s]

650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -4, n_buffer : 50000, eps : 38.0


  2%|█▏                                                                  | 702/40000 [02:03<2:01:26,  5.39it/s]

700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -1, n_buffer : 50000, eps : 36.0


  2%|█▎                                                                  | 752/40000 [02:12<1:42:17,  6.39it/s]

750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001125
score = -3, n_buffer : 50000, eps : 36.0


  2%|█▎                                                                  | 802/40000 [02:21<1:50:02,  5.94it/s]

800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -2, n_buffer : 50000, eps : 34.0


  2%|█▍                                                                  | 852/40000 [02:30<1:52:13,  5.81it/s]

850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 50000, eps : 34.0


  2%|█▌                                                                  | 902/40000 [02:39<1:55:01,  5.67it/s]

900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -3, n_buffer : 50000, eps : 32.0


  2%|█▌                                                                  | 952/40000 [02:48<1:45:16,  6.18it/s]

950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  0.3 1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -2, n_buffer : 50000, eps : 32.0


  3%|█▋                                                                 | 1002/40000 [02:56<1:48:38,  5.98it/s]

1000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  0.3 1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -4, n_buffer : 50000, eps : 30.0


  3%|█▊                                                                 | 1052/40000 [03:05<1:58:18,  5.49it/s]

1050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000592
score = -4, n_buffer : 50000, eps : 30.0


  3%|█▊                                                                 | 1101/40000 [03:15<1:54:55,  5.64it/s]

1100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  0.3 1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 28.000000000000004


  3%|█▉                                                                 | 1152/40000 [03:24<1:57:46,  5.50it/s]

1150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -6, n_buffer : 50000, eps : 28.000000000000004


  3%|██                                                                 | 1202/40000 [03:33<1:50:35,  5.85it/s]

1200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -3, n_buffer : 50000, eps : 26.0


  3%|██                                                                 | 1252/40000 [03:41<1:53:06,  5.71it/s]

1250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -4, n_buffer : 50000, eps : 26.0


  3%|██▏                                                                | 1302/40000 [03:49<1:35:44,  6.74it/s]

1300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000503
score = -5, n_buffer : 50000, eps : 24.0


  3%|██▎                                                                | 1352/40000 [03:57<1:36:58,  6.64it/s]

1350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 24.0


  4%|██▎                                                                | 1401/40000 [04:06<1:57:50,  5.46it/s]

1400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 21.999999999999996


  4%|██▍                                                                | 1451/40000 [04:16<2:01:33,  5.29it/s]

1450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  0.3 0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 21.999999999999996


  4%|██▌                                                                | 1502/40000 [04:26<1:51:13,  5.77it/s]

1500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  0.3 1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -4, n_buffer : 50000, eps : 20.0


  4%|██▌                                                                | 1551/40000 [04:35<1:46:45,  6.00it/s]

1550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  0.3 1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 50000, eps : 20.0


  4%|██▋                                                                | 1601/40000 [04:46<2:39:10,  4.02it/s]

1600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 50000, eps : 18.0


  4%|██▊                                                                | 1652/40000 [04:56<1:58:12,  5.41it/s]

1650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -3, n_buffer : 50000, eps : 18.0


  4%|██▊                                                                | 1702/40000 [05:04<1:52:12,  5.69it/s]

1700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  0.3 1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -4, n_buffer : 50000, eps : 15.999999999999998


  4%|██▉                                                                | 1752/40000 [05:13<1:49:22,  5.83it/s]

1750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [0.3 1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 15.999999999999998


  5%|███                                                                | 1802/40000 [05:22<1:45:33,  6.03it/s]

1800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 50000, eps : 14.000000000000002


  5%|███                                                                | 1851/40000 [05:30<1:55:33,  5.50it/s]

1850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  0.3 1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001613
score = -4, n_buffer : 50000, eps : 14.000000000000002


  5%|███▏                                                               | 1902/40000 [05:38<1:48:42,  5.84it/s]

1900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [0.3 1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 12.0


  5%|███▎                                                               | 1952/40000 [05:47<1:57:41,  5.39it/s]

1950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 12.0


  5%|███▎                                                               | 2001/40000 [05:56<1:42:49,  6.16it/s]

2000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  0.3 1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -4, n_buffer : 50000, eps : 9.999999999999998


  5%|███▍                                                               | 2052/40000 [06:05<1:50:51,  5.71it/s]

2050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -5, n_buffer : 50000, eps : 9.999999999999998


  5%|███▌                                                               | 2102/40000 [06:14<2:03:18,  5.12it/s]

2100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -4, n_buffer : 50000, eps : 8.000000000000002


  5%|███▌                                                               | 2152/40000 [06:23<1:36:55,  6.51it/s]

2150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -5, n_buffer : 50000, eps : 8.000000000000002


  6%|███▋                                                               | 2202/40000 [06:30<1:32:02,  6.84it/s]

2200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 6.0


  6%|███▊                                                               | 2252/40000 [06:39<2:05:33,  5.01it/s]

2250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -5, n_buffer : 50000, eps : 6.0


  6%|███▊                                                               | 2301/40000 [06:49<1:49:06,  5.76it/s]

2300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 3.9999999999999982


  6%|███▉                                                               | 2351/40000 [06:58<1:57:00,  5.36it/s]

2350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 3.9999999999999982


  6%|████                                                               | 2401/40000 [07:09<2:22:40,  4.39it/s]

2400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -5, n_buffer : 50000, eps : 2.0000000000000018


  6%|████                                                               | 2451/40000 [07:18<2:15:05,  4.63it/s]

2450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 2.0000000000000018


  6%|████▏                                                              | 2502/40000 [07:28<1:59:16,  5.24it/s]

2500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  6%|████▎                                                              | 2551/40000 [07:38<2:03:02,  5.07it/s]

2550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  7%|████▎                                                              | 2602/40000 [07:48<2:05:57,  4.95it/s]

2600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  7%|████▍                                                              | 2651/40000 [07:58<2:13:09,  4.67it/s]

2650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  0.3 0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  7%|████▌                                                              | 2702/40000 [08:07<1:49:13,  5.69it/s]

2700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


  7%|████▌                                                              | 2752/40000 [08:15<1:46:57,  5.80it/s]

2750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000814
score = -8, n_buffer : 50000, eps : 1.0


  7%|████▋                                                              | 2802/40000 [08:24<1:44:31,  5.93it/s]

2800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  7%|████▊                                                              | 2852/40000 [08:32<2:00:45,  5.13it/s]

2850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  7%|████▊                                                              | 2902/40000 [08:41<1:44:59,  5.89it/s]

2900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  7%|████▉                                                              | 2952/40000 [08:49<1:45:21,  5.86it/s]

2950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  8%|█████                                                              | 3002/40000 [08:59<1:51:19,  5.54it/s]

3000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000168
score = -7, n_buffer : 50000, eps : 1.0


  8%|█████                                                              | 3052/40000 [09:08<1:48:55,  5.65it/s]

3050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  8%|█████▏                                                             | 3101/40000 [09:17<2:07:56,  4.81it/s]

3100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  8%|█████▎                                                             | 3152/40000 [09:26<1:45:29,  5.82it/s]

3150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  8%|█████▎                                                             | 3202/40000 [09:35<1:51:13,  5.51it/s]

3200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  8%|█████▍                                                             | 3252/40000 [09:43<1:43:31,  5.92it/s]

3250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -8, n_buffer : 50000, eps : 1.0


  8%|█████▌                                                             | 3302/40000 [09:52<2:00:47,  5.06it/s]

3300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000903
score = -9, n_buffer : 50000, eps : 1.0


  8%|█████▌                                                             | 3352/40000 [10:02<2:04:45,  4.90it/s]

3350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000592
score = -8, n_buffer : 50000, eps : 1.0


  9%|█████▋                                                             | 3401/40000 [10:12<2:08:40,  4.74it/s]

3400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  9%|█████▊                                                             | 3452/40000 [10:22<2:05:17,  4.86it/s]

3450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  9%|█████▊                                                             | 3502/40000 [10:32<1:32:33,  6.57it/s]

3500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  9%|█████▉                                                             | 3551/40000 [10:42<2:01:57,  4.98it/s]

3550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


  9%|██████                                                             | 3602/40000 [10:52<1:40:54,  6.01it/s]

3600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  9%|██████                                                             | 3651/40000 [11:03<2:30:04,  4.04it/s]

3650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


  9%|██████▏                                                            | 3702/40000 [11:13<2:03:50,  4.88it/s]

3700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


  9%|██████▎                                                            | 3751/40000 [11:24<2:00:34,  5.01it/s]

3750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000414
score = -7, n_buffer : 50000, eps : 1.0


 10%|██████▎                                                            | 3801/40000 [11:34<2:01:39,  4.96it/s]

3800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -8, n_buffer : 50000, eps : 1.0


 10%|██████▍                                                            | 3852/40000 [11:45<1:40:43,  5.98it/s]

3850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001646
score = -8, n_buffer : 50000, eps : 1.0


 10%|██████▌                                                            | 3901/40000 [11:55<1:45:24,  5.71it/s]

3900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 10%|██████▌                                                            | 3951/40000 [12:05<2:10:12,  4.61it/s]

3950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 10%|██████▋                                                            | 4002/40000 [12:15<1:51:13,  5.39it/s]

4000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 10%|██████▊                                                            | 4052/40000 [12:24<1:24:24,  7.10it/s]

4050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 10%|██████▊                                                            | 4102/40000 [12:32<1:32:52,  6.44it/s]

4100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 10%|██████▉                                                            | 4152/40000 [12:40<1:23:29,  7.16it/s]

4150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████                                                            | 4202/40000 [12:47<1:44:43,  5.70it/s]

4200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████                                                            | 4252/40000 [12:56<1:23:48,  7.11it/s]

4250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████▏                                                           | 4302/40000 [13:05<1:25:19,  6.97it/s]

4300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████▎                                                           | 4351/40000 [13:16<2:06:28,  4.70it/s]

4350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████▎                                                           | 4402/40000 [13:24<1:25:31,  6.94it/s]

4400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████▍                                                           | 4452/40000 [13:33<1:32:31,  6.40it/s]

4450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 11%|███████▌                                                           | 4501/40000 [13:42<2:17:23,  4.31it/s]

4500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 11%|███████▌                                                           | 4552/40000 [13:52<2:05:49,  4.70it/s]

4550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 12%|███████▋                                                           | 4601/40000 [14:02<2:20:41,  4.19it/s]

4600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 12%|███████▊                                                           | 4651/40000 [14:12<2:05:51,  4.68it/s]

4650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 12%|███████▊                                                           | 4701/40000 [14:23<2:09:24,  4.55it/s]

4700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 12%|███████▉                                                           | 4752/40000 [14:33<1:48:54,  5.39it/s]

4750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 12%|████████                                                           | 4801/40000 [14:43<1:51:47,  5.25it/s]

4800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 12%|████████▏                                                          | 4851/40000 [14:52<1:48:48,  5.38it/s]

4850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 12%|████████▏                                                          | 4902/40000 [15:01<1:27:05,  6.72it/s]

4900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 12%|████████▎                                                          | 4952/40000 [15:09<1:49:11,  5.35it/s]

4950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 13%|████████▍                                                          | 5001/40000 [15:19<2:24:52,  4.03it/s]

5000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 13%|████████▍                                                          | 5052/40000 [15:29<1:53:53,  5.11it/s]

5050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000858
score = -7, n_buffer : 50000, eps : 1.0


 13%|████████▌                                                          | 5102/40000 [15:38<1:42:10,  5.69it/s]

5100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 13%|████████▋                                                          | 5152/40000 [15:47<1:46:53,  5.43it/s]

5150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 13%|████████▋                                                          | 5202/40000 [15:56<1:53:12,  5.12it/s]

5200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 13%|████████▊                                                          | 5252/40000 [16:05<1:44:03,  5.57it/s]

5250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 13%|████████▉                                                          | 5302/40000 [16:14<1:49:58,  5.26it/s]

5300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 13%|████████▉                                                          | 5352/40000 [16:23<1:46:19,  5.43it/s]

5350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 14%|█████████                                                          | 5402/40000 [16:32<1:39:10,  5.81it/s]

5400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 14%|█████████▏                                                         | 5452/40000 [16:41<1:41:00,  5.70it/s]

5450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 14%|█████████▏                                                         | 5502/40000 [16:49<1:30:01,  6.39it/s]

5500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 14%|█████████▎                                                         | 5552/40000 [16:58<1:55:56,  4.95it/s]

5550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 14%|█████████▍                                                         | 5602/40000 [17:06<1:42:19,  5.60it/s]

5600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 14%|█████████▍                                                         | 5652/40000 [17:15<1:46:49,  5.36it/s]

5650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 14%|█████████▌                                                         | 5702/40000 [17:24<1:43:15,  5.54it/s]

5700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 14%|█████████▋                                                         | 5752/40000 [17:33<1:36:25,  5.92it/s]

5750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000077
score = -7, n_buffer : 50000, eps : 1.0


 15%|█████████▋                                                         | 5802/40000 [17:42<1:39:21,  5.74it/s]

5800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 15%|█████████▊                                                         | 5851/40000 [17:51<1:43:28,  5.50it/s]

5850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -7, n_buffer : 50000, eps : 1.0


 15%|█████████▉                                                         | 5902/40000 [18:00<1:38:10,  5.79it/s]

5900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 15%|█████████▉                                                         | 5952/40000 [18:10<1:42:16,  5.55it/s]

5950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000414
score = -8, n_buffer : 50000, eps : 1.0


 15%|██████████                                                         | 6002/40000 [18:18<1:41:12,  5.60it/s]

6000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 15%|██████████▏                                                        | 6052/40000 [18:28<1:39:04,  5.71it/s]

6050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -8, n_buffer : 50000, eps : 1.0


 15%|██████████▏                                                        | 6102/40000 [18:36<1:40:49,  5.60it/s]

6100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 15%|██████████▎                                                        | 6152/40000 [18:45<1:39:52,  5.65it/s]

6150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 16%|██████████▍                                                        | 6202/40000 [18:54<1:43:35,  5.44it/s]

6200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 16%|██████████▍                                                        | 6252/40000 [19:04<1:40:10,  5.61it/s]

6250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 16%|██████████▌                                                        | 6302/40000 [19:12<1:32:43,  6.06it/s]

6300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 16%|██████████▋                                                        | 6352/40000 [19:21<1:40:11,  5.60it/s]

6350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 16%|██████████▋                                                        | 6402/40000 [19:30<1:28:13,  6.35it/s]

6400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 16%|██████████▊                                                        | 6452/40000 [19:39<1:47:42,  5.19it/s]

6450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000592
score = -7, n_buffer : 50000, eps : 1.0


 16%|██████████▉                                                        | 6502/40000 [19:50<2:07:53,  4.37it/s]

6500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 16%|██████████▉                                                        | 6552/40000 [20:00<1:42:55,  5.42it/s]

6550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 17%|███████████                                                        | 6602/40000 [20:09<1:47:41,  5.17it/s]

6600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -7, n_buffer : 50000, eps : 1.0


 17%|███████████▏                                                       | 6652/40000 [20:18<1:30:05,  6.17it/s]

6650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 17%|███████████▏                                                       | 6702/40000 [20:27<1:37:08,  5.71it/s]

6700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 17%|███████████▎                                                       | 6752/40000 [20:36<1:42:39,  5.40it/s]

6750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 17%|███████████▍                                                       | 6802/40000 [20:45<1:42:48,  5.38it/s]

6800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 17%|███████████▍                                                       | 6852/40000 [20:54<1:40:57,  5.47it/s]

6850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 17%|███████████▌                                                       | 6902/40000 [21:03<1:37:42,  5.65it/s]

6900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  0.3 0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 17%|███████████▋                                                       | 6952/40000 [21:12<1:42:26,  5.38it/s]

6950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 18%|███████████▋                                                       | 7002/40000 [21:21<1:35:11,  5.78it/s]

7000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 18%|███████████▊                                                       | 7052/40000 [21:29<1:25:18,  6.44it/s]

7050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 18%|███████████▉                                                       | 7102/40000 [21:38<1:39:59,  5.48it/s]

7100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 18%|███████████▉                                                       | 7152/40000 [21:47<1:34:21,  5.80it/s]

7150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 18%|████████████                                                       | 7202/40000 [21:56<1:40:30,  5.44it/s]

7200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 18%|████████████▏                                                      | 7252/40000 [22:06<1:37:46,  5.58it/s]

7250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 18%|████████████▏                                                      | 7302/40000 [22:15<1:42:33,  5.31it/s]

7300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000325
score = -7, n_buffer : 50000, eps : 1.0


 18%|████████████▎                                                      | 7352/40000 [22:24<1:38:36,  5.52it/s]

7350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▍                                                      | 7402/40000 [22:32<1:34:24,  5.75it/s]

7400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000903
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▍                                                      | 7452/40000 [22:40<1:23:12,  6.52it/s]

7450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▌                                                      | 7502/40000 [22:49<1:22:13,  6.59it/s]

7500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 19%|████████████▋                                                      | 7552/40000 [22:58<1:43:58,  5.20it/s]

7550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▋                                                      | 7602/40000 [23:07<1:35:27,  5.66it/s]

7600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▊                                                      | 7652/40000 [23:16<1:38:37,  5.47it/s]

7650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▉                                                      | 7701/40000 [23:25<1:47:05,  5.03it/s]

7700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 19%|████████████▉                                                      | 7752/40000 [23:34<1:32:38,  5.80it/s]

7750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 20%|█████████████                                                      | 7802/40000 [23:42<1:31:55,  5.84it/s]

7800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  0.3 0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 20%|█████████████▏                                                     | 7852/40000 [23:52<1:41:05,  5.30it/s]

7850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -8, n_buffer : 50000, eps : 1.0


 20%|█████████████▏                                                     | 7902/40000 [24:01<1:26:47,  6.16it/s]

7900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -7, n_buffer : 50000, eps : 1.0


 20%|█████████████▎                                                     | 7952/40000 [24:09<1:23:41,  6.38it/s]

7950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 20%|█████████████▍                                                     | 8001/40000 [24:19<1:58:55,  4.48it/s]

8000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 20%|█████████████▍                                                     | 8052/40000 [24:30<1:34:21,  5.64it/s]

8050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 20%|█████████████▌                                                     | 8102/40000 [24:39<1:40:08,  5.31it/s]

8100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 20%|█████████████▋                                                     | 8152/40000 [24:48<1:34:36,  5.61it/s]

8150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 21%|█████████████▋                                                     | 8202/40000 [24:56<1:32:51,  5.71it/s]

8200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000459
score = -8, n_buffer : 50000, eps : 1.0


 21%|█████████████▊                                                     | 8252/40000 [25:05<1:35:28,  5.54it/s]

8250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 21%|█████████████▉                                                     | 8301/40000 [25:14<1:48:35,  4.87it/s]

8300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 21%|█████████████▉                                                     | 8352/40000 [25:23<1:37:08,  5.43it/s]

8350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 21%|██████████████                                                     | 8402/40000 [25:33<1:31:45,  5.74it/s]

8400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 21%|██████████████▏                                                    | 8452/40000 [25:42<1:35:07,  5.53it/s]

8450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 21%|██████████████▏                                                    | 8502/40000 [25:51<1:31:33,  5.73it/s]

8500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 21%|██████████████▎                                                    | 8552/40000 [26:00<1:33:02,  5.63it/s]

8550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001746
score = -8, n_buffer : 50000, eps : 1.0


 22%|██████████████▍                                                    | 8602/40000 [26:09<1:31:32,  5.72it/s]

8600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 22%|██████████████▍                                                    | 8652/40000 [26:18<1:32:34,  5.64it/s]

8650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 22%|██████████████▌                                                    | 8702/40000 [26:27<1:40:21,  5.20it/s]

8700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 22%|██████████████▋                                                    | 8752/40000 [26:36<1:31:28,  5.69it/s]

8750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 22%|██████████████▋                                                    | 8802/40000 [26:45<1:40:00,  5.20it/s]

8800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 22%|██████████████▊                                                    | 8852/40000 [26:54<1:30:41,  5.72it/s]

8850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 22%|██████████████▉                                                    | 8902/40000 [27:03<1:33:24,  5.55it/s]

8900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 22%|██████████████▉                                                    | 8952/40000 [27:12<1:28:47,  5.83it/s]

8950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 23%|███████████████                                                    | 9002/40000 [27:20<1:19:47,  6.47it/s]

9000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -7, n_buffer : 50000, eps : 1.0


 23%|███████████████▏                                                   | 9052/40000 [27:28<1:23:35,  6.17it/s]

9050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 23%|███████████████▏                                                   | 9102/40000 [27:37<1:37:06,  5.30it/s]

9100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 23%|███████████████▎                                                   | 9152/40000 [27:46<1:28:52,  5.78it/s]

9150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 23%|███████████████▍                                                   | 9202/40000 [27:55<1:31:01,  5.64it/s]

9200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 23%|███████████████▍                                                   | 9252/40000 [28:04<1:32:50,  5.52it/s]

9250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 23%|███████████████▌                                                   | 9302/40000 [28:13<1:30:26,  5.66it/s]

9300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : 10
 총 받은 보상 :0.10000000000001918
score = -8, n_buffer : 50000, eps : 1.0


 23%|███████████████▋                                                   | 9352/40000 [28:22<1:25:07,  6.00it/s]

9350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 24%|███████████████▋                                                   | 9402/40000 [28:31<1:33:26,  5.46it/s]

9400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 24%|███████████████▊                                                   | 9452/40000 [28:40<1:33:01,  5.47it/s]

9450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 24%|███████████████▉                                                   | 9502/40000 [28:49<1:29:13,  5.70it/s]

9500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 24%|███████████████▉                                                   | 9552/40000 [28:58<1:26:03,  5.90it/s]

9550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 24%|████████████████                                                   | 9602/40000 [29:07<1:28:16,  5.74it/s]

9600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 24%|████████████████▏                                                  | 9652/40000 [29:15<1:26:35,  5.84it/s]

9650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 24%|████████████████▎                                                  | 9702/40000 [29:24<1:30:17,  5.59it/s]

9700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 24%|████████████████▎                                                  | 9752/40000 [29:34<1:31:14,  5.53it/s]

9750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 25%|████████████████▍                                                  | 9802/40000 [29:42<1:27:23,  5.76it/s]

9800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 25%|████████████████▌                                                  | 9852/40000 [29:50<1:17:43,  6.47it/s]

9850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 25%|████████████████▌                                                  | 9902/40000 [30:00<1:32:34,  5.42it/s]

9900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 25%|████████████████▋                                                  | 9952/40000 [30:09<1:30:34,  5.53it/s]

9950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 25%|████████████████▌                                                 | 10001/40000 [30:18<1:38:02,  5.10it/s]

10000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 25%|████████████████▌                                                 | 10052/40000 [30:27<1:28:28,  5.64it/s]

10050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 25%|████████████████▋                                                 | 10102/40000 [30:36<1:18:11,  6.37it/s]

10100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 25%|████████████████▊                                                 | 10152/40000 [30:44<1:24:08,  5.91it/s]

10150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|████████████████▊                                                 | 10202/40000 [30:53<1:22:08,  6.05it/s]

10200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|████████████████▉                                                 | 10252/40000 [31:02<1:27:06,  5.69it/s]

10250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|████████████████▉                                                 | 10302/40000 [31:11<1:26:05,  5.75it/s]

10300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|█████████████████                                                 | 10352/40000 [31:19<1:33:02,  5.31it/s]

10350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|█████████████████▏                                                | 10402/40000 [31:29<1:23:10,  5.93it/s]

10400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|█████████████████▏                                                | 10452/40000 [31:37<1:25:43,  5.75it/s]

10450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 26%|█████████████████▎                                                | 10502/40000 [31:46<1:25:56,  5.72it/s]

10500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001125
score = -7, n_buffer : 50000, eps : 1.0


 26%|█████████████████▍                                                | 10552/40000 [31:55<1:26:33,  5.67it/s]

10550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|█████████████████▍                                                | 10602/40000 [32:04<1:26:18,  5.68it/s]

10600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|█████████████████▌                                                | 10652/40000 [32:12<1:13:16,  6.68it/s]

10650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|█████████████████▋                                                | 10702/40000 [32:20<1:26:05,  5.67it/s]

10700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|█████████████████▋                                                | 10752/40000 [32:29<1:23:36,  5.83it/s]

10750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|█████████████████▊                                                | 10802/40000 [32:38<1:27:25,  5.57it/s]

10800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|█████████████████▉                                                | 10852/40000 [32:47<1:26:47,  5.60it/s]

10850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 27%|█████████████████▉                                                | 10902/40000 [32:56<1:27:50,  5.52it/s]

10900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 27%|██████████████████                                                | 10952/40000 [33:05<1:20:55,  5.98it/s]

10950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 28%|██████████████████▏                                               | 11002/40000 [33:14<1:27:22,  5.53it/s]

11000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 28%|██████████████████▏                                               | 11052/40000 [33:22<1:20:50,  5.97it/s]

11050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 28%|██████████████████▎                                               | 11102/40000 [33:31<1:24:23,  5.71it/s]

11100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 28%|██████████████████▍                                               | 11152/40000 [33:39<1:22:07,  5.85it/s]

11150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 28%|██████████████████▍                                               | 11202/40000 [33:48<1:20:32,  5.96it/s]

11200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 28%|██████████████████▌                                               | 11252/40000 [33:57<1:22:50,  5.78it/s]

11250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 28%|██████████████████▋                                               | 11302/40000 [34:06<1:28:32,  5.40it/s]

11300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 28%|██████████████████▋                                               | 11352/40000 [34:14<1:26:10,  5.54it/s]

11350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001302
score = -9, n_buffer : 50000, eps : 1.0


 29%|██████████████████▊                                               | 11402/40000 [34:23<1:24:47,  5.62it/s]

11400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|██████████████████▉                                               | 11452/40000 [34:32<1:20:10,  5.93it/s]

11450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|██████████████████▉                                               | 11502/40000 [34:41<1:21:10,  5.85it/s]

11500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|███████████████████                                               | 11552/40000 [34:49<1:18:49,  6.01it/s]

11550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.3 1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|███████████████████▏                                              | 11602/40000 [34:56<1:11:36,  6.61it/s]

11600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|███████████████████▏                                              | 11652/40000 [35:04<1:17:35,  6.09it/s]

11650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|███████████████████▎                                              | 11702/40000 [35:14<1:27:13,  5.41it/s]

11700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 29%|███████████████████▍                                              | 11752/40000 [35:23<1:27:11,  5.40it/s]

11750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 30%|███████████████████▍                                              | 11802/40000 [35:31<1:14:41,  6.29it/s]

11800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 30%|███████████████████▌                                              | 11852/40000 [35:40<1:16:12,  6.16it/s]

11850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 30%|███████████████████▋                                              | 11902/40000 [35:49<1:22:00,  5.71it/s]

11900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 30%|███████████████████▋                                              | 11952/40000 [35:58<1:19:23,  5.89it/s]

11950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 30%|███████████████████▊                                              | 12002/40000 [36:07<1:18:30,  5.94it/s]

12000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 30%|███████████████████▉                                              | 12052/40000 [36:15<1:25:41,  5.44it/s]

12050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 30%|███████████████████▉                                              | 12102/40000 [36:23<1:18:18,  5.94it/s]

12100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 30%|████████████████████                                              | 12152/40000 [36:31<1:19:40,  5.83it/s]

12150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 31%|████████████████████▏                                             | 12202/40000 [36:40<1:15:43,  6.12it/s]

12200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000814
score = -7, n_buffer : 50000, eps : 1.0


 31%|████████████████████▏                                             | 12252/40000 [36:49<1:17:39,  5.95it/s]

12250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 31%|████████████████████▎                                             | 12302/40000 [36:57<1:16:39,  6.02it/s]

12300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000168
score = -8, n_buffer : 50000, eps : 1.0


 31%|████████████████████▍                                             | 12352/40000 [37:06<1:25:38,  5.38it/s]

12350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.3 1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 31%|████████████████████▍                                             | 12402/40000 [37:15<1:19:44,  5.77it/s]

12400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  0.3 1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 31%|████████████████████▌                                             | 12452/40000 [37:23<1:18:36,  5.84it/s]

12450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 31%|████████████████████▋                                             | 12502/40000 [37:32<1:20:11,  5.71it/s]

12500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000077
score = -8, n_buffer : 50000, eps : 1.0


 31%|████████████████████▋                                             | 12552/40000 [37:41<1:26:01,  5.32it/s]

12550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 32%|████████████████████▊                                             | 12602/40000 [37:50<1:27:50,  5.20it/s]

12600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 32%|████████████████████▉                                             | 12652/40000 [37:59<1:22:37,  5.52it/s]

12650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001213
score = -6, n_buffer : 50000, eps : 1.0


 32%|████████████████████▉                                             | 12702/40000 [38:07<1:20:32,  5.65it/s]

12700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 32%|█████████████████████                                             | 12752/40000 [38:16<1:17:55,  5.83it/s]

12750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 32%|█████████████████████                                             | 12802/40000 [38:25<1:15:41,  5.99it/s]

12800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 32%|█████████████████████▏                                            | 12852/40000 [38:34<1:15:07,  6.02it/s]

12850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 32%|█████████████████████▎                                            | 12902/40000 [38:43<1:20:42,  5.60it/s]

12900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 32%|█████████████████████▎                                            | 12952/40000 [38:51<1:16:33,  5.89it/s]

12950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▍                                            | 13002/40000 [39:00<1:23:36,  5.38it/s]

13000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▌                                            | 13052/40000 [39:09<1:16:24,  5.88it/s]

13050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▌                                            | 13102/40000 [39:18<1:25:34,  5.24it/s]

13100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▋                                            | 13152/40000 [39:27<1:18:36,  5.69it/s]

13150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▊                                            | 13202/40000 [39:35<1:11:40,  6.23it/s]

13200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▊                                            | 13252/40000 [39:43<1:10:04,  6.36it/s]

13250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -7, n_buffer : 50000, eps : 1.0


 33%|█████████████████████▉                                            | 13302/40000 [39:52<1:16:34,  5.81it/s]

13300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 33%|██████████████████████                                            | 13352/40000 [40:01<1:22:39,  5.37it/s]

13350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 34%|██████████████████████                                            | 13402/40000 [40:10<1:16:28,  5.80it/s]

13400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▏                                           | 13452/40000 [40:19<1:21:36,  5.42it/s]

13450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▎                                           | 13502/40000 [40:28<1:20:45,  5.47it/s]

13500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▎                                           | 13552/40000 [40:38<1:22:23,  5.35it/s]

13550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  0.3 0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▍                                           | 13602/40000 [40:47<1:06:47,  6.59it/s]

13600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▌                                           | 13652/40000 [40:55<1:07:36,  6.50it/s]

13650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -7, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▌                                           | 13701/40000 [41:04<1:24:25,  5.19it/s]

13700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 34%|██████████████████████▋                                           | 13752/40000 [41:13<1:17:55,  5.61it/s]

13750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 35%|██████████████████████▊                                           | 13802/40000 [41:22<1:12:58,  5.98it/s]

13800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 35%|██████████████████████▊                                           | 13851/40000 [41:31<1:24:13,  5.17it/s]

13850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 35%|██████████████████████▉                                           | 13902/40000 [41:40<1:22:08,  5.29it/s]

13900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 35%|███████████████████████                                           | 13952/40000 [41:49<1:05:39,  6.61it/s]

13950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 35%|███████████████████████                                           | 14002/40000 [41:57<1:15:01,  5.78it/s]

14000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 35%|███████████████████████▏                                          | 14052/40000 [42:06<1:16:53,  5.62it/s]

14050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 35%|███████████████████████▎                                          | 14102/40000 [42:15<1:19:13,  5.45it/s]

14100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 35%|███████████████████████▎                                          | 14152/40000 [42:24<1:19:46,  5.40it/s]

14150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▍                                          | 14202/40000 [42:33<1:17:47,  5.53it/s]

14200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▌                                          | 14252/40000 [42:42<1:16:52,  5.58it/s]

14250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001569
score = -7, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▌                                          | 14302/40000 [42:51<1:13:03,  5.86it/s]

14300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000178
score = -8, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▋                                          | 14352/40000 [43:00<1:19:21,  5.39it/s]

14350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▊                                          | 14402/40000 [43:09<1:19:10,  5.39it/s]

14400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▊                                          | 14452/40000 [43:18<1:09:59,  6.08it/s]

14450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 36%|███████████████████████▉                                          | 14502/40000 [43:27<1:13:10,  5.81it/s]

14500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 36%|████████████████████████                                          | 14552/40000 [43:36<1:19:09,  5.36it/s]

14550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 37%|████████████████████████                                          | 14602/40000 [43:44<1:16:19,  5.55it/s]

14600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▏                                         | 14652/40000 [43:52<1:06:26,  6.36it/s]

14650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▎                                         | 14702/40000 [44:02<1:28:28,  4.77it/s]

14700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▎                                         | 14752/40000 [44:12<1:27:10,  4.83it/s]

14750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▍                                         | 14802/40000 [44:21<1:12:45,  5.77it/s]

14800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▌                                         | 14852/40000 [44:30<1:23:00,  5.05it/s]

14850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▌                                         | 14901/40000 [44:39<1:15:38,  5.53it/s]

14900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 37%|████████████████████████▋                                         | 14952/40000 [44:48<1:18:38,  5.31it/s]

14950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 38%|████████████████████████▊                                         | 15002/40000 [44:57<1:13:17,  5.69it/s]

15000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 38%|████████████████████████▊                                         | 15052/40000 [45:06<1:12:11,  5.76it/s]

15050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 38%|████████████████████████▉                                         | 15102/40000 [45:15<1:11:36,  5.80it/s]

15100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 38%|█████████████████████████                                         | 15152/40000 [45:23<1:15:14,  5.50it/s]

15150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 38%|█████████████████████████                                         | 15202/40000 [45:31<1:10:05,  5.90it/s]

15200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 38%|█████████████████████████▏                                        | 15251/40000 [45:40<1:26:37,  4.76it/s]

15250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 38%|█████████████████████████▏                                        | 15302/40000 [45:50<1:13:49,  5.58it/s]

15300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 38%|█████████████████████████▎                                        | 15352/40000 [45:59<1:12:07,  5.70it/s]

15350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▍                                        | 15402/40000 [46:08<1:16:42,  5.34it/s]

15400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▍                                        | 15452/40000 [46:17<1:13:35,  5.56it/s]

15450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▌                                        | 15502/40000 [46:26<1:15:39,  5.40it/s]

15500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▋                                        | 15552/40000 [46:35<1:11:27,  5.70it/s]

15550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -8, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▋                                        | 15602/40000 [46:44<1:17:11,  5.27it/s]

15600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▊                                        | 15652/40000 [46:53<1:14:45,  5.43it/s]

15650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▉                                        | 15702/40000 [47:01<1:12:46,  5.56it/s]

15700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 39%|█████████████████████████▉                                        | 15752/40000 [47:09<1:08:13,  5.92it/s]

15750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████                                        | 15801/40000 [47:18<1:25:45,  4.70it/s]

15800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -8, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▏                                       | 15852/40000 [47:27<1:12:15,  5.57it/s]

15850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▏                                       | 15902/40000 [47:36<1:14:13,  5.41it/s]

15900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▎                                       | 15952/40000 [47:45<1:16:44,  5.22it/s]

15950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▍                                       | 16002/40000 [47:54<1:11:31,  5.59it/s]

16000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▍                                       | 16052/40000 [48:03<1:06:50,  5.97it/s]

16050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▌                                       | 16102/40000 [48:12<1:13:41,  5.41it/s]

16100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001258
score = -7, n_buffer : 50000, eps : 1.0


 40%|██████████████████████████▋                                       | 16152/40000 [48:20<1:03:26,  6.26it/s]

16150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 41%|███████████████████████████▌                                        | 16202/40000 [48:27<50:43,  7.82it/s]

16200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 41%|███████████████████████████▋                                        | 16252/40000 [48:34<52:07,  7.59it/s]

16250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 41%|███████████████████████████▋                                        | 16302/40000 [48:41<46:38,  8.47it/s]

16300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -8, n_buffer : 50000, eps : 1.0


 41%|██████████████████████████▉                                       | 16352/40000 [48:48<1:00:35,  6.51it/s]

16350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001258
score = -8, n_buffer : 50000, eps : 1.0


 41%|███████████████████████████                                       | 16402/40000 [48:55<1:02:02,  6.34it/s]

16400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 41%|███████████████████████████▏                                      | 16452/40000 [49:02<1:05:05,  6.03it/s]

16450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 41%|████████████████████████████                                        | 16502/40000 [49:09<56:56,  6.88it/s]

16500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 41%|████████████████████████████▏                                       | 16552/40000 [49:17<47:43,  8.19it/s]

16550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▏                                       | 16602/40000 [49:24<53:12,  7.33it/s]

16600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▎                                       | 16652/40000 [49:31<54:19,  7.16it/s]

16650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▍                                       | 16702/40000 [49:38<47:24,  8.19it/s]

16700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001302
score = -8, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▍                                       | 16752/40000 [49:45<52:08,  7.43it/s]

16750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▌                                       | 16802/40000 [49:52<51:34,  7.50it/s]

16800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▋                                       | 16852/40000 [49:59<52:48,  7.31it/s]

16850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 42%|███████████████████████████▉                                      | 16902/40000 [50:07<1:01:43,  6.24it/s]

16900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 42%|████████████████████████████▊                                       | 16952/40000 [50:14<49:35,  7.74it/s]

16950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 43%|████████████████████████████▉                                       | 17002/40000 [50:21<48:02,  7.98it/s]

17000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 43%|████████████████████████████▏                                     | 17051/40000 [50:28<1:00:00,  6.37it/s]

17050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 43%|████████████████████████████▏                                     | 17102/40000 [50:34<1:00:45,  6.28it/s]

17100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 43%|████████████████████████████▎                                     | 17152/40000 [50:41<1:00:07,  6.33it/s]

17150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 43%|█████████████████████████████▏                                      | 17202/40000 [50:48<53:34,  7.09it/s]

17200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 43%|█████████████████████████████▎                                      | 17252/40000 [50:56<57:43,  6.57it/s]

17250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 43%|█████████████████████████████▍                                      | 17302/40000 [51:03<57:24,  6.59it/s]

17300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 43%|█████████████████████████████▍                                      | 17352/40000 [51:10<53:29,  7.06it/s]

17350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  0.3 1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 44%|█████████████████████████████▌                                      | 17402/40000 [51:18<48:22,  7.78it/s]

17400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 44%|█████████████████████████████▋                                      | 17452/40000 [51:25<56:35,  6.64it/s]

17450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 44%|█████████████████████████████▊                                      | 17502/40000 [51:32<47:55,  7.82it/s]

17500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 44%|████████████████████████████▉                                     | 17552/40000 [51:40<1:03:12,  5.92it/s]

17550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 44%|█████████████████████████████                                     | 17602/40000 [51:47<1:00:58,  6.12it/s]

17600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 44%|█████████████████████████████▏                                    | 17652/40000 [51:54<1:01:27,  6.06it/s]

17650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 44%|██████████████████████████████                                      | 17702/40000 [52:02<45:25,  8.18it/s]

17700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 44%|██████████████████████████████▏                                     | 17752/40000 [52:09<57:48,  6.41it/s]

17750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 45%|██████████████████████████████▎                                     | 17802/40000 [52:15<52:00,  7.11it/s]

17800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 45%|█████████████████████████████▍                                    | 17852/40000 [52:23<1:03:18,  5.83it/s]

17850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 45%|██████████████████████████████▍                                     | 17902/40000 [52:30<57:09,  6.44it/s]

17900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 45%|██████████████████████████████▌                                     | 17952/40000 [52:37<54:44,  6.71it/s]

17950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : 10
 총 받은 보상 :0.10000000000001918
score = -7, n_buffer : 50000, eps : 1.0


 45%|█████████████████████████████▋                                    | 18002/40000 [52:45<1:01:55,  5.92it/s]

18000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 45%|██████████████████████████████▋                                     | 18052/40000 [52:52<55:53,  6.54it/s]

18050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -8, n_buffer : 50000, eps : 1.0


 45%|██████████████████████████████▊                                     | 18102/40000 [52:59<45:13,  8.07it/s]

18100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 45%|██████████████████████████████▊                                     | 18152/40000 [53:06<47:30,  7.67it/s]

18150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 46%|██████████████████████████████▉                                     | 18202/40000 [53:13<44:57,  8.08it/s]

18200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████                                     | 18252/40000 [53:21<52:40,  6.88it/s]

18250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████                                     | 18302/40000 [53:28<49:53,  7.25it/s]

18300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████▏                                    | 18352/40000 [53:35<57:53,  6.23it/s]

18350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████▎                                    | 18402/40000 [53:43<49:43,  7.24it/s]

18400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████▎                                    | 18451/40000 [53:50<54:37,  6.58it/s]

18450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████▍                                    | 18502/40000 [53:57<48:44,  7.35it/s]

18500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 46%|███████████████████████████████▌                                    | 18552/40000 [54:05<57:24,  6.23it/s]

18550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 47%|███████████████████████████████▌                                    | 18602/40000 [54:12<53:11,  6.70it/s]

18600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 47%|███████████████████████████████▋                                    | 18652/40000 [54:18<41:42,  8.53it/s]

18650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 47%|███████████████████████████████▊                                    | 18702/40000 [54:24<41:24,  8.57it/s]

18700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -7, n_buffer : 50000, eps : 1.0


 47%|██████████████████████████████▉                                   | 18752/40000 [54:32<1:01:26,  5.76it/s]

18750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 47%|███████████████████████████████                                   | 18802/40000 [54:41<1:01:40,  5.73it/s]

18800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 47%|███████████████████████████████                                   | 18852/40000 [54:50<1:03:29,  5.55it/s]

18850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -7, n_buffer : 50000, eps : 1.0


 47%|████████████████████████████████▏                                   | 18902/40000 [54:58<51:34,  6.82it/s]

18900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 47%|████████████████████████████████▏                                   | 18952/40000 [55:05<40:45,  8.61it/s]

18950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 48%|███████████████████████████████▎                                  | 19002/40000 [55:11<1:01:15,  5.71it/s]

19000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 48%|████████████████████████████████▍                                   | 19052/40000 [55:19<49:58,  6.99it/s]

19050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 48%|███████████████████████████████▌                                  | 19102/40000 [55:27<1:01:58,  5.62it/s]

19100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 48%|████████████████████████████████▌                                   | 19152/40000 [55:36<59:04,  5.88it/s]

19150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 48%|███████████████████████████████▋                                  | 19201/40000 [55:44<1:09:27,  4.99it/s]

19200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 48%|███████████████████████████████▊                                  | 19252/40000 [55:54<1:05:57,  5.24it/s]

19250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 48%|████████████████████████████████▊                                   | 19302/40000 [56:02<59:28,  5.80it/s]

19300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 48%|████████████████████████████████▉                                   | 19352/40000 [56:11<57:25,  5.99it/s]

19350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 49%|████████████████████████████████                                  | 19401/40000 [56:20<1:14:24,  4.61it/s]

19400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 49%|█████████████████████████████████                                   | 19452/40000 [56:30<56:58,  6.01it/s]

19450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 49%|█████████████████████████████████▏                                  | 19502/40000 [56:38<55:04,  6.20it/s]

19500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 49%|█████████████████████████████████▏                                  | 19552/40000 [56:46<51:05,  6.67it/s]

19550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 49%|████████████████████████████████▎                                 | 19602/40000 [56:55<1:03:17,  5.37it/s]

19600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 49%|█████████████████████████████████▍                                  | 19652/40000 [57:05<59:53,  5.66it/s]

19650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 49%|█████████████████████████████████▍                                  | 19702/40000 [57:13<58:20,  5.80it/s]

19700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 49%|█████████████████████████████████▌                                  | 19752/40000 [57:21<48:57,  6.89it/s]

19750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 50%|█████████████████████████████████▋                                  | 19802/40000 [57:29<51:48,  6.50it/s]

19800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 50%|█████████████████████████████████▋                                  | 19852/40000 [57:36<48:40,  6.90it/s]

19850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 50%|█████████████████████████████████▊                                  | 19902/40000 [57:43<54:27,  6.15it/s]

19900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 50%|█████████████████████████████████▉                                  | 19952/40000 [57:49<39:40,  8.42it/s]

19950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 50%|██████████████████████████████████                                  | 20002/40000 [57:56<41:06,  8.11it/s]

20000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 50%|██████████████████████████████████                                  | 20052/40000 [58:04<49:19,  6.74it/s]

20050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 50%|██████████████████████████████████▏                                 | 20102/40000 [58:11<44:19,  7.48it/s]

20100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 50%|██████████████████████████████████▎                                 | 20152/40000 [58:19<55:06,  6.00it/s]

20150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 51%|██████████████████████████████████▎                                 | 20202/40000 [58:28<57:04,  5.78it/s]

20200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 51%|██████████████████████████████████▍                                 | 20252/40000 [58:36<55:29,  5.93it/s]

20250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 51%|██████████████████████████████████▌                                 | 20302/40000 [58:44<54:41,  6.00it/s]

20300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 51%|█████████████████████████████████▌                                | 20351/40000 [58:52<1:04:52,  5.05it/s]

20350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 51%|██████████████████████████████████▋                                 | 20401/40000 [59:02<58:35,  5.57it/s]

20400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 51%|█████████████████████████████████▋                                | 20452/40000 [59:13<1:06:00,  4.94it/s]

20450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 51%|██████████████████████████████████▊                                 | 20502/40000 [59:23<58:18,  5.57it/s]

20500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 51%|██████████████████████████████████▉                                 | 20552/40000 [59:32<56:16,  5.76it/s]

20550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 52%|███████████████████████████████████                                 | 20602/40000 [59:41<56:30,  5.72it/s]

20600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 52%|███████████████████████████████████                                 | 20652/40000 [59:49<55:55,  5.77it/s]

20650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 52%|███████████████████████████████████▏                                | 20702/40000 [59:58<58:33,  5.49it/s]

20700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 52%|██████████████████████████████████▏                               | 20752/40000 [1:00:07<57:08,  5.61it/s]

20750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 52%|██████████████████████████████████▎                               | 20802/40000 [1:00:14<54:03,  5.92it/s]

20800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000108
score = -8, n_buffer : 50000, eps : 1.0


 52%|██████████████████████████████████▍                               | 20852/40000 [1:00:20<51:10,  6.24it/s]

20850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 52%|██████████████████████████████████▍                               | 20902/40000 [1:00:27<36:19,  8.76it/s]

20900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 52%|██████████████████████████████████▌                               | 20952/40000 [1:00:34<53:07,  5.98it/s]

20950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 53%|██████████████████████████████████▋                               | 21002/40000 [1:00:41<52:26,  6.04it/s]

21000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 53%|██████████████████████████████████▋                               | 21052/40000 [1:00:48<52:40,  5.99it/s]

21050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 53%|██████████████████████████████████▊                               | 21102/40000 [1:00:56<52:14,  6.03it/s]

21100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 53%|██████████████████████████████████▉                               | 21152/40000 [1:01:03<39:45,  7.90it/s]

21150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 53%|██████████████████████████████████▉                               | 21202/40000 [1:01:10<39:03,  8.02it/s]

21200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 53%|███████████████████████████████████                               | 21252/40000 [1:01:17<48:38,  6.42it/s]

21250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 53%|███████████████████████████████████▏                              | 21302/40000 [1:01:24<51:43,  6.02it/s]

21300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 53%|███████████████████████████████████▏                              | 21352/40000 [1:01:32<51:31,  6.03it/s]

21350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▎                              | 21402/40000 [1:01:40<53:09,  5.83it/s]

21400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000037
score = -8, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▍                              | 21452/40000 [1:01:47<52:05,  5.93it/s]

21450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▍                              | 21502/40000 [1:01:53<39:13,  7.86it/s]

21500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▌                              | 21552/40000 [1:02:00<37:48,  8.13it/s]

21550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▋                              | 21602/40000 [1:02:07<48:54,  6.27it/s]

21600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▋                              | 21652/40000 [1:02:14<38:07,  8.02it/s]

21650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▊                              | 21702/40000 [1:02:21<43:47,  6.97it/s]

21700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 54%|███████████████████████████████████▉                              | 21752/40000 [1:02:29<49:48,  6.11it/s]

21750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -7, n_buffer : 50000, eps : 1.0


 55%|███████████████████████████████████▉                              | 21802/40000 [1:02:36<37:38,  8.06it/s]

21800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████                              | 21852/40000 [1:02:43<38:47,  7.80it/s]

21850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -8, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████▏                             | 21902/40000 [1:02:50<46:34,  6.48it/s]

21900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████▏                             | 21952/40000 [1:02:57<37:12,  8.08it/s]

21950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████▎                             | 22002/40000 [1:03:05<37:32,  7.99it/s]

22000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████▍                             | 22052/40000 [1:03:12<39:43,  7.53it/s]

22050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████▍                             | 22102/40000 [1:03:19<38:37,  7.72it/s]

22100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 55%|████████████████████████████████████▌                             | 22152/40000 [1:03:27<48:32,  6.13it/s]

22150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 56%|████████████████████████████████████▋                             | 22202/40000 [1:03:34<36:50,  8.05it/s]

22200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 56%|████████████████████████████████████▋                             | 22252/40000 [1:03:41<36:32,  8.09it/s]

22250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 56%|████████████████████████████████████▊                             | 22302/40000 [1:03:47<38:07,  7.74it/s]

22300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 56%|████████████████████████████████████▉                             | 22352/40000 [1:03:54<46:41,  6.30it/s]

22350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 56%|████████████████████████████████████▉                             | 22402/40000 [1:04:01<48:47,  6.01it/s]

22400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 56%|█████████████████████████████████████                             | 22452/40000 [1:04:09<49:28,  5.91it/s]

22450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 56%|█████████████████████████████████████▏                            | 22502/40000 [1:04:16<48:43,  5.99it/s]

22500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 56%|█████████████████████████████████████▏                            | 22552/40000 [1:04:23<39:19,  7.39it/s]

22550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▎                            | 22602/40000 [1:04:30<37:26,  7.74it/s]

22600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▍                            | 22652/40000 [1:04:38<44:47,  6.46it/s]

22650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▍                            | 22702/40000 [1:04:45<43:58,  6.56it/s]

22700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -8, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▌                            | 22752/40000 [1:04:52<35:31,  8.09it/s]

22750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▌                            | 22802/40000 [1:05:00<49:02,  5.84it/s]

22800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001125
score = -8, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▋                            | 22852/40000 [1:05:07<46:10,  6.19it/s]

22850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▊                            | 22902/40000 [1:05:14<36:49,  7.74it/s]

22900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000037
score = -8, n_buffer : 50000, eps : 1.0


 57%|█████████████████████████████████████▊                            | 22952/40000 [1:05:21<37:15,  7.63it/s]

22950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 58%|█████████████████████████████████████▉                            | 23002/40000 [1:05:29<48:07,  5.89it/s]

23000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████                            | 23052/40000 [1:05:36<34:00,  8.31it/s]

23050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████                            | 23102/40000 [1:05:43<44:26,  6.34it/s]

23100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████▏                           | 23152/40000 [1:05:50<46:12,  6.08it/s]

23150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████▎                           | 23202/40000 [1:05:58<36:07,  7.75it/s]

23200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████▎                           | 23252/40000 [1:06:05<44:36,  6.26it/s]

23250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████▍                           | 23302/40000 [1:06:13<45:19,  6.14it/s]

23300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 58%|██████████████████████████████████████▌                           | 23352/40000 [1:06:20<46:49,  5.93it/s]

23350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 59%|██████████████████████████████████████▌                           | 23402/40000 [1:06:27<34:58,  7.91it/s]

23400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 59%|██████████████████████████████████████▋                           | 23452/40000 [1:06:35<40:14,  6.85it/s]

23450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 59%|██████████████████████████████████████▊                           | 23502/40000 [1:06:42<36:22,  7.56it/s]

23500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 59%|██████████████████████████████████████▊                           | 23552/40000 [1:06:49<32:45,  8.37it/s]

23550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 59%|██████████████████████████████████████▉                           | 23602/40000 [1:06:56<43:55,  6.22it/s]

23600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 59%|███████████████████████████████████████                           | 23652/40000 [1:07:03<34:35,  7.88it/s]

23650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 59%|███████████████████████████████████████                           | 23702/40000 [1:07:10<39:28,  6.88it/s]

23700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 59%|███████████████████████████████████████▏                          | 23752/40000 [1:07:17<39:26,  6.87it/s]

23750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▎                          | 23802/40000 [1:07:24<50:02,  5.39it/s]

23800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▎                          | 23852/40000 [1:07:33<46:48,  5.75it/s]

23850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001746
score = -8, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▍                          | 23902/40000 [1:07:42<44:31,  6.03it/s]

23900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -8, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▌                          | 23952/40000 [1:07:51<48:31,  5.51it/s]

23950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▌                          | 24002/40000 [1:08:00<44:00,  6.06it/s]

24000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▋                          | 24052/40000 [1:08:08<49:02,  5.42it/s]

24050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000459
score = -7, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▊                          | 24102/40000 [1:08:17<45:09,  5.87it/s]

24100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 60%|███████████████████████████████████████▊                          | 24152/40000 [1:08:25<42:19,  6.24it/s]

24150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 61%|███████████████████████████████████████▉                          | 24202/40000 [1:08:32<42:34,  6.18it/s]

24200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████                          | 24252/40000 [1:08:40<39:48,  6.59it/s]

24250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████                          | 24302/40000 [1:08:47<38:58,  6.71it/s]

24300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████▏                         | 24352/40000 [1:08:54<41:17,  6.32it/s]

24350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████▎                         | 24402/40000 [1:09:03<43:16,  6.01it/s]

24400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████▎                         | 24452/40000 [1:09:11<43:42,  5.93it/s]

24450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████▍                         | 24502/40000 [1:09:20<39:24,  6.56it/s]

24500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 61%|████████████████████████████████████████▌                         | 24552/40000 [1:09:26<40:56,  6.29it/s]

24550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.3 1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 62%|████████████████████████████████████████▌                         | 24601/40000 [1:09:33<40:19,  6.36it/s]

24600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 62%|████████████████████████████████████████▋                         | 24652/40000 [1:09:40<40:44,  6.28it/s]

24650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000148
score = -8, n_buffer : 50000, eps : 1.0


 62%|████████████████████████████████████████▊                         | 24702/40000 [1:09:48<38:07,  6.69it/s]

24700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001813
score = -8, n_buffer : 50000, eps : 1.0


 62%|████████████████████████████████████████▊                         | 24752/40000 [1:09:55<41:58,  6.06it/s]

24750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 62%|████████████████████████████████████████▉                         | 24802/40000 [1:10:02<36:27,  6.95it/s]

24800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 62%|█████████████████████████████████████████                         | 24852/40000 [1:10:10<42:37,  5.92it/s]

24850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 62%|█████████████████████████████████████████                         | 24902/40000 [1:10:17<39:55,  6.30it/s]

24900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 62%|█████████████████████████████████████████▏                        | 24952/40000 [1:10:26<45:01,  5.57it/s]

24950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▎                        | 25002/40000 [1:10:34<43:50,  5.70it/s]

25000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001846
score = -8, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▎                        | 25052/40000 [1:10:43<43:26,  5.74it/s]

25050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▍                        | 25102/40000 [1:10:52<42:17,  5.87it/s]

25100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▌                        | 25152/40000 [1:10:59<39:49,  6.21it/s]

25150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▌                        | 25202/40000 [1:11:07<35:15,  7.00it/s]

25200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▋                        | 25252/40000 [1:11:14<32:37,  7.53it/s]

25250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▋                        | 25302/40000 [1:11:22<35:31,  6.90it/s]

25300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 63%|█████████████████████████████████████████▊                        | 25352/40000 [1:11:29<34:33,  7.06it/s]

25350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|█████████████████████████████████████████▉                        | 25402/40000 [1:11:36<30:16,  8.04it/s]

25400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|█████████████████████████████████████████▉                        | 25452/40000 [1:11:43<38:02,  6.37it/s]

25450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|██████████████████████████████████████████                        | 25502/40000 [1:11:50<39:27,  6.12it/s]

25500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -8, n_buffer : 50000, eps : 1.0


 64%|██████████████████████████████████████████▏                       | 25552/40000 [1:11:57<36:41,  6.56it/s]

25550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|██████████████████████████████████████████▏                       | 25602/40000 [1:12:05<37:47,  6.35it/s]

25600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|██████████████████████████████████████████▎                       | 25652/40000 [1:12:12<34:43,  6.89it/s]

25650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|██████████████████████████████████████████▍                       | 25702/40000 [1:12:19<33:15,  7.17it/s]

25700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 64%|██████████████████████████████████████████▍                       | 25752/40000 [1:12:26<28:22,  8.37it/s]

25750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 65%|██████████████████████████████████████████▌                       | 25802/40000 [1:12:32<30:19,  7.80it/s]

25800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 65%|██████████████████████████████████████████▋                       | 25852/40000 [1:12:40<35:10,  6.70it/s]

25850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 65%|██████████████████████████████████████████▋                       | 25902/40000 [1:12:48<39:24,  5.96it/s]

25900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 65%|██████████████████████████████████████████▊                       | 25952/40000 [1:12:55<27:56,  8.38it/s]

25950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 65%|██████████████████████████████████████████▉                       | 26002/40000 [1:13:02<38:22,  6.08it/s]

26000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 65%|██████████████████████████████████████████▉                       | 26052/40000 [1:13:09<37:24,  6.21it/s]

26050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 65%|███████████████████████████████████████████                       | 26102/40000 [1:13:16<39:14,  5.90it/s]

26100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 65%|███████████████████████████████████████████▏                      | 26152/40000 [1:13:23<35:40,  6.47it/s]

26150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▏                      | 26202/40000 [1:13:30<34:31,  6.66it/s]

26200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▎                      | 26252/40000 [1:13:38<35:18,  6.49it/s]

26250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  0.3 0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▍                      | 26302/40000 [1:13:45<31:57,  7.14it/s]

26300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▍                      | 26352/40000 [1:13:51<25:28,  8.93it/s]

26350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▌                      | 26402/40000 [1:13:57<25:33,  8.87it/s]

26400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▋                      | 26452/40000 [1:14:03<25:49,  8.74it/s]

26450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▋                      | 26502/40000 [1:14:10<30:33,  7.36it/s]

26500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 66%|███████████████████████████████████████████▊                      | 26552/40000 [1:14:18<32:21,  6.93it/s]

26550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 67%|███████████████████████████████████████████▉                      | 26602/40000 [1:14:25<35:12,  6.34it/s]

26600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 67%|███████████████████████████████████████████▉                      | 26652/40000 [1:14:32<30:11,  7.37it/s]

26650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 67%|████████████████████████████████████████████                      | 26702/40000 [1:14:39<29:32,  7.50it/s]

26700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 67%|████████████████████████████████████████████▏                     | 26752/40000 [1:14:47<31:09,  7.09it/s]

26750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 67%|████████████████████████████████████████████▏                     | 26802/40000 [1:14:54<33:32,  6.56it/s]

26800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 67%|████████████████████████████████████████████▎                     | 26852/40000 [1:15:01<31:05,  7.05it/s]

26850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 67%|████████████████████████████████████████████▍                     | 26902/40000 [1:15:08<35:37,  6.13it/s]

26900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 67%|████████████████████████████████████████████▍                     | 26952/40000 [1:15:16<28:17,  7.69it/s]

26950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 68%|████████████████████████████████████████████▌                     | 27002/40000 [1:15:22<24:23,  8.88it/s]

27000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 68%|████████████████████████████████████████████▋                     | 27052/40000 [1:15:28<29:56,  7.21it/s]

27050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 68%|████████████████████████████████████████████▋                     | 27102/40000 [1:15:35<35:24,  6.07it/s]

27100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -7, n_buffer : 50000, eps : 1.0


 68%|████████████████████████████████████████████▊                     | 27152/40000 [1:15:42<32:49,  6.52it/s]

27150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 68%|████████████████████████████████████████████▉                     | 27202/40000 [1:15:49<34:01,  6.27it/s]

27200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 68%|████████████████████████████████████████████▉                     | 27252/40000 [1:15:57<32:55,  6.45it/s]

27250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 68%|█████████████████████████████████████████████                     | 27302/40000 [1:16:04<26:43,  7.92it/s]

27300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -7, n_buffer : 50000, eps : 1.0


 68%|█████████████████████████████████████████████▏                    | 27352/40000 [1:16:11<28:25,  7.41it/s]

27350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▏                    | 27402/40000 [1:16:18<30:02,  6.99it/s]

27400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▎                    | 27452/40000 [1:16:24<22:23,  9.34it/s]

27450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -8, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▍                    | 27502/40000 [1:16:30<22:40,  9.18it/s]

27500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▍                    | 27552/40000 [1:16:35<22:11,  9.35it/s]

27550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▌                    | 27602/40000 [1:16:41<24:25,  8.46it/s]

27600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▋                    | 27652/40000 [1:16:47<22:08,  9.29it/s]

27650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▋                    | 27702/40000 [1:16:52<22:35,  9.07it/s]

27700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 69%|█████████████████████████████████████████████▊                    | 27752/40000 [1:16:58<23:11,  8.80it/s]

27750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 70%|█████████████████████████████████████████████▊                    | 27802/40000 [1:17:04<22:55,  8.87it/s]

27800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 70%|█████████████████████████████████████████████▉                    | 27852/40000 [1:17:10<22:25,  9.03it/s]

27850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 70%|██████████████████████████████████████████████                    | 27902/40000 [1:17:16<22:23,  9.00it/s]

27900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000503
score = -8, n_buffer : 50000, eps : 1.0


 70%|██████████████████████████████████████████████                    | 27952/40000 [1:17:21<23:28,  8.56it/s]

27950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 70%|██████████████████████████████████████████████▏                   | 28002/40000 [1:17:27<23:35,  8.48it/s]

28000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 70%|██████████████████████████████████████████████▎                   | 28052/40000 [1:17:33<22:10,  8.98it/s]

28050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 70%|██████████████████████████████████████████████▎                   | 28102/40000 [1:17:39<22:34,  8.79it/s]

28100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : 10
 총 받은 보상 :0.10000000000001918
score = -8, n_buffer : 50000, eps : 1.0


 70%|██████████████████████████████████████████████▍                   | 28152/40000 [1:17:44<23:32,  8.39it/s]

28150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 71%|██████████████████████████████████████████████▌                   | 28202/40000 [1:17:50<24:10,  8.13it/s]

28200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 71%|██████████████████████████████████████████████▌                   | 28252/40000 [1:17:56<22:08,  8.84it/s]

28250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 71%|██████████████████████████████████████████████▋                   | 28302/40000 [1:18:01<22:28,  8.67it/s]

28300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 71%|██████████████████████████████████████████████▊                   | 28352/40000 [1:18:07<22:22,  8.67it/s]

28350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 71%|██████████████████████████████████████████████▊                   | 28402/40000 [1:18:13<21:55,  8.82it/s]

28400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 71%|██████████████████████████████████████████████▉                   | 28452/40000 [1:18:19<21:50,  8.81it/s]

28450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -7, n_buffer : 50000, eps : 1.0


 71%|███████████████████████████████████████████████                   | 28502/40000 [1:18:24<22:15,  8.61it/s]

28500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 71%|███████████████████████████████████████████████                   | 28552/40000 [1:18:30<23:19,  8.18it/s]

28550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▏                  | 28602/40000 [1:18:36<21:24,  8.87it/s]

28600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▎                  | 28652/40000 [1:18:42<22:26,  8.43it/s]

28650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▎                  | 28702/40000 [1:18:47<21:12,  8.88it/s]

28700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▍                  | 28752/40000 [1:18:53<22:05,  8.48it/s]

28750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▌                  | 28802/40000 [1:18:59<26:36,  7.01it/s]

28800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▌                  | 28852/40000 [1:19:06<30:05,  6.17it/s]

28850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▋                  | 28902/40000 [1:19:13<22:34,  8.19it/s]

28900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -8, n_buffer : 50000, eps : 1.0


 72%|███████████████████████████████████████████████▊                  | 28952/40000 [1:19:19<21:16,  8.66it/s]

28950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 73%|███████████████████████████████████████████████▊                  | 29002/40000 [1:19:26<23:24,  7.83it/s]

29000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 73%|███████████████████████████████████████████████▉                  | 29052/40000 [1:19:32<22:04,  8.27it/s]

29050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 73%|████████████████████████████████████████████████                  | 29102/40000 [1:19:38<20:47,  8.74it/s]

29100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000814
score = -8, n_buffer : 50000, eps : 1.0


 73%|████████████████████████████████████████████████                  | 29152/40000 [1:19:43<21:17,  8.49it/s]

29150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 73%|████████████████████████████████████████████████▏                 | 29202/40000 [1:19:49<20:34,  8.75it/s]

29200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 73%|████████████████████████████████████████████████▎                 | 29252/40000 [1:19:55<20:31,  8.73it/s]

29250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 73%|████████████████████████████████████████████████▎                 | 29302/40000 [1:20:01<19:52,  8.97it/s]

29300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -7, n_buffer : 50000, eps : 1.0


 73%|████████████████████████████████████████████████▍                 | 29352/40000 [1:20:06<19:45,  8.98it/s]

29350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 74%|████████████████████████████████████████████████▌                 | 29402/40000 [1:20:12<20:27,  8.63it/s]

29400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -8, n_buffer : 50000, eps : 1.0


 74%|████████████████████████████████████████████████▌                 | 29453/40000 [1:20:18<18:26,  9.53it/s]

29450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 74%|████████████████████████████████████████████████▋                 | 29503/40000 [1:20:23<18:09,  9.63it/s]

29500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 74%|████████████████████████████████████████████████▊                 | 29552/40000 [1:20:29<22:22,  7.78it/s]

29550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 74%|████████████████████████████████████████████████▊                 | 29602/40000 [1:20:36<22:32,  7.69it/s]

29600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 74%|████████████████████████████████████████████████▉                 | 29652/40000 [1:20:44<23:04,  7.48it/s]

29650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  0.3 1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 74%|█████████████████████████████████████████████████                 | 29702/40000 [1:20:51<23:33,  7.29it/s]

29700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 74%|█████████████████████████████████████████████████                 | 29752/40000 [1:20:57<19:21,  8.82it/s]

29750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▏                | 29802/40000 [1:21:02<19:27,  8.74it/s]

29800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▎                | 29852/40000 [1:21:08<20:18,  8.33it/s]

29850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000547
score = -8, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▎                | 29902/40000 [1:21:14<20:43,  8.12it/s]

29900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▍                | 29952/40000 [1:21:20<20:02,  8.35it/s]

29950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▌                | 30002/40000 [1:21:25<19:16,  8.65it/s]

30000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▌                | 30052/40000 [1:21:31<19:15,  8.61it/s]

30050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  0.3 0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▋                | 30102/40000 [1:21:37<18:52,  8.74it/s]

30100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 75%|█████████████████████████████████████████████████▊                | 30152/40000 [1:21:42<18:38,  8.81it/s]

30150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -6, n_buffer : 50000, eps : 1.0


 76%|█████████████████████████████████████████████████▊                | 30202/40000 [1:21:48<20:15,  8.06it/s]

30200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 76%|█████████████████████████████████████████████████▉                | 30252/40000 [1:21:54<18:30,  8.78it/s]

30250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 76%|█████████████████████████████████████████████████▉                | 30302/40000 [1:21:59<18:30,  8.74it/s]

30300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : →
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  0.3]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 76%|██████████████████████████████████████████████████                | 30352/40000 [1:22:05<18:28,  8.70it/s]

30350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 76%|██████████████████████████████████████████████████▏               | 30402/40000 [1:22:11<18:19,  8.73it/s]

30400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 76%|██████████████████████████████████████████████████▏               | 30452/40000 [1:22:16<19:00,  8.37it/s]

30450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 76%|██████████████████████████████████████████████████▎               | 30502/40000 [1:22:22<18:30,  8.55it/s]

30500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 76%|██████████████████████████████████████████████████▍               | 30552/40000 [1:22:28<18:01,  8.74it/s]

30550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▍               | 30602/40000 [1:22:33<17:56,  8.73it/s]

30600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▌               | 30652/40000 [1:22:39<17:51,  8.72it/s]

30650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000814
score = -7, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▋               | 30702/40000 [1:22:45<18:13,  8.50it/s]

30700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▋               | 30752/40000 [1:22:51<18:00,  8.56it/s]

30750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000459
score = -7, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▊               | 30802/40000 [1:22:56<17:45,  8.63it/s]

30800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -9, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▉               | 30852/40000 [1:23:02<17:20,  8.79it/s]

30850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 77%|██████████████████████████████████████████████████▉               | 30902/40000 [1:23:08<17:17,  8.77it/s]

30900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -8, n_buffer : 50000, eps : 1.0


 77%|███████████████████████████████████████████████████               | 30952/40000 [1:23:13<17:15,  8.74it/s]

30950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▏              | 31002/40000 [1:23:19<17:14,  8.70it/s]

31000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▏              | 31052/40000 [1:23:25<17:01,  8.76it/s]

31050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▎              | 31102/40000 [1:23:30<17:00,  8.72it/s]

31100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▍              | 31152/40000 [1:23:36<16:57,  8.70it/s]

31150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000108
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▍              | 31202/40000 [1:23:42<16:55,  8.66it/s]

31200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -7, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▌              | 31252/40000 [1:23:47<16:48,  8.68it/s]

31250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▋              | 31302/40000 [1:23:53<16:37,  8.72it/s]

31300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001882
score = -8, n_buffer : 50000, eps : 1.0


 78%|███████████████████████████████████████████████████▋              | 31352/40000 [1:23:59<16:41,  8.64it/s]

31350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -7, n_buffer : 50000, eps : 1.0


 79%|███████████████████████████████████████████████████▊              | 31402/40000 [1:24:05<16:33,  8.65it/s]

31400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 79%|███████████████████████████████████████████████████▉              | 31452/40000 [1:24:11<17:00,  8.38it/s]

31450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 79%|███████████████████████████████████████████████████▉              | 31502/40000 [1:24:16<17:19,  8.18it/s]

31500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 79%|████████████████████████████████████████████████████              | 31552/40000 [1:24:22<15:39,  9.00it/s]

31550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 79%|████████████████████████████████████████████████████▏             | 31602/40000 [1:24:28<16:35,  8.43it/s]

31600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 79%|████████████████████████████████████████████████████▏             | 31652/40000 [1:24:34<18:51,  7.38it/s]

31650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 79%|████████████████████████████████████████████████████▎             | 31702/40000 [1:24:41<18:01,  7.67it/s]

31700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 79%|████████████████████████████████████████████████████▍             | 31752/40000 [1:24:48<19:02,  7.22it/s]

31750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▍             | 31802/40000 [1:24:55<17:50,  7.66it/s]

31800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▌             | 31852/40000 [1:25:01<16:34,  8.20it/s]

31850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▋             | 31902/40000 [1:25:07<16:22,  8.24it/s]

31900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▋             | 31952/40000 [1:25:13<15:25,  8.69it/s]

31950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▊             | 32002/40000 [1:25:19<15:11,  8.77it/s]

32000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▉             | 32052/40000 [1:25:25<15:13,  8.70it/s]

32050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 80%|████████████████████████████████████████████████████▉             | 32102/40000 [1:25:30<14:57,  8.80it/s]

32100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 80%|█████████████████████████████████████████████████████             | 32152/40000 [1:25:36<14:49,  8.82it/s]

32150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▏            | 32202/40000 [1:25:42<15:11,  8.55it/s]

32200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▏            | 32252/40000 [1:25:48<18:46,  6.88it/s]

32250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▎            | 32302/40000 [1:25:55<19:32,  6.56it/s]

32300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▍            | 32352/40000 [1:26:01<14:43,  8.65it/s]

32350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▍            | 32402/40000 [1:26:07<14:48,  8.55it/s]

32400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▌            | 32452/40000 [1:26:13<14:24,  8.73it/s]

32450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▋            | 32502/40000 [1:26:19<14:23,  8.69it/s]

32500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 81%|█████████████████████████████████████████████████████▋            | 32552/40000 [1:26:25<14:23,  8.63it/s]

32550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 82%|█████████████████████████████████████████████████████▊            | 32602/40000 [1:26:30<14:11,  8.69it/s]

32600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000503
score = -9, n_buffer : 50000, eps : 1.0


 82%|█████████████████████████████████████████████████████▉            | 32652/40000 [1:26:36<14:50,  8.25it/s]

32650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 82%|█████████████████████████████████████████████████████▉            | 32702/40000 [1:26:42<14:45,  8.24it/s]

32700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 82%|██████████████████████████████████████████████████████            | 32752/40000 [1:26:48<13:45,  8.78it/s]

32750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 82%|██████████████████████████████████████████████████████            | 32802/40000 [1:26:54<13:49,  8.67it/s]

32800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 82%|██████████████████████████████████████████████████████▏           | 32852/40000 [1:26:59<14:58,  7.95it/s]

32850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 82%|██████████████████████████████████████████████████████▎           | 32902/40000 [1:27:05<14:08,  8.36it/s]

32900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 82%|██████████████████████████████████████████████████████▎           | 32952/40000 [1:27:11<13:29,  8.70it/s]

32950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  0.3 0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▍           | 33002/40000 [1:27:16<13:51,  8.42it/s]

33000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001524
score = -8, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▌           | 33052/40000 [1:27:23<16:46,  6.90it/s]

33050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▌           | 33102/40000 [1:27:30<17:52,  6.43it/s]

33100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▋           | 33152/40000 [1:27:36<12:36,  9.06it/s]

33150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▊           | 33202/40000 [1:27:42<12:18,  9.20it/s]

33200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▊           | 33252/40000 [1:27:48<12:46,  8.81it/s]

33250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 83%|██████████████████████████████████████████████████████▉           | 33302/40000 [1:27:54<13:14,  8.43it/s]

33300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 83%|███████████████████████████████████████████████████████           | 33352/40000 [1:28:00<12:16,  9.02it/s]

33350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████           | 33402/40000 [1:28:05<12:27,  8.83it/s]

33400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▏          | 33452/40000 [1:28:11<12:33,  8.69it/s]

33450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▎          | 33502/40000 [1:28:17<12:44,  8.51it/s]

33500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▎          | 33552/40000 [1:28:23<12:21,  8.70it/s]

33550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▍          | 33602/40000 [1:28:29<12:08,  8.79it/s]

33600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001646
score = -7, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▌          | 33652/40000 [1:28:35<14:20,  7.38it/s]

33650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▌          | 33702/40000 [1:28:42<13:58,  7.51it/s]

33700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -7, n_buffer : 50000, eps : 1.0


 84%|███████████████████████████████████████████████████████▋          | 33752/40000 [1:28:52<18:06,  5.75it/s]

33750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 85%|███████████████████████████████████████████████████████▊          | 33802/40000 [1:28:59<14:07,  7.32it/s]

33800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 85%|███████████████████████████████████████████████████████▊          | 33852/40000 [1:29:07<15:24,  6.65it/s]

33850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 85%|███████████████████████████████████████████████████████▉          | 33902/40000 [1:29:14<13:08,  7.73it/s]

33900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 85%|████████████████████████████████████████████████████████          | 33952/40000 [1:29:22<16:08,  6.24it/s]

33950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000459
score = -7, n_buffer : 50000, eps : 1.0


 85%|████████████████████████████████████████████████████████          | 34002/40000 [1:29:29<14:54,  6.71it/s]

34000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 85%|████████████████████████████████████████████████████████▏         | 34052/40000 [1:29:36<12:59,  7.63it/s]

34050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 85%|████████████████████████████████████████████████████████▎         | 34102/40000 [1:29:44<13:15,  7.42it/s]

34100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  0.3 0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 85%|████████████████████████████████████████████████████████▎         | 34152/40000 [1:29:51<14:02,  6.95it/s]

34150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.1000000000000178
score = -8, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▍         | 34202/40000 [1:29:58<15:00,  6.44it/s]

34200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▌         | 34252/40000 [1:30:05<15:59,  5.99it/s]

34250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▌         | 34302/40000 [1:30:12<12:43,  7.46it/s]

34300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -7, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▋         | 34352/40000 [1:30:20<13:15,  7.10it/s]

34350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▊         | 34402/40000 [1:30:28<15:44,  5.93it/s]

34400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▊         | 34452/40000 [1:30:35<14:08,  6.54it/s]

34450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 86%|████████████████████████████████████████████████████████▉         | 34502/40000 [1:30:42<12:08,  7.55it/s]

34500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 86%|█████████████████████████████████████████████████████████         | 34552/40000 [1:30:49<11:30,  7.89it/s]

34550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000459
score = -7, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████         | 34602/40000 [1:30:56<14:33,  6.18it/s]

34600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▏        | 34652/40000 [1:31:03<13:08,  6.79it/s]

34650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▎        | 34702/40000 [1:31:10<12:19,  7.16it/s]

34700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▎        | 34752/40000 [1:31:17<13:19,  6.57it/s]

34750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▍        | 34802/40000 [1:31:24<12:47,  6.78it/s]

34800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -8, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▌        | 34852/40000 [1:31:31<14:21,  5.98it/s]

34850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▌        | 34902/40000 [1:31:38<13:12,  6.44it/s]

34900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -8, n_buffer : 50000, eps : 1.0


 87%|█████████████████████████████████████████████████████████▋        | 34952/40000 [1:31:45<11:53,  7.07it/s]

34950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 88%|█████████████████████████████████████████████████████████▊        | 35002/40000 [1:31:53<13:07,  6.35it/s]

35000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000725
score = -7, n_buffer : 50000, eps : 1.0


 88%|█████████████████████████████████████████████████████████▊        | 35052/40000 [1:31:59<12:48,  6.44it/s]

35050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 88%|█████████████████████████████████████████████████████████▉        | 35102/40000 [1:32:05<09:29,  8.60it/s]

35100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 88%|██████████████████████████████████████████████████████████        | 35152/40000 [1:32:12<11:36,  6.97it/s]

35150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 88%|██████████████████████████████████████████████████████████        | 35202/40000 [1:32:20<13:03,  6.13it/s]

35200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 88%|██████████████████████████████████████████████████████████▏       | 35252/40000 [1:32:27<10:42,  7.39it/s]

35250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 88%|██████████████████████████████████████████████████████████▏       | 35302/40000 [1:32:35<12:33,  6.24it/s]

35300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 88%|██████████████████████████████████████████████████████████▎       | 35352/40000 [1:32:42<11:03,  7.01it/s]

35350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▍       | 35402/40000 [1:32:49<10:29,  7.31it/s]

35400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -8, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▍       | 35452/40000 [1:32:57<10:05,  7.51it/s]

35450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▌       | 35502/40000 [1:33:03<08:38,  8.68it/s]

35500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▋       | 35552/40000 [1:33:09<08:26,  8.78it/s]

35550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▋       | 35602/40000 [1:33:15<08:22,  8.74it/s]

35600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▊       | 35652/40000 [1:33:21<08:23,  8.64it/s]

35650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▉       | 35702/40000 [1:33:26<09:29,  7.55it/s]

35700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  0.3 0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 89%|██████████████████████████████████████████████████████████▉       | 35752/40000 [1:33:33<08:19,  8.50it/s]

35750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████       | 35802/40000 [1:33:40<09:48,  7.14it/s]

35800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▏      | 35852/40000 [1:33:47<07:43,  8.95it/s]

35850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▏      | 35902/40000 [1:33:53<07:35,  8.99it/s]

35900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▎      | 35952/40000 [1:33:58<07:46,  8.67it/s]

35950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001213
score = -7, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▍      | 36002/40000 [1:34:04<07:44,  8.61it/s]

36000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▍      | 36052/40000 [1:34:10<07:50,  8.39it/s]

36050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000636
score = -7, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▌      | 36102/40000 [1:34:16<07:22,  8.81it/s]

36100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 90%|███████████████████████████████████████████████████████████▋      | 36152/40000 [1:34:21<07:04,  9.06it/s]

36150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 91%|███████████████████████████████████████████████████████████▋      | 36202/40000 [1:34:27<07:35,  8.33it/s]

36200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 91%|███████████████████████████████████████████████████████████▊      | 36252/40000 [1:34:33<07:01,  8.90it/s]

36250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -6, n_buffer : 50000, eps : 1.0


 91%|███████████████████████████████████████████████████████████▉      | 36302/40000 [1:34:39<07:18,  8.43it/s]

36300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 91%|███████████████████████████████████████████████████████████▉      | 36352/40000 [1:34:45<07:16,  8.36it/s]

36350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 91%|████████████████████████████████████████████████████████████      | 36402/40000 [1:34:50<06:46,  8.86it/s]

36400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 91%|████████████████████████████████████████████████████████████▏     | 36452/40000 [1:34:56<07:02,  8.40it/s]

36450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 91%|████████████████████████████████████████████████████████████▏     | 36502/40000 [1:35:02<07:03,  8.26it/s]

36500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  0.3 1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 91%|████████████████████████████████████████████████████████████▎     | 36552/40000 [1:35:08<06:57,  8.26it/s]

36550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▍     | 36602/40000 [1:35:14<06:29,  8.73it/s]

36600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▍     | 36652/40000 [1:35:20<06:26,  8.66it/s]

36650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▌     | 36702/40000 [1:35:25<06:30,  8.45it/s]

36700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001569
score = -7, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▋     | 36752/40000 [1:35:31<06:12,  8.72it/s]

36750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▋     | 36802/40000 [1:35:37<06:22,  8.37it/s]

36800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▊     | 36852/40000 [1:35:43<06:28,  8.11it/s]

36850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▉     | 36902/40000 [1:35:49<05:57,  8.67it/s]

36900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 92%|████████████████████████████████████████████████████████████▉     | 36952/40000 [1:35:55<06:21,  7.99it/s]

36950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████     | 37002/40000 [1:36:00<05:52,  8.50it/s]

37000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▏    | 37052/40000 [1:36:06<05:42,  8.62it/s]

37050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▏    | 37102/40000 [1:36:12<05:31,  8.74it/s]

37100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▎    | 37152/40000 [1:36:17<05:37,  8.44it/s]

37150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▍    | 37202/40000 [1:36:23<05:19,  8.75it/s]

37200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▍    | 37252/40000 [1:36:29<05:23,  8.49it/s]

37250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▌    | 37302/40000 [1:36:35<05:51,  7.68it/s]

37300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 93%|█████████████████████████████████████████████████████████████▋    | 37352/40000 [1:36:40<05:03,  8.73it/s]

37350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 94%|█████████████████████████████████████████████████████████████▋    | 37402/40000 [1:36:46<04:57,  8.72it/s]

37400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 94%|█████████████████████████████████████████████████████████████▊    | 37452/40000 [1:36:52<04:51,  8.74it/s]

37450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 94%|█████████████████████████████████████████████████████████████▉    | 37502/40000 [1:36:57<04:53,  8.52it/s]

37500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 94%|█████████████████████████████████████████████████████████████▉    | 37552/40000 [1:37:04<06:09,  6.63it/s]

37550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 94%|██████████████████████████████████████████████████████████████    | 37602/40000 [1:37:11<06:48,  5.86it/s]

37600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001347
score = -6, n_buffer : 50000, eps : 1.0


 94%|██████████████████████████████████████████████████████████████▏   | 37652/40000 [1:37:17<04:47,  8.16it/s]

37650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 94%|██████████████████████████████████████████████████████████████▏   | 37702/40000 [1:37:23<04:24,  8.69it/s]

37700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 94%|██████████████████████████████████████████████████████████████▎   | 37752/40000 [1:37:29<04:18,  8.68it/s]

37750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▎   | 37802/40000 [1:37:34<04:16,  8.58it/s]

37800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▍   | 37852/40000 [1:37:40<04:02,  8.88it/s]

37850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▌   | 37901/40000 [1:37:46<04:13,  8.28it/s]

37900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▌   | 37953/40000 [1:37:52<03:37,  9.42it/s]

37950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▋   | 38001/40000 [1:37:57<03:45,  8.88it/s]

38000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▊   | 38051/40000 [1:38:03<03:41,  8.79it/s]

38050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↓
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  0.3 0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▊   | 38102/40000 [1:38:09<03:30,  9.01it/s]

38100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 95%|██████████████████████████████████████████████████████████████▉   | 38152/40000 [1:38:14<03:25,  9.01it/s]

38150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████   | 38202/40000 [1:38:20<03:20,  8.97it/s]

38200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████   | 38252/40000 [1:38:26<03:06,  9.35it/s]

38250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ←
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.3 1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████▏  | 38302/40000 [1:38:32<03:07,  9.06it/s]

38300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████▎  | 38352/40000 [1:38:38<03:01,  9.07it/s]

38350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████▎  | 38402/40000 [1:38:44<03:00,  8.85it/s]

38400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████▍  | 38452/40000 [1:38:49<02:59,  8.61it/s]

38450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████▌  | 38502/40000 [1:38:55<02:50,  8.80it/s]

38500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 96%|███████████████████████████████████████████████████████████████▌  | 38552/40000 [1:39:01<02:51,  8.44it/s]

38550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 97%|███████████████████████████████████████████████████████████████▋  | 38602/40000 [1:39:07<02:41,  8.65it/s]

38600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -9, n_buffer : 50000, eps : 1.0


 97%|███████████████████████████████████████████████████████████████▊  | 38652/40000 [1:39:13<02:34,  8.72it/s]

38650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 97%|███████████████████████████████████████████████████████████████▊  | 38702/40000 [1:39:18<02:34,  8.38it/s]

38700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 97%|███████████████████████████████████████████████████████████████▉  | 38752/40000 [1:39:24<02:29,  8.34it/s]

38750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 97%|████████████████████████████████████████████████████████████████  | 38802/40000 [1:39:30<02:19,  8.58it/s]

38800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000947
score = -8, n_buffer : 50000, eps : 1.0


 97%|████████████████████████████████████████████████████████████████  | 38852/40000 [1:39:36<02:31,  7.58it/s]

38850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 97%|████████████████████████████████████████████████████████████████▏ | 38902/40000 [1:39:42<02:08,  8.54it/s]

38900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 97%|████████████████████████████████████████████████████████████████▎ | 38952/40000 [1:39:48<02:00,  8.66it/s]

38950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000281
score = -7, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▎ | 39002/40000 [1:39:54<01:57,  8.47it/s]

39000 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▍ | 39052/40000 [1:39:59<01:49,  8.66it/s]

39050 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000000991
score = -7, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▌ | 39102/40000 [1:40:05<01:54,  7.84it/s]

39100 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▌ | 39152/40000 [1:40:12<02:15,  6.24it/s]

39150 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▋ | 39202/40000 [1:40:18<01:38,  8.12it/s]

39200 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▊ | 39252/40000 [1:40:24<01:26,  8.66it/s]

39250 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▊ | 39302/40000 [1:40:29<01:19,  8.74it/s]

39300 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 98%|████████████████████████████████████████████████████████████████▉ | 39352/40000 [1:40:35<01:14,  8.68it/s]

39350 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████ | 39402/40000 [1:40:41<01:09,  8.59it/s]

39400 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████ | 39452/40000 [1:40:47<01:02,  8.80it/s]

39450 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████▏| 39503/40000 [1:40:52<00:55,  9.02it/s]

39500 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████▎| 39553/40000 [1:40:58<00:47,  9.42it/s]

39550 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001813
score = -7, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████▎| 39602/40000 [1:41:04<00:46,  8.59it/s]

39600 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████▍| 39652/40000 [1:41:10<00:37,  9.35it/s]

39650 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  0.3 1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████▌| 39702/40000 [1:41:15<00:31,  9.49it/s]

39700 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


 99%|█████████████████████████████████████████████████████████████████▌| 39752/40000 [1:41:21<00:27,  9.16it/s]

39750 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  0.3 1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


100%|█████████████████████████████████████████████████████████████████▋| 39802/40000 [1:41:27<00:21,  9.03it/s]

39800 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.  0.  0.  0.  0.6 0. ]
 [1.  1.  1.  0.3 1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001169
score = -7, n_buffer : 50000, eps : 1.0


100%|█████████████████████████████████████████████████████████████████▊| 39852/40000 [1:41:33<00:15,  9.44it/s]

39850 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  0.3 1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -7, n_buffer : 50000, eps : 1.0


100%|█████████████████████████████████████████████████████████████████▊| 39902/40000 [1:41:38<00:10,  9.24it/s]

39900 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.6 0.  0.  0.  0.  0. ]
 [1.  1.  1.  1.  1.  0.3 1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :-9.99999999999998
score = -8, n_buffer : 50000, eps : 1.0


100%|█████████████████████████████████████████████████████████████████▉| 39952/40000 [1:41:44<00:05,  8.81it/s]

39950 에서 챙기는 아이템 : ['H', 'L', 'M']
마지막 행동 : ↑
 그 때의 마지막 상태 :
[[0.  0.  0.  0.3 0.  0.  0.  0.6 0. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  1.  1.  1.  1.  1.  1.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [0.  1.  0.  1.  0.  1.  0.  1.  0. ]
 [1.  1.  0.  1.  0.  1.  0.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.  1.  0.  0.  0.  0. ]]
마지막 보상 : -0.1
 총 받은 보상 :0.10000000000001436
score = -7, n_buffer : 50000, eps : 1.0


100%|██████████████████████████████████████████████████████████████████| 40000/40000 [1:41:49<00:00,  6.55it/s]
