In [1]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import numpy as np
import random
from collections import deque
import time
from IPython.display import display, clear_output
from tqdm import tqdm

In [2]:
import importlib
import games #import the module here, so that it can be reloaded.
importlib.reload(games)
Game2 = games.Game2

In [3]:
class DeepQNetwork:
    def __init__(self, model, exp_size):
        self.epsilon = 1.0
        self.gamma = 0.97
        self.epsilin_down_factor = 0.99
        
        self.policy_network = model
        self.target_network = keras.models.clone_model(self.policy_network)
        self.target_network.set_weights(self.policy_network.get_weights())
        self.policy_network.compile(optimizer=keras.optimizers.Adam(learning_rate=0.001), 
                                    loss=keras.losses.mean_squared_error)
        
        self.replay_buffer = deque(maxlen=exp_size)
        
        self.steps = 0
        self.c = 3
        self.win_episodes = []
        self.consecutive_wins = 0
        self.rewards_gained = 0
        
    
    def get_action(self, state_input, action_list, random=True):
        if not random:
            action = np.argmax(self.policy_network.predict(state_input))
        elif np.random.rand() > self.epsilon:
            action = np.argmax(self.policy_network.predict(state_input))
        else:
            action = np.random.choice(action_list, 1).item()
        return action
    
    
    def action(self, state_input):
        np.argmax(self.target_network.predict(state_input))
    
    
    def train(self, batch_size, state_input, action, reward, next_state_input, done):
        self.replay_buffer.append((state_input, action, reward, next_state_input, done))
        
        if batch_size >= len(self.replay_buffer):
            return
        else:
            memories = random.sample(self.replay_buffer, batch_size)
        states = np.squeeze(np.array([memory[0] for memory in memories]))
        actions = np.array([memory[1] for memory in memories])
        rewards = np.array([memory[2] for memory in memories])
        next_states = np.squeeze(np.array([memory[3] for memory in memories]))
        dones = np.array([memory[4] for memory in memories])
        
        q_values = self.policy_network.predict(states)
        next_q_values = self.target_network.predict(next_states)
        
        targets = np.copy(q_values)
        for i in range(batch_size):
            targets[i, int(actions[i])] = rewards[i] + self.gamma * np.max(next_q_values[i]) * (1 - dones[i])
        
        self.policy_network.fit(states, targets, batch_size=32, epochs=1)
        
        self.steps += 1
        if self.steps == self.c:
            self.target_network.set_weights(self.policy_network.get_weights()) 
            self.steps = 0
        
        if reward > 0:
            self.rewards_gained += 1
            self.epsilon = max(0.2, self.epsilon * self.epsilin_down_factor)
        
        if done and self.rewards_gained >= 6:
            self.win_episodes.append(episode)
            self.consecutive_wins += 1
            self.rewards_gained = 0
        elif done and self.rewards_gained < 6:
            self.consecutive_wins = 0
            self.rewards_gained = 0

In [4]:
x, y = 5, 5
num_actions = 4
action_list = np.array(range(num_actions))
consecutive_wins_lmt = 10

model = keras.Sequential(
    [
        keras.Input(shape=(x*y)),
        layers.Dense(16, activation='relu'),
        layers.Dense(32, activation='relu'),
        layers.Dense(16, activation='relu'),
        layers.Dense(4, activation='linear')
    ]
)
agent = DeepQNetwork(model, 10000)

In [5]:
init_agent_pos = 0
init_rewards_pos = [3, 4, 8, 11, 22, 24, 17, 7]
init_holes_pos = []
max_steps = 30
env = Game2(x, y, init_agent_pos, init_rewards_pos, init_holes_pos, max_steps)

agent.epsilon = 1.0
agent.consecutive_wins = 0
agent.win_episodes = []

for episode in tqdm(range(500)):
    print(f'wins: {agent.win_episodes}, epsilon: {agent.epsilon}')
    env.reset()
    observation, reward, done = env.init()
    while not done:
        state_input = observation.reshape(-1, x * y)
        action = agent.get_action(state_input, action_list)
        next_observation, reward, done = env.step(action)
        next_state_input = next_observation.reshape(-1, x * y)
        agent.train(256, state_input, action, reward, next_state_input, done)
        observation = next_observation
    if agent.consecutive_wins >= consecutive_wins_lmt:
        break

  0%|                                                                                                                                                                                                                                                               | 0/500 [00:00<?, ?it/s]

wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], epsilon: 1.0
wins: [], e

 14%|█████████████████████████████████▍                                                                                                                                                                                                                    | 68/500 [00:01<00:07, 61.23it/s]

wins: [], epsilon: 0.9801
wins: [], epsilon: 0.9801
wins: [], epsilon: 0.9509900498999999
wins: [], epsilon: 0.9509900498999999
wins: [], epsilon: 0.9414801494009999
wins: [], epsilon: 0.9320653479069899
wins: [], epsilon: 0.9320653479069899




 15%|████████████████████████████████████▉                                                                                                                                                                                                                 | 75/500 [00:09<01:14,  5.74it/s]

wins: [], epsilon: 0.8863848717161291
wins: [], epsilon: 0.8863848717161291
wins: [], epsilon: 0.8429431933839266


 16%|██████████████████████████████████████▍                                                                                                                                                                                                               | 78/500 [00:12<01:32,  4.54it/s]

wins: [], epsilon: 0.8429431933839266
wins: [], epsilon: 0.8429431933839266


 16%|███████████████████████████████████████▎                                                                                                                                                                                                              | 80/500 [00:12<01:33,  4.50it/s]

wins: [], epsilon: 0.8429431933839266
wins: [], epsilon: 0.8429431933839266


 16%|████████████████████████████████████████▎                                                                                                                                                                                                             | 82/500 [00:17<02:43,  2.56it/s]

wins: [], epsilon: 0.8179069375972307


 17%|████████████████████████████████████████▊                                                                                                                                                                                                             | 83/500 [00:18<03:05,  2.25it/s]

wins: [], epsilon: 0.7936142836436553


 17%|█████████████████████████████████████████▎                                                                                                                                                                                                            | 84/500 [00:18<03:05,  2.25it/s]

wins: [], epsilon: 0.7936142836436553


 17%|█████████████████████████████████████████▊                                                                                                                                                                                                            | 85/500 [00:21<04:22,  1.58it/s]

wins: [], epsilon: 0.7700431458051551


 17%|██████████████████████████████████████████▎                                                                                                                                                                                                           | 86/500 [00:21<04:12,  1.64it/s]

wins: [], epsilon: 0.7700431458051551


 17%|██████████████████████████████████████████▊                                                                                                                                                                                                           | 87/500 [00:21<03:43,  1.84it/s]

wins: [], epsilon: 0.7700431458051551


 18%|███████████████████████████████████████████▎                                                                                                                                                                                                          | 88/500 [00:22<03:15,  2.10it/s]

wins: [], epsilon: 0.7700431458051551


 18%|███████████████████████████████████████████▊                                                                                                                                                                                                          | 89/500 [00:22<02:47,  2.45it/s]

wins: [], epsilon: 0.7700431458051551


 18%|████████████████████████████████████████████▎                                                                                                                                                                                                         | 90/500 [00:22<02:24,  2.85it/s]

wins: [], epsilon: 0.7700431458051551


 18%|████████████████████████████████████████████▊                                                                                                                                                                                                         | 91/500 [00:23<03:38,  1.87it/s]

wins: [], epsilon: 0.7700431458051551


 18%|█████████████████████████████████████████████▎                                                                                                                                                                                                        | 92/500 [00:24<04:41,  1.45it/s]

wins: [], epsilon: 0.7700431458051551


 19%|█████████████████████████████████████████████▊                                                                                                                                                                                                        | 93/500 [00:27<08:46,  1.29s/it]

wins: [], epsilon: 0.7547192872036325


 19%|██████████████████████████████████████████████▏                                                                                                                                                                                                       | 94/500 [00:28<07:48,  1.15s/it]

wins: [], epsilon: 0.7547192872036325


 19%|██████████████████████████████████████████████▋                                                                                                                                                                                                       | 95/500 [00:28<05:50,  1.15it/s]

wins: [], epsilon: 0.7547192872036325


 19%|███████████████████████████████████████████████▏                                                                                                                                                                                                      | 96/500 [00:28<04:25,  1.52it/s]

wins: [], epsilon: 0.7547192872036325


 19%|███████████████████████████████████████████████▋                                                                                                                                                                                                      | 97/500 [00:28<03:24,  1.98it/s]

wins: [], epsilon: 0.7547192872036325


 20%|████████████████████████████████████████████████▏                                                                                                                                                                                                     | 98/500 [00:31<07:25,  1.11s/it]

wins: [], epsilon: 0.7397003733882802


 20%|████████████████████████████████████████████████▋                                                                                                                                                                                                     | 99/500 [00:31<05:29,  1.22it/s]

wins: [], epsilon: 0.7397003733882802


 20%|█████████████████████████████████████████████████                                                                                                                                                                                                    | 100/500 [00:31<04:24,  1.51it/s]

wins: [], epsilon: 0.7397003733882802


 20%|█████████████████████████████████████████████████▍                                                                                                                                                                                                   | 101/500 [00:31<03:22,  1.97it/s]

wins: [], epsilon: 0.7397003733882802


 20%|█████████████████████████████████████████████████▉                                                                                                                                                                                                   | 102/500 [00:33<04:44,  1.40it/s]

wins: [], epsilon: 0.7323033696543974


 21%|██████████████████████████████████████████████████▍                                                                                                                                                                                                  | 103/500 [00:33<05:02,  1.31it/s]

wins: [], epsilon: 0.7323033696543974


 21%|██████████████████████████████████████████████████▉                                                                                                                                                                                                  | 104/500 [00:36<07:49,  1.19s/it]

wins: [], epsilon: 0.7034476949995692


 21%|███████████████████████████████████████████████████▍                                                                                                                                                                                                 | 105/500 [00:36<05:46,  1.14it/s]

wins: [], epsilon: 0.7034476949995692


 21%|███████████████████████████████████████████████████▉                                                                                                                                                                                                 | 106/500 [00:36<04:19,  1.52it/s]

wins: [], epsilon: 0.7034476949995692


 21%|████████████████████████████████████████████████████▍                                                                                                                                                                                                | 107/500 [00:38<07:03,  1.08s/it]

wins: [], epsilon: 0.7034476949995692


 22%|████████████████████████████████████████████████████▉                                                                                                                                                                                                | 108/500 [00:39<05:53,  1.11it/s]

wins: [], epsilon: 0.7034476949995692


 22%|█████████████████████████████████████████████████████▍                                                                                                                                                                                               | 109/500 [00:39<05:34,  1.17it/s]

wins: [], epsilon: 0.7034476949995692


 22%|█████████████████████████████████████████████████████▉                                                                                                                                                                                               | 110/500 [00:43<11:10,  1.72s/it]

wins: [], epsilon: 0.682554595010387


 22%|██████████████████████████████████████████████████████▍                                                                                                                                                                                              | 111/500 [00:48<16:35,  2.56s/it]

wins: [110], epsilon: 0.6426116020847181


 22%|██████████████████████████████████████████████████████▉                                                                                                                                                                                              | 112/500 [00:48<11:50,  1.83s/it]

wins: [110], epsilon: 0.6426116020847181


 23%|███████████████████████████████████████████████████████▎                                                                                                                                                                                             | 113/500 [00:48<09:08,  1.42s/it]

wins: [110], epsilon: 0.6426116020847181


 23%|███████████████████████████████████████████████████████▊                                                                                                                                                                                             | 114/500 [00:49<08:09,  1.27s/it]

wins: [110], epsilon: 0.6426116020847181


 23%|████████████████████████████████████████████████████████▎                                                                                                                                                                                            | 115/500 [00:49<05:57,  1.08it/s]

wins: [110], epsilon: 0.6426116020847181


 23%|████████████████████████████████████████████████████████▊                                                                                                                                                                                            | 116/500 [00:53<10:45,  1.68s/it]

wins: [110], epsilon: 0.617290140942288


 23%|█████████████████████████████████████████████████████████▎                                                                                                                                                                                           | 117/500 [00:55<11:45,  1.84s/it]

wins: [110], epsilon: 0.6111172395328651


 24%|█████████████████████████████████████████████████████████▊                                                                                                                                                                                           | 118/500 [00:56<09:37,  1.51s/it]

wins: [110], epsilon: 0.6111172395328651


 24%|██████████████████████████████████████████████████████████▎                                                                                                                                                                                          | 119/500 [00:56<07:01,  1.11s/it]

wins: [110], epsilon: 0.6111172395328651


 24%|██████████████████████████████████████████████████████████▊                                                                                                                                                                                          | 120/500 [00:56<06:18,  1.00it/s]

wins: [110], epsilon: 0.6111172395328651


 24%|███████████████████████████████████████████████████████████▎                                                                                                                                                                                         | 121/500 [00:57<05:35,  1.13it/s]

wins: [110], epsilon: 0.6111172395328651


 24%|███████████████████████████████████████████████████████████▊                                                                                                                                                                                         | 122/500 [00:57<04:29,  1.40it/s]

wins: [110], epsilon: 0.6111172395328651


 25%|████████████████████████████████████████████████████████████▎                                                                                                                                                                                        | 123/500 [00:58<03:24,  1.85it/s]

wins: [110], epsilon: 0.6111172395328651


 25%|████████████████████████████████████████████████████████████▊                                                                                                                                                                                        | 124/500 [00:58<03:13,  1.94it/s]

wins: [110], epsilon: 0.6111172395328651


 25%|█████████████████████████████████████████████████████████████▎                                                                                                                                                                                       | 125/500 [00:58<02:30,  2.49it/s]

wins: [110], epsilon: 0.6111172395328651


 25%|█████████████████████████████████████████████████████████████▋                                                                                                                                                                                       | 126/500 [00:59<03:37,  1.72it/s]

wins: [110], epsilon: 0.6050060671375365


 25%|██████████████████████████████████████████████████████████████▏                                                                                                                                                                                      | 127/500 [01:00<03:44,  1.66it/s]

wins: [110], epsilon: 0.6050060671375365


 26%|██████████████████████████████████████████████████████████████▋                                                                                                                                                                                      | 128/500 [01:00<02:53,  2.14it/s]

wins: [110], epsilon: 0.6050060671375365


 26%|███████████████████████████████████████████████████████████████▏                                                                                                                                                                                     | 129/500 [01:02<06:27,  1.04s/it]

wins: [110], epsilon: 0.5870367819374844


 26%|███████████████████████████████████████████████████████████████▋                                                                                                                                                                                     | 130/500 [01:02<04:45,  1.30it/s]

wins: [110], epsilon: 0.5870367819374844


 26%|████████████████████████████████████████████████████████████████▏                                                                                                                                                                                    | 131/500 [01:03<03:51,  1.59it/s]

wins: [110], epsilon: 0.5870367819374844


 26%|████████████████████████████████████████████████████████████████▋                                                                                                                                                                                    | 132/500 [01:06<08:01,  1.31s/it]

wins: [110], epsilon: 0.5639051904523876


 27%|█████████████████████████████████████████████████████████████████▏                                                                                                                                                                                   | 133/500 [01:07<07:46,  1.27s/it]

wins: [110], epsilon: 0.5582661385478638


 27%|█████████████████████████████████████████████████████████████████▋                                                                                                                                                                                   | 134/500 [01:07<06:03,  1.01it/s]

wins: [110], epsilon: 0.5582661385478638


 27%|██████████████████████████████████████████████████████████████████▏                                                                                                                                                                                  | 135/500 [01:07<04:30,  1.35it/s]

wins: [110], epsilon: 0.5582661385478638


 27%|██████████████████████████████████████████████████████████████████▋                                                                                                                                                                                  | 136/500 [01:11<09:42,  1.60s/it]

wins: [110], epsilon: 0.5526834771623851


 27%|███████████████████████████████████████████████████████████████████▏                                                                                                                                                                                 | 137/500 [01:12<09:22,  1.55s/it]

wins: [110], epsilon: 0.5526834771623851


 28%|███████████████████████████████████████████████████████████████████▌                                                                                                                                                                                 | 138/500 [01:13<06:49,  1.13s/it]

wins: [110], epsilon: 0.5526834771623851


 28%|████████████████████████████████████████████████████████████████████                                                                                                                                                                                 | 139/500 [01:13<05:01,  1.20it/s]

wins: [110], epsilon: 0.5526834771623851


 28%|████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                | 140/500 [01:14<05:59,  1.00it/s]

wins: [110], epsilon: 0.5416850759668536


 28%|█████████████████████████████████████████████████████████████████████                                                                                                                                                                                | 141/500 [01:14<04:27,  1.34it/s]

wins: [110], epsilon: 0.5416850759668536


 28%|█████████████████████████████████████████████████████████████████████▌                                                                                                                                                                               | 142/500 [01:14<03:36,  1.66it/s]

wins: [110], epsilon: 0.5416850759668536


 29%|██████████████████████████████████████████████████████████████████████                                                                                                                                                                               | 143/500 [01:18<09:07,  1.53s/it]

wins: [110], epsilon: 0.5309055429551132


 29%|██████████████████████████████████████████████████████████████████████▌                                                                                                                                                                              | 144/500 [01:18<06:37,  1.12s/it]

wins: [110], epsilon: 0.5309055429551132


 29%|███████████████████████████████████████████████████████████████████████                                                                                                                                                                              | 145/500 [01:21<09:23,  1.59s/it]

wins: [110], epsilon: 0.5203405226503064


 29%|███████████████████████████████████████████████████████████████████████▌                                                                                                                                                                             | 146/500 [01:22<08:31,  1.45s/it]

wins: [110], epsilon: 0.5203405226503064


 29%|████████████████████████████████████████████████████████████████████████                                                                                                                                                                             | 147/500 [01:22<06:13,  1.06s/it]

wins: [110], epsilon: 0.5203405226503064


 30%|████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                            | 148/500 [01:24<06:58,  1.19s/it]

wins: [110], epsilon: 0.5099857462495653


 30%|█████████████████████████████████████████████████████████████████████████                                                                                                                                                                            | 149/500 [01:29<13:59,  2.39s/it]

wins: [110], epsilon: 0.4998370298991989


 30%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                           | 150/500 [01:31<13:32,  2.32s/it]

wins: [110], epsilon: 0.48499137027416284


 30%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                           | 151/500 [01:32<11:31,  1.98s/it]

wins: [110], epsilon: 0.48499137027416284


 30%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                          | 152/500 [01:34<10:54,  1.88s/it]

wins: [110], epsilon: 0.4801414565714212


 31%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                          | 153/500 [01:37<12:43,  2.20s/it]

wins: [110], epsilon: 0.4612219674180955


 31%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                         | 154/500 [01:42<17:05,  2.96s/it]

wins: [110], epsilon: 0.4386175018099108


 31%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                         | 155/500 [01:42<12:11,  2.12s/it]

wins: [110], epsilon: 0.4386175018099108


 31%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                        | 156/500 [01:45<13:52,  2.42s/it]

wins: [110], epsilon: 0.4213342221547681


 31%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                        | 157/500 [01:47<13:16,  2.32s/it]

wins: [110], epsilon: 0.41294967113388825


 32%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                       | 158/500 [01:47<09:30,  1.67s/it]

wins: [110], epsilon: 0.41294967113388825


 32%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                       | 159/500 [01:52<15:30,  2.73s/it]

wins: [110], epsilon: 0.4047319726783239


 32%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                      | 160/500 [01:54<13:01,  2.30s/it]

wins: [110], epsilon: 0.4047319726783239


 32%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                      | 161/500 [01:55<10:55,  1.93s/it]

wins: [110], epsilon: 0.4047319726783239


 32%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                     | 162/500 [01:57<11:20,  2.01s/it]

wins: [110], epsilon: 0.392711028357805


 33%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                                     | 163/500 [01:57<08:09,  1.45s/it]

wins: [110], epsilon: 0.392711028357805


 33%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                    | 164/500 [01:59<08:09,  1.46s/it]

wins: [110], epsilon: 0.38878391807422696


 33%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                                    | 165/500 [02:00<07:56,  1.42s/it]

wins: [110], epsilon: 0.38104711810454983


 33%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                   | 166/500 [02:01<06:36,  1.19s/it]

wins: [110], epsilon: 0.38104711810454983


 33%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                                   | 167/500 [02:03<09:31,  1.72s/it]

wins: [110], epsilon: 0.36603234127322926


 34%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                  | 168/500 [02:06<11:33,  2.09s/it]

wins: [110], epsilon: 0.34809311449244207


 34%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                                  | 169/500 [02:09<11:41,  2.12s/it]

wins: [110], epsilon: 0.334376856889913


 34%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                 | 170/500 [02:09<08:23,  1.53s/it]

wins: [110], epsilon: 0.334376856889913


 34%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                                 | 171/500 [02:12<11:50,  2.16s/it]

wins: [110], epsilon: 0.3212010745647914


 34%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                | 172/500 [02:13<08:30,  1.56s/it]

wins: [110], epsilon: 0.3212010745647914


 35%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                                | 173/500 [02:15<09:51,  1.81s/it]

wins: [110], epsilon: 0.3116610814491425


 35%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                               | 174/500 [02:15<07:08,  1.31s/it]

wins: [110], epsilon: 0.3116610814491425


 35%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                               | 175/500 [02:15<05:31,  1.02s/it]

wins: [110], epsilon: 0.3116610814491425


 35%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                              | 176/500 [02:18<07:59,  1.48s/it]

wins: [110], epsilon: 0.3024044356690215


 35%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                              | 177/500 [02:21<10:46,  2.00s/it]

wins: [110], epsilon: 0.2963865873992079


 36%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                             | 178/500 [02:24<11:58,  2.23s/it]

wins: [110], epsilon: 0.2904884943099637


 36%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                             | 179/500 [02:28<14:29,  2.71s/it]

wins: [110], epsilon: 0.2790420885850588


 36%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                            | 180/500 [02:30<13:16,  2.49s/it]

wins: [110], epsilon: 0.2653662497477053


 36%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                            | 181/500 [02:32<12:10,  2.29s/it]

wins: [110], epsilon: 0.2653662497477053


 36%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                           | 182/500 [02:32<09:00,  1.70s/it]

wins: [110], epsilon: 0.2653662497477053


 37%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                           | 183/500 [02:37<14:38,  2.77s/it]

wins: [110, 182], epsilon: 0.24983705645845267


 37%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                          | 184/500 [02:42<17:22,  3.30s/it]

wins: [110, 182], epsilon: 0.23999247958413436


 37%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                          | 185/500 [02:44<15:41,  2.99s/it]

wins: [110, 182], epsilon: 0.23999247958413436


 37%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                         | 186/500 [02:44<11:10,  2.13s/it]

wins: [110, 182], epsilon: 0.23999247958413436


 37%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                         | 187/500 [02:47<12:47,  2.45s/it]

wins: [110, 182], epsilon: 0.22823046013534068


 38%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                         | 188/500 [02:48<09:25,  1.81s/it]

wins: [110, 182], epsilon: 0.22823046013534068


 38%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                        | 189/500 [02:50<10:09,  1.96s/it]

wins: [110, 182], epsilon: 0.22368867397864742


 38%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                        | 190/500 [02:53<12:15,  2.37s/it]

wins: [110, 182], epsilon: 0.22368867397864742


 38%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                       | 191/500 [02:53<08:45,  1.70s/it]

wins: [110, 182], epsilon: 0.22368867397864742


 38%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                       | 192/500 [02:58<13:53,  2.70s/it]

wins: [110, 182], epsilon: 0.22145178723886094


 39%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                      | 193/500 [03:02<15:42,  3.07s/it]

wins: [110, 182], epsilon: 0.21923726936647234


 39%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                      | 194/500 [03:05<15:31,  3.04s/it]

wins: [110, 182], epsilon: 0.21059844619672854


 39%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                     | 195/500 [03:08<15:01,  2.96s/it]

wins: [110, 182], epsilon: 0.20640753711741366


 39%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                     | 196/500 [03:11<14:33,  2.87s/it]

wins: [110, 182], epsilon: 0.2


 39%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                    | 197/500 [03:13<12:45,  2.53s/it]

wins: [110, 182], epsilon: 0.2


 40%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                    | 198/500 [03:16<14:18,  2.84s/it]

wins: [110, 182], epsilon: 0.2


 40%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                   | 199/500 [03:19<14:52,  2.96s/it]

wins: [110, 182], epsilon: 0.2


 40%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                   | 200/500 [03:22<14:46,  2.95s/it]

wins: [110, 182], epsilon: 0.2


 40%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                  | 201/500 [03:28<19:30,  3.91s/it]

wins: [110, 182], epsilon: 0.2


 40%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                  | 202/500 [03:30<15:45,  3.17s/it]

wins: [110, 182], epsilon: 0.2


 41%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                 | 203/500 [03:35<19:11,  3.88s/it]

wins: [110, 182], epsilon: 0.2


 41%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                 | 204/500 [03:37<16:23,  3.32s/it]

wins: [110, 182], epsilon: 0.2


 41%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                | 205/500 [03:40<14:59,  3.05s/it]

wins: [110, 182], epsilon: 0.2


 41%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                | 206/500 [03:41<12:46,  2.61s/it]

wins: [110, 182], epsilon: 0.2


 41%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                               | 207/500 [03:45<14:34,  2.98s/it]

wins: [110, 182], epsilon: 0.2


 42%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                               | 208/500 [03:49<15:06,  3.11s/it]

wins: [110, 182], epsilon: 0.2


 42%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                              | 209/500 [03:49<10:45,  2.22s/it]

wins: [110, 182], epsilon: 0.2


 42%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                              | 210/500 [03:54<15:05,  3.12s/it]

wins: [110, 182], epsilon: 0.2


 42%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                             | 211/500 [03:58<15:55,  3.31s/it]

wins: [110, 182], epsilon: 0.2


 42%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                             | 212/500 [03:59<12:26,  2.59s/it]

wins: [110, 182], epsilon: 0.2


 43%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                            | 213/500 [04:04<16:08,  3.38s/it]

wins: [110, 182], epsilon: 0.2


 43%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                            | 214/500 [04:09<18:53,  3.96s/it]

wins: [110, 182], epsilon: 0.2


 43%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                           | 215/500 [04:13<18:48,  3.96s/it]

wins: [110, 182], epsilon: 0.2


 43%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                           | 216/500 [04:14<14:32,  3.07s/it]

wins: [110, 182], epsilon: 0.2


 43%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                          | 217/500 [04:19<17:33,  3.72s/it]

wins: [110, 182], epsilon: 0.2


 44%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                          | 218/500 [04:20<13:40,  2.91s/it]

wins: [110, 182], epsilon: 0.2


 44%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                         | 219/500 [04:24<13:52,  2.96s/it]

wins: [110, 182], epsilon: 0.2


 44%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                         | 220/500 [04:26<13:28,  2.89s/it]

wins: [110, 182], epsilon: 0.2


 44%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                        | 221/500 [04:32<16:55,  3.64s/it]

wins: [110, 182, 220], epsilon: 0.2


 44%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                        | 222/500 [04:37<19:01,  4.11s/it]

wins: [110, 182, 220], epsilon: 0.2


 45%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                       | 223/500 [04:42<19:53,  4.31s/it]

wins: [110, 182, 220, 222], epsilon: 0.2


 45%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                       | 224/500 [04:47<21:08,  4.59s/it]

wins: [110, 182, 220, 222, 223], epsilon: 0.2


 45%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                      | 225/500 [04:52<22:08,  4.83s/it]

wins: [110, 182, 220, 222, 223], epsilon: 0.2


 45%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                      | 226/500 [04:57<22:19,  4.89s/it]

wins: [110, 182, 220, 222, 223, 225], epsilon: 0.2


 45%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                     | 227/500 [05:02<22:25,  4.93s/it]

wins: [110, 182, 220, 222, 223, 225], epsilon: 0.2


 46%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                     | 228/500 [05:05<19:02,  4.20s/it]

wins: [110, 182, 220, 222, 223, 225], epsilon: 0.2


 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                    | 229/500 [05:07<16:28,  3.65s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                    | 230/500 [05:13<19:00,  4.22s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 46%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                   | 231/500 [05:18<20:31,  4.58s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 46%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                   | 232/500 [05:24<21:47,  4.88s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 47%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                  | 233/500 [05:27<19:37,  4.41s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 47%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                  | 234/500 [05:30<17:41,  3.99s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 47%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                 | 235/500 [05:34<17:56,  4.06s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 47%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                 | 236/500 [05:40<19:54,  4.52s/it]

wins: [110, 182, 220, 222, 223, 225, 228], epsilon: 0.2


 47%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                | 237/500 [05:45<21:08,  4.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 48%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                | 238/500 [05:50<21:08,  4.84s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 48%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                | 239/500 [05:55<21:16,  4.89s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 48%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                               | 240/500 [06:00<20:54,  4.83s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 48%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                               | 241/500 [06:00<14:45,  3.42s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 48%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                              | 242/500 [06:03<13:35,  3.16s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 49%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                              | 243/500 [06:08<16:02,  3.74s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 49%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                             | 244/500 [06:13<17:46,  4.17s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 49%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                             | 245/500 [06:13<12:35,  2.96s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 49%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                            | 246/500 [06:13<09:11,  2.17s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 49%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                            | 247/500 [06:18<12:05,  2.87s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                           | 248/500 [06:19<09:54,  2.36s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                           | 249/500 [06:21<09:17,  2.22s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 250/500 [06:25<11:15,  2.70s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                          | 251/500 [06:25<08:33,  2.06s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 50%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 252/500 [06:26<06:38,  1.61s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 51%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 253/500 [06:30<10:09,  2.47s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 51%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                        | 254/500 [06:33<10:40,  2.60s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 51%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 255/500 [06:34<08:55,  2.19s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 51%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 256/500 [06:38<10:08,  2.49s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 51%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 257/500 [06:43<12:58,  3.20s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 258/500 [06:45<11:26,  2.84s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 259/500 [06:50<14:26,  3.60s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 260/500 [06:54<14:49,  3.71s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 261/500 [06:55<11:13,  2.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 52%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 262/500 [06:56<08:56,  2.25s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 263/500 [06:59<10:46,  2.73s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 264/500 [07:00<07:52,  2.00s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 265/500 [07:05<11:26,  2.92s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236], epsilon: 0.2


 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 266/500 [07:10<14:01,  3.59s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 267/500 [07:15<15:45,  4.06s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 268/500 [07:20<17:03,  4.41s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 269/500 [07:23<15:03,  3.91s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 270/500 [07:26<13:57,  3.64s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 271/500 [07:27<11:04,  2.90s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 272/500 [07:27<07:53,  2.08s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 273/500 [07:28<06:26,  1.70s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 274/500 [07:34<11:00,  2.92s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 275/500 [07:40<14:17,  3.81s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 276/500 [07:46<16:21,  4.38s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 277/500 [07:46<11:48,  3.18s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265], epsilon: 0.2


 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 278/500 [07:51<14:08,  3.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 279/500 [07:56<15:30,  4.21s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 280/500 [07:57<10:59,  3.00s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 281/500 [08:00<11:40,  3.20s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 282/500 [08:02<10:22,  2.86s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 283/500 [08:03<07:47,  2.16s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 284/500 [08:04<07:06,  1.97s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 285/500 [08:10<10:39,  2.98s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 286/500 [08:15<13:18,  3.73s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 287/500 [08:16<10:14,  2.89s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 288/500 [08:18<08:48,  2.49s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 289/500 [08:21<09:42,  2.76s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 290/500 [08:26<12:28,  3.56s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 291/500 [08:32<14:40,  4.21s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 292/500 [08:32<10:23,  3.00s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277], epsilon: 0.2


 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 293/500 [08:38<13:13,  3.83s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292], epsilon: 0.2


 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 294/500 [08:44<14:43,  4.29s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 295/500 [08:45<12:01,  3.52s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 296/500 [08:50<12:58,  3.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 297/500 [08:55<14:01,  4.14s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 298/500 [08:55<10:36,  3.15s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 299/500 [08:58<10:21,  3.09s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 300/500 [08:59<07:31,  2.26s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 301/500 [09:04<10:13,  3.08s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 302/500 [09:06<09:27,  2.87s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 303/500 [09:06<06:43,  2.05s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 304/500 [09:10<07:57,  2.43s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 305/500 [09:14<10:02,  3.09s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 306/500 [09:19<12:00,  3.72s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 307/500 [09:22<11:14,  3.50s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 308/500 [09:25<09:54,  3.10s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 309/500 [09:30<12:12,  3.84s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 310/500 [09:30<08:50,  2.79s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 311/500 [09:33<08:06,  2.58s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 312/500 [09:38<10:38,  3.40s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 313/500 [09:43<12:12,  3.92s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 314/500 [09:48<13:25,  4.33s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 315/500 [09:53<14:03,  4.56s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 316/500 [09:59<14:43,  4.80s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 317/500 [10:04<15:11,  4.98s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 318/500 [10:04<10:52,  3.59s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 319/500 [10:05<07:42,  2.55s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 320/500 [10:07<07:42,  2.57s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 321/500 [10:12<10:03,  3.37s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293], epsilon: 0.2


 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 322/500 [10:17<10:55,  3.69s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 323/500 [10:23<12:50,  4.35s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 324/500 [10:28<13:52,  4.73s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 325/500 [10:34<14:38,  5.02s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 326/500 [10:35<10:41,  3.69s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 327/500 [10:40<12:20,  4.28s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 328/500 [10:46<13:32,  4.73s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 329/500 [10:49<12:03,  4.23s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 330/500 [10:50<08:57,  3.16s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 331/500 [10:55<10:52,  3.86s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 332/500 [11:01<12:27,  4.45s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 333/500 [11:07<13:24,  4.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 334/500 [11:07<09:28,  3.43s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 335/500 [11:13<11:45,  4.28s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 336/500 [11:19<12:47,  4.68s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 337/500 [11:22<11:46,  4.33s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 338/500 [11:24<09:21,  3.46s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 339/500 [11:29<10:57,  4.08s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 340/500 [11:35<11:54,  4.47s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 341/500 [11:35<08:24,  3.17s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 342/500 [11:35<05:57,  2.26s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 343/500 [11:37<06:05,  2.33s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 344/500 [11:40<05:50,  2.24s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 345/500 [11:41<04:58,  1.92s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 346/500 [11:46<07:38,  2.98s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 347/500 [11:46<05:33,  2.18s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 348/500 [11:47<03:58,  1.57s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 349/500 [11:50<05:24,  2.15s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 350/500 [11:51<04:42,  1.89s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 351/500 [11:52<04:02,  1.63s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 352/500 [11:56<05:36,  2.27s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 353/500 [12:02<07:50,  3.20s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321], epsilon: 0.2


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 354/500 [12:05<08:08,  3.34s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353], epsilon: 0.2


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 355/500 [12:10<09:26,  3.91s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354], epsilon: 0.2


 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 356/500 [12:15<09:40,  4.03s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354], epsilon: 0.2


 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 357/500 [12:18<08:44,  3.67s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354], epsilon: 0.2


 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 358/500 [12:19<07:14,  3.06s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354], epsilon: 0.2


 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 359/500 [12:25<08:47,  3.74s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354], epsilon: 0.2


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 360/500 [12:27<08:06,  3.47s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359], epsilon: 0.2


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 361/500 [12:33<09:26,  4.08s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359], epsilon: 0.2


 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 362/500 [12:38<10:17,  4.47s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 363/500 [12:41<08:57,  3.92s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 364/500 [12:46<09:50,  4.34s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 365/500 [12:47<07:11,  3.19s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 366/500 [12:49<06:22,  2.85s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 367/500 [12:51<05:36,  2.53s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 368/500 [12:54<05:48,  2.64s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 369/500 [12:55<04:55,  2.26s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 370/500 [13:00<06:52,  3.17s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 371/500 [13:03<06:50,  3.18s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 372/500 [13:08<07:27,  3.50s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 373/500 [13:13<08:36,  4.07s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 374/500 [13:17<08:41,  4.14s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 375/500 [13:23<09:26,  4.53s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 376/500 [13:25<08:09,  3.95s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 377/500 [13:26<06:13,  3.04s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 378/500 [13:30<06:50,  3.37s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 379/500 [13:34<06:52,  3.41s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 380/500 [13:39<08:01,  4.01s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 381/500 [13:44<08:21,  4.22s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 382/500 [13:49<09:01,  4.58s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 383/500 [13:54<09:06,  4.67s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 384/500 [13:57<08:03,  4.17s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 385/500 [14:03<08:41,  4.53s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 386/500 [14:08<08:59,  4.73s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 387/500 [14:11<07:46,  4.13s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 388/500 [14:13<06:45,  3.62s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 389/500 [14:13<04:46,  2.58s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 390/500 [14:14<03:30,  1.91s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 391/500 [14:19<05:20,  2.94s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 392/500 [14:25<06:44,  3.74s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 393/500 [14:30<07:27,  4.18s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 394/500 [14:30<05:15,  2.97s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 395/500 [14:35<06:24,  3.66s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 396/500 [14:37<05:09,  2.97s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 397/500 [14:40<05:15,  3.07s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 398/500 [14:43<05:28,  3.22s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 399/500 [14:46<05:06,  3.04s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 400/500 [14:51<06:16,  3.77s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 401/500 [14:56<06:49,  4.14s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 402/500 [14:57<04:47,  2.94s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 403/500 [14:57<03:23,  2.10s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 404/500 [15:02<04:56,  3.09s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 405/500 [15:05<04:52,  3.08s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 406/500 [15:11<05:53,  3.77s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 407/500 [15:12<04:49,  3.11s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 408/500 [15:15<04:46,  3.11s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 409/500 [15:19<05:05,  3.35s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 410/500 [15:25<05:56,  3.97s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 411/500 [15:25<04:15,  2.87s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 412/500 [15:27<03:51,  2.63s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 413/500 [15:32<05:02,  3.48s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 414/500 [15:35<04:34,  3.19s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 415/500 [15:36<03:41,  2.61s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 416/500 [15:41<04:25,  3.17s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 417/500 [15:47<05:30,  3.98s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 418/500 [15:47<03:56,  2.88s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 419/500 [15:51<04:15,  3.15s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 420/500 [15:52<03:35,  2.69s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 421/500 [15:54<03:14,  2.46s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 422/500 [16:00<04:21,  3.35s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 423/500 [16:01<03:38,  2.84s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 424/500 [16:06<04:27,  3.51s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 425/500 [16:12<05:03,  4.05s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 426/500 [16:13<04:10,  3.38s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 427/500 [16:16<03:45,  3.09s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 428/500 [16:21<04:24,  3.68s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 429/500 [16:24<04:18,  3.64s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 430/500 [16:26<03:22,  2.89s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 431/500 [16:30<03:49,  3.33s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 432/500 [16:34<03:59,  3.53s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 433/500 [16:39<04:26,  3.97s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 434/500 [16:42<03:57,  3.59s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 435/500 [16:47<04:21,  4.02s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 436/500 [16:52<04:35,  4.31s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 437/500 [16:55<04:10,  3.98s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 438/500 [17:00<04:26,  4.30s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361], epsilon: 0.2


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 439/500 [17:05<04:35,  4.52s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 440/500 [17:10<04:48,  4.80s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 441/500 [17:11<03:30,  3.57s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 442/500 [17:15<03:37,  3.75s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 443/500 [17:20<03:50,  4.04s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 444/500 [17:20<02:40,  2.87s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 445/500 [17:20<01:52,  2.05s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 446/500 [17:22<01:38,  1.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 447/500 [17:22<01:10,  1.32s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 448/500 [17:22<00:52,  1.02s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 449/500 [17:24<01:02,  1.23s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 450/500 [17:29<02:02,  2.46s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 451/500 [17:29<01:29,  1.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 452/500 [17:35<02:18,  2.89s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 453/500 [17:35<01:44,  2.23s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 454/500 [17:41<02:22,  3.10s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438], epsilon: 0.2


 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 455/500 [17:46<02:44,  3.66s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 456/500 [17:46<01:54,  2.60s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 457/500 [17:51<02:22,  3.33s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 458/500 [17:51<01:43,  2.47s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 459/500 [17:52<01:14,  1.83s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 460/500 [17:53<01:11,  1.79s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 461/500 [17:57<01:27,  2.25s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 462/500 [18:00<01:37,  2.56s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 463/500 [18:00<01:07,  1.84s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 464/500 [18:02<01:02,  1.74s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 465/500 [18:06<01:30,  2.60s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 466/500 [18:07<01:07,  1.98s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 467/500 [18:12<01:41,  3.08s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 468/500 [18:18<02:03,  3.85s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 469/500 [18:22<01:59,  3.85s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 470/500 [18:27<02:11,  4.38s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 471/500 [18:31<01:56,  4.03s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 472/500 [18:31<01:22,  2.94s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 473/500 [18:37<01:40,  3.70s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 474/500 [18:42<01:49,  4.19s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 475/500 [18:47<01:51,  4.48s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 476/500 [18:47<01:16,  3.18s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 477/500 [18:52<01:27,  3.81s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 478/500 [18:57<01:28,  4.02s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 479/500 [18:57<01:01,  2.92s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 480/500 [19:00<00:56,  2.83s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 481/500 [19:05<01:08,  3.59s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 482/500 [19:11<01:13,  4.09s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 483/500 [19:16<01:15,  4.46s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 484/500 [19:19<01:04,  4.01s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 485/500 [19:19<00:42,  2.85s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 486/500 [19:25<00:52,  3.74s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 487/500 [19:27<00:41,  3.19s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 488/500 [19:29<00:33,  2.82s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 489/500 [19:29<00:22,  2.02s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 490/500 [19:34<00:31,  3.11s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 491/500 [19:40<00:33,  3.76s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 492/500 [19:40<00:21,  2.67s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 493/500 [19:43<00:19,  2.78s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 494/500 [19:46<00:18,  3.01s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 495/500 [19:51<00:17,  3.51s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 496/500 [19:57<00:17,  4.29s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 497/500 [20:03<00:13,  4.64s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 498/500 [20:08<00:09,  4.90s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454], epsilon: 0.2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 499/500 [20:13<00:04,  4.78s/it]

wins: [110, 182, 220, 222, 223, 225, 228, 236, 265, 277, 292, 293, 321, 353, 354, 359, 361, 438, 454, 498], epsilon: 0.2


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [20:13<00:00,  2.43s/it]


In [7]:
env.reset()
observation, reward, terminated = env.init()
env.render()
time.sleep(0.2)
while not terminated:
    state_input = observation.reshape(-1, x * y)
#     action = agent.get_action(state_input, action_list)
    action = np.argmax(agent.target_network.predict(state_input))
    next_observation, reward, terminated = env.step(action)
    clear_output(wait=True)
    env.render()
    time.sleep(0.2)
    observation = next_observation

| | | |O|O|
| |Y| |O| |
| |O| | | |
| | |O| | |
| | |O| |O|
