In [1]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
from Environment import *
from tqdm import tqdm
import matplotlib.pyplot as plt

In [2]:
'''
Direction mapping:
0: left = [-1, 0]
1: right = [1, 0]
2: up = [0, -1]
3: down = [0, 1]
'''

class User_Agent:
    def __init__(self):
        #model
        #-----------------------------------------------------
        input_A = Input(shape = (4,))    #curr_x, curr_y, target_x, target_y
        x = Dense(32, activation = 'relu')(input_A)
        x = Dense(16, activation = 'relu')(x)
        x = Dense(4)(x) #left, right, down, up
        
        self.model = Model(inputs = input_A, outputs = x)
        print(self.model.summary())
        #---------------------------------------------------
        
        self.target_model = tf.keras.models.clone_model(self.model)
        self.target_model.set_weights(self.model.get_weights())
        
        self.loss_fn = tf.keras.losses.mean_squared_error
        self.optimizer = tf.keras.optimizers.Adam(lr = 1e-3)
        self.batch_size = 128
        self.replay_buffer_size = 1024
        self.replay_buffer = Replay_Buffer(self.replay_buffer_size)
        self.epsilon = 1
        self.gamma = 0.9
        
    def exp_policy(self, state):
        if np.random.rand()<self.epsilon:
            return np.random.randint(4)
        else:
            state = np.array(state)[np.newaxis]
            Q_values = self.model(state)
            return np.argmax(Q_values[0])
        
    def sample_experience(self):
        indices = np.random.randint(len(self.replay_buffer.state_history), size = self.batch_size)
        
        states = np.array([self.replay_buffer.state_history[i] for i in indices])
        actions = np.array([self.replay_buffer.action_history[i] for i in indices])
        next_states = np.array([self.replay_buffer.next_state_history[i] for i in indices])
        rewards = np.array([self.replay_buffer.rewards_history[i] for i in indices])
        dones = np.array([self.replay_buffer.done_history[i] for i in indices])
        
        return states, actions, next_states, rewards, dones
    

    def play_one_step(self, env, state, mod_agent):
        action_user = self.exp_policy(state)
        action_user_one_hot = make_one_hot(action_user, 4)
        curr_loc = state[:2]
        target_loc = state[2:]
        action_user_one_hot.extend(curr_loc)
        mod_state = action_user_one_hot[:]
        mod_state = np.array(mod_state)
        new_loc, reward, done = mod_agent.play_one_step(env, mod_state, curr_loc, target_loc, self)
        next_state = [new_loc[0], new_loc[1], target_loc[0], target_loc[1]]
        self.replay_buffer.append(state, action_user, reward, next_state, done)
        
        return next_state, reward, done
    
    def train(self):
        states, actions, next_states, rewards, dones = self.sample_experience()
        next_Q_values = self.target_model(next_states)
        max_next_Q_values = np.max(next_Q_values, axis= 1)
        target_Q_values = rewards + (1-dones)*self.gamma*max_next_Q_values
        
        mask = tf.one_hot(actions, 4)
        
        with tf.GradientTape() as tape:
            all_Q_values = self.model(states)
            Q_values = tf.reduce_sum(all_Q_values*mask, axis = 1, keepdims = True)
            loss = tf.reduce_mean(self.loss_fn(target_Q_values, Q_values))

        grads = tape.gradient(loss, self.model.trainable_variables)
        self.optimizer.apply_gradients(zip(grads, self.model.trainable_variables))

In [3]:
class Mod_Agent:
    def __init__(self):
        #model
        #-----------------------------------------------------
        input_A = Input(shape = (6,))   #direction of motion_one_hot(4), curr_x, curr_y
        x = Dense(32, activation = 'relu')(input_A)
        x = Dense(16, activation = 'relu')(x)
        x = Dense(4)(x) #modulate by 1,2,3,4 
        
        self.model = Model(inputs = input_A, outputs = x)
        print(self.model.summary())
        #---------------------------------------------------
        
        self.target_model = tf.keras.models.clone_model(self.model)
        self.target_model.set_weights(self.model.get_weights())
        
        self.loss_fn = tf.keras.losses.mean_squared_error
        self.optimizer = tf.keras.optimizers.Adam(lr = 1e-3)
        self.batch_size = 128
        self.replay_buffer_size = 1024
        self.replay_buffer = Replay_Buffer(self.replay_buffer_size)
        self.epsilon = 1
        self.steps_per_epoch = 1
        self.gamma = 0.9
    
    def exp_policy(self, state):
        if np.random.rand()<self.epsilon:
            return np.random.randint(1,5)
        else:
            state = np.array(state)[np.newaxis]
            Q_values = self.model(state)
            return np.argmax(Q_values[0])+1
        
        
    def sample_experience(self):
        indices = np.random.randint(len(self.replay_buffer.state_history), size = self.batch_size)
        
        states = np.array([self.replay_buffer.state_history[i] for i in indices])
        actions = np.array([self.replay_buffer.action_history[i] for i in indices])
        next_states = np.array([self.replay_buffer.next_state_history[i] for i in indices])
        rewards = np.array([self.replay_buffer.rewards_history[i] for i in indices])
        dones = np.array([self.replay_buffer.done_history[i] for i in indices])
        
        return states, actions, next_states, rewards, dones
    
    def play_one_step(self, env, state, curr_loc, target_loc, user_agent):
        #Agent not aware of target location
        action_mod = self.exp_policy(state)
        action_user = np.argmax(state[:4])
        new_loc, reward, done = env.step(action_user, action_mod, target_loc, curr_loc)
        next_dir = user_agent.exp_policy(np.array([new_loc[0], new_loc[1], target_loc[0], target_loc[1]]))
        
        next_dir_one_hot = make_one_hot(next_dir, 4)
        next_dir_one_hot.extend(new_loc)
        next_state = next_dir_one_hot[:]
        next_state = np.array(next_state)
        
        self.replay_buffer.append(state, action_mod-1, reward, next_state, done)
        
        
        return new_loc, reward, done
    
    def train(self):
        states, actions, next_states, rewards, dones = self.sample_experience()
        next_Q_values = self.target_model(next_states)
        max_next_Q_values = np.max(next_Q_values, axis= 1)
        target_Q_values = rewards + (1-dones)*self.gamma*max_next_Q_values
        
        mask = tf.one_hot(actions, 4)
        
        with tf.GradientTape() as tape:
            all_Q_values = self.model(states)
            Q_values = tf.reduce_sum(all_Q_values*mask, axis = 1, keepdims = True)
            loss = tf.reduce_mean(self.loss_fn(target_Q_values, Q_values))

        grads = tape.gradient(loss, self.model.trainable_variables)
        self.optimizer.apply_gradients(zip(grads, self.model.trainable_variables))
            

In [4]:
env = Environment()
user_agent = User_Agent()
mod_agent = Mod_Agent()

Icon Locations:
[[0.3 0.4]
 [0.1 0.9]
 [0.3 0.5]
 [0.6 0.7]
 [0.7 0.3]
 [0.5 0.9]]
Icon usage Probabilities
[0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667]
Model: "functional_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 4)]               0         
_________________________________________________________________
dense (Dense)                (None, 32)                160       
_________________________________________________________________
dense_1 (Dense)              (None, 16)                528       
_________________________________________________________________
dense_2 (Dense)              (None, 4)                 68        
Total params: 756
Trainable params: 756
Non-trainable params: 0
_________________________________________________________________
None
Model: "functional_3"
___________________________________________________

In [None]:
rewards = []
mean_rewards = []
max_steps = 40
reached = 0
for epoch in tqdm(range(10000)):
    done = False
    episode_reward = 0
    step = 0
    start, dest = env.give_start_dest()
#     start = np.array([0.1,0.1])
#     dest = np.array([0.1,0.3])
    state = [start[0], start[1], dest[0], dest[1]]
    while not done and step<max_steps:
        state = np.array(state)
        next_state, reward, done = user_agent.play_one_step(env, state, mod_agent)
        state = next_state
        episode_reward+=reward
        step+=1
        if done:
            reached+=1
            
    if epoch>50:
        user_agent.train()
        mod_agent.train()
    
    if epoch>50 and epoch%25==0:
        user_agent.target_model.set_weights(user_agent.model.get_weights())
        mod_agent.target_model.set_weights(mod_agent.model.get_weights())
        print('Updated Weights')
        
    
    if epoch>50 and epoch%50==0:
        mod_agent.epsilon*=0.9
        user_agent.epsilon*=0.9
#         print(user_agent.replay_buffer.state_history[5])
#         print(user_agent.replay_buffer.action_history[5])
#         print(user_agent.replay_buffer.rewards_history[5])
#         print(user_agent.replay_buffer.next_state_history[5])

    mean_rewards.append(episode_reward)
    if epoch%10==0:
        rewards.append(np.mean(mean_rewards))
        mean_rewards = []
        print(f'Mean Reward = {rewards[-1]}')
        print(reached)
        reached = 0
        
    if epoch%500==0 and epoch:
        plt.plot(rewards)
        plt.xlabel('Iterations')
        plt.ylabel('Rewards')
        plt.show()
    

  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

Mean Reward = -6.0

  0%|▏                                                                             | 25/10000 [00:00<00:41, 241.03it/s]


0
Mean Reward = -5.4
0
Mean Reward = -5.1
1
Mean Reward = -5.4
0
Mean Reward = -7.2
0


  0%|▍                                                                             | 49/10000 [00:00<00:41, 240.19it/s]

Mean Reward = -6.8
0


  1%|▍                                                                             | 62/10000 [00:00<01:38, 100.99it/s]

Mean Reward = -6.2
0
Mean Reward = -6.4

  1%|▋                                                                              | 81/10000 [00:00<02:20, 70.52it/s]


0
Updated Weights
Mean Reward = -5.2
0


  1%|▊                                                                              | 97/10000 [00:01<02:26, 67.75it/s]

Mean Reward = -3.4
0
Updated Weights
Mean Reward = -6.4
0


  1%|▊                                                                             | 112/10000 [00:01<03:29, 47.26it/s]

Mean Reward = -9.0
0


  1%|▉                                                                             | 123/10000 [00:01<04:01, 40.84it/s]

Mean Reward = -7.2
1
Updated Weights


  1%|█                                                                             | 138/10000 [00:02<03:53, 42.16it/s]

Mean Reward = -8.2
0


  1%|█▏                                                                            | 148/10000 [00:02<03:59, 41.12it/s]

Mean Reward = -6.3
1


  2%|█▏                                                                            | 153/10000 [00:02<04:08, 39.61it/s]

Updated Weights
Mean Reward = -5.1
1


  2%|█▎                                                                            | 166/10000 [00:02<04:54, 33.41it/s]

Mean Reward = -7.8
0


  2%|█▎                                                                            | 174/10000 [00:03<05:36, 29.24it/s]

Mean Reward = -8.6
0
Updated Weights


  2%|█▍                                                                            | 186/10000 [00:03<05:15, 31.09it/s]

Mean Reward = -8.6
0


  2%|█▌                                                                            | 194/10000 [00:03<05:07, 31.89it/s]

Mean Reward = -7.8
0


  2%|█▌                                                                            | 206/10000 [00:04<05:36, 29.12it/s]

Updated Weights
Mean Reward = -6.2
0


  2%|█▋                                                                            | 215/10000 [00:04<06:08, 26.54it/s]

Mean Reward = -6.0
0


  2%|█▊                                                                            | 225/10000 [00:05<05:59, 27.22it/s]

Mean Reward = -7.4
0
Updated Weights


  2%|█▊                                                                            | 234/10000 [00:05<06:04, 26.79it/s]

Mean Reward = -7.6
0


  2%|█▉                                                                            | 244/10000 [00:05<05:54, 27.49it/s]

Mean Reward = -3.2
1


  3%|█▉                                                                            | 253/10000 [00:06<06:18, 25.74it/s]

Updated Weights
Mean Reward = -8.0
0


  3%|██                                                                            | 263/10000 [00:06<06:24, 25.32it/s]

Mean Reward = -4.3
1


  3%|██▏                                                                           | 275/10000 [00:07<06:55, 23.38it/s]

Mean Reward = -6.2
0


  3%|██▏                                                                           | 281/10000 [00:07<06:49, 23.73it/s]

Updated Weights
Mean Reward = -4.8
0


  3%|██▎                                                                           | 296/10000 [00:07<06:23, 25.30it/s]

Mean Reward = -3.0
0


  3%|██▍                                                                           | 305/10000 [00:08<07:24, 21.81it/s]

Updated Weights
Mean Reward = -1.8
1


  3%|██▍                                                                           | 314/10000 [00:08<07:46, 20.75it/s]

Mean Reward = -10.2
0


  3%|██▌                                                                           | 323/10000 [00:09<07:58, 20.23it/s]

Mean Reward = -3.6
0


  3%|██▌                                                                           | 329/10000 [00:09<08:02, 20.05it/s]

Updated Weights


  3%|██▌                                                                           | 335/10000 [00:09<07:46, 20.74it/s]

Mean Reward = -6.8
0


  3%|██▋                                                                           | 344/10000 [00:10<07:39, 21.04it/s]

Mean Reward = -4.6
0


  4%|██▊                                                                           | 353/10000 [00:10<07:16, 22.09it/s]

Updated Weights
Mean Reward = -7.9
1


  4%|██▊                                                                           | 364/10000 [00:11<08:18, 19.33it/s]

Mean Reward = -6.5
1


  4%|██▉                                                                           | 374/10000 [00:11<08:27, 18.96it/s]

Mean Reward = -5.2
0


  4%|██▉                                                                           | 378/10000 [00:12<08:49, 18.16it/s]

Updated Weights


  4%|██▉                                                                           | 384/10000 [00:12<08:47, 18.24it/s]

Mean Reward = -7.2
0


  4%|███                                                                           | 393/10000 [00:12<08:40, 18.46it/s]

Mean Reward = -8.6
0


  4%|███▏                                                                          | 403/10000 [00:13<09:13, 17.33it/s]

Updated Weights
Mean Reward = -9.2
0


  4%|███▏                                                                          | 414/10000 [00:14<09:01, 17.69it/s]

Mean Reward = -11.9
1


  4%|███▎                                                                          | 424/10000 [00:14<09:02, 17.64it/s]

Mean Reward = -4.0
0


  4%|███▎                                                                          | 428/10000 [00:14<09:08, 17.45it/s]

Updated Weights


  4%|███▍                                                                          | 434/10000 [00:15<09:20, 17.07it/s]

Mean Reward = -16.4
0


  4%|███▍                                                                          | 444/10000 [00:15<09:09, 17.38it/s]

Mean Reward = -4.4
0


  5%|███▌                                                                          | 453/10000 [00:16<08:55, 17.83it/s]

Updated Weights
Mean Reward = -3.2
0


  5%|███▌                                                                          | 462/10000 [00:16<09:10, 17.32it/s]

Mean Reward = -2.4
2


  5%|███▋                                                                          | 474/10000 [00:17<10:29, 15.14it/s]

Mean Reward = -7.2
0


  5%|███▋                                                                          | 478/10000 [00:17<10:32, 15.06it/s]

Updated Weights


  5%|███▊                                                                          | 482/10000 [00:18<11:31, 13.77it/s]

Mean Reward = -6.0
0


  5%|███▊                                                                          | 492/10000 [00:18<11:53, 13.34it/s]

Mean Reward = -8.6
0


  5%|███▉                                                                          | 502/10000 [00:19<11:54, 13.30it/s]

Updated Weights
Mean Reward = -13.4
0


  5%|████                                                                          | 513/10000 [00:20<11:33, 13.68it/s]

Mean Reward = -10.9
1


  5%|████                                                                          | 523/10000 [00:21<11:34, 13.65it/s]

Mean Reward = -11.4
0


  5%|████▏                                                                         | 529/10000 [00:21<11:07, 14.19it/s]

Updated Weights


  5%|████▏                                                                         | 533/10000 [00:21<11:15, 14.02it/s]

Mean Reward = -5.6
0


  5%|████▏                                                                         | 543/10000 [00:22<10:37, 14.84it/s]

Mean Reward = -15.2
0


  6%|████▎                                                                         | 553/10000 [00:23<10:18, 15.26it/s]

Updated Weights
Mean Reward = -10.4
0


  6%|████▍                                                                         | 563/10000 [00:23<10:46, 14.60it/s]

Mean Reward = -23.0
1


  6%|████▍                                                                         | 573/10000 [00:24<10:30, 14.96it/s]

Mean Reward = -8.4
1


  6%|████▌                                                                         | 577/10000 [00:24<10:51, 14.47it/s]

Updated Weights


  6%|████▌                                                                         | 583/10000 [00:25<11:53, 13.20it/s]

Mean Reward = -18.2
0


  6%|████▋                                                                         | 594/10000 [00:26<10:36, 14.79it/s]

Mean Reward = -11.4
0


  6%|████▋                                                                         | 604/10000 [00:26<10:44, 14.57it/s]

Updated Weights
Mean Reward = -18.2
1


  6%|████▊                                                                         | 612/10000 [00:27<11:34, 13.52it/s]

Mean Reward = -9.1
1


  6%|████▊                                                                         | 622/10000 [00:28<10:53, 14.36it/s]

Mean Reward = -16.4
0


  6%|████▉                                                                         | 628/10000 [00:28<10:58, 14.24it/s]

Updated Weights


  6%|████▉                                                                         | 632/10000 [00:28<11:10, 13.97it/s]

Mean Reward = -18.8
0


  6%|█████                                                                         | 642/10000 [00:29<11:46, 13.25it/s]

Mean Reward = -16.6
0


  7%|█████                                                                         | 652/10000 [00:30<10:59, 14.17it/s]

Updated Weights
Mean Reward = -27.0
0


  7%|█████▏                                                                        | 662/10000 [00:31<12:04, 12.90it/s]

Mean Reward = -8.2
0


  7%|█████▏                                                                        | 672/10000 [00:31<11:46, 13.20it/s]

Mean Reward = -12.6
0


  7%|█████▎                                                                        | 679/10000 [00:32<10:24, 14.91it/s]

Updated Weights


  7%|█████▎                                                                        | 683/10000 [00:32<11:00, 14.10it/s]

Mean Reward = -16.0
2


  7%|█████▍                                                                        | 693/10000 [00:33<11:46, 13.17it/s]

Mean Reward = -22.8
0


  7%|█████▍                                                                        | 703/10000 [00:34<11:40, 13.26it/s]

Updated Weights
Mean Reward = -19.2
0


  7%|█████▌                                                                        | 713/10000 [00:34<12:01, 12.87it/s]

Mean Reward = -22.4
0


  7%|█████▋                                                                        | 723/10000 [00:35<11:50, 13.06it/s]

Mean Reward = -25.0
0


  7%|█████▋                                                                        | 727/10000 [00:36<11:37, 13.30it/s]

Updated Weights


  7%|█████▋                                                                        | 733/10000 [00:36<11:51, 13.02it/s]

Mean Reward = -23.6
0


  7%|█████▊                                                                        | 743/10000 [00:37<11:56, 12.93it/s]

Mean Reward = -19.6
0


  8%|█████▊                                                                        | 753/10000 [00:38<11:55, 12.93it/s]

Updated Weights
Mean Reward = -25.8
0


  8%|█████▉                                                                        | 763/10000 [00:38<12:01, 12.80it/s]

Mean Reward = -27.6
0


  8%|██████                                                                        | 773/10000 [00:39<12:14, 12.57it/s]

Mean Reward = -30.8
0


  8%|██████                                                                        | 777/10000 [00:39<12:00, 12.81it/s]

Updated Weights


  8%|██████                                                                        | 783/10000 [00:40<11:57, 12.85it/s]

Mean Reward = -23.4
0


  8%|██████▏                                                                       | 793/10000 [00:41<12:11, 12.58it/s]

Mean Reward = -11.6
0


  8%|██████▎                                                                       | 803/10000 [00:42<12:00, 12.76it/s]

Updated Weights
Mean Reward = -30.6
0


  8%|██████▎                                                                       | 813/10000 [00:42<13:11, 11.61it/s]

Mean Reward = -3.4
0


  8%|██████▍                                                                       | 823/10000 [00:43<12:18, 12.42it/s]

Mean Reward = -4.8
0


  8%|██████▍                                                                       | 827/10000 [00:44<13:27, 11.36it/s]

Updated Weights


  8%|██████▍                                                                       | 833/10000 [00:44<12:28, 12.25it/s]

Mean Reward = -14.0
0


  8%|██████▌                                                                       | 843/10000 [00:45<11:37, 13.14it/s]

Mean Reward = -15.6
0


  9%|██████▋                                                                       | 853/10000 [00:46<12:12, 12.48it/s]

Updated Weights
Mean Reward = -21.6
0


  9%|██████▋                                                                       | 863/10000 [00:46<12:15, 12.42it/s]

Mean Reward = -16.0
0


  9%|██████▊                                                                       | 873/10000 [00:47<12:05, 12.59it/s]

Mean Reward = -28.0
0


  9%|██████▊                                                                       | 877/10000 [00:48<11:59, 12.68it/s]

Updated Weights


  9%|██████▉                                                                       | 883/10000 [00:48<12:17, 12.36it/s]

Mean Reward = -29.4
0


  9%|██████▉                                                                       | 893/10000 [00:49<11:26, 13.27it/s]

Mean Reward = -16.6
0


  9%|███████                                                                       | 903/10000 [00:50<12:15, 12.36it/s]

Updated Weights
Mean Reward = -21.8
0


  9%|███████                                                                       | 913/10000 [00:50<12:04, 12.54it/s]

Mean Reward = -23.0
0


  9%|███████▏                                                                      | 923/10000 [00:51<11:57, 12.65it/s]

Mean Reward = -18.6
0


  9%|███████▏                                                                      | 927/10000 [00:52<12:30, 12.09it/s]

Updated Weights


  9%|███████▎                                                                      | 933/10000 [00:52<11:56, 12.65it/s]

Mean Reward = -32.2
0


  9%|███████▎                                                                      | 943/10000 [00:53<12:32, 12.03it/s]

Mean Reward = -19.7
1


 10%|███████▍                                                                      | 951/10000 [00:54<13:05, 11.52it/s]

Updated Weights
Mean Reward = -24.2
0


 10%|███████▌                                                                      | 963/10000 [00:55<12:34, 11.98it/s]

Mean Reward = -25.4
0


 10%|███████▌                                                                      | 973/10000 [00:56<12:35, 11.95it/s]

Mean Reward = -25.4
0


 10%|███████▌                                                                      | 977/10000 [00:56<12:32, 11.99it/s]

Updated Weights


 10%|███████▋                                                                      | 983/10000 [00:56<13:21, 11.25it/s]

Mean Reward = -31.8
0


 10%|███████▋                                                                      | 993/10000 [00:57<12:34, 11.95it/s]

Mean Reward = -30.2
0


 10%|███████▋                                                                     | 1003/10000 [00:58<12:00, 12.49it/s]

Updated Weights
Mean Reward = -19.2
0


 10%|███████▊                                                                     | 1013/10000 [00:59<12:07, 12.35it/s]

Mean Reward = -25.6
0


 10%|███████▉                                                                     | 1023/10000 [01:00<12:08, 12.33it/s]

Mean Reward = -24.8
0


 10%|███████▉                                                                     | 1027/10000 [01:00<12:17, 12.16it/s]

Updated Weights


 10%|███████▉                                                                     | 1033/10000 [01:01<12:51, 11.62it/s]

Mean Reward = -21.8
0


 10%|████████                                                                     | 1043/10000 [01:01<12:26, 12.01it/s]

Mean Reward = -25.8
0


 11%|████████                                                                     | 1053/10000 [01:02<12:21, 12.07it/s]

Updated Weights
Mean Reward = -30.4
0


 11%|████████▏                                                                    | 1063/10000 [01:03<12:47, 11.64it/s]

Mean Reward = -19.0
0


 11%|████████▎                                                                    | 1073/10000 [01:04<12:42, 11.71it/s]

Mean Reward = -26.6
0


 11%|████████▎                                                                    | 1077/10000 [01:04<13:23, 11.11it/s]

Updated Weights


 11%|████████▎                                                                    | 1083/10000 [01:05<12:35, 11.80it/s]

Mean Reward = -27.0
0


 11%|████████▍                                                                    | 1093/10000 [01:06<12:15, 12.11it/s]

Mean Reward = -25.8
0


 11%|████████▍                                                                    | 1103/10000 [01:07<12:50, 11.54it/s]

Updated Weights
Mean Reward = -33.4
0


 11%|████████▌                                                                    | 1113/10000 [01:07<12:22, 11.97it/s]

Mean Reward = -21.0
0


 11%|████████▋                                                                    | 1123/10000 [01:08<13:54, 10.64it/s]

Mean Reward = -28.8
0


 11%|████████▋                                                                    | 1127/10000 [01:09<14:20, 10.31it/s]

Updated Weights


 11%|████████▋                                                                    | 1133/10000 [01:09<14:05, 10.49it/s]

Mean Reward = -23.6
0


 11%|████████▊                                                                    | 1143/10000 [01:10<13:55, 10.60it/s]

Mean Reward = -17.0
0


 12%|████████▉                                                                    | 1153/10000 [01:11<13:35, 10.85it/s]

Updated Weights
Mean Reward = -21.2
0


 12%|████████▉                                                                    | 1163/10000 [01:12<14:28, 10.18it/s]

Mean Reward = -30.2
0


 12%|█████████                                                                    | 1173/10000 [01:13<13:32, 10.86it/s]

Mean Reward = -20.2
0


 12%|█████████                                                                    | 1177/10000 [01:14<13:10, 11.16it/s]

Updated Weights


 12%|█████████                                                                    | 1183/10000 [01:14<12:47, 11.49it/s]

Mean Reward = -11.6
0


 12%|█████████▏                                                                   | 1193/10000 [01:15<12:31, 11.72it/s]

Mean Reward = -24.8
0


 12%|█████████▎                                                                   | 1203/10000 [01:16<12:36, 11.62it/s]

Updated Weights
Mean Reward = -32.6
0


 12%|█████████▎                                                                   | 1213/10000 [01:17<12:30, 11.70it/s]

Mean Reward = -16.2
0


 12%|█████████▍                                                                   | 1223/10000 [01:18<12:55, 11.32it/s]

Mean Reward = -24.4
0


 12%|█████████▍                                                                   | 1227/10000 [01:18<12:38, 11.57it/s]

Updated Weights


 12%|█████████▍                                                                   | 1233/10000 [01:18<12:46, 11.44it/s]

Mean Reward = -20.4
0


 12%|█████████▌                                                                   | 1243/10000 [01:19<12:39, 11.53it/s]

Mean Reward = -28.2
0


 13%|█████████▋                                                                   | 1253/10000 [01:20<12:24, 11.74it/s]

Updated Weights
Mean Reward = -31.4
0


 13%|█████████▋                                                                   | 1263/10000 [01:21<12:32, 11.61it/s]

Mean Reward = -29.8
0


 13%|█████████▊                                                                   | 1273/10000 [01:22<12:18, 11.82it/s]

Mean Reward = -33.2
0


 13%|█████████▊                                                                   | 1277/10000 [01:22<12:43, 11.42it/s]

Updated Weights


 13%|█████████▊                                                                   | 1282/10000 [01:23<11:42, 12.40it/s]

Mean Reward = -17.7
1


 13%|█████████▉                                                                   | 1292/10000 [01:24<13:35, 10.67it/s]

Mean Reward = -21.8
0


 13%|██████████                                                                   | 1302/10000 [01:24<12:52, 11.25it/s]

Updated Weights
Mean Reward = -23.8
0


 13%|██████████                                                                   | 1312/10000 [01:25<13:01, 11.12it/s]

Mean Reward = -19.0
0


 13%|██████████▏                                                                  | 1322/10000 [01:26<14:22, 10.07it/s]

Mean Reward = -20.0
0


 13%|██████████▏                                                                  | 1328/10000 [01:27<13:04, 11.06it/s]

Updated Weights


 13%|██████████▎                                                                  | 1332/10000 [01:27<13:08, 10.99it/s]

Mean Reward = -21.2
0


 13%|██████████▎                                                                  | 1342/10000 [01:28<14:32,  9.92it/s]

Mean Reward = -22.2
0


 14%|██████████▍                                                                  | 1352/10000 [01:29<13:47, 10.46it/s]

Updated Weights
Mean Reward = -15.6
0


 14%|██████████▍                                                                  | 1362/10000 [01:30<13:16, 10.85it/s]

Mean Reward = -19.2
0


 14%|██████████▌                                                                  | 1372/10000 [01:31<13:09, 10.93it/s]

Mean Reward = -24.8
0


 14%|██████████▌                                                                  | 1378/10000 [01:32<13:30, 10.64it/s]

Updated Weights


 14%|██████████▋                                                                  | 1382/10000 [01:32<13:55, 10.31it/s]

Mean Reward = -15.4
0


 14%|██████████▋                                                                  | 1392/10000 [01:33<14:15, 10.06it/s]

Mean Reward = -28.2
0


 14%|██████████▊                                                                  | 1402/10000 [01:34<13:16, 10.79it/s]

Updated Weights
Mean Reward = -32.6
0


 14%|██████████▊                                                                  | 1412/10000 [01:35<13:09, 10.88it/s]

Mean Reward = -25.8
0


 14%|██████████▉                                                                  | 1422/10000 [01:36<12:33, 11.38it/s]

Mean Reward = -36.0
0


 14%|██████████▉                                                                  | 1428/10000 [01:36<12:48, 11.15it/s]

Updated Weights


 14%|███████████                                                                  | 1432/10000 [01:37<12:39, 11.28it/s]

Mean Reward = -32.0
0


 14%|███████████                                                                  | 1442/10000 [01:38<12:46, 11.17it/s]

Mean Reward = -29.1
1


 15%|███████████▏                                                                 | 1452/10000 [01:39<13:09, 10.82it/s]

Updated Weights
Mean Reward = -37.8
0


 15%|███████████▎                                                                 | 1462/10000 [01:39<12:33, 11.33it/s]

Mean Reward = -25.0
0


 15%|███████████▎                                                                 | 1472/10000 [01:40<12:40, 11.22it/s]

Mean Reward = -36.0
0


 15%|███████████▍                                                                 | 1478/10000 [01:41<12:34, 11.29it/s]

Updated Weights


 15%|███████████▍                                                                 | 1482/10000 [01:41<12:40, 11.20it/s]

Mean Reward = -26.8
0


 15%|███████████▍                                                                 | 1492/10000 [01:42<12:12, 11.62it/s]

Mean Reward = -28.6
0


 15%|███████████▌                                                                 | 1502/10000 [01:43<12:06, 11.69it/s]

Updated Weights
Mean Reward = -29.1
1


 15%|███████████▋                                                                 | 1512/10000 [01:44<12:22, 11.43it/s]

Mean Reward = -35.8
0


 15%|███████████▋                                                                 | 1522/10000 [01:45<12:11, 11.59it/s]

Mean Reward = -23.8
1


 15%|███████████▊                                                                 | 1528/10000 [01:45<12:33, 11.24it/s]

Updated Weights


 15%|███████████▊                                                                 | 1532/10000 [01:46<12:48, 11.02it/s]

Mean Reward = -14.0
0


 15%|███████████▊                                                                 | 1542/10000 [01:47<14:18,  9.85it/s]

Mean Reward = -23.2
0


 16%|███████████▉                                                                 | 1552/10000 [01:48<14:24,  9.77it/s]

Updated Weights
Mean Reward = -29.3
1


 16%|████████████                                                                 | 1562/10000 [01:49<13:35, 10.35it/s]

Mean Reward = -25.4
0


 16%|████████████                                                                 | 1572/10000 [01:50<13:22, 10.50it/s]

Mean Reward = -37.8
0


 16%|████████████▏                                                                | 1578/10000 [01:50<12:07, 11.57it/s]

Updated Weights


 16%|████████████▏                                                                | 1582/10000 [01:51<15:15,  9.20it/s]

Mean Reward = -26.7
1


 16%|████████████▎                                                                | 1592/10000 [01:51<12:39, 11.07it/s]

Mean Reward = -10.4
0


 16%|████████████▎                                                                | 1602/10000 [01:52<11:27, 12.22it/s]

Updated Weights
Mean Reward = -27.6
1


 16%|████████████▍                                                                | 1612/10000 [01:53<12:21, 11.31it/s]

Mean Reward = -34.8
0


 16%|████████████▍                                                                | 1622/10000 [01:54<12:19, 11.33it/s]

Mean Reward = -15.8
0


 16%|████████████▌                                                                | 1628/10000 [01:55<12:34, 11.10it/s]

Updated Weights


 16%|████████████▌                                                                | 1632/10000 [01:55<12:25, 11.22it/s]

Mean Reward = -27.4
0


 16%|████████████▋                                                                | 1642/10000 [01:56<15:03,  9.25it/s]

Mean Reward = -37.0
0


 17%|████████████▋                                                                | 1652/10000 [01:57<15:25,  9.02it/s]

Updated Weights
Mean Reward = -28.1
1


 17%|████████████▊                                                                | 1663/10000 [01:58<12:58, 10.71it/s]

Mean Reward = -16.0
0


 17%|████████████▉                                                                | 1673/10000 [01:59<13:00, 10.67it/s]

Mean Reward = -16.0
0


 17%|████████████▉                                                                | 1677/10000 [01:59<12:46, 10.86it/s]

Updated Weights


 17%|████████████▉                                                                | 1683/10000 [02:00<12:39, 10.95it/s]

Mean Reward = -20.0
0


 17%|█████████████                                                                | 1693/10000 [02:01<12:28, 11.10it/s]

Mean Reward = -10.2
0


 17%|█████████████                                                                | 1703/10000 [02:02<12:49, 10.78it/s]

Updated Weights
Mean Reward = -16.8
0


 17%|█████████████▏                                                               | 1713/10000 [02:03<12:35, 10.97it/s]

Mean Reward = -11.8
0


 17%|█████████████▎                                                               | 1723/10000 [02:04<12:17, 11.22it/s]

Mean Reward = -13.2
0


 17%|█████████████▎                                                               | 1727/10000 [02:04<12:40, 10.88it/s]

Updated Weights


 17%|█████████████▎                                                               | 1733/10000 [02:04<12:33, 10.97it/s]

Mean Reward = -28.4
0


 17%|█████████████▍                                                               | 1743/10000 [02:05<12:13, 11.25it/s]

Mean Reward = -20.0
0


 18%|█████████████▍                                                               | 1753/10000 [02:06<12:11, 11.28it/s]

Updated Weights
Mean Reward = -14.2
0


 18%|█████████████▌                                                               | 1763/10000 [02:07<12:13, 11.24it/s]

Mean Reward = -22.6
0


 18%|█████████████▋                                                               | 1772/10000 [02:08<14:37,  9.38it/s]

Mean Reward = -25.2
0


 18%|█████████████▋                                                               | 1776/10000 [02:09<14:45,  9.29it/s]

Updated Weights


 18%|█████████████▋                                                               | 1783/10000 [02:10<18:59,  7.21it/s]

Mean Reward = -23.0
0


 18%|█████████████▊                                                               | 1793/10000 [02:11<13:30, 10.12it/s]

Mean Reward = -20.7
1


 18%|█████████████▊                                                               | 1801/10000 [02:11<12:51, 10.63it/s]

Updated Weights
Mean Reward = -30.8
0


 18%|█████████████▉                                                               | 1812/10000 [02:12<13:07, 10.40it/s]

Mean Reward = -13.2
0


 18%|██████████████                                                               | 1822/10000 [02:13<12:06, 11.26it/s]

Mean Reward = -12.1
1


 18%|██████████████                                                               | 1828/10000 [02:14<11:59, 11.36it/s]

Updated Weights


 18%|██████████████                                                               | 1832/10000 [02:14<13:48,  9.86it/s]

Mean Reward = -11.6
0


 18%|██████████████▏                                                              | 1843/10000 [02:15<14:24,  9.43it/s]

Mean Reward = -24.2
0


 19%|██████████████▎                                                              | 1852/10000 [02:16<14:23,  9.43it/s]

Updated Weights
Mean Reward = -25.0
0


 19%|██████████████▎                                                              | 1862/10000 [02:18<16:42,  8.12it/s]

Mean Reward = -30.4
0


 19%|██████████████▍                                                              | 1872/10000 [02:19<15:30,  8.74it/s]

Mean Reward = -10.0
0


 19%|██████████████▍                                                              | 1878/10000 [02:19<14:39,  9.23it/s]

Updated Weights


 19%|██████████████▍                                                              | 1883/10000 [02:20<13:23, 10.10it/s]

Mean Reward = -16.8
0


 19%|██████████████▌                                                              | 1893/10000 [02:21<12:54, 10.46it/s]

Mean Reward = -9.6
0


 19%|██████████████▋                                                              | 1901/10000 [02:22<13:19, 10.13it/s]

Updated Weights
Mean Reward = -34.4
0


 19%|██████████████▋                                                              | 1911/10000 [02:23<13:00, 10.36it/s]

Mean Reward = -38.0
0


 19%|██████████████▊                                                              | 1923/10000 [02:24<12:15, 10.99it/s]

Mean Reward = -23.0
0


 19%|██████████████▊                                                              | 1927/10000 [02:24<12:21, 10.88it/s]

Updated Weights


 19%|██████████████▉                                                              | 1933/10000 [02:25<12:15, 10.96it/s]

Mean Reward = -26.8
0


 19%|██████████████▉                                                              | 1943/10000 [02:26<11:57, 11.23it/s]

Mean Reward = -18.4
0


 20%|███████████████                                                              | 1953/10000 [02:26<12:12, 10.98it/s]

Updated Weights
Mean Reward = -15.8
0


 20%|███████████████                                                              | 1963/10000 [02:27<12:12, 10.97it/s]

Mean Reward = -22.6
0


 20%|███████████████▏                                                             | 1972/10000 [02:28<15:07,  8.85it/s]

Mean Reward = -32.6
0


 20%|███████████████▏                                                             | 1978/10000 [02:29<14:18,  9.34it/s]

Updated Weights


 20%|███████████████▎                                                             | 1983/10000 [02:30<13:26,  9.94it/s]

Mean Reward = -6.8
0


 20%|███████████████▎                                                             | 1991/10000 [02:30<13:08, 10.15it/s]

Mean Reward = 6.4
0


 20%|███████████████▍                                                             | 2002/10000 [02:32<17:03,  7.82it/s]

Updated Weights
Mean Reward = -22.8
0


 20%|███████████████▍                                                             | 2012/10000 [02:33<16:22,  8.13it/s]

Mean Reward = -13.4
0


 20%|███████████████▌                                                             | 2021/10000 [02:34<15:59,  8.32it/s]

Mean Reward = 3.8
0


 20%|███████████████▌                                                             | 2027/10000 [02:35<15:48,  8.40it/s]

Updated Weights


 20%|███████████████▋                                                             | 2033/10000 [02:35<14:25,  9.21it/s]

Mean Reward = 3.2
0


 20%|███████████████▋                                                             | 2043/10000 [02:36<13:23,  9.91it/s]

Mean Reward = -4.8
1


 21%|███████████████▊                                                             | 2053/10000 [02:37<12:23, 10.68it/s]

Updated Weights
Mean Reward = -1.0
0


 21%|███████████████▊                                                             | 2061/10000 [02:38<12:28, 10.61it/s]

Mean Reward = -0.2
0


 21%|███████████████▉                                                             | 2071/10000 [02:39<12:36, 10.49it/s]

Mean Reward = 0.2
0


 21%|███████████████▉                                                             | 2077/10000 [02:40<12:28, 10.59it/s]

Updated Weights


 21%|████████████████                                                             | 2083/10000 [02:40<11:39, 11.32it/s]

Mean Reward = 0.8
1


 21%|████████████████                                                             | 2093/10000 [02:41<11:41, 11.28it/s]

Mean Reward = -0.6
0


 21%|████████████████▏                                                            | 2103/10000 [02:42<12:22, 10.64it/s]

Updated Weights
Mean Reward = -4.6
0


 21%|████████████████▎                                                            | 2113/10000 [02:43<13:17,  9.89it/s]

Mean Reward = -7.6
0


 21%|████████████████▎                                                            | 2123/10000 [02:44<13:09,  9.98it/s]

Mean Reward = -3.8
0


 21%|████████████████▍                                                            | 2128/10000 [02:44<13:14,  9.90it/s]

Updated Weights


 21%|████████████████▍                                                            | 2133/10000 [02:45<13:31,  9.69it/s]

Mean Reward = -0.4
0


 21%|████████████████▍                                                            | 2142/10000 [02:46<13:29,  9.71it/s]

Mean Reward = -1.8
0


 22%|████████████████▌                                                            | 2152/10000 [02:47<12:52, 10.16it/s]

Updated Weights
Mean Reward = -4.0
0


 22%|████████████████▋                                                            | 2162/10000 [02:48<13:50,  9.43it/s]

Mean Reward = -5.2
0


 22%|████████████████▋                                                            | 2172/10000 [02:49<14:37,  8.92it/s]

Mean Reward = -2.6
0


 22%|████████████████▊                                                            | 2177/10000 [02:49<12:07, 10.75it/s]

Updated Weights


 22%|████████████████▊                                                            | 2183/10000 [02:50<11:59, 10.87it/s]

Mean Reward = 0.3
1


 22%|████████████████▉                                                            | 2193/10000 [02:51<11:58, 10.86it/s]

Mean Reward = -3.6
0


 22%|████████████████▉                                                            | 2202/10000 [02:52<13:18,  9.77it/s]

Updated Weights
Mean Reward = -3.0
0


 22%|█████████████████                                                            | 2212/10000 [02:53<14:12,  9.14it/s]

Mean Reward = -0.6
1


 22%|█████████████████                                                            | 2222/10000 [02:54<16:57,  7.64it/s]

Mean Reward = -3.0
0


 22%|█████████████████▏                                                           | 2227/10000 [02:55<15:16,  8.48it/s]

Updated Weights


 22%|█████████████████▏                                                           | 2233/10000 [02:55<13:03,  9.92it/s]

Mean Reward = -3.6
0


 22%|█████████████████▎                                                           | 2242/10000 [02:56<13:43,  9.42it/s]

Mean Reward = -4.6
0


 23%|█████████████████▎                                                           | 2252/10000 [02:57<13:02,  9.90it/s]

Updated Weights
Mean Reward = -3.0
0


 23%|█████████████████▍                                                           | 2263/10000 [02:58<12:37, 10.21it/s]

Mean Reward = -4.6
0


 23%|█████████████████▌                                                           | 2273/10000 [02:59<12:05, 10.65it/s]

Mean Reward = -3.8
0


 23%|█████████████████▌                                                           | 2277/10000 [03:00<12:33, 10.25it/s]

Updated Weights


 23%|█████████████████▌                                                           | 2283/10000 [03:00<12:16, 10.48it/s]

Mean Reward = -5.6
0


 23%|█████████████████▋                                                           | 2292/10000 [03:01<13:31,  9.49it/s]

Mean Reward = -5.6
0


 23%|█████████████████▋                                                           | 2302/10000 [03:02<12:01, 10.67it/s]

Updated Weights
Mean Reward = -6.0
0


 23%|█████████████████▊                                                           | 2312/10000 [03:03<11:53, 10.78it/s]

Mean Reward = -5.4
0


 23%|█████████████████▉                                                           | 2322/10000 [03:04<11:50, 10.81it/s]

Mean Reward = -7.0
0


 23%|█████████████████▉                                                           | 2327/10000 [03:04<13:51,  9.22it/s]

Updated Weights


 23%|█████████████████▉                                                           | 2333/10000 [03:05<13:12,  9.67it/s]

Mean Reward = -9.0
0


 23%|██████████████████                                                           | 2343/10000 [03:06<12:29, 10.22it/s]

Mean Reward = -8.0
0


 24%|██████████████████                                                           | 2352/10000 [03:07<12:19, 10.34it/s]

Updated Weights
Mean Reward = -7.6
0


 24%|██████████████████▏                                                          | 2362/10000 [03:08<12:02, 10.57it/s]

Mean Reward = -6.8
0


 24%|██████████████████▎                                                          | 2372/10000 [03:09<11:49, 10.76it/s]

Mean Reward = -8.6
0


 24%|██████████████████▎                                                          | 2378/10000 [03:09<11:34, 10.98it/s]

Updated Weights


 24%|██████████████████▎                                                          | 2382/10000 [03:10<11:55, 10.65it/s]

Mean Reward = -6.4
0


 24%|██████████████████▍                                                          | 2392/10000 [03:11<11:25, 11.09it/s]

Mean Reward = -7.8
0


 24%|██████████████████▍                                                          | 2402/10000 [03:12<11:44, 10.79it/s]

Updated Weights
Mean Reward = -10.4
0


 24%|██████████████████▌                                                          | 2412/10000 [03:13<11:33, 10.94it/s]

Mean Reward = -7.2
0


 24%|██████████████████▋                                                          | 2422/10000 [03:13<11:34, 10.91it/s]

Mean Reward = -7.6
0


 24%|██████████████████▋                                                          | 2428/10000 [03:14<11:42, 10.77it/s]

Updated Weights


 24%|██████████████████▋                                                          | 2432/10000 [03:14<11:37, 10.85it/s]

Mean Reward = -8.2
0


 24%|██████████████████▊                                                          | 2442/10000 [03:15<11:29, 10.96it/s]

Mean Reward = -8.0
0


 25%|██████████████████▉                                                          | 2452/10000 [03:16<11:48, 10.66it/s]

Updated Weights
Mean Reward = -6.6
0


 25%|██████████████████▉                                                          | 2462/10000 [03:17<12:24, 10.12it/s]

Mean Reward = -8.2
0


 25%|███████████████████                                                          | 2472/10000 [03:18<11:51, 10.58it/s]

Mean Reward = -7.6
0


 25%|███████████████████                                                          | 2478/10000 [03:19<11:30, 10.90it/s]

Updated Weights


 25%|███████████████████                                                          | 2482/10000 [03:19<11:43, 10.68it/s]

Mean Reward = -7.2
0


 25%|███████████████████▏                                                         | 2492/10000 [03:20<11:23, 10.99it/s]

Mean Reward = -7.0
0


 25%|███████████████████▎                                                         | 2502/10000 [03:21<10:19, 12.10it/s]

Updated Weights
Mean Reward = -5.7
1


 25%|███████████████████▎                                                         | 2512/10000 [03:22<11:27, 10.89it/s]

Mean Reward = -8.0
0


 25%|███████████████████▍                                                         | 2522/10000 [03:23<11:33, 10.78it/s]

Mean Reward = -8.8
0


 25%|███████████████████▍                                                         | 2528/10000 [03:23<11:25, 10.90it/s]

Updated Weights


 25%|███████████████████▍                                                         | 2532/10000 [03:24<11:42, 10.64it/s]

Mean Reward = -6.6
0


 25%|███████████████████▌                                                         | 2542/10000 [03:25<11:34, 10.74it/s]

Mean Reward = -6.4
0


 26%|███████████████████▋                                                         | 2551/10000 [03:26<12:46,  9.72it/s]

Updated Weights
Mean Reward = -7.0
0


 26%|███████████████████▋                                                         | 2562/10000 [03:27<13:54,  8.92it/s]

Mean Reward = -7.6
0


 26%|███████████████████▊                                                         | 2572/10000 [03:28<14:52,  8.33it/s]

Mean Reward = -6.6
0


 26%|███████████████████▊                                                         | 2577/10000 [03:28<13:35,  9.10it/s]

Updated Weights


 26%|███████████████████▉                                                         | 2582/10000 [03:29<13:31,  9.14it/s]

Mean Reward = -7.8
0


 26%|███████████████████▉                                                         | 2592/10000 [03:30<12:05, 10.21it/s]

Mean Reward = -8.2
0


 26%|████████████████████                                                         | 2603/10000 [03:31<12:27,  9.90it/s]

Updated Weights
Mean Reward = -9.8
0


 26%|████████████████████                                                         | 2613/10000 [03:32<11:29, 10.72it/s]

Mean Reward = -7.4
0


 26%|████████████████████▏                                                        | 2622/10000 [03:33<11:54, 10.33it/s]

Mean Reward = -7.0
0


 26%|████████████████████▏                                                        | 2628/10000 [03:34<11:51, 10.37it/s]

Updated Weights


 26%|████████████████████▎                                                        | 2632/10000 [03:34<11:23, 10.79it/s]

Mean Reward = -6.8
0


 26%|████████████████████▎                                                        | 2642/10000 [03:35<11:35, 10.58it/s]

Mean Reward = -7.4
0


 27%|████████████████████▍                                                        | 2652/10000 [03:36<11:26, 10.70it/s]

Updated Weights
Mean Reward = -7.6
0


 27%|████████████████████▍                                                        | 2662/10000 [03:37<11:19, 10.80it/s]

Mean Reward = -9.6
0


 27%|████████████████████▌                                                        | 2672/10000 [03:38<11:16, 10.83it/s]

Mean Reward = -7.8
0


 27%|████████████████████▌                                                        | 2676/10000 [03:38<11:25, 10.68it/s]

Updated Weights


 27%|████████████████████▋                                                        | 2682/10000 [03:39<12:13,  9.98it/s]

Mean Reward = -7.2
0


 27%|████████████████████▋                                                        | 2692/10000 [03:40<12:38,  9.63it/s]

Mean Reward = -5.8
0


 27%|████████████████████▊                                                        | 2702/10000 [03:41<15:34,  7.81it/s]

Updated Weights
Mean Reward = -7.6
0


 27%|████████████████████▉                                                        | 2712/10000 [03:42<15:19,  7.93it/s]

Mean Reward = -6.6
0


 27%|████████████████████▉                                                        | 2722/10000 [03:43<15:00,  8.08it/s]

Mean Reward = -6.6
0


 27%|████████████████████▉                                                        | 2727/10000 [03:44<16:25,  7.38it/s]

Updated Weights


 27%|█████████████████████                                                        | 2732/10000 [03:45<13:56,  8.69it/s]

Mean Reward = -5.4
0


 27%|█████████████████████                                                        | 2742/10000 [03:46<12:32,  9.64it/s]

Mean Reward = -5.8
0


 28%|█████████████████████▏                                                       | 2752/10000 [03:47<11:33, 10.46it/s]

Updated Weights
Mean Reward = -8.4
0


 28%|█████████████████████▎                                                       | 2762/10000 [03:48<11:32, 10.45it/s]

Mean Reward = -7.0
0


 28%|█████████████████████▎                                                       | 2772/10000 [03:49<11:13, 10.74it/s]

Mean Reward = -8.6
0


 28%|█████████████████████▍                                                       | 2778/10000 [03:49<11:20, 10.61it/s]

Updated Weights


 28%|█████████████████████▍                                                       | 2782/10000 [03:50<11:14, 10.70it/s]

Mean Reward = -9.4
0


 28%|█████████████████████▍                                                       | 2792/10000 [03:51<11:47, 10.19it/s]

Mean Reward = -8.4
0


 28%|█████████████████████▌                                                       | 2802/10000 [03:51<11:14, 10.67it/s]

Updated Weights
Mean Reward = -7.2
0


 28%|█████████████████████▋                                                       | 2812/10000 [03:52<11:21, 10.55it/s]

Mean Reward = -8.4
0


 28%|█████████████████████▋                                                       | 2822/10000 [03:53<11:18, 10.58it/s]

Mean Reward = -8.6
0


 28%|█████████████████████▊                                                       | 2828/10000 [03:54<10:44, 11.13it/s]

Updated Weights


 28%|█████████████████████▊                                                       | 2832/10000 [03:54<10:46, 11.09it/s]

Mean Reward = -5.7
1


 28%|█████████████████████▉                                                       | 2842/10000 [03:55<11:11, 10.66it/s]

Mean Reward = -7.8
0


 29%|█████████████████████▉                                                       | 2852/10000 [03:56<11:15, 10.58it/s]

Updated Weights
Mean Reward = -8.6
0


 29%|██████████████████████                                                       | 2862/10000 [03:57<11:29, 10.35it/s]

Mean Reward = -7.8
0


 29%|██████████████████████                                                       | 2872/10000 [03:58<10:54, 10.89it/s]

Mean Reward = -5.9
1


 29%|██████████████████████▏                                                      | 2876/10000 [03:58<10:59, 10.80it/s]

Updated Weights


 29%|██████████████████████▏                                                      | 2882/10000 [03:59<11:19, 10.47it/s]

Mean Reward = -9.2
0


 29%|██████████████████████▎                                                      | 2892/10000 [04:00<11:02, 10.73it/s]

Mean Reward = -8.4
0


 29%|██████████████████████▎                                                      | 2902/10000 [04:01<11:31, 10.27it/s]

Updated Weights
Mean Reward = -6.8
0


 29%|██████████████████████▍                                                      | 2912/10000 [04:02<11:11, 10.56it/s]

Mean Reward = -13.0
0


 29%|██████████████████████▍                                                      | 2922/10000 [04:03<10:58, 10.75it/s]

Mean Reward = -17.2
0


 29%|██████████████████████▌                                                      | 2926/10000 [04:03<11:00, 10.70it/s]

Updated Weights


 29%|██████████████████████▌                                                      | 2932/10000 [04:04<11:20, 10.39it/s]

Mean Reward = -13.4
0


 29%|██████████████████████▋                                                      | 2942/10000 [04:05<11:08, 10.56it/s]

Mean Reward = -6.4
0


 30%|██████████████████████▋                                                      | 2952/10000 [04:06<10:52, 10.80it/s]

Updated Weights
Mean Reward = -11.6
0


 30%|██████████████████████▊                                                      | 2962/10000 [04:07<10:46, 10.88it/s]

Mean Reward = -15.8
0


 30%|██████████████████████▉                                                      | 2972/10000 [04:08<13:31,  8.66it/s]

Mean Reward = -9.8
0


 30%|██████████████████████▉                                                      | 2977/10000 [04:08<17:14,  6.79it/s]

Updated Weights


 30%|██████████████████████▉                                                      | 2982/10000 [04:09<13:15,  8.82it/s]

Mean Reward = -6.8
0


 30%|███████████████████████                                                      | 2992/10000 [04:10<16:16,  7.18it/s]

Mean Reward = -4.6
0


 30%|███████████████████████                                                      | 3002/10000 [04:12<16:49,  6.93it/s]

Updated Weights
Mean Reward = -7.6
0


 30%|███████████████████████▏                                                     | 3013/10000 [04:13<11:36, 10.03it/s]

Mean Reward = -6.2
0


 30%|███████████████████████▎                                                     | 3023/10000 [04:14<11:28, 10.13it/s]

Mean Reward = -6.4
0


 30%|███████████████████████▎                                                     | 3027/10000 [04:14<12:40,  9.17it/s]

Updated Weights


 30%|███████████████████████▎                                                     | 3033/10000 [04:15<10:47, 10.75it/s]

Mean Reward = -5.1
1


 30%|███████████████████████▍                                                     | 3043/10000 [04:16<10:40, 10.86it/s]

Mean Reward = -7.8
0


 31%|███████████████████████▌                                                     | 3053/10000 [04:16<09:51, 11.74it/s]

Updated Weights
Mean Reward = -2.8
1


 31%|███████████████████████▌                                                     | 3061/10000 [04:17<10:39, 10.85it/s]

Mean Reward = -5.0
0


 31%|███████████████████████▋                                                     | 3072/10000 [04:18<12:51,  8.97it/s]

Mean Reward = -4.0
0


 31%|███████████████████████▋                                                     | 3078/10000 [04:19<12:06,  9.53it/s]

Updated Weights


 31%|███████████████████████▋                                                     | 3082/10000 [04:19<12:27,  9.25it/s]

Mean Reward = -5.6
0


 31%|███████████████████████▊                                                     | 3093/10000 [04:21<11:05, 10.38it/s]

Mean Reward = -4.8
0


 31%|███████████████████████▉                                                     | 3103/10000 [04:21<10:40, 10.77it/s]

Updated Weights
Mean Reward = -5.4
0


 31%|███████████████████████▉                                                     | 3113/10000 [04:22<10:30, 10.93it/s]

Mean Reward = -7.4
0


 31%|████████████████████████                                                     | 3123/10000 [04:23<10:33, 10.86it/s]

Mean Reward = -8.0
0


 31%|████████████████████████                                                     | 3127/10000 [04:24<10:29, 10.93it/s]

Updated Weights


 31%|████████████████████████                                                     | 3133/10000 [04:24<10:55, 10.47it/s]

Mean Reward = -7.6
0


 31%|████████████████████████▏                                                    | 3143/10000 [04:25<10:47, 10.60it/s]

Mean Reward = -7.8
0


 32%|████████████████████████▎                                                    | 3153/10000 [04:26<11:09, 10.23it/s]

Updated Weights
Mean Reward = -8.0
0


 32%|████████████████████████▎                                                    | 3163/10000 [04:27<10:59, 10.37it/s]

Mean Reward = -9.6
0


 32%|████████████████████████▍                                                    | 3173/10000 [04:28<10:45, 10.58it/s]

Mean Reward = -6.0
0


 32%|████████████████████████▍                                                    | 3177/10000 [04:29<10:46, 10.55it/s]

Updated Weights


 32%|████████████████████████▌                                                    | 3183/10000 [04:29<10:39, 10.66it/s]

Mean Reward = -12.8
0


 32%|████████████████████████▌                                                    | 3193/10000 [04:30<10:26, 10.87it/s]

Mean Reward = -9.2
0


 32%|████████████████████████▋                                                    | 3203/10000 [04:31<10:24, 10.88it/s]

Updated Weights
Mean Reward = -10.8
0


 32%|████████████████████████▋                                                    | 3213/10000 [04:32<10:29, 10.78it/s]

Mean Reward = -11.4
0


 32%|████████████████████████▊                                                    | 3221/10000 [04:33<10:25, 10.84it/s]

Mean Reward = -5.4
0


 32%|████████████████████████▊                                                    | 3227/10000 [04:33<10:33, 10.69it/s]

Updated Weights


 32%|████████████████████████▉                                                    | 3233/10000 [04:34<10:18, 10.94it/s]

Mean Reward = -8.2
0


 32%|████████████████████████▉                                                    | 3243/10000 [04:35<10:24, 10.83it/s]

Mean Reward = -8.8
0


 33%|█████████████████████████                                                    | 3253/10000 [04:36<10:29, 10.72it/s]

Updated Weights
Mean Reward = -7.8
0


 33%|█████████████████████████▏                                                   | 3263/10000 [04:37<10:07, 11.10it/s]

Mean Reward = -7.2
0


 33%|█████████████████████████▏                                                   | 3273/10000 [04:37<10:27, 10.71it/s]

Mean Reward = -6.8
0


 33%|█████████████████████████▏                                                   | 3277/10000 [04:38<10:26, 10.72it/s]

Updated Weights


 33%|█████████████████████████▎                                                   | 3283/10000 [04:38<10:27, 10.70it/s]

Mean Reward = -5.6
0


 33%|█████████████████████████▎                                                   | 3293/10000 [04:39<10:19, 10.82it/s]

Mean Reward = -5.4
0


 33%|█████████████████████████▍                                                   | 3302/10000 [04:41<14:06,  7.91it/s]

Updated Weights
Mean Reward = -7.6
0


 33%|█████████████████████████▌                                                   | 3312/10000 [04:42<11:15,  9.90it/s]

Mean Reward = -6.0
0


 33%|█████████████████████████▌                                                   | 3323/10000 [04:43<10:44, 10.36it/s]

Mean Reward = -4.6
0


 33%|█████████████████████████▌                                                   | 3327/10000 [04:43<10:51, 10.24it/s]

Updated Weights


 33%|█████████████████████████▋                                                   | 3333/10000 [04:44<11:22,  9.76it/s]

Mean Reward = -5.2
0


 33%|█████████████████████████▋                                                   | 3343/10000 [04:45<10:21, 10.71it/s]

Mean Reward = -8.4
0


 34%|█████████████████████████▊                                                   | 3353/10000 [04:46<10:19, 10.72it/s]

Updated Weights
Mean Reward = -7.2
0


 34%|█████████████████████████▉                                                   | 3361/10000 [04:46<10:44, 10.30it/s]

Mean Reward = -6.0
0


 34%|█████████████████████████▉                                                   | 3372/10000 [04:48<13:16,  8.32it/s]

Mean Reward = -7.2
0


 34%|██████████████████████████                                                   | 3377/10000 [04:48<14:25,  7.65it/s]

Updated Weights


 34%|██████████████████████████                                                   | 3382/10000 [04:49<12:23,  8.90it/s]

Mean Reward = -6.8
0


 34%|██████████████████████████▏                                                  | 3393/10000 [04:50<11:53,  9.26it/s]

Mean Reward = -5.7
1


 34%|██████████████████████████▏                                                  | 3402/10000 [04:51<10:49, 10.15it/s]

Updated Weights
Mean Reward = -6.6
0


 34%|██████████████████████████▎                                                  | 3413/10000 [04:52<10:43, 10.24it/s]

Mean Reward = -9.0
0


 34%|██████████████████████████▎                                                  | 3423/10000 [04:53<10:24, 10.53it/s]

Mean Reward = -6.0
0


 34%|██████████████████████████▍                                                  | 3427/10000 [04:53<10:28, 10.45it/s]

Updated Weights


 34%|██████████████████████████▍                                                  | 3433/10000 [04:54<10:31, 10.40it/s]

Mean Reward = -6.6
0


 34%|██████████████████████████▌                                                  | 3443/10000 [04:55<10:16, 10.63it/s]

Mean Reward = -8.0
0


 35%|██████████████████████████▌                                                  | 3451/10000 [04:56<10:16, 10.62it/s]

Updated Weights
Mean Reward = -8.4
0


 35%|██████████████████████████▋                                                  | 3463/10000 [04:57<10:26, 10.44it/s]

Mean Reward = -10.0
0


 35%|██████████████████████████▋                                                  | 3473/10000 [04:58<09:58, 10.90it/s]

Mean Reward = -8.8
0


 35%|██████████████████████████▊                                                  | 3477/10000 [04:58<10:23, 10.45it/s]

Updated Weights


 35%|██████████████████████████▊                                                  | 3483/10000 [04:59<10:08, 10.72it/s]

Mean Reward = -7.6
0


 35%|██████████████████████████▉                                                  | 3493/10000 [04:59<08:47, 12.33it/s]

Mean Reward = -11.2
0


 35%|██████████████████████████▉                                                  | 3503/10000 [05:00<10:11, 10.62it/s]

Updated Weights
Mean Reward = -6.6
1


 35%|███████████████████████████                                                  | 3513/10000 [05:01<09:58, 10.84it/s]

Mean Reward = -9.0
0


 35%|███████████████████████████▏                                                 | 3523/10000 [05:02<09:57, 10.84it/s]

Mean Reward = -3.6
0


 35%|███████████████████████████▏                                                 | 3527/10000 [05:03<10:26, 10.34it/s]

Updated Weights


 35%|███████████████████████████▏                                                 | 3533/10000 [05:03<10:15, 10.51it/s]

Mean Reward = -6.6
0


 35%|███████████████████████████▎                                                 | 3543/10000 [05:04<10:25, 10.32it/s]

Mean Reward = -6.6
0


 36%|███████████████████████████▎                                                 | 3553/10000 [05:05<10:11, 10.55it/s]

Updated Weights
Mean Reward = -7.6
0


 36%|███████████████████████████▍                                                 | 3563/10000 [05:06<10:09, 10.55it/s]

Mean Reward = -4.2
0


 36%|███████████████████████████▌                                                 | 3573/10000 [05:07<09:46, 10.96it/s]

Mean Reward = -4.8
1


 36%|███████████████████████████▌                                                 | 3577/10000 [05:07<09:55, 10.78it/s]

Updated Weights


 36%|███████████████████████████▌                                                 | 3583/10000 [05:08<10:12, 10.48it/s]

Mean Reward = -5.4
0


 36%|███████████████████████████▋                                                 | 3593/10000 [05:09<10:17, 10.37it/s]

Mean Reward = -5.0
0


 36%|███████████████████████████▋                                                 | 3603/10000 [05:10<10:23, 10.25it/s]

Updated Weights
Mean Reward = -4.2
0


 36%|███████████████████████████▊                                                 | 3613/10000 [05:11<10:12, 10.43it/s]

Mean Reward = -6.8
0


 36%|███████████████████████████▉                                                 | 3623/10000 [05:12<10:03, 10.56it/s]

Mean Reward = -6.4
0


 36%|███████████████████████████▉                                                 | 3627/10000 [05:12<10:12, 10.40it/s]

Updated Weights


 36%|███████████████████████████▉                                                 | 3633/10000 [05:13<09:35, 11.06it/s]

Mean Reward = -3.7
1


 36%|████████████████████████████                                                 | 3643/10000 [05:14<10:09, 10.44it/s]

Mean Reward = -5.2
0


 37%|████████████████████████████▏                                                | 3653/10000 [05:15<09:46, 10.83it/s]

Updated Weights
Mean Reward = -5.0
0


 37%|████████████████████████████▏                                                | 3663/10000 [05:15<09:27, 11.16it/s]

Mean Reward = -4.5
1


 37%|████████████████████████████▎                                                | 3671/10000 [05:16<10:15, 10.28it/s]

Mean Reward = -5.2
0


 37%|████████████████████████████▎                                                | 3677/10000 [05:17<11:18,  9.32it/s]

Updated Weights


 37%|████████████████████████████▎                                                | 3682/10000 [05:18<12:16,  8.58it/s]

Mean Reward = -4.4
0


 37%|████████████████████████████▍                                                | 3692/10000 [05:19<13:02,  8.06it/s]

Mean Reward = -6.0
0


 37%|████████████████████████████▌                                                | 3702/10000 [05:20<12:57,  8.10it/s]

Updated Weights
Mean Reward = -5.0
0


 37%|████████████████████████████▌                                                | 3712/10000 [05:21<13:24,  7.82it/s]

Mean Reward = -3.0
0


 37%|████████████████████████████▋                                                | 3722/10000 [05:23<13:21,  7.84it/s]

Mean Reward = -4.2
0


 37%|████████████████████████████▋                                                | 3727/10000 [05:23<13:29,  7.75it/s]

Updated Weights


 37%|████████████████████████████▋                                                | 3732/10000 [05:24<13:27,  7.77it/s]

Mean Reward = -3.6
0


 37%|████████████████████████████▊                                                | 3742/10000 [05:25<13:23,  7.79it/s]

Mean Reward = -4.6
0


 38%|████████████████████████████▉                                                | 3752/10000 [05:26<13:34,  7.67it/s]

Updated Weights
Mean Reward = -4.4
0


 38%|████████████████████████████▉                                                | 3761/10000 [05:27<11:05,  9.37it/s]

Mean Reward = -4.8
0


 38%|█████████████████████████████                                                | 3773/10000 [05:29<09:56, 10.44it/s]

Mean Reward = -2.4
0


 38%|█████████████████████████████                                                | 3777/10000 [05:29<09:57, 10.41it/s]

Updated Weights


 38%|█████████████████████████████▏                                               | 3783/10000 [05:30<10:12, 10.15it/s]

Mean Reward = -3.8
0


 38%|█████████████████████████████▏                                               | 3791/10000 [05:30<09:55, 10.43it/s]

Mean Reward = -3.4
0


 38%|█████████████████████████████▎                                               | 3803/10000 [05:31<09:38, 10.71it/s]

Updated Weights
Mean Reward = -3.0
0


 38%|█████████████████████████████▎                                               | 3813/10000 [05:32<09:37, 10.72it/s]

Mean Reward = -4.2
0


 38%|█████████████████████████████▍                                               | 3823/10000 [05:33<09:55, 10.37it/s]

Mean Reward = -4.4
0


 38%|█████████████████████████████▍                                               | 3827/10000 [05:34<10:43,  9.59it/s]

Updated Weights


 38%|█████████████████████████████▌                                               | 3832/10000 [05:34<11:40,  8.80it/s]

Mean Reward = -3.4
0


 38%|█████████████████████████████▌                                               | 3842/10000 [05:35<10:11, 10.08it/s]

Mean Reward = -5.2
0


 39%|█████████████████████████████▋                                               | 3852/10000 [05:36<10:17,  9.96it/s]

Updated Weights
Mean Reward = -3.0
0


 39%|█████████████████████████████▋                                               | 3862/10000 [05:37<10:08, 10.08it/s]

Mean Reward = -2.2
0


 39%|█████████████████████████████▊                                               | 3873/10000 [05:39<10:44,  9.51it/s]

Mean Reward = -3.2
0


 39%|█████████████████████████████▊                                               | 3877/10000 [05:39<10:02, 10.16it/s]

Updated Weights


 39%|█████████████████████████████▉                                               | 3883/10000 [05:39<09:41, 10.51it/s]

Mean Reward = -2.4
0


 39%|█████████████████████████████▉                                               | 3892/10000 [05:40<11:19,  8.99it/s]

Mean Reward = -2.2
0


 39%|██████████████████████████████                                               | 3903/10000 [05:41<09:43, 10.45it/s]

Updated Weights
Mean Reward = -1.8
0


 39%|██████████████████████████████                                               | 3912/10000 [05:42<09:51, 10.29it/s]

Mean Reward = -2.2
0


 39%|██████████████████████████████▏                                              | 3923/10000 [05:44<10:03, 10.08it/s]

Mean Reward = -1.6
0


 39%|██████████████████████████████▏                                              | 3927/10000 [05:44<09:39, 10.48it/s]

Updated Weights


 39%|██████████████████████████████▎                                              | 3933/10000 [05:44<09:38, 10.48it/s]

Mean Reward = -1.8
0


 39%|██████████████████████████████▎                                              | 3942/10000 [05:45<10:53,  9.27it/s]

Mean Reward = -2.2
0


 40%|██████████████████████████████▍                                              | 3952/10000 [05:47<13:13,  7.62it/s]

Updated Weights
Mean Reward = -1.4
0


 40%|██████████████████████████████▌                                              | 3962/10000 [05:48<11:07,  9.05it/s]

Mean Reward = -2.0
0


 40%|██████████████████████████████▌                                              | 3973/10000 [05:49<09:59, 10.05it/s]

Mean Reward = -1.6
0


 40%|██████████████████████████████▌                                              | 3977/10000 [05:49<09:42, 10.34it/s]

Updated Weights


 40%|██████████████████████████████▋                                              | 3983/10000 [05:50<09:47, 10.25it/s]

Mean Reward = -2.8
0


 40%|██████████████████████████████▋                                              | 3993/10000 [05:51<09:36, 10.43it/s]

Mean Reward = -2.4
0


 40%|██████████████████████████████▊                                              | 4002/10000 [05:52<09:43, 10.29it/s]

Updated Weights
Mean Reward = 0.6
0


 40%|██████████████████████████████▉                                              | 4012/10000 [05:53<10:04,  9.90it/s]

Mean Reward = -0.8
0


 40%|██████████████████████████████▉                                              | 4022/10000 [05:54<09:49, 10.14it/s]

Mean Reward = -0.8
0


 40%|███████████████████████████████                                              | 4028/10000 [05:54<09:39, 10.30it/s]

Updated Weights


 40%|███████████████████████████████                                              | 4032/10000 [05:55<09:39, 10.29it/s]

Mean Reward = -0.2
0


 40%|███████████████████████████████                                              | 4042/10000 [05:56<11:29,  8.64it/s]

Mean Reward = -1.4
0


 41%|███████████████████████████████▏                                             | 4052/10000 [05:57<10:33,  9.39it/s]

Updated Weights
Mean Reward = -2.2
0


 41%|███████████████████████████████▎                                             | 4062/10000 [05:58<09:38, 10.27it/s]

Mean Reward = -0.2
0


 41%|███████████████████████████████▎                                             | 4072/10000 [05:59<10:59,  8.99it/s]

Mean Reward = -0.2
0


 41%|███████████████████████████████▍                                             | 4077/10000 [06:00<11:28,  8.60it/s]

Updated Weights


 41%|███████████████████████████████▍                                             | 4082/10000 [06:00<11:15,  8.76it/s]

Mean Reward = -1.6
0


 41%|███████████████████████████████▌                                             | 4091/10000 [06:01<10:37,  9.27it/s]

Mean Reward = 0.6
0


 41%|███████████████████████████████▌                                             | 4102/10000 [06:02<10:25,  9.43it/s]

Updated Weights
Mean Reward = -1.6
0


 41%|███████████████████████████████▋                                             | 4113/10000 [06:03<10:16,  9.56it/s]

Mean Reward = 0.2
0


 41%|███████████████████████████████▋                                             | 4122/10000 [06:04<10:04,  9.72it/s]

Mean Reward = 0.2
0


 41%|███████████████████████████████▊                                             | 4127/10000 [06:05<09:48,  9.98it/s]

Updated Weights


 41%|███████████████████████████████▊                                             | 4132/10000 [06:05<09:55,  9.86it/s]

Mean Reward = -0.4
0


 41%|███████████████████████████████▉                                             | 4143/10000 [06:06<09:53,  9.87it/s]

Mean Reward = 1.2
0


 42%|███████████████████████████████▉                                             | 4153/10000 [06:07<09:45,  9.99it/s]

Updated Weights
Mean Reward = -0.8
0


 42%|████████████████████████████████                                             | 4162/10000 [06:08<09:33, 10.18it/s]

Mean Reward = -0.4
0


 42%|████████████████████████████████▏                                            | 4173/10000 [06:09<09:24, 10.31it/s]

Mean Reward = 1.0
0


 42%|████████████████████████████████▏                                            | 4177/10000 [06:10<09:21, 10.36it/s]

Updated Weights


 42%|████████████████████████████████▏                                            | 4183/10000 [06:10<09:53,  9.80it/s]

Mean Reward = -0.6
0


 42%|████████████████████████████████▎                                            | 4192/10000 [06:11<10:10,  9.51it/s]

Mean Reward = -0.6
0


 42%|████████████████████████████████▎                                            | 4202/10000 [06:12<09:54,  9.76it/s]

Updated Weights
Mean Reward = -0.4
0


 42%|████████████████████████████████▍                                            | 4213/10000 [06:13<10:00,  9.63it/s]

Mean Reward = -0.2
0


 42%|████████████████████████████████▌                                            | 4223/10000 [06:14<08:21, 11.51it/s]

Mean Reward = 2.2
1


 42%|████████████████████████████████▌                                            | 4227/10000 [06:15<08:48, 10.92it/s]

Updated Weights


 42%|████████████████████████████████▌                                            | 4233/10000 [06:15<08:54, 10.78it/s]

Mean Reward = 0.4
0


 42%|████████████████████████████████▋                                            | 4241/10000 [06:16<08:44, 10.99it/s]

Mean Reward = 0.4
0


 43%|████████████████████████████████▋                                            | 4253/10000 [06:17<08:51, 10.81it/s]

Updated Weights
Mean Reward = 0.0
0


 43%|████████████████████████████████▊                                            | 4263/10000 [06:18<08:02, 11.89it/s]

Mean Reward = 2.0
1


 43%|████████████████████████████████▉                                            | 4273/10000 [06:19<08:38, 11.04it/s]

Mean Reward = 0.8
0


 43%|████████████████████████████████▉                                            | 4277/10000 [06:19<08:53, 10.72it/s]

Updated Weights


 43%|████████████████████████████████▉                                            | 4283/10000 [06:20<08:55, 10.69it/s]

Mean Reward = -0.2
0


 43%|█████████████████████████████████                                            | 4293/10000 [06:21<08:48, 10.81it/s]

Mean Reward = 1.4
0


 43%|█████████████████████████████████▏                                           | 4303/10000 [06:22<08:48, 10.78it/s]

Updated Weights
Mean Reward = -1.2
0


 43%|█████████████████████████████████▏                                           | 4313/10000 [06:23<09:04, 10.44it/s]

Mean Reward = 0.0
0


 43%|█████████████████████████████████▎                                           | 4323/10000 [06:24<08:47, 10.76it/s]

Mean Reward = -0.2
0


 43%|█████████████████████████████████▎                                           | 4327/10000 [06:24<08:48, 10.74it/s]

Updated Weights


 43%|█████████████████████████████████▎                                           | 4331/10000 [06:24<08:51, 10.66it/s]

Mean Reward = 0.6
0


 43%|█████████████████████████████████▍                                           | 4342/10000 [06:26<11:50,  7.97it/s]

Mean Reward = 0.4
0


 44%|█████████████████████████████████▌                                           | 4353/10000 [06:27<09:17, 10.13it/s]

Updated Weights
Mean Reward = -0.3
1


 44%|█████████████████████████████████▌                                           | 4361/10000 [06:28<09:17, 10.12it/s]

Mean Reward = 0.0
0


 44%|█████████████████████████████████▋                                           | 4373/10000 [06:29<08:27, 11.08it/s]

Mean Reward = 0.3
1


 44%|█████████████████████████████████▋                                           | 4377/10000 [06:29<09:14, 10.13it/s]

Updated Weights


 44%|█████████████████████████████████▋                                           | 4381/10000 [06:29<09:09, 10.23it/s]

Mean Reward = -0.6
0


 44%|█████████████████████████████████▊                                           | 4392/10000 [06:31<09:34,  9.76it/s]

Mean Reward = -0.2
0


 44%|█████████████████████████████████▉                                           | 4402/10000 [06:32<08:42, 10.71it/s]

Updated Weights
Mean Reward = -0.2
0


 44%|█████████████████████████████████▉                                           | 4413/10000 [06:33<09:06, 10.22it/s]

Mean Reward = 0.0
0


 44%|██████████████████████████████████                                           | 4421/10000 [06:33<09:02, 10.28it/s]

Mean Reward = -1.8
0


 44%|██████████████████████████████████                                           | 4427/10000 [06:34<08:44, 10.62it/s]

Updated Weights


 44%|██████████████████████████████████                                           | 4431/10000 [06:34<09:12, 10.07it/s]

Mean Reward = -0.6
0


 44%|██████████████████████████████████▏                                          | 4442/10000 [06:35<08:53, 10.42it/s]

Mean Reward = -2.0
0


 45%|██████████████████████████████████▎                                          | 4452/10000 [06:36<09:00, 10.26it/s]

Updated Weights
Mean Reward = -1.2
0


 45%|██████████████████████████████████▎                                          | 4462/10000 [06:37<08:35, 10.73it/s]

Mean Reward = -2.2
0


 45%|██████████████████████████████████▍                                          | 4472/10000 [06:38<08:55, 10.32it/s]

Mean Reward = -0.8
1


 45%|██████████████████████████████████▍                                          | 4477/10000 [06:39<10:01,  9.18it/s]

Updated Weights


 45%|██████████████████████████████████▌                                          | 4481/10000 [06:39<11:58,  7.68it/s]

Mean Reward = -1.8
0


 45%|██████████████████████████████████▌                                          | 4492/10000 [06:41<09:56,  9.24it/s]

Mean Reward = -2.2
0


 45%|██████████████████████████████████▋                                          | 4502/10000 [06:42<09:00, 10.17it/s]

Updated Weights
Mean Reward = -1.4
0


 45%|██████████████████████████████████▋                                          | 4512/10000 [06:43<08:34, 10.66it/s]

Mean Reward = -2.6
0


 45%|██████████████████████████████████▊                                          | 4522/10000 [06:43<07:52, 11.60it/s]

Mean Reward = -1.8
1


 45%|██████████████████████████████████▊                                          | 4528/10000 [06:44<08:44, 10.43it/s]

Updated Weights


 45%|██████████████████████████████████▉                                          | 4532/10000 [06:44<08:35, 10.60it/s]

Mean Reward = -2.6
0


 45%|██████████████████████████████████▉                                          | 4543/10000 [06:46<09:45,  9.32it/s]

Mean Reward = -3.6
0


 46%|███████████████████████████████████                                          | 4552/10000 [06:47<08:59, 10.09it/s]

Updated Weights
Mean Reward = -4.0
0


 46%|███████████████████████████████████▏                                         | 4564/10000 [06:48<07:37, 11.88it/s]

Mean Reward = -3.4
0


 46%|███████████████████████████████████▏                                         | 4572/10000 [06:48<07:24, 12.21it/s]

Mean Reward = -0.6
2


 46%|███████████████████████████████████▎                                         | 4578/10000 [06:49<08:27, 10.69it/s]

Updated Weights


 46%|███████████████████████████████████▎                                         | 4582/10000 [06:49<08:21, 10.80it/s]

Mean Reward = -4.4
0


 46%|███████████████████████████████████▎                                         | 4593/10000 [06:50<09:26,  9.55it/s]

Mean Reward = -4.6
0


 46%|███████████████████████████████████▍                                         | 4602/10000 [06:51<10:02,  8.96it/s]

Updated Weights
Mean Reward = -2.2
1


 46%|███████████████████████████████████▌                                         | 4612/10000 [06:53<12:30,  7.18it/s]

Mean Reward = -3.4
0


 46%|███████████████████████████████████▌                                         | 4622/10000 [06:54<10:31,  8.51it/s]

Mean Reward = -3.4
0


 46%|███████████████████████████████████▋                                         | 4627/10000 [06:55<12:54,  6.94it/s]

Updated Weights


 46%|███████████████████████████████████▋                                         | 4632/10000 [06:55<11:03,  8.09it/s]

Mean Reward = -4.8
0


 46%|███████████████████████████████████▋                                         | 4642/10000 [06:56<10:19,  8.64it/s]

Mean Reward = -4.6
0


 47%|███████████████████████████████████▊                                         | 4652/10000 [06:57<09:35,  9.29it/s]

Updated Weights
Mean Reward = -6.6
0


 47%|███████████████████████████████████▉                                         | 4662/10000 [06:58<10:09,  8.76it/s]

Mean Reward = -5.4
0


 47%|███████████████████████████████████▉                                         | 4673/10000 [07:00<09:28,  9.37it/s]

Mean Reward = -6.0
0


 47%|████████████████████████████████████                                         | 4677/10000 [07:00<09:56,  8.93it/s]

Updated Weights


 47%|████████████████████████████████████                                         | 4682/10000 [07:01<10:30,  8.43it/s]

Mean Reward = -5.8
0


 47%|████████████████████████████████████▏                                        | 4692/10000 [07:02<10:48,  8.18it/s]

Mean Reward = -8.0
0


 47%|████████████████████████████████████▏                                        | 4702/10000 [07:03<08:34, 10.30it/s]

Updated Weights
Mean Reward = -6.0
0


 47%|████████████████████████████████████▎                                        | 4712/10000 [07:04<08:23, 10.50it/s]

Mean Reward = -5.2
0


 47%|████████████████████████████████████▎                                        | 4722/10000 [07:05<08:59,  9.79it/s]

Mean Reward = -4.4
0


 47%|████████████████████████████████████▍                                        | 4727/10000 [07:05<08:42, 10.09it/s]

Updated Weights


 47%|████████████████████████████████████▍                                        | 4731/10000 [07:06<08:32, 10.28it/s]

Mean Reward = -6.2
0


 47%|████████████████████████████████████▌                                        | 4742/10000 [07:07<10:25,  8.41it/s]

Mean Reward = -4.4
0


 48%|████████████████████████████████████▌                                        | 4753/10000 [07:08<09:43,  9.00it/s]

Updated Weights
Mean Reward = -5.0
0


 48%|████████████████████████████████████▋                                        | 4763/10000 [07:09<09:43,  8.97it/s]

Mean Reward = -5.8
0


 48%|████████████████████████████████████▋                                        | 4772/10000 [07:10<09:02,  9.64it/s]

Mean Reward = -5.4
0


 48%|████████████████████████████████████▊                                        | 4778/10000 [07:11<08:40, 10.04it/s]

Updated Weights


 48%|████████████████████████████████████▊                                        | 4782/10000 [07:11<08:32, 10.18it/s]

Mean Reward = -5.0
0


 48%|████████████████████████████████████▉                                        | 4793/10000 [07:12<08:12, 10.57it/s]

Mean Reward = -5.8
0


 48%|████████████████████████████████████▉                                        | 4801/10000 [07:13<08:11, 10.58it/s]

Updated Weights
Mean Reward = -6.0
0


 48%|█████████████████████████████████████                                        | 4813/10000 [07:14<08:05, 10.68it/s]

Mean Reward = -5.2
0


 48%|█████████████████████████████████████▏                                       | 4823/10000 [07:15<07:58, 10.82it/s]

Mean Reward = -3.8
0


 48%|█████████████████████████████████████▏                                       | 4827/10000 [07:16<07:57, 10.84it/s]

Updated Weights


 48%|█████████████████████████████████████▏                                       | 4833/10000 [07:16<08:05, 10.64it/s]

Mean Reward = -4.2
0


 48%|█████████████████████████████████████▎                                       | 4843/10000 [07:17<07:55, 10.84it/s]

Mean Reward = -3.6
0


 49%|█████████████████████████████████████▎                                       | 4851/10000 [07:18<08:18, 10.34it/s]

Updated Weights
Mean Reward = -3.4
0


 49%|█████████████████████████████████████▍                                       | 4862/10000 [07:19<08:52,  9.65it/s]

Mean Reward = -3.0
0


 49%|█████████████████████████████████████▌                                       | 4872/10000 [07:20<07:47, 10.98it/s]

Mean Reward = -1.0
1


 49%|█████████████████████████████████████▌                                       | 4878/10000 [07:20<07:10, 11.91it/s]

Updated Weights


 49%|█████████████████████████████████████▌                                       | 4882/10000 [07:21<07:26, 11.46it/s]

Mean Reward = -1.5
1


 49%|█████████████████████████████████████▋                                       | 4892/10000 [07:22<07:50, 10.86it/s]

Mean Reward = -1.8
0


 49%|█████████████████████████████████████▋                                       | 4902/10000 [07:23<07:42, 11.01it/s]

Updated Weights
Mean Reward = 0.0
0


 49%|█████████████████████████████████████▊                                       | 4912/10000 [07:23<07:30, 11.29it/s]

Mean Reward = -2.4
0


 49%|█████████████████████████████████████▉                                       | 4924/10000 [07:25<07:33, 11.18it/s]

Mean Reward = -0.8
0


 49%|█████████████████████████████████████▉                                       | 4926/10000 [07:25<07:55, 10.67it/s]

Updated Weights


 49%|█████████████████████████████████████▉                                       | 4933/10000 [07:26<09:10,  9.21it/s]

Mean Reward = -0.9
1


 49%|██████████████████████████████████████                                       | 4942/10000 [07:27<09:19,  9.05it/s]

Mean Reward = -0.6
0


 50%|██████████████████████████████████████▏                                      | 4953/10000 [07:28<08:18, 10.12it/s]

Updated Weights
Mean Reward = -0.6
0


 50%|██████████████████████████████████████▏                                      | 4962/10000 [07:29<08:14, 10.20it/s]

Mean Reward = -2.0
0


 50%|██████████████████████████████████████▎                                      | 4972/10000 [07:30<08:38,  9.70it/s]

Mean Reward = -1.4
0


 50%|██████████████████████████████████████▎                                      | 4978/10000 [07:30<08:00, 10.46it/s]

Updated Weights


 50%|██████████████████████████████████████▎                                      | 4982/10000 [07:31<07:45, 10.78it/s]

Mean Reward = -1.2
0


 50%|██████████████████████████████████████▍                                      | 4992/10000 [07:31<07:04, 11.81it/s]

Mean Reward = 0.5
1


 50%|██████████████████████████████████████▌                                      | 5002/10000 [07:32<07:55, 10.51it/s]

Updated Weights
Mean Reward = 0.4
0


 50%|██████████████████████████████████████▌                                      | 5012/10000 [07:33<08:11, 10.14it/s]

Mean Reward = 2.6
0


 50%|██████████████████████████████████████▋                                      | 5022/10000 [07:34<07:40, 10.82it/s]

Mean Reward = 1.2
0


 50%|██████████████████████████████████████▋                                      | 5028/10000 [07:35<07:53, 10.50it/s]

Updated Weights


 50%|██████████████████████████████████████▋                                      | 5032/10000 [07:35<07:51, 10.54it/s]

Mean Reward = 0.8
0


 50%|██████████████████████████████████████▊                                      | 5042/10000 [07:36<07:45, 10.65it/s]

Mean Reward = 2.0
0


 51%|██████████████████████████████████████▉                                      | 5052/10000 [07:37<07:40, 10.74it/s]

Updated Weights
Mean Reward = -0.4
0


 51%|██████████████████████████████████████▉                                      | 5062/10000 [07:38<08:02, 10.23it/s]

Mean Reward = 3.4
0


 51%|███████████████████████████████████████                                      | 5071/10000 [07:39<08:15,  9.94it/s]

Mean Reward = 1.0
0


 51%|███████████████████████████████████████                                      | 5077/10000 [07:40<08:09, 10.05it/s]

Updated Weights


 51%|███████████████████████████████████████▏                                     | 5083/10000 [07:40<08:24,  9.74it/s]

Mean Reward = 1.6
0


 51%|███████████████████████████████████████▏                                     | 5092/10000 [07:41<07:11, 11.39it/s]

Mean Reward = 2.6
0


 51%|███████████████████████████████████████▎                                     | 5102/10000 [07:42<08:52,  9.20it/s]

Updated Weights
Mean Reward = 3.9
1


 51%|███████████████████████████████████████▎                                     | 5112/10000 [07:43<07:45, 10.50it/s]

Mean Reward = 2.6
0


 51%|███████████████████████████████████████▍                                     | 5122/10000 [07:44<07:47, 10.44it/s]

Mean Reward = 0.4
0


 51%|███████████████████████████████████████▍                                     | 5128/10000 [07:45<07:34, 10.72it/s]

Updated Weights


 51%|███████████████████████████████████████▌                                     | 5132/10000 [07:45<07:25, 10.93it/s]

Mean Reward = 2.6
0


 51%|███████████████████████████████████████▌                                     | 5142/10000 [07:46<07:35, 10.66it/s]

Mean Reward = 1.0
0


 52%|███████████████████████████████████████▋                                     | 5152/10000 [07:47<07:33, 10.70it/s]

Updated Weights
Mean Reward = 2.2
0


 52%|███████████████████████████████████████▋                                     | 5162/10000 [07:48<07:43, 10.45it/s]

Mean Reward = 2.2
0


 52%|███████████████████████████████████████▊                                     | 5172/10000 [07:49<07:59, 10.07it/s]

Mean Reward = 3.9
1


 52%|███████████████████████████████████████▊                                     | 5178/10000 [07:49<08:09,  9.84it/s]

Updated Weights


 52%|███████████████████████████████████████▉                                     | 5182/10000 [07:50<10:09,  7.91it/s]

Mean Reward = 1.6
0


 52%|███████████████████████████████████████▉                                     | 5192/10000 [07:51<09:21,  8.56it/s]

Mean Reward = 2.6
0


 52%|████████████████████████████████████████                                     | 5202/10000 [07:52<09:37,  8.31it/s]

Updated Weights
Mean Reward = 1.8
0


 52%|████████████████████████████████████████▏                                    | 5212/10000 [07:53<09:49,  8.12it/s]

Mean Reward = 2.4
0


 52%|████████████████████████████████████████▏                                    | 5223/10000 [07:55<09:58,  7.98it/s]

Mean Reward = 2.2
0


 52%|████████████████████████████████████████▏                                    | 5227/10000 [07:55<09:30,  8.37it/s]

Updated Weights


 52%|████████████████████████████████████████▎                                    | 5232/10000 [07:56<11:10,  7.11it/s]

Mean Reward = 0.2
0


 52%|████████████████████████████████████████▎                                    | 5242/10000 [07:57<08:28,  9.35it/s]

Mean Reward = 1.6
0


 53%|████████████████████████████████████████▍                                    | 5253/10000 [07:58<09:35,  8.25it/s]

Updated Weights
Mean Reward = 1.4
0


 53%|████████████████████████████████████████▌                                    | 5261/10000 [07:59<08:05,  9.77it/s]

Mean Reward = 2.6
0


 53%|████████████████████████████████████████▌                                    | 5272/10000 [08:01<09:56,  7.93it/s]

Mean Reward = 1.0
0


 53%|████████████████████████████████████████▋                                    | 5278/10000 [08:01<08:57,  8.79it/s]

Updated Weights


 53%|████████████████████████████████████████▋                                    | 5283/10000 [08:02<07:55,  9.93it/s]

Mean Reward = 3.0
0


 53%|████████████████████████████████████████▊                                    | 5293/10000 [08:03<07:53,  9.95it/s]

Mean Reward = 1.2
0


 53%|████████████████████████████████████████▊                                    | 5303/10000 [08:04<07:43, 10.13it/s]

Updated Weights
Mean Reward = 1.2
0


 53%|████████████████████████████████████████▉                                    | 5312/10000 [08:05<07:38, 10.23it/s]

Mean Reward = 2.5
1


 53%|████████████████████████████████████████▉                                    | 5322/10000 [08:06<10:56,  7.12it/s]

Mean Reward = 1.0
0


 53%|█████████████████████████████████████████                                    | 5327/10000 [08:07<12:32,  6.21it/s]

Updated Weights


 53%|█████████████████████████████████████████                                    | 5332/10000 [08:07<09:21,  8.31it/s]

Mean Reward = 3.1
1


 53%|█████████████████████████████████████████▏                                   | 5342/10000 [08:09<09:41,  8.01it/s]

Mean Reward = 1.2
0


 54%|█████████████████████████████████████████▏                                   | 5352/10000 [08:10<08:46,  8.84it/s]

Updated Weights
Mean Reward = 2.0
0


 54%|█████████████████████████████████████████▎                                   | 5362/10000 [08:11<08:23,  9.22it/s]

Mean Reward = 0.8
0


 54%|█████████████████████████████████████████▎                                   | 5372/10000 [08:12<09:33,  8.07it/s]

Mean Reward = 2.2
0


 54%|█████████████████████████████████████████▍                                   | 5377/10000 [08:13<08:39,  8.90it/s]

Updated Weights


 54%|█████████████████████████████████████████▍                                   | 5382/10000 [08:13<09:31,  8.08it/s]

Mean Reward = 2.2
0


 54%|█████████████████████████████████████████▌                                   | 5392/10000 [08:15<10:11,  7.53it/s]

Mean Reward = 1.9
1


 54%|█████████████████████████████████████████▌                                   | 5402/10000 [08:16<08:40,  8.83it/s]

Updated Weights
Mean Reward = 1.4
0


 54%|█████████████████████████████████████████▋                                   | 5412/10000 [08:17<08:13,  9.29it/s]

Mean Reward = 1.4
0


 54%|█████████████████████████████████████████▋                                   | 5422/10000 [08:18<08:29,  8.99it/s]

Mean Reward = 2.2
0


 54%|█████████████████████████████████████████▊                                   | 5427/10000 [08:18<08:21,  9.11it/s]

Updated Weights


 54%|█████████████████████████████████████████▊                                   | 5432/10000 [08:19<08:15,  9.22it/s]

Mean Reward = 2.6
1


 54%|█████████████████████████████████████████▉                                   | 5441/10000 [08:20<07:11, 10.57it/s]

Mean Reward = 3.1
2


 55%|█████████████████████████████████████████▉                                   | 5453/10000 [08:21<07:44,  9.79it/s]

Updated Weights
Mean Reward = 2.0
0


 55%|██████████████████████████████████████████                                   | 5462/10000 [08:22<08:17,  9.11it/s]

Mean Reward = 1.6
0


 55%|██████████████████████████████████████████▏                                  | 5471/10000 [08:23<07:16, 10.37it/s]

Mean Reward = 2.7
1


 55%|██████████████████████████████████████████▏                                  | 5477/10000 [08:23<07:55,  9.51it/s]

Updated Weights


 55%|██████████████████████████████████████████▏                                  | 5482/10000 [08:24<07:52,  9.56it/s]

Mean Reward = 3.8
0


 55%|██████████████████████████████████████████▎                                  | 5492/10000 [08:25<07:37,  9.86it/s]

Mean Reward = 3.3
1


 55%|██████████████████████████████████████████▎                                  | 5502/10000 [08:26<10:11,  7.36it/s]

Updated Weights
Mean Reward = 2.6
0


 55%|██████████████████████████████████████████▍                                  | 5513/10000 [08:27<07:23, 10.13it/s]

Mean Reward = 2.8
1


 55%|██████████████████████████████████████████▌                                  | 5522/10000 [08:28<08:28,  8.81it/s]

Mean Reward = 3.8
2


 55%|██████████████████████████████████████████▌                                  | 5527/10000 [08:29<08:54,  8.37it/s]

Updated Weights


 55%|██████████████████████████████████████████▌                                  | 5532/10000 [08:30<08:54,  8.36it/s]

Mean Reward = 3.2
0


 55%|██████████████████████████████████████████▋                                  | 5542/10000 [08:31<08:39,  8.58it/s]

Mean Reward = 2.4
1


 56%|██████████████████████████████████████████▊                                  | 5552/10000 [08:32<08:26,  8.78it/s]

Updated Weights
Mean Reward = 1.4
0


 56%|██████████████████████████████████████████▊                                  | 5563/10000 [08:33<05:35, 13.22it/s]

Mean Reward = 5.4
3


 56%|██████████████████████████████████████████▉                                  | 5571/10000 [08:34<06:40, 11.06it/s]

Mean Reward = 4.5
2


 56%|██████████████████████████████████████████▉                                  | 5577/10000 [08:34<07:35,  9.70it/s]

Updated Weights


 56%|██████████████████████████████████████████▉                                  | 5581/10000 [08:35<06:50, 10.77it/s]

Mean Reward = 3.1
1


 56%|███████████████████████████████████████████                                  | 5592/10000 [08:36<11:17,  6.51it/s]

Mean Reward = 2.0
0


 56%|███████████████████████████████████████████▏                                 | 5601/10000 [08:38<12:54,  5.68it/s]

Updated Weights
Mean Reward = 1.0
0


 56%|███████████████████████████████████████████▏                                 | 5611/10000 [08:39<10:35,  6.90it/s]

Mean Reward = 3.8
0


 56%|███████████████████████████████████████████▎                                 | 5622/10000 [08:41<10:22,  7.03it/s]

Mean Reward = 2.6
0


 56%|███████████████████████████████████████████▎                                 | 5627/10000 [08:42<08:53,  8.20it/s]

Updated Weights


 56%|███████████████████████████████████████████▎                                 | 5632/10000 [08:42<08:45,  8.32it/s]

Mean Reward = 4.8
2


 56%|███████████████████████████████████████████▍                                 | 5642/10000 [08:43<08:07,  8.94it/s]

Mean Reward = 5.8
2


 57%|███████████████████████████████████████████▌                                 | 5652/10000 [08:45<10:27,  6.93it/s]

Updated Weights
Mean Reward = 4.1
1


 57%|███████████████████████████████████████████▌                                 | 5661/10000 [08:46<12:34,  5.75it/s]

Mean Reward = 0.6
0


 57%|███████████████████████████████████████████▋                                 | 5671/10000 [08:48<12:33,  5.74it/s]

Mean Reward = 4.3
1


 57%|███████████████████████████████████████████▋                                 | 5677/10000 [08:49<12:40,  5.69it/s]

Updated Weights


 57%|███████████████████████████████████████████▊                                 | 5682/10000 [08:50<12:45,  5.64it/s]

Mean Reward = 2.4
0


 57%|███████████████████████████████████████████▊                                 | 5692/10000 [08:51<11:35,  6.19it/s]

Mean Reward = 2.8
0


 57%|███████████████████████████████████████████▉                                 | 5702/10000 [08:53<12:18,  5.82it/s]

Updated Weights
Mean Reward = 3.2
0


 57%|███████████████████████████████████████████▉                                 | 5711/10000 [08:54<10:01,  7.12it/s]

Mean Reward = 3.3
1


 57%|████████████████████████████████████████████                                 | 5722/10000 [08:56<11:25,  6.24it/s]

Mean Reward = 2.4
0


 57%|████████████████████████████████████████████                                 | 5727/10000 [08:57<11:06,  6.41it/s]

Updated Weights


 57%|████████████████████████████████████████████▏                                | 5732/10000 [08:58<11:20,  6.27it/s]

Mean Reward = 3.0
0


 57%|████████████████████████████████████████████▏                                | 5742/10000 [08:59<10:08,  7.00it/s]

Mean Reward = 3.8
0


 58%|████████████████████████████████████████████▎                                | 5752/10000 [09:01<10:35,  6.68it/s]

Updated Weights
Mean Reward = 1.8
0


 58%|████████████████████████████████████████████▎                                | 5762/10000 [09:02<10:31,  6.71it/s]

Mean Reward = 1.4
0


 58%|████████████████████████████████████████████▍                                | 5772/10000 [09:04<10:20,  6.81it/s]

Mean Reward = 3.4
0


 58%|████████████████████████████████████████████▍                                | 5777/10000 [09:04<10:08,  6.94it/s]

Updated Weights


 58%|████████████████████████████████████████████▌                                | 5782/10000 [09:05<10:03,  6.99it/s]

Mean Reward = 2.2
0


 58%|████████████████████████████████████████████▌                                | 5792/10000 [09:07<11:28,  6.12it/s]

Mean Reward = 2.2
0


 58%|████████████████████████████████████████████▋                                | 5802/10000 [09:08<10:46,  6.49it/s]

Updated Weights
Mean Reward = 2.0
0


 58%|████████████████████████████████████████████▊                                | 5812/10000 [09:10<10:40,  6.54it/s]

Mean Reward = 1.8
0


 58%|████████████████████████████████████████████▊                                | 5822/10000 [09:11<10:11,  6.84it/s]

Mean Reward = 1.8
0


 58%|████████████████████████████████████████████▊                                | 5827/10000 [09:12<10:19,  6.74it/s]

Updated Weights


 58%|████████████████████████████████████████████▉                                | 5832/10000 [09:13<10:38,  6.53it/s]

Mean Reward = 3.4
0


 58%|████████████████████████████████████████████▉                                | 5842/10000 [09:14<10:21,  6.69it/s]

Mean Reward = 2.4
0


 59%|█████████████████████████████████████████████                                | 5852/10000 [09:16<10:26,  6.62it/s]

Updated Weights
Mean Reward = 2.2
0


 59%|█████████████████████████████████████████████▏                               | 5862/10000 [09:17<09:58,  6.92it/s]

Mean Reward = 2.4
0


 59%|█████████████████████████████████████████████▏                               | 5872/10000 [09:18<09:38,  7.14it/s]

Mean Reward = 4.0
0


 59%|█████████████████████████████████████████████▎                               | 5877/10000 [09:19<09:36,  7.15it/s]

Updated Weights


 59%|█████████████████████████████████████████████▎                               | 5882/10000 [09:20<09:36,  7.14it/s]

Mean Reward = 4.7
1


 59%|█████████████████████████████████████████████▎                               | 5892/10000 [09:21<09:35,  7.14it/s]

Mean Reward = 2.4
0


 59%|█████████████████████████████████████████████▍                               | 5902/10000 [09:22<09:17,  7.36it/s]

Updated Weights
Mean Reward = 1.4
0


 59%|█████████████████████████████████████████████▌                               | 5912/10000 [09:24<09:22,  7.27it/s]

Mean Reward = 1.2
0


 59%|█████████████████████████████████████████████▌                               | 5921/10000 [09:25<09:14,  7.36it/s]

Mean Reward = 3.4
1


 59%|█████████████████████████████████████████████▋                               | 5926/10000 [09:26<11:08,  6.10it/s]

Updated Weights


 59%|█████████████████████████████████████████████▋                               | 5932/10000 [09:27<11:52,  5.71it/s]

Mean Reward = 3.1
1


 59%|█████████████████████████████████████████████▊                               | 5942/10000 [09:28<10:14,  6.61it/s]

Mean Reward = 3.0
0


 60%|█████████████████████████████████████████████▊                               | 5952/10000 [09:30<09:20,  7.22it/s]

Updated Weights
Mean Reward = 4.2
1


 60%|█████████████████████████████████████████████▉                               | 5962/10000 [09:31<09:06,  7.39it/s]

Mean Reward = 4.3
1


 60%|█████████████████████████████████████████████▉                               | 5972/10000 [09:32<09:24,  7.14it/s]

Mean Reward = 2.4
0


 60%|██████████████████████████████████████████████                               | 5977/10000 [09:33<10:20,  6.49it/s]

Updated Weights


 60%|██████████████████████████████████████████████                               | 5982/10000 [09:34<09:39,  6.93it/s]

Mean Reward = 3.4
0


 60%|██████████████████████████████████████████████▏                              | 5992/10000 [09:35<09:13,  7.24it/s]

Mean Reward = 3.3
1


 60%|██████████████████████████████████████████████▏                              | 6002/10000 [09:37<11:15,  5.92it/s]

Updated Weights
Mean Reward = 3.0
0


 60%|██████████████████████████████████████████████▎                              | 6012/10000 [09:38<10:17,  6.46it/s]

Mean Reward = 4.8
0


 60%|██████████████████████████████████████████████▎                              | 6022/10000 [09:40<09:36,  6.90it/s]

Mean Reward = 2.8
0


 60%|██████████████████████████████████████████████▍                              | 6027/10000 [09:41<09:12,  7.19it/s]

Updated Weights


 60%|██████████████████████████████████████████████▍                              | 6032/10000 [09:41<08:37,  7.66it/s]

Mean Reward = 2.6
0


 60%|██████████████████████████████████████████████▌                              | 6042/10000 [09:42<09:35,  6.87it/s]

Mean Reward = 4.9
1


 61%|██████████████████████████████████████████████▌                              | 6053/10000 [09:44<07:52,  8.35it/s]

Updated Weights
Mean Reward = 2.4
0


 61%|██████████████████████████████████████████████▋                              | 6062/10000 [09:45<09:42,  6.76it/s]

Mean Reward = 5.1
2


 61%|██████████████████████████████████████████████▊                              | 6072/10000 [09:47<09:21,  6.99it/s]

Mean Reward = 2.6
0


 61%|██████████████████████████████████████████████▊                              | 6077/10000 [09:47<08:46,  7.45it/s]

Updated Weights


 61%|██████████████████████████████████████████████▊                              | 6082/10000 [09:48<09:18,  7.02it/s]

Mean Reward = 2.2
0


 61%|██████████████████████████████████████████████▉                              | 6092/10000 [09:49<09:06,  7.14it/s]

Mean Reward = 3.2
0


 61%|██████████████████████████████████████████████▉                              | 6102/10000 [09:51<09:07,  7.11it/s]

Updated Weights
Mean Reward = 2.8
0


 61%|███████████████████████████████████████████████                              | 6112/10000 [09:52<08:41,  7.45it/s]

Mean Reward = 3.4
1


 61%|███████████████████████████████████████████████▏                             | 6122/10000 [09:54<08:50,  7.32it/s]

Mean Reward = 2.0
0


 61%|███████████████████████████████████████████████▏                             | 6127/10000 [09:54<08:50,  7.30it/s]

Updated Weights


 61%|███████████████████████████████████████████████▏                             | 6132/10000 [09:55<09:33,  6.74it/s]

Mean Reward = 2.6
0


 61%|███████████████████████████████████████████████▎                             | 6141/10000 [09:56<09:40,  6.65it/s]

Mean Reward = 5.8
2


 62%|███████████████████████████████████████████████▎                             | 6152/10000 [09:58<10:44,  5.97it/s]

Updated Weights
Mean Reward = 1.8
0


 62%|███████████████████████████████████████████████▍                             | 6162/10000 [10:00<10:13,  6.25it/s]

Mean Reward = 0.0
0


 62%|███████████████████████████████████████████████▌                             | 6171/10000 [10:01<09:10,  6.96it/s]

Mean Reward = -3.0
1


 62%|███████████████████████████████████████████████▌                             | 6177/10000 [10:02<10:06,  6.30it/s]

Updated Weights


 62%|███████████████████████████████████████████████▌                             | 6181/10000 [10:03<10:27,  6.08it/s]

Mean Reward = 1.6
0


 62%|███████████████████████████████████████████████▋                             | 6192/10000 [10:04<10:34,  6.00it/s]

Mean Reward = 5.1
1


 62%|███████████████████████████████████████████████▋                             | 6201/10000 [10:06<10:34,  5.99it/s]

Updated Weights
Mean Reward = -8.2
0


 62%|███████████████████████████████████████████████▊                             | 6212/10000 [10:07<09:07,  6.92it/s]

Mean Reward = -2.2
0


 62%|███████████████████████████████████████████████▉                             | 6222/10000 [10:09<08:24,  7.48it/s]

Mean Reward = 2.2
1


 62%|███████████████████████████████████████████████▉                             | 6227/10000 [10:09<09:13,  6.81it/s]

Updated Weights


 62%|███████████████████████████████████████████████▉                             | 6232/10000 [10:10<09:11,  6.83it/s]

Mean Reward = 3.0
0


 62%|████████████████████████████████████████████████                             | 6242/10000 [10:12<08:48,  7.11it/s]

Mean Reward = -3.8
0


 63%|████████████████████████████████████████████████▏                            | 6252/10000 [10:13<07:42,  8.11it/s]

Updated Weights
Mean Reward = 0.0
2


 63%|████████████████████████████████████████████████▏                            | 6262/10000 [10:14<09:21,  6.66it/s]

Mean Reward = 1.8
0


 63%|████████████████████████████████████████████████▎                            | 6273/10000 [10:16<07:50,  7.92it/s]

Mean Reward = -14.6
0


 63%|████████████████████████████████████████████████▎                            | 6277/10000 [10:16<08:34,  7.24it/s]

Updated Weights


 63%|████████████████████████████████████████████████▎                            | 6282/10000 [10:17<09:03,  6.84it/s]

Mean Reward = 2.9
1


 63%|████████████████████████████████████████████████▍                            | 6292/10000 [10:18<08:46,  7.04it/s]

Mean Reward = -2.2
0


 63%|████████████████████████████████████████████████▌                            | 6302/10000 [10:20<08:39,  7.12it/s]

Updated Weights
Mean Reward = -4.6
1


 63%|████████████████████████████████████████████████▌                            | 6312/10000 [10:21<08:43,  7.04it/s]

Mean Reward = -10.4
0


 63%|████████████████████████████████████████████████▋                            | 6322/10000 [10:22<07:09,  8.56it/s]

Mean Reward = -0.1
2


 63%|████████████████████████████████████████████████▋                            | 6327/10000 [10:23<08:36,  7.12it/s]

Updated Weights


 63%|████████████████████████████████████████████████▊                            | 6332/10000 [10:24<08:24,  7.26it/s]

Mean Reward = -0.4
0


 63%|████████████████████████████████████████████████▊                            | 6342/10000 [10:25<08:58,  6.79it/s]

Mean Reward = -8.4
0


 64%|████████████████████████████████████████████████▉                            | 6352/10000 [10:26<08:06,  7.49it/s]

Updated Weights
Mean Reward = -5.1
1


 64%|████████████████████████████████████████████████▉                            | 6362/10000 [10:28<08:36,  7.04it/s]

Mean Reward = -4.2
0


 64%|█████████████████████████████████████████████████                            | 6372/10000 [10:29<08:18,  7.28it/s]

Mean Reward = -6.6
0


 64%|█████████████████████████████████████████████████                            | 6377/10000 [10:30<08:39,  6.98it/s]

Updated Weights


 64%|█████████████████████████████████████████████████▏                           | 6382/10000 [10:31<09:12,  6.55it/s]

Mean Reward = -24.4
0


 64%|█████████████████████████████████████████████████▏                           | 6392/10000 [10:32<08:34,  7.02it/s]

Mean Reward = -4.4
0


 64%|█████████████████████████████████████████████████▎                           | 6402/10000 [10:34<08:31,  7.04it/s]

Updated Weights
Mean Reward = -6.8
0


 64%|█████████████████████████████████████████████████▎                           | 6412/10000 [10:35<08:35,  6.96it/s]

Mean Reward = -21.8
0


 64%|█████████████████████████████████████████████████▍                           | 6422/10000 [10:36<08:51,  6.73it/s]

Mean Reward = -10.4
0


 64%|█████████████████████████████████████████████████▍                           | 6427/10000 [10:37<08:11,  7.27it/s]

Updated Weights


 64%|█████████████████████████████████████████████████▌                           | 6432/10000 [10:38<08:13,  7.23it/s]

Mean Reward = -13.4
0


 64%|█████████████████████████████████████████████████▌                           | 6442/10000 [10:39<08:25,  7.03it/s]

Mean Reward = -2.4
0


 65%|█████████████████████████████████████████████████▋                           | 6452/10000 [10:41<08:28,  6.98it/s]

Updated Weights
Mean Reward = -17.8
0


 65%|█████████████████████████████████████████████████▊                           | 6462/10000 [10:42<08:15,  7.14it/s]

Mean Reward = -14.2
0


 65%|█████████████████████████████████████████████████▊                           | 6472/10000 [10:44<09:12,  6.39it/s]

Mean Reward = -18.4
1


 65%|█████████████████████████████████████████████████▊                           | 6477/10000 [10:44<09:09,  6.41it/s]

Updated Weights


 65%|█████████████████████████████████████████████████▉                           | 6482/10000 [10:45<09:52,  5.93it/s]

Mean Reward = -22.8
0


 65%|█████████████████████████████████████████████████▉                           | 6492/10000 [10:47<08:52,  6.59it/s]

Mean Reward = -16.8
0


 65%|██████████████████████████████████████████████████                           | 6502/10000 [10:48<08:55,  6.53it/s]

Updated Weights
Mean Reward = -37.8
0


 65%|██████████████████████████████████████████████████▏                          | 6512/10000 [10:50<09:00,  6.45it/s]

Mean Reward = -28.4
0


 65%|██████████████████████████████████████████████████▏                          | 6522/10000 [10:51<09:14,  6.28it/s]

Mean Reward = -31.8
0


 65%|██████████████████████████████████████████████████▎                          | 6527/10000 [10:52<08:54,  6.49it/s]

Updated Weights


 65%|██████████████████████████████████████████████████▎                          | 6532/10000 [10:53<09:26,  6.12it/s]

Mean Reward = -33.4
0


 65%|██████████████████████████████████████████████████▎                          | 6542/10000 [10:54<08:03,  7.15it/s]

Mean Reward = -26.4
0


 66%|██████████████████████████████████████████████████▍                          | 6552/10000 [10:56<08:20,  6.89it/s]

Updated Weights
Mean Reward = -38.6
0


 66%|██████████████████████████████████████████████████▌                          | 6562/10000 [10:57<08:25,  6.80it/s]

Mean Reward = -32.2
0


 66%|██████████████████████████████████████████████████▌                          | 6572/10000 [10:59<09:30,  6.01it/s]

Mean Reward = -36.0
0


 66%|██████████████████████████████████████████████████▋                          | 6577/10000 [11:00<08:17,  6.87it/s]

Updated Weights


 66%|██████████████████████████████████████████████████▋                          | 6581/10000 [11:00<07:42,  7.40it/s]

Mean Reward = -38.6
0


 66%|██████████████████████████████████████████████████▊                          | 6592/10000 [11:02<09:04,  6.26it/s]

Mean Reward = -25.2
0


 66%|██████████████████████████████████████████████████▊                          | 6602/10000 [11:04<07:55,  7.15it/s]

Updated Weights
Mean Reward = -31.8
0


 66%|██████████████████████████████████████████████████▉                          | 6612/10000 [11:05<07:38,  7.38it/s]

Mean Reward = -30.4
0


 66%|██████████████████████████████████████████████████▉                          | 6622/10000 [11:06<08:09,  6.91it/s]

Mean Reward = -34.2
0


 66%|███████████████████████████████████████████████████                          | 6627/10000 [11:07<07:58,  7.04it/s]

Updated Weights


 66%|███████████████████████████████████████████████████                          | 6631/10000 [11:08<07:49,  7.17it/s]

Mean Reward = -38.0
0


 66%|███████████████████████████████████████████████████▏                         | 6642/10000 [11:09<07:45,  7.21it/s]

Mean Reward = -22.6
3


 67%|███████████████████████████████████████████████████▏                         | 6652/10000 [11:10<07:42,  7.25it/s]

Updated Weights
Mean Reward = -36.2
0


 67%|███████████████████████████████████████████████████▎                         | 6661/10000 [11:12<08:07,  6.84it/s]

Mean Reward = -29.8
0


 67%|███████████████████████████████████████████████████▎                         | 6672/10000 [11:13<07:50,  7.07it/s]

Mean Reward = -33.6
1


 67%|███████████████████████████████████████████████████▍                         | 6677/10000 [11:14<07:25,  7.46it/s]

Updated Weights


 67%|███████████████████████████████████████████████████▍                         | 6682/10000 [11:14<06:40,  8.29it/s]

Mean Reward = -31.6
1


 67%|███████████████████████████████████████████████████▌                         | 6692/10000 [11:16<07:58,  6.91it/s]

Mean Reward = -34.6
0


 67%|███████████████████████████████████████████████████▌                         | 6702/10000 [11:17<07:34,  7.25it/s]

Updated Weights
Mean Reward = -38.0
0


 67%|███████████████████████████████████████████████████▋                         | 6712/10000 [11:19<07:12,  7.61it/s]

Mean Reward = -36.0
0


 67%|███████████████████████████████████████████████████▊                         | 6722/10000 [11:20<07:46,  7.02it/s]

Mean Reward = -35.4
0


 67%|███████████████████████████████████████████████████▊                         | 6727/10000 [11:21<07:44,  7.05it/s]

Updated Weights


 67%|███████████████████████████████████████████████████▊                         | 6732/10000 [11:21<07:46,  7.00it/s]

Mean Reward = -38.8
0


 67%|███████████████████████████████████████████████████▉                         | 6742/10000 [11:22<06:06,  8.89it/s]

Mean Reward = -16.7
3


 68%|███████████████████████████████████████████████████▉                         | 6752/10000 [11:24<08:23,  6.45it/s]

Updated Weights
Mean Reward = -33.3
1


 68%|████████████████████████████████████████████████████                         | 6762/10000 [11:26<08:38,  6.25it/s]

Mean Reward = -37.4
0


 68%|████████████████████████████████████████████████████▏                        | 6772/10000 [11:27<07:21,  7.31it/s]

Mean Reward = -38.2
0


 68%|████████████████████████████████████████████████████▏                        | 6777/10000 [11:28<07:27,  7.21it/s]

Updated Weights


 68%|████████████████████████████████████████████████████▏                        | 6782/10000 [11:28<07:25,  7.22it/s]

Mean Reward = -21.8
0


 68%|████████████████████████████████████████████████████▎                        | 6792/10000 [11:30<07:05,  7.55it/s]

Mean Reward = -34.6
0


 68%|████████████████████████████████████████████████████▍                        | 6802/10000 [11:31<07:46,  6.86it/s]

Updated Weights
Mean Reward = -39.0
0


 68%|████████████████████████████████████████████████████▍                        | 6812/10000 [11:33<07:52,  6.75it/s]

Mean Reward = -35.2
0


 68%|████████████████████████████████████████████████████▌                        | 6822/10000 [11:34<07:19,  7.22it/s]

Mean Reward = -37.4
0


 68%|████████████████████████████████████████████████████▌                        | 6827/10000 [11:35<07:27,  7.09it/s]

Updated Weights


 68%|████████████████████████████████████████████████████▌                        | 6832/10000 [11:36<06:31,  8.08it/s]

Mean Reward = -37.8
0


 68%|████████████████████████████████████████████████████▋                        | 6841/10000 [11:37<06:16,  8.39it/s]

Mean Reward = -39.4
0


 69%|████████████████████████████████████████████████████▊                        | 6852/10000 [11:38<06:36,  7.94it/s]

Updated Weights
Mean Reward = -38.4
0


 69%|████████████████████████████████████████████████████▊                        | 6862/10000 [11:39<05:43,  9.14it/s]

Mean Reward = -34.0
0


 69%|████████████████████████████████████████████████████▉                        | 6872/10000 [11:40<05:23,  9.67it/s]

Mean Reward = -34.6
0


 69%|████████████████████████████████████████████████████▉                        | 6877/10000 [11:41<05:50,  8.91it/s]

Updated Weights


 69%|████████████████████████████████████████████████████▉                        | 6882/10000 [11:41<05:28,  9.48it/s]

Mean Reward = -39.0
0


 69%|█████████████████████████████████████████████████████                        | 6892/10000 [11:42<05:24,  9.57it/s]

Mean Reward = -33.2
0


 69%|█████████████████████████████████████████████████████▏                       | 6901/10000 [11:43<05:19,  9.71it/s]

Updated Weights
Mean Reward = -29.2
1


 69%|█████████████████████████████████████████████████████▏                       | 6912/10000 [11:44<05:15,  9.80it/s]

Mean Reward = -39.0
0


 69%|█████████████████████████████████████████████████████▎                       | 6922/10000 [11:45<05:29,  9.33it/s]

Mean Reward = -39.2
0


 69%|█████████████████████████████████████████████████████▎                       | 6927/10000 [11:46<05:25,  9.45it/s]

Updated Weights


 69%|█████████████████████████████████████████████████████▍                       | 6932/10000 [11:46<05:27,  9.36it/s]

Mean Reward = -39.0
0


 69%|█████████████████████████████████████████████████████▍                       | 6942/10000 [11:47<05:48,  8.78it/s]

Mean Reward = -30.8
0


 70%|█████████████████████████████████████████████████████▌                       | 6952/10000 [11:48<05:18,  9.58it/s]

Updated Weights
Mean Reward = -38.8
0


 70%|█████████████████████████████████████████████████████▌                       | 6961/10000 [11:49<05:51,  8.64it/s]

Mean Reward = -37.8
0


 70%|█████████████████████████████████████████████████████▋                       | 6972/10000 [11:50<05:13,  9.67it/s]

Mean Reward = -38.6
0


 70%|█████████████████████████████████████████████████████▋                       | 6976/10000 [11:51<05:02, 10.00it/s]

Updated Weights


 70%|█████████████████████████████████████████████████████▊                       | 6983/10000 [11:52<05:15,  9.56it/s]

Mean Reward = -38.0
0


 70%|█████████████████████████████████████████████████████▊                       | 6991/10000 [11:52<04:33, 11.00it/s]

Mean Reward = -26.2
1


 70%|█████████████████████████████████████████████████████▉                       | 7003/10000 [11:54<04:57, 10.06it/s]

Updated Weights
Mean Reward = -39.6
0


 70%|█████████████████████████████████████████████████████▉                       | 7011/10000 [11:54<04:57, 10.04it/s]

Mean Reward = -31.2
0


 70%|██████████████████████████████████████████████████████                       | 7021/10000 [11:56<05:13,  9.49it/s]

Mean Reward = -35.4
0


 70%|██████████████████████████████████████████████████████                       | 7027/10000 [11:56<05:10,  9.57it/s]

Updated Weights


 70%|██████████████████████████████████████████████████████▏                      | 7032/10000 [11:57<05:15,  9.39it/s]

Mean Reward = -39.0
0


 70%|██████████████████████████████████████████████████████▏                      | 7042/10000 [11:58<04:35, 10.76it/s]

Mean Reward = -33.2
1


 71%|██████████████████████████████████████████████████████▎                      | 7051/10000 [11:59<05:11,  9.48it/s]

Updated Weights
Mean Reward = -39.0
0


 71%|██████████████████████████████████████████████████████▍                      | 7062/10000 [12:00<05:34,  8.78it/s]

Mean Reward = -39.2
0


 71%|██████████████████████████████████████████████████████▍                      | 7072/10000 [12:01<05:47,  8.43it/s]

Mean Reward = -35.2
0


 71%|██████████████████████████████████████████████████████▍                      | 7077/10000 [12:01<05:26,  8.97it/s]

Updated Weights


 71%|██████████████████████████████████████████████████████▌                      | 7082/10000 [12:02<05:07,  9.48it/s]

Mean Reward = -39.0
0


 71%|██████████████████████████████████████████████████████▌                      | 7092/10000 [12:03<05:07,  9.46it/s]

Mean Reward = -35.8
0


 71%|██████████████████████████████████████████████████████▋                      | 7102/10000 [12:04<05:10,  9.35it/s]

Updated Weights
Mean Reward = -39.2
0


 71%|██████████████████████████████████████████████████████▊                      | 7113/10000 [12:05<05:05,  9.45it/s]

Mean Reward = -38.8
0


 71%|██████████████████████████████████████████████████████▊                      | 7122/10000 [12:06<05:01,  9.53it/s]

Mean Reward = -37.8
0


 71%|██████████████████████████████████████████████████████▊                      | 7126/10000 [12:06<04:32, 10.56it/s]

Updated Weights


 71%|██████████████████████████████████████████████████████▉                      | 7132/10000 [12:07<04:52,  9.81it/s]

Mean Reward = -34.5
1


 71%|███████████████████████████████████████████████████████                      | 7143/10000 [12:08<04:49,  9.88it/s]

Mean Reward = -38.4
0


 72%|███████████████████████████████████████████████████████                      | 7153/10000 [12:09<04:46,  9.95it/s]

Updated Weights
Mean Reward = -40.0
0


 72%|███████████████████████████████████████████████████████▏                     | 7162/10000 [12:10<05:12,  9.08it/s]

Mean Reward = -35.0
0


 72%|███████████████████████████████████████████████████████▏                     | 7172/10000 [12:11<04:58,  9.47it/s]

Mean Reward = -39.6
0


 72%|███████████████████████████████████████████████████████▎                     | 7177/10000 [12:12<05:28,  8.58it/s]

Updated Weights


 72%|███████████████████████████████████████████████████████▎                     | 7181/10000 [12:12<05:02,  9.31it/s]

Mean Reward = -39.4
0


 72%|███████████████████████████████████████████████████████▍                     | 7193/10000 [12:13<04:51,  9.63it/s]

Mean Reward = -38.4
0


 72%|███████████████████████████████████████████████████████▍                     | 7202/10000 [12:14<04:58,  9.37it/s]

Updated Weights
Mean Reward = -38.6
0


 72%|███████████████████████████████████████████████████████▌                     | 7212/10000 [12:15<04:41,  9.90it/s]

Mean Reward = -38.2
0


 72%|███████████████████████████████████████████████████████▌                     | 7222/10000 [12:16<04:43,  9.80it/s]

Mean Reward = -39.2
0


 72%|███████████████████████████████████████████████████████▋                     | 7227/10000 [12:17<04:44,  9.74it/s]

Updated Weights


 72%|███████████████████████████████████████████████████████▋                     | 7231/10000 [12:17<04:35, 10.04it/s]

Mean Reward = -38.6
0


 72%|███████████████████████████████████████████████████████▊                     | 7242/10000 [12:18<04:36,  9.99it/s]

Mean Reward = -39.6
0


 73%|███████████████████████████████████████████████████████▊                     | 7251/10000 [12:19<04:31, 10.14it/s]

Updated Weights
Mean Reward = -35.4
0


 73%|███████████████████████████████████████████████████████▉                     | 7263/10000 [12:21<04:31, 10.07it/s]

Mean Reward = -38.8
0


 73%|███████████████████████████████████████████████████████▉                     | 7272/10000 [12:21<04:32, 10.02it/s]

Mean Reward = -39.2
0


 73%|████████████████████████████████████████████████████████                     | 7278/10000 [12:22<04:04, 11.14it/s]

Updated Weights


 73%|████████████████████████████████████████████████████████                     | 7282/10000 [12:22<04:11, 10.79it/s]

Mean Reward = -28.2
1


 73%|████████████████████████████████████████████████████████▏                    | 7292/10000 [12:23<04:28, 10.10it/s]

Mean Reward = -39.6
0


 73%|████████████████████████████████████████████████████████▏                    | 7302/10000 [12:24<04:29, 10.02it/s]

Updated Weights
Mean Reward = -39.4
0


 73%|████████████████████████████████████████████████████████▎                    | 7312/10000 [12:25<04:21, 10.27it/s]

Mean Reward = -33.1
1


 73%|████████████████████████████████████████████████████████▍                    | 7322/10000 [12:26<04:27, 10.03it/s]

Mean Reward = -35.6
0


 73%|████████████████████████████████████████████████████████▍                    | 7326/10000 [12:27<04:28,  9.95it/s]

Updated Weights


 73%|████████████████████████████████████████████████████████▍                    | 7332/10000 [12:27<04:26, 10.00it/s]

Mean Reward = -38.8
0


 73%|████████████████████████████████████████████████████████▌                    | 7341/10000 [12:28<04:24, 10.04it/s]

Mean Reward = -38.0
0


 74%|████████████████████████████████████████████████████████▌                    | 7353/10000 [12:29<04:22, 10.07it/s]

Updated Weights
Mean Reward = -39.0
0


 74%|████████████████████████████████████████████████████████▋                    | 7363/10000 [12:30<04:15, 10.33it/s]

Mean Reward = -33.7
1


 74%|████████████████████████████████████████████████████████▊                    | 7371/10000 [12:31<04:18, 10.18it/s]

Mean Reward = -39.6
0


 74%|████████████████████████████████████████████████████████▊                    | 7377/10000 [12:32<04:19, 10.11it/s]

Updated Weights


 74%|████████████████████████████████████████████████████████▊                    | 7382/10000 [12:32<04:19, 10.09it/s]

Mean Reward = -39.6
0


 74%|████████████████████████████████████████████████████████▉                    | 7392/10000 [12:33<04:23,  9.89it/s]

Mean Reward = -39.0
0


 74%|████████████████████████████████████████████████████████▉                    | 7401/10000 [12:34<04:27,  9.73it/s]

Updated Weights
Mean Reward = -38.6
0


 74%|█████████████████████████████████████████████████████████                    | 7411/10000 [12:35<04:18, 10.03it/s]

Mean Reward = -39.6
0


 74%|█████████████████████████████████████████████████████████▏                   | 7423/10000 [12:36<04:25,  9.70it/s]

Mean Reward = -40.0
0


 74%|█████████████████████████████████████████████████████████▏                   | 7427/10000 [12:37<04:22,  9.81it/s]

Updated Weights


 74%|█████████████████████████████████████████████████████████▏                   | 7433/10000 [12:37<04:15, 10.03it/s]

Mean Reward = -39.8
0


 74%|█████████████████████████████████████████████████████████▎                   | 7442/10000 [12:38<04:15, 10.03it/s]

Mean Reward = -38.0
0


 75%|█████████████████████████████████████████████████████████▍                   | 7452/10000 [12:39<03:52, 10.96it/s]

Updated Weights
Mean Reward = -32.8
1


 75%|█████████████████████████████████████████████████████████▍                   | 7462/10000 [12:40<04:08, 10.20it/s]

Mean Reward = -34.4
0


 75%|█████████████████████████████████████████████████████████▌                   | 7472/10000 [12:41<04:13,  9.99it/s]

Mean Reward = -39.0
0


 75%|█████████████████████████████████████████████████████████▌                   | 7476/10000 [12:42<04:11, 10.04it/s]

Updated Weights


 75%|█████████████████████████████████████████████████████████▌                   | 7482/10000 [12:42<04:10, 10.06it/s]

Mean Reward = -39.0
0


 75%|█████████████████████████████████████████████████████████▋                   | 7492/10000 [12:43<04:10, 10.03it/s]

Mean Reward = -39.0
0


 75%|█████████████████████████████████████████████████████████▊                   | 7502/10000 [12:44<04:12,  9.89it/s]

Updated Weights
Mean Reward = -39.2
0


 75%|█████████████████████████████████████████████████████████▊                   | 7512/10000 [12:45<04:08, 10.01it/s]

Mean Reward = -38.6
0


 75%|█████████████████████████████████████████████████████████▉                   | 7521/10000 [12:46<04:09,  9.93it/s]

Mean Reward = -39.2
0


 75%|█████████████████████████████████████████████████████████▉                   | 7527/10000 [12:47<04:17,  9.60it/s]

Updated Weights


 75%|█████████████████████████████████████████████████████████▉                   | 7532/10000 [12:47<04:10,  9.86it/s]

Mean Reward = -38.8
0


 75%|██████████████████████████████████████████████████████████                   | 7541/10000 [12:48<04:03, 10.09it/s]

Mean Reward = -39.8
0


 76%|██████████████████████████████████████████████████████████▏                  | 7551/10000 [12:49<03:43, 10.97it/s]

Updated Weights
Mean Reward = -33.7
1


 76%|██████████████████████████████████████████████████████████▏                  | 7561/10000 [12:50<04:00, 10.16it/s]

Mean Reward = -38.8
0


 76%|██████████████████████████████████████████████████████████▎                  | 7571/10000 [12:51<04:04,  9.95it/s]

Mean Reward = -38.8
0


 76%|██████████████████████████████████████████████████████████▎                  | 7578/10000 [12:52<04:04,  9.91it/s]

Updated Weights


 76%|██████████████████████████████████████████████████████████▎                  | 7581/10000 [12:52<04:01, 10.01it/s]

Mean Reward = -39.0
0


 76%|██████████████████████████████████████████████████████████▍                  | 7593/10000 [12:53<03:23, 11.83it/s]

Mean Reward = -28.7
1


 76%|██████████████████████████████████████████████████████████▌                  | 7601/10000 [12:54<03:56, 10.16it/s]

Updated Weights
Mean Reward = -34.1
1


 76%|██████████████████████████████████████████████████████████▌                  | 7611/10000 [12:55<04:10,  9.55it/s]

Mean Reward = -39.4
0


 76%|██████████████████████████████████████████████████████████▋                  | 7622/10000 [12:56<04:01,  9.84it/s]

Mean Reward = -38.8
0


 76%|██████████████████████████████████████████████████████████▋                  | 7627/10000 [12:57<05:55,  6.68it/s]

Updated Weights


 76%|██████████████████████████████████████████████████████████▊                  | 7632/10000 [12:57<05:57,  6.62it/s]

Mean Reward = -39.2
0


 76%|██████████████████████████████████████████████████████████▊                  | 7642/10000 [12:59<05:54,  6.65it/s]

Mean Reward = -39.6
0


 77%|██████████████████████████████████████████████████████████▉                  | 7651/10000 [13:00<05:44,  6.82it/s]

Updated Weights
Mean Reward = -38.8
0


 77%|██████████████████████████████████████████████████████████▉                  | 7662/10000 [13:02<06:14,  6.25it/s]

Mean Reward = -38.4
0


 77%|███████████████████████████████████████████████████████████                  | 7672/10000 [13:04<06:26,  6.03it/s]

Mean Reward = -39.4
0


 77%|███████████████████████████████████████████████████████████                  | 7677/10000 [13:04<05:55,  6.54it/s]

Updated Weights


 77%|███████████████████████████████████████████████████████████▏                 | 7682/10000 [13:05<06:13,  6.21it/s]

Mean Reward = -35.6
0


 77%|███████████████████████████████████████████████████████████▏                 | 7692/10000 [13:07<05:25,  7.09it/s]

Mean Reward = -33.7
1


 77%|███████████████████████████████████████████████████████████▎                 | 7702/10000 [13:08<05:18,  7.20it/s]

Updated Weights
Mean Reward = -39.0
0


 77%|███████████████████████████████████████████████████████████▍                 | 7712/10000 [13:09<05:10,  7.37it/s]

Mean Reward = -39.4
0


 77%|███████████████████████████████████████████████████████████▍                 | 7722/10000 [13:11<05:14,  7.25it/s]

Mean Reward = -39.6
0


 77%|███████████████████████████████████████████████████████████▍                 | 7727/10000 [13:11<05:12,  7.27it/s]

Updated Weights


 77%|███████████████████████████████████████████████████████████▌                 | 7732/10000 [13:12<05:01,  7.52it/s]

Mean Reward = -39.0
0


 77%|███████████████████████████████████████████████████████████▌                 | 7742/10000 [13:13<05:15,  7.17it/s]

Mean Reward = -39.4
0


 78%|███████████████████████████████████████████████████████████▋                 | 7752/10000 [13:15<05:13,  7.16it/s]

Updated Weights
Mean Reward = -38.6
0


 78%|███████████████████████████████████████████████████████████▊                 | 7762/10000 [13:16<05:04,  7.36it/s]

Mean Reward = -38.4
0


 78%|███████████████████████████████████████████████████████████▊                 | 7772/10000 [13:18<05:08,  7.23it/s]

Mean Reward = -39.4
0


 78%|███████████████████████████████████████████████████████████▉                 | 7777/10000 [13:18<04:41,  7.89it/s]

Updated Weights


 78%|███████████████████████████████████████████████████████████▉                 | 7782/10000 [13:19<04:54,  7.52it/s]

Mean Reward = -34.3
1


 78%|███████████████████████████████████████████████████████████▉                 | 7792/10000 [13:20<05:04,  7.26it/s]

Mean Reward = -39.2
0


 78%|████████████████████████████████████████████████████████████                 | 7802/10000 [13:22<05:44,  6.37it/s]

Updated Weights
Mean Reward = -38.6
0


 78%|████████████████████████████████████████████████████████████▏                | 7812/10000 [13:23<04:36,  7.91it/s]

Mean Reward = -34.6
1


 78%|████████████████████████████████████████████████████████████▏                | 7822/10000 [13:24<05:01,  7.23it/s]

Mean Reward = -40.0
0


 78%|████████████████████████████████████████████████████████████▎                | 7827/10000 [13:25<05:13,  6.93it/s]

Updated Weights


 78%|████████████████████████████████████████████████████████████▎                | 7832/10000 [13:26<05:24,  6.67it/s]

Mean Reward = -39.6
0


 78%|████████████████████████████████████████████████████████████▍                | 7842/10000 [13:27<05:01,  7.15it/s]

Mean Reward = -39.2
0


 79%|████████████████████████████████████████████████████████████▍                | 7852/10000 [13:29<05:04,  7.05it/s]

Updated Weights
Mean Reward = -39.2
0


 79%|████████████████████████████████████████████████████████████▌                | 7862/10000 [13:30<04:52,  7.30it/s]

Mean Reward = -39.0
0


 79%|████████████████████████████████████████████████████████████▌                | 7872/10000 [13:32<04:56,  7.17it/s]

Mean Reward = -39.0
0


 79%|████████████████████████████████████████████████████████████▋                | 7877/10000 [13:32<04:46,  7.41it/s]

Updated Weights


 79%|████████████████████████████████████████████████████████████▋                | 7882/10000 [13:33<04:44,  7.44it/s]

Mean Reward = -39.2
0


 79%|████████████████████████████████████████████████████████████▊                | 7892/10000 [13:34<04:55,  7.14it/s]

Mean Reward = -38.6
0


 79%|████████████████████████████████████████████████████████████▊                | 7902/10000 [13:36<05:55,  5.90it/s]

Updated Weights
Mean Reward = -38.6
0


 79%|████████████████████████████████████████████████████████████▉                | 7912/10000 [13:38<05:47,  6.01it/s]

Mean Reward = -38.4
0


 79%|████████████████████████████████████████████████████████████▉                | 7922/10000 [13:39<05:11,  6.67it/s]

Mean Reward = -39.8
0


 79%|█████████████████████████████████████████████████████████████                | 7927/10000 [13:40<04:52,  7.08it/s]

Updated Weights


 79%|█████████████████████████████████████████████████████████████                | 7932/10000 [13:41<04:42,  7.32it/s]

Mean Reward = -38.8
0


 79%|█████████████████████████████████████████████████████████████▏               | 7942/10000 [13:42<04:56,  6.95it/s]

Mean Reward = -39.4
0


 80%|█████████████████████████████████████████████████████████████▏               | 7952/10000 [13:44<05:04,  6.72it/s]

Updated Weights
Mean Reward = -39.0
0


 80%|█████████████████████████████████████████████████████████████▎               | 7962/10000 [13:45<04:44,  7.16it/s]

Mean Reward = -39.0
0


 80%|█████████████████████████████████████████████████████████████▍               | 7972/10000 [13:46<04:35,  7.35it/s]

Mean Reward = -39.4
0


 80%|█████████████████████████████████████████████████████████████▍               | 7977/10000 [13:47<04:43,  7.14it/s]

Updated Weights


 80%|█████████████████████████████████████████████████████████████▍               | 7982/10000 [13:48<04:36,  7.31it/s]

Mean Reward = -39.6
0


 80%|█████████████████████████████████████████████████████████████▌               | 7992/10000 [13:49<05:57,  5.62it/s]

Mean Reward = -38.6
0


 80%|█████████████████████████████████████████████████████████████▌               | 8002/10000 [13:51<05:01,  6.63it/s]

Updated Weights
Mean Reward = -39.0
0


 80%|█████████████████████████████████████████████████████████████▋               | 8012/10000 [13:53<04:44,  7.00it/s]

Mean Reward = -40.0
0


 80%|█████████████████████████████████████████████████████████████▊               | 8022/10000 [13:54<04:40,  7.05it/s]

Mean Reward = -39.0
0


 80%|█████████████████████████████████████████████████████████████▊               | 8027/10000 [13:55<04:32,  7.25it/s]

Updated Weights


 80%|█████████████████████████████████████████████████████████████▊               | 8032/10000 [13:55<04:24,  7.45it/s]

Mean Reward = -39.4
0


 80%|█████████████████████████████████████████████████████████████▉               | 8042/10000 [13:57<04:36,  7.07it/s]

Mean Reward = -34.5
1


 81%|██████████████████████████████████████████████████████████████               | 8052/10000 [13:58<05:02,  6.43it/s]

In [None]:
user_agent.model(np.array([[0.1, 0.1, 0.1 , 0.3]]))

In [None]:
mod_agent.model(np.array([[0, 1, 0, 0, 1, 0.3]]))