In [1]:
%cd ..

/Users/danorel/Workspace/Education/University/KMA/Research/aclarel


In [2]:
import pathlib

from tqdm import tqdm

import environments.cart_pole.environment as cart_pole

## Curriculum Learning: Setup

### Methods

In [3]:
import numpy as np

def one_pass(base_length=0.5, max_length=0.5):
    def curriculum(env, episode, total_episodes):
        # Linearly increase the pole length over episodes
        if episode >= 0 and episode <= total_episodes:
            new_length = base_length + (max_length - base_length) * episode / total_episodes
            cart_pole.update_env_parameters(env, length=new_length)
    return curriculum

def root_p(base_length=0.5, max_length=0.5, exponent=2):
    def curriculum(env, episode, total_episodes):
        # Linearly increase the pole length over episodes
        if episode >= 0 and episode <= total_episodes:
            episode_sqrt = np.sqrt(episode) if episode > 1 else 1
            new_length = base_length + (max_length - base_length) * episode_sqrt / (exponent * episode_sqrt)
            cart_pole.update_env_parameters(env, length=new_length)
    return curriculum

### Data Frame

In [4]:
import pandas as pd

def data_frame_from_configurations(training_configurations):
    df = pd.DataFrame()
    for agent, _ in training_configurations:
        df = pd.concat([df, agent.measurements])
    return df

## Reinforcement Learning: Experiments

In [5]:
DATASETS_DIR = pathlib.Path("datasets")
DATASETS_DIR.mkdir(parents=True, exist_ok=True)

### QTable

In [6]:
DATASETS_Q_TABLE_DIR = DATASETS_DIR / "q_table"
DATASETS_Q_TABLE_DIR.mkdir(parents=True, exist_ok=True)

#### Curriculum parameter: pole length 

In [7]:
from environments.cart_pole.rl_methods.q_table import QLearningAgent

training_configurations = [
    (QLearningAgent(curriculum_name='root_p_2'), root_p(base_length=0.25, max_length=0.5, exponent=2)),
    (QLearningAgent(curriculum_name='root_p_3'), root_p(base_length=0.25, max_length=0.5, exponent=3)),
    (QLearningAgent(curriculum_name='one_pass'), one_pass(base_length=0.25, max_length=0.5)),
    (QLearningAgent(curriculum_name='baseline'), None)
]

for training_configuration in tqdm(training_configurations):
    cart_pole.train_evaluate(*training_configuration)

q_table_df = data_frame_from_configurations(training_configurations)

  0%|                                                                 | 0/4 [00:00<?, ?it/s]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 9/5001 [00:00<00:55, 89.61it/s][A
  0%|▏                                                    | 18/5001 [00:00<00:56, 88.75it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.3333324444444445
 	SES: 1.0
 	Learning Stability: 0.9165151389911681
 	Mean Reward: 8.1
 	Std Reward: 0.5385164807134505




  1%|▎                                                    | 27/5001 [00:00<00:58, 84.33it/s][A
  1%|▍                                                    | 36/5001 [00:00<00:59, 83.85it/s][A
  1%|▍                                                    | 45/5001 [00:00<00:59, 83.82it/s][A
  1%|▌                                                    | 54/5001 [00:00<00:58, 84.09it/s][A
  1%|▋                                                    | 63/5001 [00:00<00:59, 82.50it/s][A
  1%|▊                                                    | 72/5001 [00:00<01:01, 80.08it/s][A
  2%|▊                                                    | 81/5001 [00:00<01:02, 78.76it/s][A
  2%|▉                                                    | 89/5001 [00:01<01:02, 78.74it/s][A
  2%|█                                                    | 97/5001 [00:01<01:02, 78.33it/s][A
  2%|█                                                   | 105/5001 [00:01<01:04, 76.08it/s][A
  2%|█▏                                

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.3333333333333335
 	SES: 0
 	Learning Stability: 1.7349351572897471
 	Mean Reward: 10.4
 	Std Reward: 1.8547236990991407




  5%|██▊                                                 | 274/5001 [00:03<01:04, 73.52it/s][A
  6%|██▉                                                 | 282/5001 [00:03<01:05, 72.34it/s][A
  6%|███                                                 | 290/5001 [00:03<01:06, 70.46it/s][A
  6%|███                                                 | 298/5001 [00:04<01:09, 67.22it/s][A
  6%|███▏                                                | 305/5001 [00:04<01:11, 65.74it/s][A
  6%|███▏                                                | 312/5001 [00:04<01:13, 63.56it/s][A
  6%|███▎                                                | 319/5001 [00:04<01:15, 62.03it/s][A
  7%|███▍                                                | 326/5001 [00:04<01:15, 61.52it/s][A
  7%|███▍                                                | 333/5001 [00:04<01:16, 61.00it/s][A
  7%|███▌                                                | 340/5001 [00:04<01:18, 59.65it/s][A
  7%|███▌                              

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 7.244998274671982
 	Mean Reward: 15.1
 	Std Reward: 4.928488612140643




 10%|█████▎                                              | 512/5001 [00:08<01:40, 44.66it/s][A
 10%|█████▍                                              | 517/5001 [00:08<01:38, 45.66it/s][A
 10%|█████▍                                              | 522/5001 [00:08<01:36, 46.21it/s][A
 11%|█████▍                                              | 527/5001 [00:08<01:37, 45.87it/s][A
 11%|█████▌                                              | 532/5001 [00:08<01:39, 44.90it/s][A
 11%|█████▌                                              | 537/5001 [00:08<01:40, 44.20it/s][A
 11%|█████▋                                              | 542/5001 [00:08<01:40, 44.37it/s][A
 11%|█████▋                                              | 547/5001 [00:09<01:40, 44.30it/s][A
 11%|█████▋                                              | 552/5001 [00:09<01:38, 45.16it/s][A
 11%|█████▊                                              | 557/5001 [00:09<01:39, 44.52it/s][A
 11%|█████▊                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.3333333333333335
 	SES: 0
 	Learning Stability: 4.196427051671457
 	Mean Reward: 19.2
 	Std Reward: 4.445222154178573




 15%|███████▉                                            | 759/5001 [00:14<02:07, 33.34it/s][A
 15%|███████▉                                            | 763/5001 [00:14<02:03, 34.34it/s][A
 15%|███████▉                                            | 767/5001 [00:14<02:20, 30.17it/s][A
 15%|████████                                            | 771/5001 [00:14<02:22, 29.74it/s][A
 15%|████████                                            | 775/5001 [00:14<02:13, 31.70it/s][A
 16%|████████                                            | 779/5001 [00:14<02:11, 32.13it/s][A
 16%|████████▏                                           | 783/5001 [00:14<02:11, 32.15it/s][A
 16%|████████▏                                           | 787/5001 [00:14<02:07, 32.93it/s][A
 16%|████████▏                                           | 791/5001 [00:15<02:08, 32.74it/s][A
 16%|████████▎                                           | 795/5001 [00:15<02:06, 33.31it/s][A
 16%|████████▎                         

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 18.09861873182592
 	Mean Reward: 53.5
 	Std Reward: 15.532224567009067




 20%|██████████▏                                        | 1004/5001 [00:22<06:36, 10.09it/s][A
 20%|██████████▎                                        | 1006/5001 [00:22<07:18,  9.11it/s][A
 20%|██████████▎                                        | 1007/5001 [00:22<07:46,  8.56it/s][A
 20%|██████████▎                                        | 1008/5001 [00:23<07:47,  8.55it/s][A
 20%|██████████▎                                        | 1009/5001 [00:23<07:57,  8.37it/s][A
 20%|██████████▎                                        | 1010/5001 [00:23<08:16,  8.04it/s][A
 20%|██████████▎                                        | 1011/5001 [00:23<08:11,  8.12it/s][A
 20%|██████████▎                                        | 1012/5001 [00:23<07:57,  8.35it/s][A
 20%|██████████▎                                        | 1013/5001 [00:23<07:45,  8.56it/s][A
 20%|██████████▎                                        | 1014/5001 [00:23<09:18,  7.13it/s][A
 20%|██████████▎                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 11.228980363327741
 	Mean Reward: 87.1
 	Std Reward: 9.741149829460587




 25%|████████████▊                                      | 1252/5001 [01:11<15:14,  4.10it/s][A
 25%|████████████▊                                      | 1253/5001 [01:11<15:31,  4.02it/s][A
 25%|████████████▊                                      | 1254/5001 [01:11<14:58,  4.17it/s][A
 25%|████████████▊                                      | 1255/5001 [01:11<13:24,  4.66it/s][A
 25%|████████████▊                                      | 1256/5001 [01:11<13:47,  4.52it/s][A
 25%|████████████▊                                      | 1257/5001 [01:12<14:16,  4.37it/s][A
 25%|████████████▊                                      | 1258/5001 [01:12<14:20,  4.35it/s][A
 25%|████████████▊                                      | 1259/5001 [01:12<14:23,  4.33it/s][A
 25%|████████████▊                                      | 1260/5001 [01:13<15:37,  3.99it/s][A
 25%|████████████▊                                      | 1261/5001 [01:13<16:26,  3.79it/s][A
 25%|████████████▊                     

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 24.479583329787296
 	Mean Reward: 99.0
 	Std Reward: 41.15580153514204




 30%|███████████████▎                                   | 1502/5001 [02:35<12:04,  4.83it/s][A
 30%|███████████████▎                                   | 1503/5001 [02:35<12:23,  4.70it/s][A
 30%|███████████████▎                                   | 1504/5001 [02:35<12:36,  4.63it/s][A
 30%|███████████████▎                                   | 1505/5001 [02:35<12:46,  4.56it/s][A
 30%|███████████████▎                                   | 1506/5001 [02:36<11:34,  5.03it/s][A
 30%|███████████████▍                                   | 1508/5001 [02:36<09:13,  6.31it/s][A
 30%|███████████████▍                                   | 1509/5001 [02:36<10:33,  5.52it/s][A
 30%|███████████████▍                                   | 1510/5001 [02:36<11:52,  4.90it/s][A
 30%|███████████████▍                                   | 1511/5001 [02:36<12:09,  4.78it/s][A
 30%|███████████████▍                                   | 1512/5001 [02:37<14:56,  3.89it/s][A
 30%|███████████████▍                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 56.46813260592208
 	Mean Reward: 102.0
 	Std Reward: 19.110206696946005




 35%|█████████████████▊                                 | 1752/5001 [03:36<13:09,  4.12it/s][A
 35%|█████████████████▉                                 | 1753/5001 [03:36<13:12,  4.10it/s][A
 35%|█████████████████▉                                 | 1754/5001 [03:36<13:18,  4.06it/s][A
 35%|█████████████████▉                                 | 1755/5001 [03:37<12:39,  4.28it/s][A
 35%|█████████████████▉                                 | 1756/5001 [03:37<13:36,  3.98it/s][A
 35%|█████████████████▉                                 | 1757/5001 [03:37<14:58,  3.61it/s][A
 35%|█████████████████▉                                 | 1758/5001 [03:37<15:14,  3.55it/s][A
 35%|█████████████████▉                                 | 1759/5001 [03:38<16:12,  3.33it/s][A
 35%|█████████████████▉                                 | 1760/5001 [03:38<14:40,  3.68it/s][A
 35%|█████████████████▉                                 | 1761/5001 [03:38<15:34,  3.47it/s][A
 35%|█████████████████▉                

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 41.65201075578465
 	Mean Reward: 142.3
 	Std Reward: 38.013287150679304




 40%|████████████████████▍                              | 2002/5001 [05:24<17:57,  2.78it/s][A
 40%|████████████████████▍                              | 2003/5001 [05:25<20:10,  2.48it/s][A
 40%|████████████████████▍                              | 2004/5001 [05:25<22:21,  2.23it/s][A
 40%|████████████████████▍                              | 2005/5001 [05:26<22:04,  2.26it/s][A
 40%|████████████████████▍                              | 2006/5001 [05:26<22:41,  2.20it/s][A
 40%|████████████████████▍                              | 2007/5001 [05:27<22:05,  2.26it/s][A
 40%|████████████████████▍                              | 2008/5001 [05:27<22:39,  2.20it/s][A
 40%|████████████████████▍                              | 2009/5001 [05:28<23:34,  2.12it/s][A
 40%|████████████████████▍                              | 2010/5001 [05:28<24:19,  2.05it/s][A
 40%|████████████████████▌                              | 2011/5001 [05:28<23:13,  2.15it/s][A
 40%|████████████████████▌             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 18.618270596379247
 	Mean Reward: 73.2
 	Std Reward: 22.648620267027304



 45%|██████████████████████▉                            | 2252/5001 [07:01<10:02,  4.57it/s][A
 45%|██████████████████████▉                            | 2253/5001 [07:01<10:10,  4.50it/s][A
 45%|██████████████████████▉                            | 2254/5001 [07:01<09:51,  4.64it/s][A
 45%|██████████████████████▉                            | 2255/5001 [07:01<09:40,  4.73it/s][A
 45%|███████████████████████                            | 2256/5001 [07:01<09:58,  4.59it/s][A
 45%|███████████████████████                            | 2257/5001 [07:02<09:56,  4.60it/s][A
 45%|███████████████████████                            | 2258/5001 [07:02<09:51,  4.64it/s][A
 45%|███████████████████████                            | 2259/5001 [07:02<10:12,  4.48it/s][A
 45%|███████████████████████                            | 2260/5001 [07:02<11:49,  3.87it/s][A
 45%|███████████████████████                            | 2261/5001 [07:03<11:17,  4.05it/s][A
 45%|███████████████████████            

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 14.359665734271115
 	Mean Reward: 106.4
 	Std Reward: 27.731570456791662




 50%|█████████████████████████▌                         | 2502/5001 [08:18<09:54,  4.21it/s][A
 50%|█████████████████████████▌                         | 2503/5001 [08:18<09:49,  4.24it/s][A
 50%|█████████████████████████▌                         | 2504/5001 [08:18<11:02,  3.77it/s][A
 50%|█████████████████████████▌                         | 2505/5001 [08:19<11:16,  3.69it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [08:19<12:08,  3.42it/s][A
 50%|█████████████████████████▌                         | 2507/5001 [08:19<11:26,  3.63it/s][A
 50%|█████████████████████████▌                         | 2508/5001 [08:19<09:56,  4.18it/s][A
 50%|█████████████████████████▌                         | 2509/5001 [08:20<09:06,  4.56it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [08:20<08:19,  4.99it/s][A
 50%|█████████████████████████▌                         | 2511/5001 [08:20<10:37,  3.91it/s][A
 50%|█████████████████████████▌        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.3333333333333335
 	SES: 0.6666666666666666
 	Learning Stability: 14.149558296992877
 	Mean Reward: 88.3
 	Std Reward: 8.978307190111062




 55%|████████████████████████████                       | 2753/5001 [09:51<07:25,  5.05it/s][A
 55%|████████████████████████████                       | 2754/5001 [09:51<07:13,  5.19it/s][A
 55%|████████████████████████████                       | 2755/5001 [09:51<06:34,  5.69it/s][A
 55%|████████████████████████████                       | 2756/5001 [09:52<06:56,  5.38it/s][A
 55%|████████████████████████████                       | 2757/5001 [09:52<06:38,  5.63it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [09:52<06:17,  5.95it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [09:52<06:49,  5.47it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [09:52<07:28,  4.99it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [09:53<07:11,  5.19it/s][A
 55%|████████████████████████████▏                      | 2762/5001 [09:53<06:29,  5.75it/s][A
 55%|████████████████████████████▏     

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 105.57182389255193
 	Mean Reward: 335.3
 	Std Reward: 140.93973889574224




 60%|██████████████████████████████▌                    | 3002/5001 [11:15<13:43,  2.43it/s][A
 60%|██████████████████████████████▌                    | 3003/5001 [11:16<14:54,  2.23it/s][A
 60%|██████████████████████████████▋                    | 3004/5001 [11:17<15:53,  2.09it/s][A
 60%|██████████████████████████████▋                    | 3005/5001 [11:17<16:33,  2.01it/s][A
 60%|██████████████████████████████▋                    | 3006/5001 [11:18<17:09,  1.94it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [11:18<18:21,  1.81it/s][A
 60%|██████████████████████████████▋                    | 3008/5001 [11:19<18:30,  1.79it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [11:19<18:09,  1.83it/s][A
 60%|██████████████████████████████▋                    | 3010/5001 [11:20<17:27,  1.90it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [11:20<16:10,  2.05it/s][A
 60%|██████████████████████████████▋   

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 77.10129700595185
 	Mean Reward: 68.5
 	Std Reward: 10.837435120913065




 65%|█████████████████████████████████▏                 | 3252/5001 [13:15<14:22,  2.03it/s][A
 65%|█████████████████████████████████▏                 | 3253/5001 [13:16<12:49,  2.27it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [13:16<11:30,  2.53it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [13:16<10:55,  2.66it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [13:17<11:26,  2.54it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [13:17<10:58,  2.65it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [13:18<12:54,  2.25it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [13:18<12:37,  2.30it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [13:18<12:26,  2.33it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [13:19<10:45,  2.70it/s][A
 65%|█████████████████████████████████▎

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 127.70434604977233
 	Mean Reward: 315.2
 	Std Reward: 123.97241628684988




 70%|███████████████████████████████████▋               | 3502/5001 [15:04<15:14,  1.64it/s][A
 70%|███████████████████████████████████▋               | 3503/5001 [15:04<14:57,  1.67it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [15:05<13:45,  1.81it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [15:05<13:02,  1.91it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [15:06<12:18,  2.02it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [15:06<10:01,  2.48it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [15:06<10:09,  2.45it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [15:07<11:44,  2.12it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [15:07<11:42,  2.12it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [15:08<11:36,  2.14it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 100.51472528938234
 	Mean Reward: 242.9
 	Std Reward: 95.43840945866606




 75%|██████████████████████████████████████▎            | 3752/5001 [16:52<09:47,  2.13it/s][A
 75%|██████████████████████████████████████▎            | 3753/5001 [16:53<09:25,  2.21it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [16:53<09:35,  2.17it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [16:53<09:01,  2.30it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [16:54<08:56,  2.32it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [16:54<09:06,  2.28it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [16:55<08:52,  2.34it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [16:55<08:07,  2.55it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [16:56<08:33,  2.42it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [16:56<08:12,  2.52it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 141.05445756869932
 	Mean Reward: 375.1
 	Std Reward: 154.88992865903194




 80%|████████████████████████████████████████▊          | 4002/5001 [18:51<09:26,  1.76it/s][A
 80%|████████████████████████████████████████▊          | 4003/5001 [18:52<08:40,  1.92it/s][A
 80%|████████████████████████████████████████▊          | 4004/5001 [18:53<10:13,  1.62it/s][A
 80%|████████████████████████████████████████▊          | 4005/5001 [18:53<11:16,  1.47it/s][A
 80%|████████████████████████████████████████▊          | 4006/5001 [18:54<10:40,  1.55it/s][A
 80%|████████████████████████████████████████▊          | 4007/5001 [18:54<09:31,  1.74it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [18:55<09:46,  1.69it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [18:56<10:34,  1.56it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [18:56<09:56,  1.66it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [18:57<09:25,  1.75it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 107.81447027185173
 	Mean Reward: 125.3
 	Std Reward: 22.69383176107552




 85%|███████████████████████████████████████████▎       | 4252/5001 [21:27<06:27,  1.93it/s][A
 85%|███████████████████████████████████████████▎       | 4253/5001 [21:27<06:18,  1.98it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [21:27<05:08,  2.42it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [21:27<04:21,  2.85it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [21:28<03:52,  3.20it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [21:28<03:30,  3.54it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [21:28<03:08,  3.94it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [21:28<02:58,  4.15it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [21:28<02:45,  4.49it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [21:29<02:36,  4.73it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 112.72572909500298
 	Mean Reward: 453.4
 	Std Reward: 68.92488665206494




 90%|█████████████████████████████████████████████▉     | 4502/5001 [23:38<05:43,  1.45it/s][A
 90%|█████████████████████████████████████████████▉     | 4503/5001 [23:38<05:40,  1.46it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [23:39<05:47,  1.43it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [23:40<05:33,  1.49it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [23:41<05:43,  1.44it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [23:41<05:35,  1.47it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [23:42<05:22,  1.53it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [23:42<05:19,  1.54it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [23:43<04:56,  1.65it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [23:44<05:01,  1.63it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 25.92373429890069
 	Mean Reward: 184.7
 	Std Reward: 48.309522870754996




 95%|████████████████████████████████████████████████▍  | 4752/5001 [25:16<01:30,  2.75it/s][A
 95%|████████████████████████████████████████████████▍  | 4753/5001 [25:16<01:30,  2.73it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [25:16<01:31,  2.71it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [25:17<01:33,  2.63it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [25:17<01:30,  2.72it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [25:17<01:25,  2.84it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [25:18<01:24,  2.89it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [25:18<01:20,  3.00it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [25:18<01:22,  2.91it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [25:19<01:17,  3.09it/s][A
 95%|██████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 42.486350749387746
 	Mean Reward: 80.0
 	Std Reward: 37.02971779530598




 25%|█████████████▎                                       | 1/4 [27:04<1:21:12, 1624.22s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 5/5001 [00:00<01:53, 43.93it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.49999775
 	SES: 0.9166666666666666
 	Learning Stability: 0.7000000000000001
 	Mean Reward: 8.1
 	Std Reward: 0.8306623862918076




  0%|                                                     | 10/5001 [00:00<01:55, 43.33it/s][A
  0%|▏                                                    | 15/5001 [00:00<01:54, 43.53it/s][A
  0%|▏                                                    | 20/5001 [00:00<01:50, 45.22it/s][A
  0%|▎                                                    | 25/5001 [00:00<01:54, 43.46it/s][A
  1%|▎                                                    | 31/5001 [00:00<01:44, 47.45it/s][A
  1%|▍                                                    | 36/5001 [00:00<01:43, 47.88it/s][A
  1%|▍                                                    | 41/5001 [00:00<01:45, 46.86it/s][A
  1%|▍                                                    | 46/5001 [00:01<01:46, 46.72it/s][A
  1%|▌                                                    | 52/5001 [00:01<01:41, 48.87it/s][A
  1%|▌                                                    | 57/5001 [00:01<01:47, 45.90it/s][A
  1%|▋                                 

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.5
 	SES: 0
 	Learning Stability: 2.1071307505705477
 	Mean Reward: 8.6
 	Std Reward: 1.9078784028338915




  5%|██▋                                                 | 259/5001 [00:06<02:11, 36.02it/s][A
  5%|██▋                                                 | 263/5001 [00:07<02:14, 35.33it/s][A
  5%|██▊                                                 | 267/5001 [00:07<02:16, 34.80it/s][A
  5%|██▊                                                 | 271/5001 [00:07<02:18, 34.09it/s][A
  5%|██▊                                                 | 275/5001 [00:07<02:19, 33.91it/s][A
  6%|██▉                                                 | 279/5001 [00:07<02:17, 34.47it/s][A
  6%|██▉                                                 | 283/5001 [00:07<02:23, 32.93it/s][A
  6%|██▉                                                 | 287/5001 [00:07<02:27, 31.99it/s][A
  6%|███                                                 | 291/5001 [00:07<02:27, 31.92it/s][A
  6%|███                                                 | 295/5001 [00:08<02:21, 33.18it/s][A
  6%|███                               

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.5
 	SES: 0.0
 	Learning Stability: 1.9078784028338913
 	Mean Reward: 9.7
 	Std Reward: 2.147091055358389




 10%|█████▎                                              | 510/5001 [00:14<01:54, 39.06it/s][A
 10%|█████▎                                              | 514/5001 [00:14<02:00, 37.34it/s][A
 10%|█████▍                                              | 518/5001 [00:14<02:05, 35.65it/s][A
 10%|█████▍                                              | 522/5001 [00:14<02:08, 34.77it/s][A
 11%|█████▍                                              | 526/5001 [00:14<02:09, 34.44it/s][A
 11%|█████▌                                              | 531/5001 [00:14<02:00, 36.97it/s][A
 11%|█████▌                                              | 535/5001 [00:14<02:02, 36.37it/s][A
 11%|█████▌                                              | 539/5001 [00:15<02:03, 36.06it/s][A
 11%|█████▋                                              | 543/5001 [00:15<02:05, 35.52it/s][A
 11%|█████▋                                              | 547/5001 [00:15<02:07, 34.95it/s][A
 11%|█████▋                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.5
 	SES: 0
 	Learning Stability: 2.009975124224178
 	Mean Reward: 11.2
 	Std Reward: 2.1354156504062622




 15%|███████▉                                            | 759/5001 [00:21<02:02, 34.57it/s][A
 15%|███████▉                                            | 763/5001 [00:21<02:02, 34.68it/s][A
 15%|███████▉                                            | 767/5001 [00:21<01:59, 35.50it/s][A
 15%|████████                                            | 771/5001 [00:21<01:59, 35.36it/s][A
 15%|████████                                            | 775/5001 [00:21<01:58, 35.75it/s][A
 16%|████████                                            | 779/5001 [00:21<02:01, 34.88it/s][A
 16%|████████▏                                           | 783/5001 [00:22<02:12, 31.83it/s][A
 16%|████████▏                                           | 787/5001 [00:22<02:11, 32.04it/s][A
 16%|████████▏                                           | 792/5001 [00:22<01:58, 35.43it/s][A
 16%|████████▎                                           | 796/5001 [00:22<01:58, 35.58it/s][A
 16%|████████▎                         

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 2.9681644159311658
 	Mean Reward: 13.8
 	Std Reward: 4.915282290977803




 20%|██████████▎                                        | 1011/5001 [01:37<01:55, 34.40it/s][A
 20%|██████████▎                                        | 1015/5001 [01:37<01:54, 34.91it/s][A
 20%|██████████▍                                        | 1019/5001 [01:37<01:53, 35.06it/s][A
 20%|██████████▍                                        | 1024/5001 [01:37<01:45, 37.86it/s][A
 21%|██████████▍                                        | 1028/5001 [01:37<01:46, 37.31it/s][A
 21%|██████████▌                                        | 1032/5001 [01:38<01:50, 35.97it/s][A
 21%|██████████▌                                        | 1036/5001 [01:38<01:51, 35.47it/s][A
 21%|██████████▌                                        | 1040/5001 [01:38<01:52, 35.12it/s][A
 21%|██████████▋                                        | 1044/5001 [01:38<01:55, 34.24it/s][A
 21%|██████████▋                                        | 1048/5001 [01:38<01:51, 35.39it/s][A
 21%|██████████▋                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.5
 	SES: 0
 	Learning Stability: 2.5612496949731396
 	Mean Reward: 14.9
 	Std Reward: 3.3896902513356584




 25%|████████████▊                                      | 1260/5001 [01:44<01:57, 31.93it/s][A
 25%|████████████▉                                      | 1264/5001 [01:44<02:09, 28.96it/s][A
 25%|████████████▉                                      | 1267/5001 [01:44<02:14, 27.70it/s][A
 25%|████████████▉                                      | 1270/5001 [01:44<02:13, 27.98it/s][A
 25%|████████████▉                                      | 1273/5001 [01:45<02:15, 27.50it/s][A
 26%|█████████████                                      | 1277/5001 [01:45<02:04, 29.83it/s][A
 26%|█████████████                                      | 1281/5001 [01:45<01:56, 31.87it/s][A
 26%|█████████████                                      | 1285/5001 [01:45<02:00, 30.89it/s][A
 26%|█████████████▏                                     | 1289/5001 [01:45<01:58, 31.24it/s][A
 26%|█████████████▏                                     | 1293/5001 [01:45<01:56, 31.92it/s][A
 26%|█████████████▏                    

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 4.1182520563948
 	Mean Reward: 14.8
 	Std Reward: 2.6




 30%|███████████████▍                                   | 1508/5001 [01:52<01:57, 29.66it/s][A
 30%|███████████████▍                                   | 1512/5001 [01:52<01:52, 30.95it/s][A
 30%|███████████████▍                                   | 1516/5001 [01:53<01:55, 30.23it/s][A
 30%|███████████████▌                                   | 1520/5001 [01:53<01:54, 30.40it/s][A
 30%|███████████████▌                                   | 1524/5001 [01:53<01:53, 30.65it/s][A
 31%|███████████████▌                                   | 1528/5001 [01:53<01:53, 30.60it/s][A
 31%|███████████████▌                                   | 1532/5001 [01:53<01:55, 30.05it/s][A
 31%|███████████████▋                                   | 1536/5001 [01:53<02:02, 28.31it/s][A
 31%|███████████████▋                                   | 1539/5001 [01:53<02:02, 28.18it/s][A
 31%|███████████████▋                                   | 1542/5001 [01:53<02:07, 27.04it/s][A
 31%|███████████████▊                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 16.566230711903057
 	Mean Reward: 47.7
 	Std Reward: 16.757386431063768



 35%|█████████████████▉                                 | 1755/5001 [02:04<04:15, 12.70it/s][A
 35%|█████████████████▉                                 | 1757/5001 [02:04<04:41, 11.51it/s][A
 35%|█████████████████▉                                 | 1759/5001 [02:04<04:57, 10.91it/s][A
 35%|█████████████████▉                                 | 1761/5001 [02:05<05:09, 10.46it/s][A
 35%|█████████████████▉                                 | 1763/5001 [02:05<05:04, 10.62it/s][A
 35%|█████████████████▉                                 | 1765/5001 [02:05<05:03, 10.65it/s][A
 35%|██████████████████                                 | 1767/5001 [02:05<05:08, 10.49it/s][A
 35%|██████████████████                                 | 1769/5001 [02:05<05:06, 10.56it/s][A
 35%|██████████████████                                 | 1771/5001 [02:05<05:09, 10.45it/s][A
 35%|██████████████████                                 | 1773/5001 [02:06<05:05, 10.56it/s][A
 35%|██████████████████                 

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 9.191844211038392
 	Mean Reward: 83.5
 	Std Reward: 12.018735374406077




 40%|████████████████████▍                              | 2003/5001 [02:34<08:03,  6.20it/s][A
 40%|████████████████████▍                              | 2004/5001 [02:34<08:06,  6.16it/s][A
 40%|████████████████████▍                              | 2005/5001 [02:35<08:17,  6.03it/s][A
 40%|████████████████████▍                              | 2006/5001 [02:35<08:54,  5.60it/s][A
 40%|████████████████████▍                              | 2007/5001 [02:35<08:24,  5.93it/s][A
 40%|████████████████████▍                              | 2008/5001 [02:35<07:57,  6.27it/s][A
 40%|████████████████████▍                              | 2009/5001 [02:35<07:38,  6.52it/s][A
 40%|████████████████████▍                              | 2010/5001 [02:35<07:11,  6.93it/s][A
 40%|████████████████████▌                              | 2012/5001 [02:36<06:37,  7.52it/s][A
 40%|████████████████████▌                              | 2013/5001 [02:36<07:03,  7.05it/s][A
 40%|████████████████████▌             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 18.793615937333612
 	Mean Reward: 100.4
 	Std Reward: 15.988746042138512




 45%|██████████████████████▉                            | 2253/5001 [03:41<09:06,  5.03it/s][A
 45%|██████████████████████▉                            | 2254/5001 [03:42<09:05,  5.04it/s][A
 45%|██████████████████████▉                            | 2255/5001 [03:42<09:27,  4.84it/s][A
 45%|███████████████████████                            | 2256/5001 [03:42<09:13,  4.96it/s][A
 45%|███████████████████████                            | 2257/5001 [03:42<09:02,  5.06it/s][A
 45%|███████████████████████                            | 2258/5001 [03:42<08:57,  5.10it/s][A
 45%|███████████████████████                            | 2259/5001 [03:43<09:06,  5.01it/s][A
 45%|███████████████████████                            | 2260/5001 [03:43<09:04,  5.04it/s][A
 45%|███████████████████████                            | 2261/5001 [03:43<09:11,  4.97it/s][A
 45%|███████████████████████                            | 2262/5001 [03:43<09:02,  5.05it/s][A
 45%|███████████████████████           

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 15.908802594790092
 	Mean Reward: 136.2
 	Std Reward: 28.72211691362599




 50%|█████████████████████████▌                         | 2502/5001 [04:36<10:24,  4.00it/s][A
 50%|█████████████████████████▌                         | 2503/5001 [04:36<09:59,  4.16it/s][A
 50%|█████████████████████████▌                         | 2504/5001 [04:36<09:54,  4.20it/s][A
 50%|█████████████████████████▌                         | 2505/5001 [04:37<10:32,  3.95it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [04:37<10:23,  4.00it/s][A
 50%|█████████████████████████▌                         | 2507/5001 [04:37<09:39,  4.30it/s][A
 50%|█████████████████████████▌                         | 2508/5001 [04:37<09:09,  4.54it/s][A
 50%|█████████████████████████▌                         | 2509/5001 [04:37<08:33,  4.86it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [04:38<08:16,  5.02it/s][A
 50%|█████████████████████████▌                         | 2511/5001 [04:38<08:06,  5.12it/s][A
 50%|█████████████████████████▌        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 72.52420285670156
 	Mean Reward: 198.5
 	Std Reward: 87.02786909950169




 55%|████████████████████████████                       | 2752/5001 [05:38<12:10,  3.08it/s][A
 55%|████████████████████████████                       | 2753/5001 [05:39<13:20,  2.81it/s][A
 55%|████████████████████████████                       | 2754/5001 [05:39<12:43,  2.94it/s][A
 55%|████████████████████████████                       | 2755/5001 [05:39<11:21,  3.30it/s][A
 55%|████████████████████████████                       | 2756/5001 [05:40<09:58,  3.75it/s][A
 55%|████████████████████████████                       | 2757/5001 [05:40<09:34,  3.91it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [05:40<08:34,  4.36it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [05:40<07:51,  4.75it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [05:40<07:25,  5.03it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [05:40<07:07,  5.23it/s][A
 55%|████████████████████████████▏     

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 83.55501181856178
 	Mean Reward: 107.6
 	Std Reward: 57.01613806634048




 60%|██████████████████████████████▌                    | 3002/5001 [06:48<08:27,  3.94it/s][A
 60%|██████████████████████████████▌                    | 3003/5001 [06:48<08:34,  3.88it/s][A
 60%|██████████████████████████████▋                    | 3004/5001 [06:48<08:39,  3.84it/s][A
 60%|██████████████████████████████▋                    | 3005/5001 [06:48<07:55,  4.20it/s][A
 60%|██████████████████████████████▋                    | 3006/5001 [06:48<07:32,  4.41it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [06:49<07:24,  4.49it/s][A
 60%|██████████████████████████████▋                    | 3008/5001 [06:49<07:25,  4.48it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [06:49<06:48,  4.88it/s][A
 60%|██████████████████████████████▋                    | 3010/5001 [06:49<06:34,  5.05it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [06:49<06:36,  5.02it/s][A
 60%|██████████████████████████████▋   

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 12.895347998406248
 	Mean Reward: 72.6
 	Std Reward: 10.50904372433572



 65%|█████████████████████████████████▏                 | 3253/5001 [07:58<04:53,  5.96it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [07:58<04:52,  5.98it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [07:58<04:55,  5.90it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [07:58<05:11,  5.61it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [07:59<04:59,  5.83it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [07:59<04:42,  6.18it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [07:59<04:29,  6.46it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [07:59<04:10,  6.94it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [07:59<04:41,  6.19it/s][A
 65%|█████████████████████████████████▎                 | 3262/5001 [07:59<05:09,  5.62it/s][A
 65%|█████████████████████████████████▎ 

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 72.82726137923902
 	Mean Reward: 190.9
 	Std Reward: 88.11293889094837




 70%|███████████████████████████████████▋               | 3502/5001 [09:13<09:21,  2.67it/s][A
 70%|███████████████████████████████████▋               | 3503/5001 [09:13<08:39,  2.88it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [09:13<07:26,  3.35it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [09:13<06:40,  3.74it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [09:14<06:18,  3.95it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [09:14<06:10,  4.03it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [09:14<06:36,  3.76it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [09:14<06:09,  4.04it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [09:15<06:01,  4.13it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [09:15<05:48,  4.27it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 96.21829347894298
 	Mean Reward: 180.4
 	Std Reward: 60.15845742703182




 75%|██████████████████████████████████████▎            | 3752/5001 [10:18<05:08,  4.04it/s][A
 75%|██████████████████████████████████████▎            | 3753/5001 [10:18<04:54,  4.24it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [10:19<05:03,  4.11it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [10:19<05:17,  3.92it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [10:19<05:45,  3.61it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [10:19<05:52,  3.53it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [10:20<05:45,  3.60it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [10:20<05:52,  3.52it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [10:20<05:22,  3.85it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [10:20<05:11,  3.99it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 18.12070638799713
 	Mean Reward: 75.6
 	Std Reward: 11.901260437449471




 80%|████████████████████████████████████████▊          | 4003/5001 [11:04<03:08,  5.29it/s][A
 80%|████████████████████████████████████████▊          | 4004/5001 [11:05<03:24,  4.88it/s][A
 80%|████████████████████████████████████████▊          | 4005/5001 [11:05<02:55,  5.69it/s][A
 80%|████████████████████████████████████████▊          | 4007/5001 [11:05<02:17,  7.21it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [11:05<02:02,  8.07it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [11:05<02:02,  8.12it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [11:05<02:18,  7.17it/s][A
 80%|████████████████████████████████████████▉          | 4012/5001 [11:06<02:37,  6.28it/s][A
 80%|████████████████████████████████████████▉          | 4013/5001 [11:06<02:30,  6.58it/s][A
 80%|████████████████████████████████████████▉          | 4014/5001 [11:06<02:42,  6.07it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 79.37008252484057
 	Mean Reward: 150.7
 	Std Reward: 74.16609737609227




 85%|███████████████████████████████████████████▎       | 4253/5001 [11:53<02:11,  5.70it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [11:53<02:14,  5.57it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [11:54<02:10,  5.71it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [11:54<01:58,  6.31it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [11:54<01:46,  7.00it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [11:54<01:57,  6.30it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [11:54<02:20,  5.30it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [11:55<02:25,  5.08it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [11:55<02:26,  5.04it/s][A
 85%|███████████████████████████████████████████▍       | 4262/5001 [11:55<02:28,  4.96it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 16.78570820668583
 	Mean Reward: 206.3
 	Std Reward: 56.63223463717461




 90%|█████████████████████████████████████████████▉     | 4502/5001 [34:52<02:07,  3.91it/s][A
 90%|█████████████████████████████████████████████▉     | 4503/5001 [34:52<02:16,  3.65it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [34:52<02:14,  3.71it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [34:52<02:15,  3.67it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [34:53<02:18,  3.59it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [34:53<02:15,  3.65it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [34:53<02:08,  3.83it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [34:53<02:06,  3.88it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [34:54<02:15,  3.64it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [34:54<02:13,  3.68it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 38.36938884058488
 	Mean Reward: 179.2
 	Std Reward: 37.74599316483804



 95%|████████████████████████████████████████████████▍  | 4752/5001 [35:54<00:59,  4.18it/s][A
 95%|████████████████████████████████████████████████▍  | 4753/5001 [35:54<00:57,  4.28it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [35:54<00:57,  4.29it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [35:55<01:00,  4.07it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [35:55<01:02,  3.93it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [35:55<01:03,  3.86it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [35:55<01:07,  3.63it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [35:56<01:04,  3.73it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [35:56<01:07,  3.55it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [35:56<01:03,  3.75it/s][A
 95%|███████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 43.51367601111173
 	Mean Reward: 121.9
 	Std Reward: 19.325889371514055



 50%|█████████████████████████▌                         | 2/4 [1:04:28<1:06:18, 1989.20s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 9/5001 [00:00<00:58, 85.36it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.9999880000000048
 	SES: 1.0
 	Learning Stability: 1.2489995996796797
 	Mean Reward: 7.1
 	Std Reward: 0.7000000000000001




  0%|▏                                                    | 18/5001 [00:00<00:59, 84.37it/s][A
  1%|▎                                                    | 27/5001 [00:00<00:58, 84.58it/s][A
  1%|▍                                                    | 36/5001 [00:00<00:57, 86.26it/s][A
  1%|▍                                                    | 45/5001 [00:00<00:57, 86.62it/s][A
  1%|▌                                                    | 54/5001 [00:00<00:57, 86.51it/s][A
  1%|▋                                                    | 63/5001 [00:00<00:57, 85.79it/s][A
  1%|▊                                                    | 72/5001 [00:00<00:56, 86.50it/s][A
  2%|▊                                                    | 81/5001 [00:00<00:57, 85.43it/s][A
  2%|▉                                                    | 90/5001 [00:01<01:01, 80.10it/s][A
  2%|█                                                    | 99/5001 [00:01<01:02, 78.63it/s][A
  2%|█                                 

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 12.747156545677157
 	Mean Reward: 13.6
 	Std Reward: 7.172168430816442



  5%|██▋                                                 | 263/5001 [00:04<01:27, 54.05it/s][A
  5%|██▊                                                 | 269/5001 [00:04<01:26, 54.75it/s][A
  5%|██▊                                                 | 275/5001 [00:04<01:24, 55.69it/s][A
  6%|██▉                                                 | 281/5001 [00:04<01:26, 54.48it/s][A
  6%|██▉                                                 | 287/5001 [00:04<01:26, 54.62it/s][A
  6%|███                                                 | 293/5001 [00:04<01:24, 55.47it/s][A
  6%|███                                                 | 299/5001 [00:04<01:24, 55.81it/s][A
  6%|███▏                                                | 305/5001 [00:04<01:24, 55.35it/s][A
  6%|███▏                                                | 311/5001 [00:04<01:24, 55.48it/s][A
  6%|███▎                                                | 317/5001 [00:05<01:26, 54.02it/s][A
  6%|███▎                               

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.999992000000003
 	SES: 0
 	Learning Stability: 7.472616676907761
 	Mean Reward: 12.7
 	Std Reward: 6.372597586541928




 10%|█████▎                                              | 516/5001 [00:09<01:28, 50.73it/s][A
 10%|█████▍                                              | 522/5001 [00:09<01:27, 51.03it/s][A
 11%|█████▍                                              | 528/5001 [00:09<01:27, 51.38it/s][A
 11%|█████▌                                              | 534/5001 [00:09<01:43, 43.31it/s][A
 11%|█████▌                                              | 539/5001 [00:09<01:56, 38.29it/s][A
 11%|█████▋                                              | 544/5001 [00:09<02:07, 34.86it/s][A
 11%|█████▋                                              | 548/5001 [00:09<02:15, 32.78it/s][A
 11%|█████▋                                              | 552/5001 [00:10<02:19, 31.88it/s][A
 11%|█████▊                                              | 556/5001 [00:10<02:44, 27.09it/s][A
 11%|█████▊                                              | 559/5001 [00:10<02:58, 24.92it/s][A
 11%|█████▊                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 27.964262908219126
 	Mean Reward: 56.2
 	Std Reward: 27.82013659204426




 15%|███████▊                                            | 756/5001 [00:20<04:29, 15.76it/s][A
 15%|███████▉                                            | 758/5001 [00:20<04:22, 16.19it/s][A
 15%|███████▉                                            | 760/5001 [00:21<04:15, 16.59it/s][A
 15%|███████▉                                            | 762/5001 [00:21<04:27, 15.87it/s][A
 15%|███████▉                                            | 764/5001 [00:21<04:33, 15.47it/s][A
 15%|███████▉                                            | 766/5001 [00:21<04:27, 15.81it/s][A
 15%|███████▉                                            | 768/5001 [00:21<04:47, 14.74it/s][A
 15%|████████                                            | 770/5001 [00:21<04:49, 14.64it/s][A
 15%|████████                                            | 772/5001 [00:21<04:51, 14.51it/s][A
 15%|████████                                            | 774/5001 [00:22<04:44, 14.84it/s][A
 16%|████████                          

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 15.780050697003478
 	Mean Reward: 87.1
 	Std Reward: 11.317685275708985




 20%|██████████▏                                        | 1003/5001 [00:43<07:09,  9.32it/s][A
 20%|██████████▏                                        | 1004/5001 [00:43<07:17,  9.13it/s][A
 20%|██████████▎                                        | 1006/5001 [00:43<06:55,  9.61it/s][A
 20%|██████████▎                                        | 1007/5001 [00:43<06:59,  9.52it/s][A
 20%|██████████▎                                        | 1008/5001 [00:43<07:14,  9.19it/s][A
 20%|██████████▎                                        | 1009/5001 [00:43<07:11,  9.24it/s][A
 20%|██████████▎                                        | 1010/5001 [00:44<07:09,  9.30it/s][A
 20%|██████████▎                                        | 1011/5001 [00:44<07:09,  9.28it/s][A
 20%|██████████▎                                        | 1012/5001 [00:44<07:02,  9.44it/s][A
 20%|██████████▎                                        | 1014/5001 [00:44<06:53,  9.65it/s][A
 20%|██████████▎                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 22.605530296810116
 	Mean Reward: 83.4
 	Std Reward: 28.25668062600418



 25%|████████████▊                                      | 1253/5001 [01:11<07:08,  8.75it/s][A
 25%|████████████▊                                      | 1254/5001 [01:11<07:08,  8.75it/s][A
 25%|████████████▊                                      | 1255/5001 [01:11<07:10,  8.70it/s][A
 25%|████████████▊                                      | 1256/5001 [01:11<07:06,  8.78it/s][A
 25%|████████████▊                                      | 1258/5001 [01:12<06:44,  9.24it/s][A
 25%|████████████▊                                      | 1259/5001 [01:12<06:49,  9.13it/s][A
 25%|████████████▊                                      | 1261/5001 [01:12<06:20,  9.84it/s][A
 25%|████████████▉                                      | 1263/5001 [01:12<06:09, 10.11it/s][A
 25%|████████████▉                                      | 1265/5001 [01:12<05:55, 10.52it/s][A
 25%|████████████▉                                      | 1267/5001 [01:13<05:51, 10.63it/s][A
 25%|████████████▉                      

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 26.67583175835385
 	Mean Reward: 74.6
 	Std Reward: 27.481630228208807




 30%|███████████████▎                                   | 1505/5001 [01:40<05:46, 10.09it/s][A
 30%|███████████████▎                                   | 1507/5001 [01:40<05:50,  9.96it/s][A
 30%|███████████████▍                                   | 1509/5001 [01:40<05:43, 10.17it/s][A
 30%|███████████████▍                                   | 1511/5001 [01:40<05:37, 10.35it/s][A
 30%|███████████████▍                                   | 1513/5001 [01:40<06:22,  9.12it/s][A
 30%|███████████████▍                                   | 1514/5001 [01:41<06:24,  9.08it/s][A
 30%|███████████████▍                                   | 1515/5001 [01:41<06:41,  8.68it/s][A
 30%|███████████████▍                                   | 1516/5001 [01:41<06:54,  8.40it/s][A
 30%|███████████████▍                                   | 1517/5001 [01:41<07:08,  8.13it/s][A
 30%|███████████████▍                                   | 1518/5001 [01:41<07:11,  8.08it/s][A
 30%|███████████████▍                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 38.281065815883444
 	Mean Reward: 127.4
 	Std Reward: 36.0643868657156




 35%|█████████████████▉                                 | 1753/5001 [02:11<08:50,  6.13it/s][A
 35%|█████████████████▉                                 | 1754/5001 [02:11<09:08,  5.92it/s][A
 35%|█████████████████▉                                 | 1755/5001 [02:11<08:57,  6.04it/s][A
 35%|█████████████████▉                                 | 1756/5001 [02:11<08:18,  6.50it/s][A
 35%|█████████████████▉                                 | 1757/5001 [02:11<07:44,  6.98it/s][A
 35%|█████████████████▉                                 | 1758/5001 [02:11<07:41,  7.03it/s][A
 35%|█████████████████▉                                 | 1759/5001 [02:12<07:29,  7.22it/s][A
 35%|█████████████████▉                                 | 1760/5001 [02:12<07:19,  7.38it/s][A
 35%|█████████████████▉                                 | 1761/5001 [02:12<07:11,  7.50it/s][A
 35%|█████████████████▉                                 | 1762/5001 [02:12<06:47,  7.94it/s][A
 35%|█████████████████▉                

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 28.647687515748984
 	Mean Reward: 79.9
 	Std Reward: 14.074444926887882




 40%|████████████████████▍                              | 2003/5001 [02:40<05:05,  9.80it/s][A
 40%|████████████████████▍                              | 2004/5001 [02:41<05:21,  9.32it/s][A
 40%|████████████████████▍                              | 2005/5001 [02:41<05:17,  9.44it/s][A
 40%|████████████████████▍                              | 2006/5001 [02:41<05:45,  8.68it/s][A
 40%|████████████████████▍                              | 2007/5001 [02:41<05:54,  8.45it/s][A
 40%|████████████████████▍                              | 2008/5001 [02:41<06:12,  8.04it/s][A
 40%|████████████████████▍                              | 2009/5001 [02:41<06:16,  7.95it/s][A
 40%|████████████████████▍                              | 2010/5001 [02:41<06:00,  8.30it/s][A
 40%|████████████████████▌                              | 2011/5001 [02:41<05:51,  8.51it/s][A
 40%|████████████████████▌                              | 2012/5001 [02:41<05:53,  8.44it/s][A
 40%|████████████████████▌             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 23.532105728132365
 	Mean Reward: 81.8
 	Std Reward: 30.853849030550467




 45%|██████████████████████▉                            | 2253/5001 [03:10<04:52,  9.40it/s][A
 45%|██████████████████████▉                            | 2254/5001 [03:10<04:49,  9.49it/s][A
 45%|██████████████████████▉                            | 2255/5001 [03:10<04:47,  9.56it/s][A
 45%|███████████████████████                            | 2257/5001 [03:11<04:38,  9.84it/s][A
 45%|███████████████████████                            | 2259/5001 [03:11<04:46,  9.57it/s][A
 45%|███████████████████████                            | 2260/5001 [03:11<04:51,  9.41it/s][A
 45%|███████████████████████                            | 2261/5001 [03:11<05:05,  8.97it/s][A
 45%|███████████████████████                            | 2262/5001 [03:11<05:03,  9.02it/s][A
 45%|███████████████████████                            | 2264/5001 [03:11<04:54,  9.30it/s][A
 45%|███████████████████████                            | 2265/5001 [03:12<04:56,  9.24it/s][A
 45%|███████████████████████           

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 42.176889406403596
 	Mean Reward: 96.5
 	Std Reward: 26.97869529832753




 50%|█████████████████████████▌                         | 2504/5001 [03:37<04:27,  9.33it/s][A
 50%|█████████████████████████▌                         | 2505/5001 [03:37<04:23,  9.46it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [03:37<04:21,  9.56it/s][A
 50%|█████████████████████████▌                         | 2507/5001 [03:37<04:27,  9.32it/s][A
 50%|█████████████████████████▌                         | 2509/5001 [03:37<04:17,  9.67it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [03:37<04:21,  9.53it/s][A
 50%|█████████████████████████▌                         | 2512/5001 [03:38<04:15,  9.75it/s][A
 50%|█████████████████████████▋                         | 2513/5001 [03:38<04:25,  9.38it/s][A
 50%|█████████████████████████▋                         | 2515/5001 [03:38<04:18,  9.64it/s][A
 50%|█████████████████████████▋                         | 2516/5001 [03:38<04:15,  9.71it/s][A
 50%|█████████████████████████▋        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 19.458674158328463
 	Mean Reward: 86.7
 	Std Reward: 25.675085199469155



 55%|████████████████████████████                       | 2753/5001 [04:04<03:57,  9.48it/s][A
 55%|████████████████████████████                       | 2754/5001 [04:05<04:08,  9.03it/s][A
 55%|████████████████████████████                       | 2755/5001 [04:05<04:04,  9.20it/s][A
 55%|████████████████████████████                       | 2756/5001 [04:05<04:07,  9.08it/s][A
 55%|████████████████████████████                       | 2757/5001 [04:05<04:05,  9.14it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [04:05<04:01,  9.30it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [04:05<03:59,  9.36it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [04:05<03:59,  9.35it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [04:05<04:01,  9.28it/s][A
 55%|████████████████████████████▏                      | 2762/5001 [04:05<04:11,  8.89it/s][A
 55%|████████████████████████████▏      

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 31.76853789521954
 	Mean Reward: 106.2
 	Std Reward: 44.863793865432285




 60%|██████████████████████████████▋                    | 3005/5001 [04:32<03:17, 10.12it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [04:32<03:30,  9.48it/s][A
 60%|██████████████████████████████▋                    | 3008/5001 [04:32<03:38,  9.13it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [04:32<03:47,  8.77it/s][A
 60%|██████████████████████████████▋                    | 3010/5001 [04:32<03:42,  8.95it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [04:32<03:43,  8.90it/s][A
 60%|██████████████████████████████▋                    | 3012/5001 [04:33<03:42,  8.92it/s][A
 60%|██████████████████████████████▋                    | 3013/5001 [04:33<03:52,  8.57it/s][A
 60%|██████████████████████████████▋                    | 3014/5001 [04:33<03:58,  8.33it/s][A
 60%|██████████████████████████████▋                    | 3015/5001 [04:33<03:55,  8.44it/s][A
 60%|██████████████████████████████▊   

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 26.203244073969163
 	Mean Reward: 72.5
 	Std Reward: 10.604244433244643




 65%|█████████████████████████████████▏                 | 3253/5001 [05:01<03:43,  7.81it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [05:01<03:43,  7.83it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [05:01<03:40,  7.90it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [05:01<03:40,  7.92it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [05:01<03:35,  8.09it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [05:01<03:34,  8.14it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [05:01<03:29,  8.32it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [05:02<03:23,  8.56it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [05:02<03:26,  8.43it/s][A
 65%|█████████████████████████████████▎                 | 3262/5001 [05:02<03:26,  8.44it/s][A
 65%|█████████████████████████████████▎

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 21.485809270306763
 	Mean Reward: 77.0
 	Std Reward: 21.222629431811693




 70%|███████████████████████████████████▋               | 3503/5001 [05:27<03:01,  8.26it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [05:27<02:58,  8.37it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [05:27<02:50,  8.78it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [05:27<02:51,  8.72it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [05:27<02:59,  8.34it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [05:28<02:58,  8.34it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [05:28<03:04,  8.08it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [05:28<02:56,  8.47it/s][A
 70%|███████████████████████████████████▊               | 3512/5001 [05:28<02:39,  9.36it/s][A
 70%|███████████████████████████████████▊               | 3513/5001 [05:28<02:37,  9.44it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 25.087845662790578
 	Mean Reward: 42.7
 	Std Reward: 37.41136191052125




 75%|██████████████████████████████████████▎            | 3753/5001 [05:58<02:12,  9.45it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [05:58<02:16,  9.11it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [05:58<02:17,  9.04it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [05:58<02:19,  8.91it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [05:58<02:19,  8.94it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [05:58<02:24,  8.60it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [05:58<02:30,  8.26it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [05:58<02:37,  7.87it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [05:59<02:30,  8.24it/s][A
 75%|██████████████████████████████████████▎            | 3762/5001 [05:59<02:27,  8.38it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.64331697709324
 	Mean Reward: 84.3
 	Std Reward: 19.819434906172276




 80%|████████████████████████████████████████▊          | 4003/5001 [06:26<02:08,  7.79it/s][A
 80%|████████████████████████████████████████▊          | 4004/5001 [06:27<02:16,  7.33it/s][A
 80%|████████████████████████████████████████▊          | 4005/5001 [06:27<02:21,  7.05it/s][A
 80%|████████████████████████████████████████▊          | 4006/5001 [06:27<02:22,  6.98it/s][A
 80%|████████████████████████████████████████▊          | 4007/5001 [06:27<02:31,  6.56it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [06:27<02:30,  6.61it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [06:27<02:38,  6.27it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [06:27<02:33,  6.46it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [06:28<02:33,  6.43it/s][A
 80%|████████████████████████████████████████▉          | 4012/5001 [06:28<02:33,  6.44it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0.8333333333333334
 	Learning Stability: 21.2602916254693
 	Mean Reward: 87.3
 	Std Reward: 17.22817459860446




 85%|███████████████████████████████████████████▎       | 4253/5001 [06:56<01:32,  8.10it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [06:56<01:30,  8.22it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [06:56<01:28,  8.45it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [06:57<01:28,  8.38it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [06:57<01:33,  7.98it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [06:57<01:31,  8.16it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [06:57<01:29,  8.25it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [06:57<01:32,  7.99it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [06:57<01:39,  7.46it/s][A
 85%|███████████████████████████████████████████▍       | 4262/5001 [06:57<01:47,  6.86it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 26.184155514356387
 	Mean Reward: 101.0
 	Std Reward: 21.180179413782124




 90%|█████████████████████████████████████████████▉     | 4503/5001 [07:37<01:06,  7.54it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [07:37<01:06,  7.44it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [07:38<01:09,  7.09it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [07:38<01:09,  7.10it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [07:38<01:08,  7.18it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [07:38<01:08,  7.18it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [07:38<01:11,  6.91it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [07:38<01:12,  6.77it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [07:38<01:12,  6.72it/s][A
 90%|██████████████████████████████████████████████     | 4512/5001 [07:39<01:11,  6.84it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.15425640504694
 	Mean Reward: 85.4
 	Std Reward: 7.787168933572713




 95%|████████████████████████████████████████████████▍  | 4753/5001 [08:14<00:33,  7.46it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [08:14<00:32,  7.71it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [08:14<00:32,  7.51it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [08:14<00:33,  7.35it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [08:15<00:31,  7.81it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [08:15<00:30,  8.09it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [08:15<00:30,  7.86it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [08:15<00:33,  7.23it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [08:15<00:34,  7.05it/s][A
 95%|████████████████████████████████████████████████▌  | 4762/5001 [08:15<00:34,  7.00it/s][A
 95%|██████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 20.111936754077167
 	Mean Reward: 114.2
 	Std Reward: 10.380751417888783



 75%|███████████████████████████████████████▊             | 3/4 [1:13:23<22:05, 1325.17s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 8/5001 [00:00<01:08, 72.86it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.9996400626291155
 	SES: 1.0
 	Learning Stability: 0.7000000000000001
 	Mean Reward: 7.5
 	Std Reward: 0.6708203932499369




  0%|▏                                                    | 16/5001 [00:00<01:07, 74.20it/s][A
  0%|▎                                                    | 24/5001 [00:00<01:04, 76.74it/s][A
  1%|▎                                                    | 33/5001 [00:00<01:03, 77.83it/s][A
  1%|▍                                                    | 41/5001 [00:00<01:03, 77.51it/s][A
  1%|▌                                                    | 50/5001 [00:00<01:02, 79.01it/s][A
  1%|▌                                                    | 58/5001 [00:00<01:02, 78.91it/s][A
  1%|▋                                                    | 67/5001 [00:00<01:01, 80.28it/s][A
  2%|▊                                                    | 76/5001 [00:00<01:01, 80.55it/s][A
  2%|▉                                                    | 85/5001 [00:01<01:00, 81.15it/s][A
  2%|▉                                                    | 94/5001 [00:01<01:00, 81.58it/s][A
  2%|█                                 

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.9996400626291155
 	SES: 1.0
 	Learning Stability: 1.9723082923316022
 	Mean Reward: 7.3
 	Std Reward: 1.1




  5%|██▊                                                 | 270/5001 [00:03<01:02, 75.81it/s][A
  6%|██▉                                                 | 279/5001 [00:03<01:00, 78.33it/s][A
  6%|██▉                                                 | 287/5001 [00:03<01:00, 77.58it/s][A
  6%|███                                                 | 295/5001 [00:03<01:01, 76.06it/s][A
  6%|███▏                                                | 303/5001 [00:03<01:02, 74.95it/s][A
  6%|███▏                                                | 311/5001 [00:03<01:02, 75.42it/s][A
  6%|███▎                                                | 319/5001 [00:04<01:04, 72.70it/s][A
  7%|███▍                                                | 327/5001 [00:04<01:06, 69.93it/s][A
  7%|███▍                                                | 335/5001 [00:04<01:09, 67.51it/s][A
  7%|███▌                                                | 342/5001 [00:04<01:10, 66.54it/s][A
  7%|███▋                              

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.9996400619093748
 	SES: 0
 	Learning Stability: 2.891366458960192
 	Mean Reward: 10.7
 	Std Reward: 2.8653097563788803




 10%|█████▍                                              | 518/5001 [00:07<01:14, 60.46it/s][A
 10%|█████▍                                              | 525/5001 [00:07<01:11, 62.38it/s][A
 11%|█████▌                                              | 532/5001 [00:07<01:12, 61.85it/s][A
 11%|█████▌                                              | 539/5001 [00:07<01:11, 62.43it/s][A
 11%|█████▋                                              | 546/5001 [00:07<01:12, 61.44it/s][A
 11%|█████▊                                              | 553/5001 [00:07<01:11, 61.95it/s][A
 11%|█████▊                                              | 560/5001 [00:07<01:11, 62.01it/s][A
 11%|█████▉                                              | 567/5001 [00:07<01:12, 60.92it/s][A
 11%|█████▉                                              | 574/5001 [00:07<01:12, 61.36it/s][A
 12%|██████                                              | 581/5001 [00:08<01:12, 60.76it/s][A
 12%|██████                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.9996400619093748
 	SES: 0
 	Learning Stability: 2.537715508089904
 	Mean Reward: 9.4
 	Std Reward: 2.65329983228432




 15%|███████▉                                            | 768/5001 [00:11<01:14, 56.74it/s][A
 15%|████████                                            | 775/5001 [00:11<01:13, 57.79it/s][A
 16%|████████                                            | 781/5001 [00:11<01:14, 57.00it/s][A
 16%|████████▏                                           | 787/5001 [00:11<01:14, 56.78it/s][A
 16%|████████▏                                           | 793/5001 [00:11<01:13, 56.92it/s][A
 16%|████████▎                                           | 799/5001 [00:11<01:16, 54.93it/s][A
 16%|████████▎                                           | 805/5001 [00:11<01:16, 55.05it/s][A
 16%|████████▍                                           | 811/5001 [00:12<01:18, 53.13it/s][A
 16%|████████▍                                           | 817/5001 [00:12<01:20, 51.94it/s][A
 16%|████████▌                                           | 823/5001 [00:12<01:23, 50.17it/s][A
 17%|████████▌                         

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.9996400626291155
 	SES: 1.0
 	Learning Stability: 2.5612496949731396
 	Mean Reward: 11.2
 	Std Reward: 3.682390527904394




 20%|██████████▎                                        | 1012/5001 [00:16<01:25, 46.56it/s][A
 20%|██████████▎                                        | 1017/5001 [00:16<01:33, 42.74it/s][A
 20%|██████████▍                                        | 1022/5001 [00:16<01:33, 42.35it/s][A
 21%|██████████▍                                        | 1027/5001 [00:16<01:36, 41.29it/s][A
 21%|██████████▌                                        | 1032/5001 [00:16<01:39, 39.92it/s][A
 21%|██████████▌                                        | 1037/5001 [00:16<01:42, 38.76it/s][A
 21%|██████████▌                                        | 1041/5001 [00:17<01:41, 38.87it/s][A
 21%|██████████▋                                        | 1046/5001 [00:17<01:42, 38.45it/s][A
 21%|██████████▋                                        | 1051/5001 [00:17<01:39, 39.73it/s][A
 21%|██████████▊                                        | 1056/5001 [00:17<01:38, 39.91it/s][A
 21%|██████████▊                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.9996400640685974
 	SES: 0
 	Learning Stability: 7.096477999684069
 	Mean Reward: 16.2
 	Std Reward: 8.863407922464134



 25%|████████████▊                                      | 1262/5001 [00:22<01:38, 38.13it/s][A
 25%|████████████▉                                      | 1266/5001 [00:22<01:38, 37.93it/s][A
 25%|████████████▉                                      | 1270/5001 [00:22<01:41, 36.62it/s][A
 25%|████████████▉                                      | 1274/5001 [00:22<01:41, 36.56it/s][A
 26%|█████████████                                      | 1278/5001 [00:22<01:40, 36.98it/s][A
 26%|█████████████                                      | 1282/5001 [00:23<01:43, 36.01it/s][A
 26%|█████████████                                      | 1286/5001 [00:23<01:51, 33.18it/s][A
 26%|█████████████▏                                     | 1290/5001 [00:23<01:53, 32.84it/s][A
 26%|█████████████▏                                     | 1295/5001 [00:23<01:45, 35.19it/s][A
 26%|█████████████▏                                     | 1299/5001 [00:23<01:42, 36.02it/s][A
 26%|█████████████▎                     

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.9996400647883381
 	SES: 0
 	Learning Stability: 5.1778373863998475
 	Mean Reward: 17.1
 	Std Reward: 7.327346040688948




 30%|███████████████▍                                   | 1512/5001 [00:29<01:46, 32.74it/s][A
 30%|███████████████▍                                   | 1516/5001 [00:29<01:41, 34.22it/s][A
 30%|███████████████▌                                   | 1520/5001 [00:29<01:40, 34.71it/s][A
 30%|███████████████▌                                   | 1524/5001 [00:29<01:40, 34.64it/s][A
 31%|███████████████▌                                   | 1528/5001 [00:29<01:40, 34.68it/s][A
 31%|███████████████▌                                   | 1532/5001 [00:30<01:40, 34.47it/s][A
 31%|███████████████▋                                   | 1536/5001 [00:30<01:39, 34.96it/s][A
 31%|███████████████▋                                   | 1540/5001 [00:30<01:38, 35.07it/s][A
 31%|███████████████▋                                   | 1544/5001 [00:30<01:41, 34.11it/s][A
 31%|███████████████▊                                   | 1548/5001 [00:30<01:41, 33.95it/s][A
 31%|███████████████▊                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 26.490753103677516
 	Mean Reward: 70.4
 	Std Reward: 17.65332829808589




 35%|█████████████████▉                                 | 1756/5001 [00:40<03:54, 13.86it/s][A
 35%|█████████████████▉                                 | 1758/5001 [00:40<04:02, 13.40it/s][A
 35%|█████████████████▉                                 | 1760/5001 [00:41<03:59, 13.51it/s][A
 35%|█████████████████▉                                 | 1762/5001 [00:41<03:48, 14.18it/s][A
 35%|█████████████████▉                                 | 1764/5001 [00:41<03:45, 14.34it/s][A
 35%|██████████████████                                 | 1766/5001 [00:41<03:32, 15.24it/s][A
 35%|██████████████████                                 | 1768/5001 [00:41<03:34, 15.08it/s][A
 35%|██████████████████                                 | 1770/5001 [00:41<03:30, 15.37it/s][A
 35%|██████████████████                                 | 1772/5001 [00:41<03:23, 15.84it/s][A
 35%|██████████████████                                 | 1774/5001 [00:41<03:20, 16.09it/s][A
 36%|██████████████████                

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.9996400647883381
 	SES: 0.75
 	Learning Stability: 19.43733520830466
 	Mean Reward: 89.6
 	Std Reward: 21.317598363793234




 40%|████████████████████▍                              | 2005/5001 [00:59<05:14,  9.54it/s][A
 40%|████████████████████▍                              | 2006/5001 [00:59<05:13,  9.56it/s][A
 40%|████████████████████▍                              | 2008/5001 [01:00<05:14,  9.50it/s][A
 40%|████████████████████▍                              | 2009/5001 [01:00<05:20,  9.34it/s][A
 40%|████████████████████▍                              | 2010/5001 [01:00<05:35,  8.91it/s][A
 40%|████████████████████▌                              | 2012/5001 [01:00<05:16,  9.44it/s][A
 40%|████████████████████▌                              | 2013/5001 [01:00<05:37,  8.85it/s][A
 40%|████████████████████▌                              | 2014/5001 [01:00<05:42,  8.72it/s][A
 40%|████████████████████▌                              | 2015/5001 [01:00<05:37,  8.84it/s][A
 40%|████████████████████▌                              | 2016/5001 [01:01<05:45,  8.64it/s][A
 40%|████████████████████▌             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 6.4031242374328485
 	Mean Reward: 80.2
 	Std Reward: 20.541664976335294



 45%|██████████████████████▉                            | 2254/5001 [01:28<04:51,  9.41it/s][A
 45%|██████████████████████▉                            | 2255/5001 [01:28<05:02,  9.07it/s][A
 45%|███████████████████████                            | 2256/5001 [01:29<04:55,  9.28it/s][A
 45%|███████████████████████                            | 2257/5001 [01:29<04:50,  9.46it/s][A
 45%|███████████████████████                            | 2259/5001 [01:29<04:27, 10.24it/s][A
 45%|███████████████████████                            | 2261/5001 [01:29<04:15, 10.74it/s][A
 45%|███████████████████████                            | 2263/5001 [01:29<03:40, 12.44it/s][A
 45%|███████████████████████                            | 2265/5001 [01:29<03:51, 11.82it/s][A
 45%|███████████████████████                            | 2267/5001 [01:30<04:10, 10.93it/s][A
 45%|███████████████████████▏                           | 2269/5001 [01:30<04:25, 10.29it/s][A
 45%|███████████████████████▏           

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 13.634148304899723
 	Mean Reward: 48.4
 	Std Reward: 20.587374771932435




 50%|█████████████████████████▌                         | 2504/5001 [01:54<03:46, 11.03it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [01:54<03:30, 11.85it/s][A
 50%|█████████████████████████▌                         | 2508/5001 [01:54<03:14, 12.81it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [01:54<03:42, 11.20it/s][A
 50%|█████████████████████████▌                         | 2512/5001 [01:54<03:52, 10.72it/s][A
 50%|█████████████████████████▋                         | 2514/5001 [01:55<04:11,  9.90it/s][A
 50%|█████████████████████████▋                         | 2516/5001 [01:55<04:16,  9.68it/s][A
 50%|█████████████████████████▋                         | 2517/5001 [01:55<04:23,  9.42it/s][A
 50%|█████████████████████████▋                         | 2518/5001 [01:55<04:24,  9.38it/s][A
 50%|█████████████████████████▋                         | 2519/5001 [01:55<04:33,  9.06it/s][A
 50%|█████████████████████████▋        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 23.689871253343693
 	Mean Reward: 89.1
 	Std Reward: 22.549722836434157




 55%|████████████████████████████                       | 2753/5001 [02:21<04:57,  7.56it/s][A
 55%|████████████████████████████                       | 2754/5001 [02:21<04:57,  7.55it/s][A
 55%|████████████████████████████                       | 2755/5001 [02:21<04:58,  7.51it/s][A
 55%|████████████████████████████                       | 2756/5001 [02:21<05:14,  7.15it/s][A
 55%|████████████████████████████                       | 2757/5001 [02:21<05:14,  7.14it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [02:21<05:09,  7.24it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [02:21<04:58,  7.50it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [02:22<04:52,  7.65it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [02:22<04:59,  7.48it/s][A
 55%|████████████████████████████▏                      | 2762/5001 [02:22<05:00,  7.45it/s][A
 55%|████████████████████████████▏     

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 7.887331614684398
 	Mean Reward: 68.7
 	Std Reward: 12.116517651536682




 60%|██████████████████████████████▌                    | 3003/5001 [02:53<03:38,  9.14it/s][A
 60%|██████████████████████████████▋                    | 3004/5001 [02:53<03:37,  9.20it/s][A
 60%|██████████████████████████████▋                    | 3005/5001 [02:53<03:33,  9.36it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [02:53<03:16, 10.17it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [02:54<02:58, 11.17it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [02:54<02:51, 11.59it/s][A
 60%|██████████████████████████████▋                    | 3013/5001 [02:54<02:59, 11.08it/s][A
 60%|██████████████████████████████▋                    | 3015/5001 [02:54<03:05, 10.71it/s][A
 60%|██████████████████████████████▊                    | 3017/5001 [02:54<03:03, 10.83it/s][A
 60%|██████████████████████████████▊                    | 3019/5001 [02:54<03:04, 10.75it/s][A
 60%|██████████████████████████████▊   

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 22.653035116734358
 	Mean Reward: 82.8
 	Std Reward: 18.882796403075474




 65%|█████████████████████████████████▏                 | 3253/5001 [03:20<04:00,  7.27it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [03:20<04:28,  6.50it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [03:20<04:29,  6.47it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [03:21<04:45,  6.11it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [03:21<04:43,  6.16it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [03:21<04:37,  6.29it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [03:21<04:31,  6.42it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [03:21<04:30,  6.44it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [03:21<04:48,  6.04it/s][A
 65%|█████████████████████████████████▎                 | 3262/5001 [03:21<04:43,  6.13it/s][A
 65%|█████████████████████████████████▎

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 34.54055587277078
 	Mean Reward: 87.5
 	Std Reward: 21.94196891803468




 70%|███████████████████████████████████▋               | 3503/5001 [03:57<03:42,  6.74it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [03:57<03:35,  6.95it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [03:57<03:21,  7.41it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [03:57<02:57,  8.40it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [03:58<02:53,  8.61it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [03:58<02:50,  8.73it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [03:58<02:48,  8.86it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [03:58<02:49,  8.81it/s][A
 70%|███████████████████████████████████▊               | 3512/5001 [03:58<02:44,  9.05it/s][A
 70%|███████████████████████████████████▊               | 3513/5001 [03:58<02:47,  8.89it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 43.36876756376644
 	Mean Reward: 108.1
 	Std Reward: 39.667240892202216




 75%|██████████████████████████████████████▎            | 3753/5001 [04:29<02:40,  7.80it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [04:29<02:42,  7.66it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [04:29<02:55,  7.09it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [04:30<02:59,  6.92it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [04:30<02:56,  7.05it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [04:30<02:57,  7.01it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [04:30<03:03,  6.76it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [04:30<03:13,  6.40it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [04:30<03:07,  6.62it/s][A
 75%|██████████████████████████████████████▎            | 3762/5001 [04:30<03:01,  6.83it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 9.342911751697113
 	Mean Reward: 76.9
 	Std Reward: 16.207714212682802



 80%|████████████████████████████████████████▊          | 4006/5001 [04:55<01:31, 10.88it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [04:55<01:30, 10.93it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [04:55<01:31, 10.82it/s][A
 80%|████████████████████████████████████████▉          | 4012/5001 [04:55<01:30, 10.92it/s][A
 80%|████████████████████████████████████████▉          | 4014/5001 [04:55<01:29, 11.03it/s][A
 80%|████████████████████████████████████████▉          | 4016/5001 [04:55<01:31, 10.77it/s][A
 80%|████████████████████████████████████████▉          | 4018/5001 [04:56<01:29, 10.97it/s][A
 80%|████████████████████████████████████████▉          | 4020/5001 [04:56<01:30, 10.81it/s][A
 80%|█████████████████████████████████████████          | 4022/5001 [04:56<01:34, 10.36it/s][A
 80%|█████████████████████████████████████████          | 4024/5001 [04:56<01:35, 10.23it/s][A
 81%|███████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 34.89355241301751
 	Mean Reward: 89.2
 	Std Reward: 18.637596411554792




 85%|███████████████████████████████████████████▎       | 4253/5001 [05:20<01:27,  8.54it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [05:20<01:27,  8.49it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [05:20<01:27,  8.48it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [05:20<01:29,  8.28it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [05:20<01:27,  8.48it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [05:20<01:26,  8.57it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [05:21<01:29,  8.31it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [05:21<01:36,  7.65it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [05:21<01:32,  7.98it/s][A
 85%|███████████████████████████████████████████▍       | 4262/5001 [05:21<01:29,  8.26it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 20.019990009987517
 	Mean Reward: 89.3
 	Std Reward: 24.678127967899023




 90%|█████████████████████████████████████████████▉     | 4503/5001 [05:59<01:16,  6.48it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [06:00<01:15,  6.63it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [06:00<01:14,  6.68it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [06:00<01:12,  6.81it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [06:00<01:08,  7.20it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [06:00<01:06,  7.39it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [06:00<01:13,  6.72it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [06:00<01:13,  6.70it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [06:01<01:16,  6.41it/s][A
 90%|██████████████████████████████████████████████     | 4512/5001 [06:01<01:14,  6.59it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 166.50105104773363
 	Mean Reward: 301.7
 	Std Reward: 164.9915452379303




 95%|████████████████████████████████████████████████▍  | 4752/5001 [06:46<01:33,  2.66it/s][A
 95%|████████████████████████████████████████████████▍  | 4753/5001 [06:46<01:34,  2.62it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [06:47<01:29,  2.77it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [06:47<01:14,  3.30it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [06:47<01:03,  3.88it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [06:47<00:55,  4.38it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [06:47<00:46,  5.19it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [06:47<00:47,  5.08it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [06:48<00:43,  5.52it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [06:48<00:43,  5.51it/s][A
 95%|██████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.9996400647883381
 	SES: 1.0
 	Learning Stability: 33.442637455798845
 	Mean Reward: 112.7
 	Std Reward: 11.480853626799707



100%|█████████████████████████████████████████████████████| 4/4 [1:21:01<00:00, 1215.48s/it]


In [8]:
q_table_df.to_csv(DATASETS_Q_TABLE_DIR / 'q_table.csv', index=False)

### DQN

In [9]:
DATASETS_DQN_DIR = DATASETS_DIR / "dqn"
DATASETS_DQN_DIR.mkdir(parents=True, exist_ok=True)

#### Curriculum parameter: pole length 

In [10]:
from environments.cart_pole.rl_methods.dqn import DQNAgent

training_configurations = [
    (DQNAgent(curriculum_name='root_p_2'), root_p(base_length=0.25, max_length=0.5, exponent=2)),
    (DQNAgent(curriculum_name='root_p_3'), root_p(base_length=0.25, max_length=0.5, exponent=3)),
    (DQNAgent(curriculum_name='one_pass'), one_pass(base_length=0.25, max_length=0.5)),
    (DQNAgent(curriculum_name='baseline'), None)
]

for training_configuration in tqdm(training_configurations):
    cart_pole.train_evaluate(*training_configuration)

dqn_df = data_frame_from_configurations(training_configurations)

  0%|                                                                 | 0/4 [00:00<?, ?it/s]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:39,  5.06it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.3333333333333335
 	SES: 0.927536231884058
 	Learning Stability: 3.8
 	Mean Reward: 20.4
 	Std Reward: 4.673328578219169




  1%|▌                                                      | 2/201 [00:00<00:49,  4.06it/s][A
  1%|▊                                                      | 3/201 [00:00<00:47,  4.18it/s][A
  2%|█                                                      | 4/201 [00:00<00:46,  4.27it/s][A
  2%|█▎                                                     | 5/201 [00:01<00:42,  4.63it/s][A
  3%|█▋                                                     | 6/201 [00:01<00:39,  4.97it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:35,  5.43it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:35,  5.50it/s][A
  4%|██▍                                                    | 9/201 [00:01<00:32,  5.88it/s][A
  5%|██▋                                                   | 10/201 [00:01<00:31,  5.99it/s][A
  5%|██▉                                                   | 11/201 [00:02<00:30,  6.22it/s][A
  6%|███▏                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 11.783038657324347
 	Mean Reward: 63.8
 	Std Reward: 3.7629775444453553




 13%|███████▎                                              | 27/201 [00:10<03:13,  1.11s/it][A
 14%|███████▌                                              | 28/201 [00:12<03:44,  1.30s/it][A
 14%|███████▊                                              | 29/201 [00:14<04:50,  1.69s/it][A
 15%|████████                                              | 30/201 [00:18<06:12,  2.18s/it][A
 15%|████████▎                                             | 31/201 [00:21<06:44,  2.38s/it][A
 16%|████████▌                                             | 32/201 [00:24<07:34,  2.69s/it][A
 16%|████████▊                                             | 33/201 [00:26<07:09,  2.56s/it][A
 17%|█████████▏                                            | 34/201 [00:29<07:04,  2.54s/it][A
 17%|█████████▍                                            | 35/201 [00:31<06:47,  2.46s/it][A
 18%|█████████▋                                            | 36/201 [00:34<07:01,  2.55s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 9.306449376641986
 	Mean Reward: 167.3
 	Std Reward: 8.74128137060008




 26%|█████████████▉                                        | 52/201 [01:18<07:06,  2.86s/it][A
 26%|██████████████▏                                       | 53/201 [01:21<07:16,  2.95s/it][A
 27%|██████████████▌                                       | 54/201 [01:24<07:13,  2.95s/it][A
 27%|██████████████▊                                       | 55/201 [01:27<06:56,  2.85s/it][A
 28%|███████████████                                       | 56/201 [01:29<06:40,  2.76s/it][A
 28%|███████████████▎                                      | 57/201 [01:32<06:25,  2.68s/it][A
 29%|███████████████▌                                      | 58/201 [01:34<06:19,  2.65s/it][A
 29%|███████████████▊                                      | 59/201 [01:37<06:37,  2.80s/it][A
 30%|████████████████                                      | 60/201 [01:41<06:56,  2.95s/it][A
 30%|████████████████▍                                     | 61/201 [01:44<07:05,  3.04s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 8.623224454924038
 	Mean Reward: 132.3
 	Std Reward: 4.450842616853577




 38%|████████████████████▋                                 | 77/201 [02:39<06:05,  2.95s/it][A
 39%|████████████████████▉                                 | 78/201 [02:42<05:58,  2.92s/it][A
 39%|█████████████████████▏                                | 79/201 [02:45<05:50,  2.87s/it][A
 40%|█████████████████████▍                                | 80/201 [02:47<05:39,  2.81s/it][A
 40%|█████████████████████▊                                | 81/201 [02:50<05:31,  2.76s/it][A
 41%|██████████████████████                                | 82/201 [02:52<05:00,  2.53s/it][A
 41%|██████████████████████▎                               | 83/201 [02:54<04:34,  2.33s/it][A
 42%|██████████████████████▌                               | 84/201 [02:56<04:35,  2.36s/it][A
 42%|██████████████████████▊                               | 85/201 [02:59<04:36,  2.38s/it][A
 43%|███████████████████████                               | 86/201 [03:01<04:41,  2.45s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 10.95627673984187
 	Mean Reward: 113.6
 	Std Reward: 2.1071307505705477




 51%|██████████████████████████▉                          | 102/201 [03:38<03:30,  2.13s/it][A
 51%|███████████████████████████▏                         | 103/201 [03:40<03:25,  2.10s/it][A
 52%|███████████████████████████▍                         | 104/201 [03:42<03:15,  2.02s/it][A
 52%|███████████████████████████▋                         | 105/201 [03:44<03:13,  2.02s/it][A
 53%|███████████████████████████▉                         | 106/201 [03:46<03:10,  2.01s/it][A
 53%|████████████████████████████▏                        | 107/201 [03:47<03:06,  1.99s/it][A
 54%|████████████████████████████▍                        | 108/201 [03:49<03:01,  1.95s/it][A
 54%|████████████████████████████▋                        | 109/201 [03:51<03:00,  1.96s/it][A
 55%|█████████████████████████████                        | 110/201 [03:53<03:04,  2.03s/it][A
 55%|█████████████████████████████▎                       | 111/201 [03:56<03:06,  2.07s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 5.885575587824865
 	Mean Reward: 118.1
 	Std Reward: 2.6248809496813372




 63%|█████████████████████████████████▍                   | 127/201 [04:28<02:26,  1.98s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [04:30<02:19,  1.92s/it][A
 64%|██████████████████████████████████                   | 129/201 [04:31<02:17,  1.91s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [04:33<02:16,  1.93s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [04:36<02:23,  2.05s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [04:38<02:34,  2.24s/it][A
 66%|███████████████████████████████████                  | 133/201 [04:41<02:34,  2.27s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [04:43<02:23,  2.14s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [04:44<02:09,  1.96s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [04:46<02:02,  1.89s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 2.202271554554524
 	Mean Reward: 104.3
 	Std Reward: 2.3685438564654024




 76%|████████████████████████████████████████             | 152/201 [05:14<01:32,  1.88s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [05:16<01:33,  1.95s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [05:18<01:31,  1.95s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [05:20<01:26,  1.89s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [05:22<01:25,  1.89s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [05:24<01:24,  1.92s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [05:26<01:22,  1.92s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [05:27<01:20,  1.92s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [05:29<01:18,  1.93s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [05:31<01:15,  1.88s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 3.986226285598949
 	Mean Reward: 108.2
 	Std Reward: 2.8565713714171403




 88%|██████████████████████████████████████████████▋      | 177/201 [06:02<00:46,  1.96s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [06:04<00:45,  1.98s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [06:06<00:43,  1.97s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [06:08<00:41,  2.00s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [06:10<00:39,  1.97s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [06:12<00:36,  1.92s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [06:14<00:34,  1.92s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [06:16<00:32,  1.91s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [06:18<00:30,  1.93s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [06:20<00:28,  1.93s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 22.74642829105264
 	Mean Reward: 52.1
 	Std Reward: 35.112533374850635




 25%|██████████████                                          | 1/4 [06:49<20:28, 409.36s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:43,  4.56it/s][A
  1%|▌                                                      | 2/201 [00:00<00:39,  5.01it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.5
 	SES: 0.9538461538461539
 	Learning Stability: 11.178550889985695
 	Mean Reward: 7.9
 	Std Reward: 0.7000000000000001




  1%|▊                                                      | 3/201 [00:00<00:42,  4.71it/s][A
  2%|█                                                      | 4/201 [00:00<00:42,  4.69it/s][A
  2%|█▎                                                     | 5/201 [00:01<00:39,  4.96it/s][A
  3%|█▋                                                     | 6/201 [00:01<00:43,  4.52it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:43,  4.51it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:47,  4.11it/s][A
  4%|██▍                                                    | 9/201 [00:02<00:45,  4.23it/s][A
  5%|██▋                                                   | 10/201 [00:02<00:42,  4.51it/s][A
  5%|██▉                                                   | 11/201 [00:02<00:39,  4.76it/s][A
  6%|███▏                                                  | 12/201 [00:02<00:41,  4.61it/s][A
  6%|███▍                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 6.939740629158989
 	Mean Reward: 90.7
 	Std Reward: 4.817675788178362




 13%|███████▎                                              | 27/201 [00:27<05:33,  1.92s/it][A
 14%|███████▌                                              | 28/201 [00:30<05:45,  2.00s/it][A
 14%|███████▊                                              | 29/201 [00:32<05:40,  1.98s/it][A
 15%|████████                                              | 30/201 [00:33<05:30,  1.93s/it][A
 15%|████████▎                                             | 31/201 [00:35<05:34,  1.97s/it][A
 16%|████████▌                                             | 32/201 [00:37<05:34,  1.98s/it][A
 16%|████████▊                                             | 33/201 [00:39<05:33,  1.99s/it][A
 17%|█████████▏                                            | 34/201 [00:41<05:33,  2.00s/it][A
 17%|█████████▍                                            | 35/201 [00:43<05:26,  1.96s/it][A
 18%|█████████▋                                            | 36/201 [00:45<05:19,  1.93s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 11.090536506409418
 	Mean Reward: 114.2
 	Std Reward: 4.833218389437828




 26%|█████████████▉                                        | 52/201 [01:17<05:09,  2.08s/it][A
 26%|██████████████▏                                       | 53/201 [01:19<05:05,  2.06s/it][A
 27%|██████████████▌                                       | 54/201 [01:22<05:15,  2.15s/it][A
 27%|██████████████▊                                       | 55/201 [01:24<05:18,  2.18s/it][A
 28%|███████████████                                       | 56/201 [01:28<06:15,  2.59s/it][A
 28%|███████████████▎                                      | 57/201 [01:30<05:49,  2.42s/it][A
 29%|███████████████▌                                      | 58/201 [01:31<05:01,  2.11s/it][A
 29%|███████████████▊                                      | 59/201 [01:33<04:36,  1.94s/it][A
 30%|████████████████                                      | 60/201 [01:35<04:38,  1.98s/it][A
 30%|████████████████▍                                     | 61/201 [01:37<05:09,  2.21s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 116.9634130828953
 	Mean Reward: 88.3
 	Std Reward: 5.866003750424985




 38%|████████████████████▋                                 | 77/201 [02:15<06:27,  3.12s/it][A
 39%|████████████████████▉                                 | 78/201 [02:19<06:40,  3.26s/it][A
 39%|█████████████████████▏                                | 79/201 [02:22<06:53,  3.39s/it][A
 40%|█████████████████████▍                                | 80/201 [02:25<06:30,  3.23s/it][A
 40%|█████████████████████▊                                | 81/201 [02:27<05:41,  2.84s/it][A
 41%|██████████████████████                                | 82/201 [02:31<06:06,  3.08s/it][A
 41%|██████████████████████▎                               | 83/201 [02:37<07:42,  3.92s/it][A
 42%|██████████████████████▌                               | 84/201 [02:41<08:05,  4.15s/it][A
 42%|██████████████████████▊                               | 85/201 [02:46<08:20,  4.31s/it][A
 43%|███████████████████████                               | 86/201 [02:50<07:53,  4.12s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 130.39953987648883
 	Mean Reward: 153.4
 	Std Reward: 12.175385004179539




 51%|██████████████████████████▉                          | 102/201 [04:14<09:45,  5.92s/it][A
 51%|███████████████████████████▏                         | 103/201 [04:19<09:35,  5.87s/it][A
 52%|███████████████████████████▍                         | 104/201 [04:25<09:11,  5.69s/it][A
 52%|███████████████████████████▋                         | 105/201 [04:27<07:36,  4.76s/it][A
 53%|███████████████████████████▉                         | 106/201 [04:28<05:28,  3.45s/it][A
 53%|████████████████████████████▏                        | 107/201 [04:30<05:03,  3.23s/it][A
 54%|████████████████████████████▍                        | 108/201 [04:37<06:39,  4.29s/it][A
 54%|████████████████████████████▋                        | 109/201 [04:44<07:48,  5.09s/it][A
 55%|█████████████████████████████                        | 110/201 [04:51<08:19,  5.49s/it][A
 55%|█████████████████████████████▎                       | 111/201 [04:54<07:23,  4.93s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 9.991996797437437
 	Mean Reward: 105.1
 	Std Reward: 2.5079872407968904




 63%|█████████████████████████████████▍                   | 127/201 [05:50<03:10,  2.57s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [05:53<03:21,  2.76s/it][A
 64%|██████████████████████████████████                   | 129/201 [05:56<03:13,  2.69s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [05:59<03:19,  2.81s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [06:01<03:01,  2.59s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [06:03<02:48,  2.45s/it][A
 66%|███████████████████████████████████                  | 133/201 [06:05<02:21,  2.09s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [06:06<02:06,  1.89s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [06:08<02:13,  2.02s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [06:11<02:19,  2.14s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.5
 	SES: 0.9166666666666666
 	Learning Stability: 4.975942121849891
 	Mean Reward: 106.6
 	Std Reward: 2.2891046284519194




 76%|████████████████████████████████████████             | 152/201 [06:48<01:41,  2.07s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [06:50<01:42,  2.13s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [06:52<01:38,  2.09s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [06:54<01:35,  2.08s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [06:56<01:33,  2.08s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [06:58<01:36,  2.18s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [07:02<01:48,  2.51s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [07:08<02:31,  3.61s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [07:15<03:14,  4.73s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [07:23<03:44,  5.61s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 93.5974892825657
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|██████████████████████████████████████████████▋      | 177/201 [08:37<02:00,  5.03s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [08:44<02:08,  5.58s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [08:51<02:08,  5.84s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [08:58<02:13,  6.34s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [09:07<02:20,  7.01s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [09:15<02:20,  7.41s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [09:20<02:00,  6.69s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [09:28<01:59,  7.03s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [09:35<01:52,  7.05s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [09:44<01:54,  7.65s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.5
 	SES: 1.0
 	Learning Stability: 54.36726956542879
 	Mean Reward: 214.7
 	Std Reward: 15.969032531747187




 50%|████████████████████████████                            | 2/4 [17:41<18:23, 551.94s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:28,  7.11it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.9315068493150684
 	Learning Stability: 5.838664230798
 	Mean Reward: 10.4
 	Std Reward: 0.9165151389911681




  1%|▌                                                      | 2/201 [00:00<00:37,  5.26it/s][A
  1%|▊                                                      | 3/201 [00:00<00:38,  5.20it/s][A
  2%|█                                                      | 4/201 [00:00<00:38,  5.14it/s][A
  2%|█▎                                                     | 5/201 [00:00<00:38,  5.04it/s][A
  3%|█▋                                                     | 6/201 [00:01<00:34,  5.62it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:31,  6.10it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:29,  6.64it/s][A
  4%|██▍                                                    | 9/201 [00:01<00:30,  6.35it/s][A
  5%|██▋                                                   | 10/201 [00:01<00:30,  6.21it/s][A
  5%|██▉                                                   | 11/201 [00:02<00:43,  4.35it/s][A
  6%|███▏                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.84755175092215
 	Mean Reward: 107.9
 	Std Reward: 10.212247548899311




 13%|███████▎                                              | 27/201 [00:16<04:19,  1.49s/it][A
 14%|███████▌                                              | 28/201 [00:18<04:35,  1.59s/it][A
 14%|███████▊                                              | 29/201 [00:20<05:28,  1.91s/it][A
 15%|████████                                              | 30/201 [00:24<06:38,  2.33s/it][A
 15%|████████▎                                             | 31/201 [00:26<06:28,  2.29s/it][A
 16%|████████▌                                             | 32/201 [00:28<06:37,  2.35s/it][A
 16%|████████▊                                             | 33/201 [00:31<07:13,  2.58s/it][A
 17%|█████████▏                                            | 34/201 [00:34<07:18,  2.62s/it][A
 17%|█████████▍                                            | 35/201 [00:37<07:29,  2.71s/it][A
 18%|█████████▋                                            | 36/201 [00:40<07:23,  2.69s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.203703280423277
 	Mean Reward: 135.3
 	Std Reward: 3.494281041931229




 26%|█████████████▉                                        | 52/201 [01:17<06:28,  2.60s/it][A
 26%|██████████████▏                                       | 53/201 [01:20<06:32,  2.65s/it][A
 27%|██████████████▌                                       | 54/201 [01:23<06:47,  2.77s/it][A
 27%|██████████████▊                                       | 55/201 [01:26<06:39,  2.74s/it][A
 28%|███████████████                                       | 56/201 [01:29<06:40,  2.76s/it][A
 28%|███████████████▎                                      | 57/201 [01:32<06:56,  2.89s/it][A
 29%|███████████████▌                                      | 58/201 [01:35<07:01,  2.95s/it][A
 29%|███████████████▊                                      | 59/201 [01:38<06:47,  2.87s/it][A
 30%|████████████████                                      | 60/201 [01:40<06:22,  2.71s/it][A
 30%|████████████████▍                                     | 61/201 [01:43<06:14,  2.67s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 10.52853266129711
 	Mean Reward: 128.6
 	Std Reward: 3.903844259188627




 38%|████████████████████▋                                 | 77/201 [02:29<06:10,  2.99s/it][A
 39%|████████████████████▉                                 | 78/201 [02:32<06:01,  2.94s/it][A
 39%|█████████████████████▏                                | 79/201 [02:35<05:38,  2.78s/it][A
 40%|█████████████████████▍                                | 80/201 [02:37<05:21,  2.66s/it][A
 40%|█████████████████████▊                                | 81/201 [02:40<05:17,  2.65s/it][A
 41%|██████████████████████                                | 82/201 [02:42<05:05,  2.57s/it][A
 41%|██████████████████████▎                               | 83/201 [02:44<04:53,  2.49s/it][A
 42%|██████████████████████▌                               | 84/201 [02:47<04:42,  2.42s/it][A
 42%|██████████████████████▊                               | 85/201 [02:49<04:31,  2.34s/it][A
 43%|███████████████████████                               | 86/201 [02:51<04:28,  2.34s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.445595680270127
 	Mean Reward: 121.3
 	Std Reward: 3.5510561809129406




 51%|██████████████████████████▉                          | 102/201 [03:30<03:46,  2.29s/it][A
 51%|███████████████████████████▏                         | 103/201 [03:33<03:51,  2.36s/it][A
 52%|███████████████████████████▍                         | 104/201 [03:35<03:44,  2.32s/it][A
 52%|███████████████████████████▋                         | 105/201 [03:37<03:25,  2.14s/it][A
 53%|███████████████████████████▉                         | 106/201 [03:38<03:08,  1.98s/it][A
 53%|████████████████████████████▏                        | 107/201 [03:41<03:14,  2.06s/it][A
 54%|████████████████████████████▍                        | 108/201 [03:43<03:17,  2.12s/it][A
 54%|████████████████████████████▋                        | 109/201 [03:46<03:34,  2.33s/it][A
 55%|█████████████████████████████                        | 110/201 [03:49<03:50,  2.54s/it][A
 55%|█████████████████████████████▎                       | 111/201 [03:52<04:10,  2.78s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 27.540697158931906
 	Mean Reward: 34.0
 	Std Reward: 9.077444574328174




 63%|█████████████████████████████████▍                   | 127/201 [04:27<01:49,  1.48s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [04:28<01:44,  1.43s/it][A
 64%|██████████████████████████████████                   | 129/201 [04:30<01:54,  1.60s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [04:33<02:07,  1.79s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [04:35<02:16,  1.95s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [04:37<02:22,  2.07s/it][A
 66%|███████████████████████████████████                  | 133/201 [04:40<02:30,  2.22s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [04:42<02:37,  2.35s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [04:45<02:38,  2.40s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [04:48<02:47,  2.58s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 32.82514280243119
 	Mean Reward: 163.7
 	Std Reward: 12.033702672078947




 76%|████████████████████████████████████████             | 152/201 [05:26<02:01,  2.49s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [05:28<01:51,  2.32s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [05:31<01:57,  2.49s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [05:34<02:02,  2.67s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [05:38<02:15,  3.01s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [05:41<02:14,  3.06s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [05:44<02:05,  2.92s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [05:46<01:59,  2.85s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [05:49<01:54,  2.80s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [05:52<01:49,  2.75s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 51.74949275113718
 	Mean Reward: 143.9
 	Std Reward: 12.389108119634763




 88%|██████████████████████████████████████████████▋      | 177/201 [06:45<01:31,  3.83s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [06:49<01:28,  3.85s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [06:52<01:20,  3.66s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [06:56<01:16,  3.63s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [06:59<01:09,  3.47s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [07:01<00:57,  3.03s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [07:04<00:54,  3.03s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [07:07<00:55,  3.24s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [07:11<00:55,  3.46s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [07:14<00:49,  3.30s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 24.22478070076177
 	Mean Reward: 234.4
 	Std Reward: 38.44268460968875




 75%|██████████████████████████████████████████              | 3/4 [25:54<08:45, 525.20s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:31,  6.29it/s][A
  1%|▌                                                      | 2/201 [00:00<00:34,  5.85it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.991040318566451
 	SES: 0.9397590361445783
 	Learning Stability: 6.4621977685614045
 	Mean Reward: 6.9
 	Std Reward: 0.7000000000000001




  1%|▊                                                      | 3/201 [00:00<00:33,  5.89it/s][A
  2%|█                                                      | 4/201 [00:00<00:30,  6.40it/s][A
  2%|█▎                                                     | 5/201 [00:00<00:30,  6.38it/s][A
  3%|█▋                                                     | 6/201 [00:00<00:30,  6.47it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:29,  6.50it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:31,  6.19it/s][A
  4%|██▍                                                    | 9/201 [00:01<00:34,  5.50it/s][A
  5%|██▋                                                   | 10/201 [00:01<00:32,  5.85it/s][A
  5%|██▉                                                   | 11/201 [00:01<00:31,  5.96it/s][A
  6%|███▏                                                  | 12/201 [00:01<00:30,  6.11it/s][A
  6%|███▍                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.991040318566451
 	SES: 1.0
 	Learning Stability: 16.708081876744558
 	Mean Reward: 110.0
 	Std Reward: 10.363397126425292




 13%|███████▎                                              | 27/201 [00:13<05:00,  1.73s/it][A
 14%|███████▌                                              | 28/201 [00:16<05:59,  2.08s/it][A
 14%|███████▊                                              | 29/201 [00:21<08:06,  2.83s/it][A
 15%|████████                                              | 30/201 [00:23<07:21,  2.58s/it][A
 15%|████████▎                                             | 31/201 [00:25<07:00,  2.47s/it][A
 16%|████████▌                                             | 32/201 [00:29<08:30,  3.02s/it][A
 16%|████████▊                                             | 33/201 [00:32<08:02,  2.87s/it][A
 17%|█████████▏                                            | 34/201 [00:34<07:37,  2.74s/it][A
 17%|█████████▍                                            | 35/201 [00:45<14:25,  5.22s/it][A
 18%|█████████▋                                            | 36/201 [00:48<12:24,  4.51s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.991040318566451
 	SES: 0.6666666666666666
 	Learning Stability: 6.985699678629192
 	Mean Reward: 120.4
 	Std Reward: 3.5832945734337835




 26%|█████████████▉                                        | 52/201 [01:30<06:27,  2.60s/it][A
 26%|██████████████▏                                       | 53/201 [01:33<06:27,  2.62s/it][A
 27%|██████████████▌                                       | 54/201 [01:36<06:32,  2.67s/it][A
 27%|██████████████▊                                       | 55/201 [01:39<06:49,  2.81s/it][A
 28%|███████████████                                       | 56/201 [01:42<06:55,  2.86s/it][A
 28%|███████████████▎                                      | 57/201 [01:45<06:57,  2.90s/it][A
 29%|███████████████▌                                      | 58/201 [01:48<07:05,  2.98s/it][A
 29%|███████████████▊                                      | 59/201 [01:51<06:53,  2.91s/it][A
 30%|████████████████                                      | 60/201 [01:54<06:55,  2.95s/it][A
 30%|████████████████▍                                     | 61/201 [01:57<06:52,  2.94s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.991040318566451
 	SES: 1.0
 	Learning Stability: 16.299999999999997
 	Mean Reward: 157.3
 	Std Reward: 9.581753492967767




 38%|████████████████████▋                                 | 77/201 [02:42<05:35,  2.71s/it][A
 39%|████████████████████▉                                 | 78/201 [02:45<05:25,  2.65s/it][A
 39%|█████████████████████▏                                | 79/201 [02:48<05:30,  2.71s/it][A
 40%|█████████████████████▍                                | 80/201 [02:51<05:56,  2.95s/it][A
 40%|█████████████████████▊                                | 81/201 [02:55<06:21,  3.18s/it][A
 41%|██████████████████████                                | 82/201 [02:57<05:59,  3.02s/it][A
 41%|██████████████████████▎                               | 83/201 [03:00<05:53,  2.99s/it][A
 42%|██████████████████████▌                               | 84/201 [03:05<06:33,  3.36s/it][A
 42%|██████████████████████▊                               | 85/201 [03:07<06:03,  3.13s/it][A
 43%|███████████████████████                               | 86/201 [03:12<06:44,  3.52s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.991040318566451
 	SES: 0.9166666666666666
 	Learning Stability: 7.1700767080973415
 	Mean Reward: 137.5
 	Std Reward: 5.678908345800274




 51%|██████████████████████████▉                          | 102/201 [03:52<03:55,  2.38s/it][A
 51%|███████████████████████████▏                         | 103/201 [03:54<03:50,  2.35s/it][A
 52%|███████████████████████████▍                         | 104/201 [03:57<04:03,  2.51s/it][A
 52%|███████████████████████████▋                         | 105/201 [04:02<05:14,  3.28s/it][A
 53%|███████████████████████████▉                         | 106/201 [04:06<05:21,  3.38s/it][A
 53%|████████████████████████████▏                        | 107/201 [04:09<05:07,  3.27s/it][A
 54%|████████████████████████████▍                        | 108/201 [04:11<04:47,  3.09s/it][A
 54%|████████████████████████████▋                        | 109/201 [04:16<05:17,  3.45s/it][A
 55%|█████████████████████████████                        | 110/201 [04:22<06:22,  4.20s/it][A
 55%|█████████████████████████████▎                       | 111/201 [04:27<06:48,  4.54s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.991040318566451
 	SES: 1.0
 	Learning Stability: 16.676030702778167
 	Mean Reward: 105.1
 	Std Reward: 4.036087214122113




 63%|█████████████████████████████████▍                   | 127/201 [05:15<02:59,  2.43s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [05:18<02:51,  2.35s/it][A
 64%|██████████████████████████████████                   | 129/201 [05:20<02:54,  2.43s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [05:23<02:59,  2.52s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [05:26<03:06,  2.67s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [05:28<02:56,  2.56s/it][A
 66%|███████████████████████████████████                  | 133/201 [05:30<02:42,  2.38s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [05:32<02:35,  2.32s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [05:35<02:35,  2.35s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [05:37<02:39,  2.45s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.991040318566451
 	SES: 1.0
 	Learning Stability: 32.07319753314284
 	Mean Reward: 105.5
 	Std Reward: 3.442382895611701




 76%|████████████████████████████████████████             | 152/201 [06:23<02:11,  2.68s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [06:27<02:25,  3.03s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [06:30<02:30,  3.20s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [06:34<02:40,  3.49s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [06:40<03:11,  4.25s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [06:46<03:26,  4.69s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [06:52<03:36,  5.03s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [06:55<03:10,  4.53s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [06:59<02:52,  4.22s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [07:03<02:44,  4.11s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.991040318566451
 	SES: 1.0
 	Learning Stability: 9.038252043398657
 	Mean Reward: 147.8
 	Std Reward: 7.704544113703289




 88%|██████████████████████████████████████████████▋      | 177/201 [08:20<01:04,  2.71s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [08:23<01:03,  2.78s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [08:28<01:17,  3.52s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [08:36<01:40,  4.80s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [08:44<01:53,  5.70s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [08:52<02:03,  6.50s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [09:00<02:08,  7.12s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [09:08<02:04,  7.30s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [09:16<02:01,  7.60s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [09:25<01:57,  7.82s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.991040318566451
 	SES: 1.0
 	Learning Stability: 64.69938175902456
 	Mean Reward: 92.2
 	Std Reward: 6.04648658313239




100%|████████████████████████████████████████████████████████| 4/4 [36:55<00:00, 553.83s/it]


In [11]:
dqn_df.to_csv(DATASETS_DQN_DIR / 'dqn.csv', index=False)