In [1]:
%cd ..

/Users/danorel/Workspace/Education/University/KMA/Research/aclarel


In [2]:
import functools
import pathlib

from tqdm import tqdm

import environments.cart_pole.environment as cart_pole
import environments.cart_pole.experiments as experiments

## Curriculum Learning: Setup

### Data Frame

In [3]:
import pandas as pd

def data_frame_from_configurations(training_configurations):
    df = pd.DataFrame()
    for agent, _ in training_configurations:
        df = pd.concat([df, agent.measurements])
    return df

## Reinforcement Learning: Experiments

In [4]:
DATASETS_DIR = pathlib.Path("datasets")
DATASETS_DIR.mkdir(parents=True, exist_ok=True)

### QTable

In [5]:
DATASETS_Q_TABLE_DIR = DATASETS_DIR / "q_table"
DATASETS_Q_TABLE_DIR.mkdir(parents=True, exist_ok=True)

#### Curriculum parameter: pole length 

In [6]:
from environments.cart_pole.rl_methods.q_table import QLearningAgent

q_learning_agent = functools.partial(experiments.get_agent, agent_name='q-learning')

training_configurations = [
    (q_learning_agent(curriculum_name='root_p'), experiments.get_curriculum('root_p')),
    (q_learning_agent(curriculum_name='linear'), experiments.get_curriculum('linear')),
    (q_learning_agent(curriculum_name='logarithmic'), experiments.get_curriculum('logarithmic')),
    (q_learning_agent(curriculum_name='baseline'), None)
]

for training_configuration in tqdm(training_configurations):
    cart_pole.train_evaluate(*training_configuration)

q_table_df = data_frame_from_configurations(training_configurations)

  0%|                                                                 | 0/4 [00:00<?, ?it/s]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 7/5001 [00:00<01:12, 68.60it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 1.5491933384829668
 	Mean Reward: 8.4
 	Std Reward: 0.66332495807108




  0%|▏                                                    | 14/5001 [00:00<01:21, 61.57it/s][A
  0%|▏                                                    | 22/5001 [00:00<01:13, 67.78it/s][A
  1%|▎                                                    | 30/5001 [00:00<01:09, 71.92it/s][A
  1%|▍                                                    | 38/5001 [00:00<01:07, 73.91it/s][A
  1%|▍                                                    | 46/5001 [00:00<01:05, 75.59it/s][A
  1%|▌                                                    | 54/5001 [00:00<01:05, 75.93it/s][A
  1%|▋                                                    | 62/5001 [00:00<01:06, 73.95it/s][A
  1%|▋                                                    | 70/5001 [00:00<01:08, 71.95it/s][A
  2%|▊                                                    | 78/5001 [00:01<01:08, 72.27it/s][A
  2%|▉                                                    | 86/5001 [00:01<01:07, 72.99it/s][A
  2%|▉                                 

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 3.1622776601683795
 	Mean Reward: 14.2
 	Std Reward: 2.6381811916545836




  5%|██▊                                                 | 267/5001 [00:04<01:24, 56.17it/s][A
  5%|██▊                                                 | 273/5001 [00:04<01:26, 54.92it/s][A
  6%|██▉                                                 | 279/5001 [00:04<01:26, 54.71it/s][A
  6%|██▉                                                 | 285/5001 [00:04<01:26, 54.84it/s][A
  6%|███                                                 | 291/5001 [00:04<01:25, 55.20it/s][A
  6%|███                                                 | 297/5001 [00:04<01:24, 55.58it/s][A
  6%|███▏                                                | 303/5001 [00:04<01:24, 55.79it/s][A
  6%|███▏                                                | 309/5001 [00:04<01:23, 56.21it/s][A
  6%|███▎                                                | 315/5001 [00:04<01:23, 56.20it/s][A
  6%|███▎                                                | 321/5001 [00:05<01:26, 54.04it/s][A
  7%|███▍                              

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.3333333333333335
 	SES: 0
 	Learning Stability: 3.448187929913334
 	Mean Reward: 19.1
 	Std Reward: 3.269556544854363




 10%|█████▎                                              | 511/5001 [00:09<01:48, 41.31it/s][A
 10%|█████▎                                              | 516/5001 [00:09<01:47, 41.68it/s][A
 10%|█████▍                                              | 521/5001 [00:09<01:45, 42.62it/s][A
 11%|█████▍                                              | 526/5001 [00:09<01:41, 44.03it/s][A
 11%|█████▌                                              | 531/5001 [00:09<01:43, 43.38it/s][A
 11%|█████▌                                              | 536/5001 [00:10<01:47, 41.59it/s][A
 11%|█████▋                                              | 541/5001 [00:10<01:45, 42.27it/s][A
 11%|█████▋                                              | 546/5001 [00:10<01:43, 42.85it/s][A
 11%|█████▋                                              | 551/5001 [00:10<01:42, 43.58it/s][A
 11%|█████▊                                              | 556/5001 [00:10<01:44, 42.56it/s][A
 11%|█████▊                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.3333333333333335
 	SES: 0
 	Learning Stability: 4.1
 	Mean Reward: 15.1
 	Std Reward: 2.4269322199023193



 15%|███████▉                                            | 761/5001 [00:15<01:44, 40.74it/s][A
 15%|███████▉                                            | 766/5001 [00:15<01:49, 38.65it/s][A
 15%|████████                                            | 770/5001 [00:15<01:52, 37.64it/s][A
 15%|████████                                            | 775/5001 [00:15<01:47, 39.18it/s][A
 16%|████████                                            | 779/5001 [00:15<01:48, 39.04it/s][A
 16%|████████▏                                           | 783/5001 [00:15<01:52, 37.47it/s][A
 16%|████████▏                                           | 787/5001 [00:16<02:01, 34.62it/s][A
 16%|████████▏                                           | 791/5001 [00:16<02:08, 32.84it/s][A
 16%|████████▎                                           | 795/5001 [00:16<02:12, 31.77it/s][A
 16%|████████▎                                           | 799/5001 [00:16<02:44, 25.53it/s][A
 16%|████████▎                          

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 12.528367810692659
 	Mean Reward: 88.3
 	Std Reward: 12.083459769453448



 20%|██████████▏                                        | 1003/5001 [00:32<09:01,  7.39it/s][A
 20%|██████████▏                                        | 1004/5001 [00:32<09:46,  6.81it/s][A
 20%|██████████▏                                        | 1005/5001 [00:32<09:11,  7.25it/s][A
 20%|██████████▎                                        | 1006/5001 [00:32<08:49,  7.55it/s][A
 20%|██████████▎                                        | 1007/5001 [00:32<08:23,  7.93it/s][A
 20%|██████████▎                                        | 1008/5001 [00:32<08:05,  8.22it/s][A
 20%|██████████▎                                        | 1009/5001 [00:33<07:55,  8.40it/s][A
 20%|██████████▎                                        | 1010/5001 [00:33<07:38,  8.71it/s][A
 20%|██████████▎                                        | 1011/5001 [00:33<07:34,  8.78it/s][A
 20%|██████████▎                                        | 1012/5001 [00:33<07:40,  8.66it/s][A
 20%|██████████▎                        

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 89.06200087579438
 	Mean Reward: 209.0
 	Std Reward: 82.45119768687414




 25%|████████████▊                                      | 1253/5001 [01:14<16:45,  3.73it/s][A
 25%|████████████▊                                      | 1254/5001 [01:14<18:36,  3.36it/s][A
 25%|████████████▊                                      | 1255/5001 [01:15<20:09,  3.10it/s][A
 25%|████████████▊                                      | 1256/5001 [01:15<18:01,  3.46it/s][A
 25%|████████████▊                                      | 1257/5001 [01:15<15:26,  4.04it/s][A
 25%|████████████▊                                      | 1258/5001 [01:15<16:06,  3.87it/s][A
 25%|████████████▊                                      | 1259/5001 [01:16<16:56,  3.68it/s][A
 25%|████████████▊                                      | 1260/5001 [01:16<16:53,  3.69it/s][A
 25%|████████████▊                                      | 1261/5001 [01:16<17:08,  3.64it/s][A
 25%|████████████▊                                      | 1262/5001 [01:17<16:52,  3.69it/s][A
 25%|████████████▉                     

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 127.55955471857057
 	Mean Reward: 304.3
 	Std Reward: 125.44644275546439




 30%|███████████████▎                                   | 1502/5001 [01:59<18:35,  3.14it/s][A
 30%|███████████████▎                                   | 1503/5001 [02:00<18:15,  3.19it/s][A
 30%|███████████████▎                                   | 1504/5001 [02:00<17:09,  3.40it/s][A
 30%|███████████████▎                                   | 1505/5001 [02:00<16:55,  3.44it/s][A
 30%|███████████████▎                                   | 1506/5001 [02:01<17:48,  3.27it/s][A
 30%|███████████████▎                                   | 1507/5001 [02:01<15:41,  3.71it/s][A
 30%|███████████████▍                                   | 1508/5001 [02:01<16:00,  3.64it/s][A
 30%|███████████████▍                                   | 1509/5001 [02:01<17:12,  3.38it/s][A
 30%|███████████████▍                                   | 1510/5001 [02:02<17:01,  3.42it/s][A
 30%|███████████████▍                                   | 1511/5001 [02:02<17:44,  3.28it/s][A
 30%|███████████████▍                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 23.410254163507066
 	Mean Reward: 83.2
 	Std Reward: 20.517309765171458




 35%|█████████████████▉                                 | 1754/5001 [02:37<05:39,  9.55it/s][A
 35%|█████████████████▉                                 | 1755/5001 [02:38<06:01,  8.97it/s][A
 35%|█████████████████▉                                 | 1756/5001 [02:38<06:18,  8.58it/s][A
 35%|█████████████████▉                                 | 1757/5001 [02:38<06:36,  8.17it/s][A
 35%|█████████████████▉                                 | 1758/5001 [02:38<06:47,  7.96it/s][A
 35%|█████████████████▉                                 | 1759/5001 [02:38<06:47,  7.95it/s][A
 35%|█████████████████▉                                 | 1760/5001 [02:38<06:53,  7.83it/s][A
 35%|█████████████████▉                                 | 1761/5001 [02:38<06:56,  7.78it/s][A
 35%|█████████████████▉                                 | 1762/5001 [02:38<06:58,  7.75it/s][A
 35%|█████████████████▉                                 | 1763/5001 [02:39<07:10,  7.53it/s][A
 35%|█████████████████▉                

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 98.71656395965168
 	Mean Reward: 259.5
 	Std Reward: 116.72467605438021




 40%|████████████████████▍                              | 2002/5001 [03:26<10:43,  4.66it/s][A
 40%|████████████████████▍                              | 2003/5001 [03:27<11:26,  4.37it/s][A
 40%|████████████████████▍                              | 2004/5001 [03:27<12:26,  4.01it/s][A
 40%|████████████████████▍                              | 2005/5001 [03:27<12:54,  3.87it/s][A
 40%|████████████████████▍                              | 2006/5001 [03:28<13:25,  3.72it/s][A
 40%|████████████████████▍                              | 2007/5001 [03:28<13:55,  3.59it/s][A
 40%|████████████████████▍                              | 2008/5001 [03:28<14:41,  3.40it/s][A
 40%|████████████████████▍                              | 2009/5001 [03:29<15:06,  3.30it/s][A
 40%|████████████████████▍                              | 2010/5001 [03:29<15:00,  3.32it/s][A
 40%|████████████████████▌                              | 2011/5001 [03:29<15:04,  3.31it/s][A
 40%|████████████████████▌             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 40.83185031320525
 	Mean Reward: 180.3
 	Std Reward: 52.945349181963095




 45%|██████████████████████▉                            | 2252/5001 [04:12<11:07,  4.12it/s][A
 45%|██████████████████████▉                            | 2253/5001 [04:12<10:28,  4.37it/s][A
 45%|██████████████████████▉                            | 2254/5001 [04:12<11:50,  3.87it/s][A
 45%|██████████████████████▉                            | 2255/5001 [04:13<12:24,  3.69it/s][A
 45%|███████████████████████                            | 2256/5001 [04:13<13:27,  3.40it/s][A
 45%|███████████████████████                            | 2257/5001 [04:13<13:28,  3.40it/s][A
 45%|███████████████████████                            | 2258/5001 [04:14<14:16,  3.20it/s][A
 45%|███████████████████████                            | 2259/5001 [04:14<14:09,  3.23it/s][A
 45%|███████████████████████                            | 2260/5001 [04:14<14:17,  3.20it/s][A
 45%|███████████████████████                            | 2261/5001 [04:15<14:27,  3.16it/s][A
 45%|███████████████████████           

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.3333333333333335
 	SES: 0
 	Learning Stability: 7.95989949685296
 	Mean Reward: 65.1
 	Std Reward: 9.289241088485108




 50%|█████████████████████████▌                         | 2503/5001 [05:01<07:57,  5.23it/s][A
 50%|█████████████████████████▌                         | 2504/5001 [05:01<07:12,  5.77it/s][A
 50%|█████████████████████████▌                         | 2505/5001 [05:02<06:58,  5.97it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [05:02<07:15,  5.72it/s][A
 50%|█████████████████████████▌                         | 2507/5001 [05:02<07:03,  5.89it/s][A
 50%|█████████████████████████▌                         | 2509/5001 [05:02<05:51,  7.09it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [05:02<05:46,  7.19it/s][A
 50%|█████████████████████████▌                         | 2511/5001 [05:02<05:37,  7.38it/s][A
 50%|█████████████████████████▋                         | 2513/5001 [05:03<04:34,  9.05it/s][A
 50%|█████████████████████████▋                         | 2514/5001 [05:03<04:47,  8.64it/s][A
 50%|█████████████████████████▋        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 139.62105858358188
 	Mean Reward: 270.1
 	Std Reward: 151.6439580069051




 55%|████████████████████████████                       | 2752/5001 [05:51<10:33,  3.55it/s][A
 55%|████████████████████████████                       | 2753/5001 [05:51<10:42,  3.50it/s][A
 55%|████████████████████████████                       | 2754/5001 [05:51<11:01,  3.40it/s][A
 55%|████████████████████████████                       | 2755/5001 [05:52<11:45,  3.19it/s][A
 55%|████████████████████████████                       | 2756/5001 [05:52<11:31,  3.25it/s][A
 55%|████████████████████████████                       | 2757/5001 [05:52<11:44,  3.18it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [05:53<12:30,  2.99it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [05:53<10:04,  3.71it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [05:53<09:33,  3.91it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [05:53<10:40,  3.49it/s][A
 55%|████████████████████████████▏     

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 18.28906777285272
 	Mean Reward: 169.9
 	Std Reward: 34.302915328000914




 60%|██████████████████████████████▌                    | 3002/5001 [06:43<08:00,  4.16it/s][A
 60%|██████████████████████████████▌                    | 3003/5001 [06:44<08:10,  4.07it/s][A
 60%|██████████████████████████████▋                    | 3004/5001 [06:44<08:10,  4.07it/s][A
 60%|██████████████████████████████▋                    | 3005/5001 [06:44<08:13,  4.04it/s][A
 60%|██████████████████████████████▋                    | 3006/5001 [06:44<08:04,  4.12it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [06:45<07:52,  4.22it/s][A
 60%|██████████████████████████████▋                    | 3008/5001 [06:45<07:54,  4.20it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [06:45<07:58,  4.16it/s][A
 60%|██████████████████████████████▋                    | 3010/5001 [06:45<08:01,  4.13it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [06:46<08:08,  4.07it/s][A
 60%|██████████████████████████████▋   

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 148.2082656264488
 	Mean Reward: 433.6
 	Std Reward: 112.5594953791105




 65%|█████████████████████████████████▏                 | 3252/5001 [07:55<11:11,  2.60it/s][A
 65%|█████████████████████████████████▏                 | 3253/5001 [07:55<11:31,  2.53it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [07:55<10:41,  2.72it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [07:56<10:42,  2.72it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [07:56<10:55,  2.66it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [07:56<10:53,  2.67it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [07:57<11:45,  2.47it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [07:57<11:24,  2.54it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [07:58<11:05,  2.62it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [07:58<11:22,  2.55it/s][A
 65%|█████████████████████████████████▎

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 36.9
 	Mean Reward: 486.7
 	Std Reward: 39.9




 70%|███████████████████████████████████▋               | 3502/5001 [09:50<12:46,  1.96it/s][A
 70%|███████████████████████████████████▋               | 3503/5001 [09:50<12:38,  1.97it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [09:51<12:04,  2.07it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [09:51<12:02,  2.07it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [09:52<12:16,  2.03it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [09:52<12:20,  2.02it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [09:53<12:22,  2.01it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [09:53<12:16,  2.03it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [09:54<12:03,  2.06it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [09:54<11:44,  2.11it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 127.43253116845791
 	Mean Reward: 376.3
 	Std Reward: 155.765882015286




 75%|██████████████████████████████████████▎            | 3752/5001 [11:32<09:19,  2.23it/s][A
 75%|██████████████████████████████████████▎            | 3753/5001 [11:32<09:13,  2.25it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [11:33<09:34,  2.17it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [11:33<09:18,  2.23it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [11:33<09:18,  2.23it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [11:34<09:16,  2.24it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [11:34<08:43,  2.37it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [11:34<07:19,  2.83it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [11:35<06:07,  3.38it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [11:35<06:32,  3.16it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 48.760639864546484
 	Mean Reward: 186.9
 	Std Reward: 39.64454565258631




 80%|████████████████████████████████████████▊          | 4002/5001 [13:16<03:42,  4.49it/s][A
 80%|████████████████████████████████████████▊          | 4003/5001 [13:16<03:26,  4.83it/s][A
 80%|████████████████████████████████████████▊          | 4004/5001 [13:16<03:50,  4.32it/s][A
 80%|████████████████████████████████████████▊          | 4005/5001 [13:16<03:51,  4.30it/s][A
 80%|████████████████████████████████████████▊          | 4006/5001 [13:17<03:37,  4.57it/s][A
 80%|████████████████████████████████████████▊          | 4007/5001 [13:17<03:29,  4.73it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [13:17<03:53,  4.26it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [13:17<03:56,  4.20it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [13:17<03:39,  4.51it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [13:18<03:42,  4.45it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 124.5
 	Mean Reward: 457.9
 	Std Reward: 126.30000000000001




 85%|███████████████████████████████████████████▎       | 4252/5001 [14:57<06:27,  1.93it/s][A
 85%|███████████████████████████████████████████▎       | 4253/5001 [14:58<06:26,  1.94it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [14:58<05:41,  2.19it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [14:58<05:49,  2.13it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [14:59<05:55,  2.10it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [14:59<04:51,  2.56it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [14:59<03:13,  3.83it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [14:59<02:52,  4.29it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [14:59<02:27,  5.00it/s][A
 85%|███████████████████████████████████████████▍       | 4263/5001 [15:00<01:51,  6.62it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 0.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 90%|█████████████████████████████████████████████▉     | 4502/5001 [16:40<04:01,  2.07it/s][A
 90%|█████████████████████████████████████████████▉     | 4503/5001 [16:40<04:07,  2.01it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [16:41<03:59,  2.08it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [16:41<04:04,  2.03it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [16:42<04:10,  1.98it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [16:42<04:15,  1.94it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [16:43<04:16,  1.92it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [16:43<04:12,  1.95it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [16:44<04:13,  1.94it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [16:45<04:40,  1.75it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 86.41811152761903
 	Mean Reward: 432.9
 	Std Reward: 116.98585384566802




 95%|████████████████████████████████████████████████▍  | 4752/5001 [18:17<01:58,  2.11it/s][A
 95%|████████████████████████████████████████████████▍  | 4753/5001 [18:18<01:58,  2.10it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [18:18<01:59,  2.07it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [18:19<01:54,  2.15it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [18:19<01:55,  2.11it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [18:20<01:58,  2.05it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [18:20<02:03,  1.96it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [18:21<02:53,  1.40it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [18:22<02:42,  1.48it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [18:23<02:36,  1.53it/s][A
 95%|██████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 148.40704161191275
 	Mean Reward: 410.9
 	Std Reward: 131.0217157573507




 25%|█████████████▎                                       | 1/4 [20:10<1:00:31, 1210.58s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 8/5001 [00:00<01:04, 77.01it/s][A
  0%|▏                                                    | 17/5001 [00:00<01:02, 79.34it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.999992000000003
 	SES: 1.0
 	Learning Stability: 0.6
 	Mean Reward: 7.9
 	Std Reward: 0.5385164807134504




  0%|▎                                                    | 25/5001 [00:00<01:09, 71.73it/s][A
  1%|▎                                                    | 33/5001 [00:00<01:31, 54.41it/s][A
  1%|▍                                                    | 42/5001 [00:00<01:17, 63.58it/s][A
  1%|▌                                                    | 51/5001 [00:00<01:11, 69.18it/s][A
  1%|▋                                                    | 60/5001 [00:00<01:06, 73.88it/s][A
  1%|▋                                                    | 69/5001 [00:00<01:03, 77.34it/s][A
  2%|▊                                                    | 78/5001 [00:01<01:01, 79.73it/s][A
  2%|▉                                                    | 87/5001 [00:01<01:01, 80.30it/s][A
  2%|█                                                    | 96/5001 [00:01<00:59, 82.10it/s][A
  2%|█                                                   | 105/5001 [00:01<00:58, 84.04it/s][A
  2%|█▏                                

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.999992000000003
 	SES: 0
 	Learning Stability: 1.2688577540449522
 	Mean Reward: 8.8
 	Std Reward: 1.4696938456699067




  5%|██▊                                                 | 268/5001 [00:03<01:01, 77.55it/s][A
  6%|██▊                                                 | 276/5001 [00:03<01:01, 76.63it/s][A
  6%|██▉                                                 | 284/5001 [00:03<01:01, 77.02it/s][A
  6%|███                                                 | 292/5001 [00:03<01:00, 77.55it/s][A
  6%|███                                                 | 300/5001 [00:04<01:01, 76.66it/s][A
  6%|███▏                                                | 308/5001 [00:04<01:02, 75.31it/s][A
  6%|███▎                                                | 316/5001 [00:04<01:02, 75.28it/s][A
  6%|███▎                                                | 324/5001 [00:04<01:02, 74.89it/s][A
  7%|███▍                                                | 333/5001 [00:04<01:00, 76.91it/s][A
  7%|███▌                                                | 341/5001 [00:04<01:01, 76.38it/s][A
  7%|███▋                              

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 1.2688577540449522
 	Mean Reward: 8.8
 	Std Reward: 1.5362291495737217




 10%|█████▍                                              | 519/5001 [00:06<00:59, 75.44it/s][A
 11%|█████▍                                              | 527/5001 [00:07<01:00, 74.27it/s][A
 11%|█████▌                                              | 535/5001 [00:07<01:00, 73.94it/s][A
 11%|█████▋                                              | 543/5001 [00:07<01:00, 73.28it/s][A
 11%|█████▋                                              | 551/5001 [00:07<01:00, 73.51it/s][A
 11%|█████▊                                              | 559/5001 [00:07<00:59, 74.25it/s][A
 11%|█████▉                                              | 567/5001 [00:07<00:59, 74.83it/s][A
 11%|█████▉                                              | 575/5001 [00:07<01:00, 73.33it/s][A
 12%|██████                                              | 584/5001 [00:07<00:57, 76.18it/s][A
 12%|██████▏                                             | 592/5001 [00:07<00:59, 74.30it/s][A
 12%|██████▏                           

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 1.5620499351813308
 	Mean Reward: 10.8
 	Std Reward: 1.6




 15%|███████▉                                            | 769/5001 [00:10<01:13, 57.22it/s][A
 15%|████████                                            | 775/5001 [00:10<01:16, 55.45it/s][A
 16%|████████                                            | 781/5001 [00:11<01:17, 54.30it/s][A
 16%|████████▏                                           | 787/5001 [00:11<01:18, 53.52it/s][A
 16%|████████▏                                           | 793/5001 [00:11<01:22, 51.21it/s][A
 16%|████████▎                                           | 799/5001 [00:11<01:22, 51.12it/s][A
 16%|████████▎                                           | 805/5001 [00:11<01:20, 51.91it/s][A
 16%|████████▍                                           | 811/5001 [00:11<01:19, 52.44it/s][A
 16%|████████▍                                           | 817/5001 [00:11<01:20, 52.28it/s][A
 16%|████████▌                                           | 823/5001 [00:11<01:19, 52.40it/s][A
 17%|████████▌                         

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.9999960000000017
 	SES: 0
 	Learning Stability: 4.753945729601885
 	Mean Reward: 15.3
 	Std Reward: 6.1489836558572835




 20%|██████████▎                                        | 1014/5001 [00:15<01:17, 51.33it/s][A
 20%|██████████▍                                        | 1020/5001 [00:15<01:20, 49.51it/s][A
 20%|██████████▍                                        | 1025/5001 [00:15<01:22, 48.43it/s][A
 21%|██████████▌                                        | 1030/5001 [00:15<01:23, 47.66it/s][A
 21%|██████████▌                                        | 1035/5001 [00:16<01:23, 47.26it/s][A
 21%|██████████▌                                        | 1040/5001 [00:16<01:24, 46.87it/s][A
 21%|██████████▋                                        | 1045/5001 [00:16<01:25, 46.52it/s][A
 21%|██████████▋                                        | 1050/5001 [00:16<01:24, 46.78it/s][A
 21%|██████████▊                                        | 1055/5001 [00:16<01:25, 46.39it/s][A
 21%|██████████▊                                        | 1060/5001 [00:16<01:29, 43.88it/s][A
 21%|██████████▊                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 5.9531504264548865
 	Mean Reward: 15.7
 	Std Reward: 3.348133808556641




 25%|████████████▊                                      | 1261/5001 [00:21<01:24, 44.18it/s][A
 25%|████████████▉                                      | 1266/5001 [00:21<01:24, 44.30it/s][A
 25%|████████████▉                                      | 1271/5001 [00:21<01:25, 43.67it/s][A
 26%|█████████████                                      | 1276/5001 [00:21<01:24, 43.96it/s][A
 26%|█████████████                                      | 1281/5001 [00:21<01:21, 45.47it/s][A
 26%|█████████████                                      | 1287/5001 [00:21<01:19, 46.91it/s][A
 26%|█████████████▏                                     | 1292/5001 [00:21<01:19, 46.86it/s][A
 26%|█████████████▏                                     | 1297/5001 [00:21<01:20, 46.22it/s][A
 26%|█████████████▎                                     | 1302/5001 [00:21<01:21, 45.41it/s][A
 26%|█████████████▎                                     | 1307/5001 [00:22<01:21, 45.11it/s][A
 26%|█████████████▍                    

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 7.841555968046137
 	Mean Reward: 22.2
 	Std Reward: 12.536347155371857




 30%|███████████████▍                                   | 1512/5001 [00:26<01:46, 32.80it/s][A
 30%|███████████████▍                                   | 1516/5001 [00:27<01:51, 31.28it/s][A
 30%|███████████████▌                                   | 1520/5001 [00:27<01:52, 31.02it/s][A
 30%|███████████████▌                                   | 1524/5001 [00:27<01:50, 31.57it/s][A
 31%|███████████████▌                                   | 1528/5001 [00:27<01:50, 31.36it/s][A
 31%|███████████████▌                                   | 1532/5001 [00:27<01:49, 31.81it/s][A
 31%|███████████████▋                                   | 1536/5001 [00:27<01:49, 31.70it/s][A
 31%|███████████████▋                                   | 1540/5001 [00:27<01:47, 32.10it/s][A
 31%|███████████████▋                                   | 1544/5001 [00:28<01:46, 32.45it/s][A
 31%|███████████████▊                                   | 1548/5001 [00:28<01:49, 31.49it/s][A
 31%|███████████████▊                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 33.144531977386556
 	Mean Reward: 154.5
 	Std Reward: 67.45554091399757




 35%|█████████████████▉                                 | 1753/5001 [00:39<09:15,  5.84it/s][A
 35%|█████████████████▉                                 | 1754/5001 [00:39<08:59,  6.02it/s][A
 35%|█████████████████▉                                 | 1755/5001 [00:40<08:58,  6.02it/s][A
 35%|█████████████████▉                                 | 1756/5001 [00:40<08:59,  6.02it/s][A
 35%|█████████████████▉                                 | 1757/5001 [00:40<09:08,  5.91it/s][A
 35%|█████████████████▉                                 | 1758/5001 [00:40<09:24,  5.75it/s][A
 35%|█████████████████▉                                 | 1759/5001 [00:40<09:21,  5.77it/s][A
 35%|█████████████████▉                                 | 1760/5001 [00:40<09:01,  5.99it/s][A
 35%|█████████████████▉                                 | 1761/5001 [00:41<09:02,  5.97it/s][A
 35%|█████████████████▉                                 | 1762/5001 [00:41<08:49,  6.11it/s][A
 35%|█████████████████▉                

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 44.335087684586796
 	Mean Reward: 135.6
 	Std Reward: 44.52010781658104




 40%|████████████████████▍                              | 2003/5001 [01:12<07:44,  6.46it/s][A
 40%|████████████████████▍                              | 2004/5001 [01:13<07:53,  6.32it/s][A
 40%|████████████████████▍                              | 2005/5001 [01:13<08:09,  6.12it/s][A
 40%|████████████████████▍                              | 2006/5001 [01:13<07:52,  6.34it/s][A
 40%|████████████████████▍                              | 2007/5001 [01:13<08:06,  6.15it/s][A
 40%|████████████████████▍                              | 2008/5001 [01:13<08:06,  6.15it/s][A
 40%|████████████████████▍                              | 2009/5001 [01:13<07:59,  6.24it/s][A
 40%|████████████████████▍                              | 2010/5001 [01:14<08:06,  6.15it/s][A
 40%|████████████████████▌                              | 2011/5001 [01:14<07:55,  6.29it/s][A
 40%|████████████████████▌                              | 2012/5001 [01:14<07:51,  6.34it/s][A
 40%|████████████████████▌             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.914131328563284
 	Mean Reward: 71.8
 	Std Reward: 17.325126262166172




 45%|██████████████████████▉                            | 2254/5001 [01:41<04:28, 10.23it/s][A
 45%|███████████████████████                            | 2256/5001 [01:41<04:25, 10.34it/s][A
 45%|███████████████████████                            | 2258/5001 [01:41<04:23, 10.40it/s][A
 45%|███████████████████████                            | 2260/5001 [01:42<04:26, 10.30it/s][A
 45%|███████████████████████                            | 2262/5001 [01:42<04:31, 10.09it/s][A
 45%|███████████████████████                            | 2264/5001 [01:42<04:30, 10.12it/s][A
 45%|███████████████████████                            | 2266/5001 [01:42<04:43,  9.65it/s][A
 45%|███████████████████████                            | 2267/5001 [01:42<04:58,  9.17it/s][A
 45%|███████████████████████▏                           | 2268/5001 [01:42<04:59,  9.12it/s][A
 45%|███████████████████████▏                           | 2270/5001 [01:43<04:45,  9.55it/s][A
 45%|███████████████████████▏          

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 32.06259502909894
 	Mean Reward: 109.5
 	Std Reward: 37.90844233149128




 50%|█████████████████████████▌                         | 2502/5001 [02:07<05:33,  7.49it/s][A
 50%|█████████████████████████▌                         | 2503/5001 [02:07<05:26,  7.64it/s][A
 50%|█████████████████████████▌                         | 2504/5001 [02:07<05:18,  7.84it/s][A
 50%|█████████████████████████▌                         | 2505/5001 [02:07<05:02,  8.26it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [02:07<05:05,  8.16it/s][A
 50%|█████████████████████████▌                         | 2507/5001 [02:07<05:05,  8.17it/s][A
 50%|█████████████████████████▌                         | 2508/5001 [02:07<05:07,  8.12it/s][A
 50%|█████████████████████████▌                         | 2509/5001 [02:07<05:10,  8.02it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [02:07<05:01,  8.26it/s][A
 50%|█████████████████████████▌                         | 2512/5001 [02:08<04:35,  9.04it/s][A
 50%|█████████████████████████▋        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 160.11149240451167
 	Mean Reward: 119.8
 	Std Reward: 47.29439713116132




 55%|████████████████████████████                       | 2753/5001 [02:42<07:12,  5.19it/s][A
 55%|████████████████████████████                       | 2754/5001 [02:42<07:02,  5.31it/s][A
 55%|████████████████████████████                       | 2755/5001 [02:42<07:17,  5.13it/s][A
 55%|████████████████████████████                       | 2756/5001 [02:42<06:44,  5.55it/s][A
 55%|████████████████████████████                       | 2757/5001 [02:42<06:32,  5.72it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [02:43<07:35,  4.93it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [02:43<08:56,  4.18it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [02:43<09:09,  4.08it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [02:43<09:03,  4.12it/s][A
 55%|████████████████████████████▏                      | 2762/5001 [02:44<09:21,  3.98it/s][A
 55%|████████████████████████████▏     

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.509457042279767
 	Mean Reward: 85.5
 	Std Reward: 24.319745064453286




 60%|██████████████████████████████▌                    | 3003/5001 [03:13<03:49,  8.72it/s][A
 60%|██████████████████████████████▋                    | 3004/5001 [03:13<03:51,  8.62it/s][A
 60%|██████████████████████████████▋                    | 3005/5001 [03:13<03:45,  8.84it/s][A
 60%|██████████████████████████████▋                    | 3006/5001 [03:13<03:39,  9.07it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [03:13<03:38,  9.13it/s][A
 60%|██████████████████████████████▋                    | 3008/5001 [03:13<03:43,  8.91it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [03:13<03:40,  9.03it/s][A
 60%|██████████████████████████████▋                    | 3010/5001 [03:14<03:36,  9.21it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [03:14<03:38,  9.11it/s][A
 60%|██████████████████████████████▋                    | 3012/5001 [03:14<03:41,  8.97it/s][A
 60%|██████████████████████████████▋   

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 38.47388724836627
 	Mean Reward: 107.8
 	Std Reward: 36.63004231501787




 65%|█████████████████████████████████▏                 | 3252/5001 [03:52<06:29,  4.49it/s][A
 65%|█████████████████████████████████▏                 | 3253/5001 [03:52<06:17,  4.63it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [03:53<07:17,  3.99it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [03:53<07:02,  4.13it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [03:53<06:17,  4.62it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [03:53<05:41,  5.11it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [03:53<05:18,  5.47it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [03:54<04:51,  5.97it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [03:54<04:31,  6.42it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [03:54<04:22,  6.62it/s][A
 65%|█████████████████████████████████▎

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 121.59424328478713
 	Mean Reward: 364.8
 	Std Reward: 165.9233558002007




 70%|███████████████████████████████████▋               | 3502/5001 [04:38<07:53,  3.16it/s][A
 70%|███████████████████████████████████▋               | 3503/5001 [04:39<07:46,  3.21it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [04:39<08:37,  2.90it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [04:39<08:20,  2.99it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [04:40<09:00,  2.76it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [04:40<08:19,  2.99it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [04:40<07:28,  3.33it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [04:41<07:12,  3.45it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [04:41<06:19,  3.93it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [04:41<05:49,  4.27it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 39.40063451265728
 	Mean Reward: 105.0
 	Std Reward: 33.10891118717135




 75%|██████████████████████████████████████▎            | 3753/5001 [05:30<04:14,  4.90it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [05:30<03:58,  5.23it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [05:31<03:35,  5.78it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [05:31<03:12,  6.46it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [05:31<03:17,  6.30it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [05:31<03:09,  6.55it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [05:31<02:53,  7.14it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [05:31<02:58,  6.94it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [05:31<02:45,  7.49it/s][A
 75%|██████████████████████████████████████▎            | 3762/5001 [05:31<02:35,  7.96it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 21.6196669724582
 	Mean Reward: 65.3
 	Std Reward: 7.510659092250161




 80%|████████████████████████████████████████▊          | 4004/5001 [06:21<01:37, 10.23it/s][A
 80%|████████████████████████████████████████▊          | 4006/5001 [06:21<01:41,  9.82it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [06:21<01:46,  9.33it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [06:21<01:57,  8.46it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [06:22<02:14,  7.36it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [06:22<02:08,  7.70it/s][A
 80%|████████████████████████████████████████▉          | 4012/5001 [06:22<02:11,  7.53it/s][A
 80%|████████████████████████████████████████▉          | 4013/5001 [06:22<02:11,  7.53it/s][A
 80%|████████████████████████████████████████▉          | 4014/5001 [06:22<02:03,  7.98it/s][A
 80%|████████████████████████████████████████▉          | 4015/5001 [06:22<02:01,  8.13it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 74.93623956404538
 	Mean Reward: 52.5
 	Std Reward: 7.200694410957877




 85%|███████████████████████████████████████████▎       | 4253/5001 [07:06<01:28,  8.43it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [07:06<01:22,  8.99it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [07:06<01:24,  8.78it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [07:06<01:27,  8.52it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [07:06<01:32,  8.01it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [07:06<01:31,  8.07it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [07:07<01:34,  7.88it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [07:07<01:34,  7.87it/s][A
 85%|███████████████████████████████████████████▍       | 4262/5001 [07:07<01:32,  8.03it/s][A
 85%|███████████████████████████████████████████▍       | 4263/5001 [07:07<01:29,  8.23it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 7.351190379795642
 	Mean Reward: 75.1
 	Std Reward: 15.616977940690061




 90%|█████████████████████████████████████████████▉     | 4505/5001 [07:48<00:46, 10.78it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [07:48<00:43, 11.36it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [07:49<00:48, 10.22it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [07:49<00:50,  9.73it/s][A
 90%|██████████████████████████████████████████████     | 4512/5001 [07:49<00:51,  9.43it/s][A
 90%|██████████████████████████████████████████████     | 4514/5001 [07:49<00:52,  9.33it/s][A
 90%|██████████████████████████████████████████████     | 4515/5001 [07:49<00:52,  9.24it/s][A
 90%|██████████████████████████████████████████████     | 4516/5001 [07:49<00:54,  8.93it/s][A
 90%|██████████████████████████████████████████████     | 4518/5001 [07:50<00:51,  9.45it/s][A
 90%|██████████████████████████████████████████████     | 4520/5001 [07:50<00:50,  9.44it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 36.45942950733047
 	Mean Reward: 79.9
 	Std Reward: 9.256889326334198




 95%|████████████████████████████████████████████████▍  | 4754/5001 [08:24<00:31,  7.92it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [08:25<00:38,  6.44it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [08:25<00:45,  5.40it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [08:25<00:44,  5.53it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [08:25<00:46,  5.22it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [08:25<00:48,  4.95it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [08:26<00:52,  4.61it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [08:26<00:58,  4.08it/s][A
 95%|████████████████████████████████████████████████▌  | 4762/5001 [08:26<01:06,  3.59it/s][A
 95%|████████████████████████████████████████████████▌  | 4763/5001 [08:27<01:07,  3.51it/s][A
 95%|██████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 170.7175737878207
 	Mean Reward: 257.3
 	Std Reward: 160.71468507886888




 50%|████████████████████████████                            | 2/4 [29:29<27:34, 827.02s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 6/5001 [00:00<01:23, 59.96it/s][A
  0%|▏                                                    | 12/5001 [00:00<01:25, 58.60it/s][A


Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.8710324218583405
 	SES: 0.875
 	Learning Stability: 4.8999999999999995
 	Mean Reward: 12.8
 	Std Reward: 6.337191807101943



  0%|▏                                                    | 18/5001 [00:00<01:25, 58.53it/s][A
  0%|▎                                                    | 24/5001 [00:00<01:28, 56.40it/s][A
  1%|▎                                                    | 30/5001 [00:00<01:27, 56.61it/s][A
  1%|▍                                                    | 36/5001 [00:00<01:27, 56.88it/s][A
  1%|▍                                                    | 42/5001 [00:00<01:28, 56.06it/s][A
  1%|▌                                                    | 48/5001 [00:00<01:27, 56.89it/s][A
  1%|▌                                                    | 54/5001 [00:00<01:26, 56.89it/s][A
  1%|▋                                                    | 60/5001 [00:01<01:27, 56.63it/s][A
  1%|▋                                                    | 66/5001 [00:01<01:28, 55.77it/s][A
  1%|▊                                                    | 72/5001 [00:01<01:27, 56.40it/s][A
  2%|▊                                  

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.9032743163937553
 	SES: 0
 	Learning Stability: 6.013318551349163
 	Mean Reward: 14.1
 	Std Reward: 5.699999999999999




  5%|██▊                                                 | 268/5001 [00:04<01:20, 58.77it/s][A
  5%|██▊                                                 | 274/5001 [00:04<01:21, 58.30it/s][A
  6%|██▉                                                 | 281/5001 [00:05<01:18, 59.83it/s][A
  6%|██▉                                                 | 287/5001 [00:05<01:19, 58.95it/s][A
  6%|███                                                 | 293/5001 [00:05<01:19, 59.01it/s][A
  6%|███                                                 | 300/5001 [00:05<01:18, 59.51it/s][A
  6%|███▏                                                | 307/5001 [00:05<01:15, 62.14it/s][A
  6%|███▎                                                | 314/5001 [00:05<01:17, 60.50it/s][A
  6%|███▎                                                | 321/5001 [00:05<01:18, 59.62it/s][A
  7%|███▍                                                | 327/5001 [00:05<01:19, 59.05it/s][A
  7%|███▍                              

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.9355162109291704
 	SES: 1.0
 	Learning Stability: 5.9506302187247355
 	Mean Reward: 15.8
 	Std Reward: 8.953211714239757




 10%|█████▎                                              | 516/5001 [00:09<01:20, 55.85it/s][A
 10%|█████▍                                              | 522/5001 [00:09<01:20, 55.81it/s][A
 11%|█████▍                                              | 528/5001 [00:09<01:20, 55.60it/s][A
 11%|█████▌                                              | 534/5001 [00:09<01:20, 55.37it/s][A
 11%|█████▌                                              | 540/5001 [00:09<01:20, 55.59it/s][A
 11%|█████▋                                              | 546/5001 [00:09<01:21, 54.99it/s][A
 11%|█████▋                                              | 552/5001 [00:09<01:21, 54.39it/s][A
 11%|█████▊                                              | 558/5001 [00:09<01:22, 53.71it/s][A
 11%|█████▊                                              | 564/5001 [00:09<01:22, 53.57it/s][A
 11%|█████▉                                              | 570/5001 [00:10<01:22, 53.72it/s][A
 12%|█████▉                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.9355162109291704
 	SES: 0
 	Learning Stability: 5.89576118919347
 	Mean Reward: 12.3
 	Std Reward: 4.605431575867781



 15%|███████▉                                            | 766/5001 [00:13<01:22, 51.18it/s][A
 15%|████████                                            | 772/5001 [00:14<01:22, 51.53it/s][A
 16%|████████                                            | 778/5001 [00:14<01:21, 52.04it/s][A
 16%|████████▏                                           | 784/5001 [00:14<01:21, 51.63it/s][A
 16%|████████▏                                           | 790/5001 [00:14<01:20, 52.33it/s][A
 16%|████████▎                                           | 796/5001 [00:14<01:22, 51.15it/s][A
 16%|████████▎                                           | 802/5001 [00:14<01:21, 51.75it/s][A
 16%|████████▍                                           | 808/5001 [00:14<01:21, 51.37it/s][A
 16%|████████▍                                           | 814/5001 [00:14<01:21, 51.17it/s][A
 16%|████████▌                                           | 820/5001 [00:15<01:21, 51.34it/s][A
 17%|████████▌                          

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.9032743163937553
 	SES: 1.0
 	Learning Stability: 6.708203932499369
 	Mean Reward: 16.1
 	Std Reward: 6.378871373526825




 20%|██████████▎                                        | 1015/5001 [00:18<01:28, 45.23it/s][A
 20%|██████████▍                                        | 1020/5001 [00:19<01:27, 45.26it/s][A
 20%|██████████▍                                        | 1025/5001 [00:19<01:27, 45.45it/s][A
 21%|██████████▌                                        | 1030/5001 [00:19<01:26, 46.02it/s][A
 21%|██████████▌                                        | 1035/5001 [00:19<01:28, 44.68it/s][A
 21%|██████████▌                                        | 1040/5001 [00:19<01:28, 44.69it/s][A
 21%|██████████▋                                        | 1046/5001 [00:19<01:23, 47.17it/s][A
 21%|██████████▋                                        | 1051/5001 [00:19<01:23, 47.54it/s][A
 21%|██████████▊                                        | 1056/5001 [00:19<01:24, 46.81it/s][A
 21%|██████████▊                                        | 1062/5001 [00:19<01:21, 48.39it/s][A
 21%|██████████▉                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.9677581054645852
 	SES: 0
 	Learning Stability: 8.075270893288968
 	Mean Reward: 16.8
 	Std Reward: 6.794115100585211




 25%|████████████▉                                      | 1263/5001 [00:24<01:17, 47.93it/s][A
 25%|████████████▉                                      | 1268/5001 [00:24<01:19, 47.24it/s][A
 25%|████████████▉                                      | 1273/5001 [00:24<01:18, 47.26it/s][A
 26%|█████████████                                      | 1278/5001 [00:24<01:20, 46.20it/s][A
 26%|█████████████                                      | 1283/5001 [00:24<01:21, 45.68it/s][A
 26%|█████████████▏                                     | 1288/5001 [00:24<01:20, 46.06it/s][A
 26%|█████████████▏                                     | 1293/5001 [00:24<01:21, 45.44it/s][A
 26%|█████████████▏                                     | 1298/5001 [00:25<01:20, 45.91it/s][A
 26%|█████████████▎                                     | 1303/5001 [00:25<01:20, 46.21it/s][A
 26%|█████████████▎                                     | 1308/5001 [00:25<01:18, 46.87it/s][A
 26%|█████████████▍                    

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 7.3
 	Mean Reward: 18.6
 	Std Reward: 5.571355310873647




 30%|███████████████▍                                   | 1512/5001 [00:30<01:31, 38.27it/s][A
 30%|███████████████▍                                   | 1516/5001 [00:30<01:31, 38.29it/s][A
 30%|███████████████▌                                   | 1520/5001 [00:30<01:34, 36.98it/s][A
 30%|███████████████▌                                   | 1524/5001 [00:30<01:32, 37.41it/s][A
 31%|███████████████▌                                   | 1528/5001 [00:30<01:33, 36.98it/s][A
 31%|███████████████▌                                   | 1532/5001 [00:30<01:31, 37.72it/s][A
 31%|███████████████▋                                   | 1536/5001 [00:31<01:30, 38.29it/s][A
 31%|███████████████▋                                   | 1540/5001 [00:31<01:32, 37.59it/s][A
 31%|███████████████▊                                   | 1545/5001 [00:31<01:29, 38.43it/s][A
 31%|███████████████▊                                   | 1549/5001 [00:31<01:29, 38.67it/s][A
 31%|███████████████▊                  

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.635870484808313
 	Mean Reward: 30.6
 	Std Reward: 6.6211781428987395




 35%|█████████████████▉                                 | 1759/5001 [00:37<01:56, 27.90it/s][A
 35%|█████████████████▉                                 | 1762/5001 [00:37<01:57, 27.47it/s][A
 35%|█████████████████▉                                 | 1765/5001 [00:37<02:03, 26.30it/s][A
 35%|██████████████████                                 | 1768/5001 [00:37<02:03, 26.12it/s][A
 35%|██████████████████                                 | 1771/5001 [00:37<02:02, 26.28it/s][A
 35%|██████████████████                                 | 1774/5001 [00:38<02:04, 25.99it/s][A
 36%|██████████████████                                 | 1777/5001 [00:38<02:04, 25.81it/s][A
 36%|██████████████████▏                                | 1780/5001 [00:38<02:07, 25.29it/s][A
 36%|██████████████████▏                                | 1783/5001 [00:38<02:06, 25.35it/s][A
 36%|██████████████████▏                                | 1786/5001 [00:38<02:05, 25.67it/s][A
 36%|██████████████████▏               

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.459915433025815
 	Mean Reward: 30.0
 	Std Reward: 13.046072205840346




 40%|████████████████████▍                              | 2008/5001 [00:47<02:01, 24.63it/s][A
 40%|████████████████████▌                              | 2011/5001 [00:47<02:00, 24.84it/s][A
 40%|████████████████████▌                              | 2014/5001 [00:47<01:59, 25.03it/s][A
 40%|████████████████████▌                              | 2017/5001 [00:47<02:00, 24.81it/s][A
 40%|████████████████████▌                              | 2020/5001 [00:47<02:00, 24.75it/s][A
 40%|████████████████████▋                              | 2023/5001 [00:48<02:02, 24.38it/s][A
 41%|████████████████████▋                              | 2026/5001 [00:48<02:02, 24.33it/s][A
 41%|████████████████████▋                              | 2029/5001 [00:48<01:59, 24.87it/s][A
 41%|████████████████████▋                              | 2032/5001 [00:48<02:03, 24.01it/s][A
 41%|████████████████████▊                              | 2035/5001 [00:48<02:04, 23.80it/s][A
 41%|████████████████████▊             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.0288657435791
 	Mean Reward: 32.0
 	Std Reward: 16.601204775557708




 45%|███████████████████████                            | 2257/5001 [00:58<02:16, 20.08it/s][A
 45%|███████████████████████                            | 2260/5001 [00:58<02:14, 20.36it/s][A
 45%|███████████████████████                            | 2263/5001 [00:59<02:11, 20.80it/s][A
 45%|███████████████████████                            | 2266/5001 [00:59<02:12, 20.70it/s][A
 45%|███████████████████████▏                           | 2269/5001 [00:59<02:12, 20.67it/s][A
 45%|███████████████████████▏                           | 2272/5001 [00:59<02:12, 20.59it/s][A
 45%|███████████████████████▏                           | 2275/5001 [00:59<02:17, 19.76it/s][A
 46%|███████████████████████▏                           | 2278/5001 [00:59<02:19, 19.46it/s][A
 46%|███████████████████████▎                           | 2280/5001 [00:59<02:19, 19.51it/s][A
 46%|███████████████████████▎                           | 2282/5001 [01:00<02:27, 18.47it/s][A
 46%|███████████████████████▎          

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.65867485734974
 	Mean Reward: 59.2
 	Std Reward: 16.94579593881621




 50%|█████████████████████████▌                         | 2504/5001 [01:16<03:04, 13.56it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [01:16<03:05, 13.43it/s][A
 50%|█████████████████████████▌                         | 2508/5001 [01:16<03:07, 13.30it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [01:16<03:03, 13.54it/s][A
 50%|█████████████████████████▌                         | 2512/5001 [01:16<03:03, 13.57it/s][A
 50%|█████████████████████████▋                         | 2514/5001 [01:16<02:58, 13.94it/s][A
 50%|█████████████████████████▋                         | 2516/5001 [01:17<02:54, 14.21it/s][A
 50%|█████████████████████████▋                         | 2518/5001 [01:17<02:55, 14.15it/s][A
 50%|█████████████████████████▋                         | 2520/5001 [01:17<02:55, 14.10it/s][A
 50%|█████████████████████████▋                         | 2522/5001 [01:17<02:57, 13.94it/s][A
 50%|█████████████████████████▋        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 18.911372240004162
 	Mean Reward: 64.1
 	Std Reward: 11.510430052782564




 55%|████████████████████████████                       | 2754/5001 [01:36<03:10, 11.79it/s][A
 55%|████████████████████████████                       | 2756/5001 [01:36<03:08, 11.91it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [01:36<03:07, 11.98it/s][A
 55%|████████████████████████████▏                      | 2760/5001 [01:36<03:07, 11.94it/s][A
 55%|████████████████████████████▏                      | 2762/5001 [01:36<03:05, 12.08it/s][A
 55%|████████████████████████████▏                      | 2764/5001 [01:36<03:00, 12.43it/s][A
 55%|████████████████████████████▏                      | 2766/5001 [01:36<02:56, 12.63it/s][A
 55%|████████████████████████████▏                      | 2768/5001 [01:37<02:57, 12.57it/s][A
 55%|████████████████████████████▏                      | 2770/5001 [01:37<02:57, 12.57it/s][A
 55%|████████████████████████████▎                      | 2772/5001 [01:37<02:57, 12.54it/s][A
 55%|████████████████████████████▎     

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.398097727754354
 	Mean Reward: 62.9
 	Std Reward: 5.166236541235795




 60%|██████████████████████████████▋                    | 3005/5001 [01:57<02:56, 11.28it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [01:57<02:53, 11.48it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [01:57<02:54, 11.39it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [01:58<02:56, 11.27it/s][A
 60%|██████████████████████████████▋                    | 3013/5001 [01:58<02:58, 11.14it/s][A
 60%|██████████████████████████████▋                    | 3015/5001 [01:58<02:56, 11.25it/s][A
 60%|██████████████████████████████▊                    | 3017/5001 [01:58<02:55, 11.30it/s][A
 60%|██████████████████████████████▊                    | 3019/5001 [01:58<02:51, 11.54it/s][A
 60%|██████████████████████████████▊                    | 3021/5001 [01:58<02:51, 11.57it/s][A
 60%|██████████████████████████████▊                    | 3023/5001 [01:59<02:40, 12.30it/s][A
 60%|██████████████████████████████▊   

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 17.36663467687393
 	Mean Reward: 65.0
 	Std Reward: 9.528903399657276




 65%|█████████████████████████████████▏                 | 3255/5001 [02:19<02:28, 11.78it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [02:19<02:28, 11.75it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [02:19<02:27, 11.80it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [02:19<02:26, 11.87it/s][A
 65%|█████████████████████████████████▎                 | 3263/5001 [02:19<02:24, 12.03it/s][A
 65%|█████████████████████████████████▎                 | 3265/5001 [02:20<02:21, 12.24it/s][A
 65%|█████████████████████████████████▎                 | 3267/5001 [02:20<02:22, 12.15it/s][A
 65%|█████████████████████████████████▎                 | 3269/5001 [02:20<02:23, 12.05it/s][A
 65%|█████████████████████████████████▎                 | 3271/5001 [02:20<02:19, 12.38it/s][A
 65%|█████████████████████████████████▍                 | 3273/5001 [02:20<02:18, 12.45it/s][A
 65%|█████████████████████████████████▍

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.137254478007414
 	Mean Reward: 87.8
 	Std Reward: 17.865049678072545




 70%|███████████████████████████████████▋               | 3503/5001 [02:44<02:59,  8.34it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [02:44<02:53,  8.65it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [02:44<02:54,  8.58it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [02:44<02:47,  8.94it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [02:44<02:48,  8.85it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [02:44<02:46,  8.96it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [02:44<02:46,  8.97it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [02:45<02:51,  8.68it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [02:45<03:11,  7.79it/s][A
 70%|███████████████████████████████████▊               | 3512/5001 [02:45<03:10,  7.80it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 13.107249902248755
 	Mean Reward: 70.8
 	Std Reward: 11.539497389401324




 75%|██████████████████████████████████████▎            | 3755/5001 [03:10<01:52, 11.03it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [03:10<01:54, 10.85it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [03:10<01:59, 10.39it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [03:10<02:02, 10.14it/s][A
 75%|██████████████████████████████████████▎            | 3763/5001 [03:11<02:02, 10.12it/s][A
 75%|██████████████████████████████████████▍            | 3765/5001 [03:11<02:01, 10.19it/s][A
 75%|██████████████████████████████████████▍            | 3767/5001 [03:11<02:01, 10.13it/s][A
 75%|██████████████████████████████████████▍            | 3769/5001 [03:11<02:03,  9.97it/s][A
 75%|██████████████████████████████████████▍            | 3771/5001 [03:11<02:01, 10.13it/s][A
 75%|██████████████████████████████████████▍            | 3773/5001 [03:12<02:01, 10.07it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.200543462209176
 	Mean Reward: 77.7
 	Std Reward: 11.384638773364747




 80%|████████████████████████████████████████▊          | 4003/5001 [03:34<01:59,  8.39it/s][A
 80%|████████████████████████████████████████▊          | 4004/5001 [03:34<01:53,  8.76it/s][A
 80%|████████████████████████████████████████▊          | 4005/5001 [03:34<01:53,  8.74it/s][A
 80%|████████████████████████████████████████▊          | 4006/5001 [03:34<01:52,  8.83it/s][A
 80%|████████████████████████████████████████▊          | 4007/5001 [03:34<01:51,  8.95it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [03:34<01:49,  9.03it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [03:34<01:47,  9.21it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [03:35<01:45,  9.38it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [03:35<01:46,  9.34it/s][A
 80%|████████████████████████████████████████▉          | 4012/5001 [03:35<01:45,  9.34it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 21.470910553583888
 	Mean Reward: 86.8
 	Std Reward: 13.385066305401704




 85%|███████████████████████████████████████████▎       | 4253/5001 [04:03<01:32,  8.07it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [04:03<01:28,  8.44it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [04:03<01:27,  8.56it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [04:03<01:25,  8.75it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [04:03<01:28,  8.43it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [04:04<01:26,  8.61it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [04:04<01:25,  8.62it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [04:04<01:25,  8.64it/s][A
 85%|███████████████████████████████████████████▍       | 4262/5001 [04:04<01:26,  8.55it/s][A
 85%|███████████████████████████████████████████▍       | 4263/5001 [04:04<01:22,  8.92it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 20.57790076757102
 	Mean Reward: 85.2
 	Std Reward: 12.631706139710502




 90%|█████████████████████████████████████████████▉     | 4503/5001 [04:30<01:06,  7.51it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [04:30<01:04,  7.72it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [04:30<01:01,  8.02it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [04:30<01:01,  8.04it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [04:30<01:00,  8.17it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [04:30<00:58,  8.39it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [04:30<00:58,  8.47it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [04:30<00:58,  8.37it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [04:31<00:59,  8.21it/s][A
 90%|██████████████████████████████████████████████     | 4512/5001 [04:31<00:59,  8.23it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 8.953211714239757
 	Mean Reward: 83.8
 	Std Reward: 13.78985134075056



 95%|████████████████████████████████████████████████▍  | 4753/5001 [04:56<00:30,  8.25it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [04:56<00:29,  8.38it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [04:56<00:28,  8.74it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [04:56<00:26,  9.32it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [04:56<00:27,  8.81it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [04:56<00:28,  8.36it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [04:57<00:29,  8.24it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [04:57<00:29,  8.19it/s][A
 95%|████████████████████████████████████████████████▌  | 4762/5001 [04:57<00:28,  8.54it/s][A
 95%|████████████████████████████████████████████████▌  | 4763/5001 [04:57<00:26,  8.89it/s][A
 95%|███████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 14.567086187704115
 	Mean Reward: 95.0
 	Std Reward: 13.696714934611146



 75%|██████████████████████████████████████████              | 3/4 [34:53<09:57, 597.52s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                      | 7/5001 [00:00<01:11, 69.77it/s][A
  0%|▏                                                    | 15/5001 [00:00<01:10, 70.61it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.2206749738444453
 	SES: 0.7777777777777778
 	Learning Stability: 1.0999999999999999
 	Mean Reward: 9.3
 	Std Reward: 1.345362404707371




  0%|▏                                                    | 23/5001 [00:00<01:11, 70.08it/s][A
  1%|▎                                                    | 31/5001 [00:00<01:10, 70.04it/s][A
  1%|▍                                                    | 39/5001 [00:00<01:11, 69.44it/s][A
  1%|▍                                                    | 47/5001 [00:00<01:09, 70.92it/s][A
  1%|▌                                                    | 55/5001 [00:00<01:11, 69.19it/s][A
  1%|▋                                                    | 62/5001 [00:00<01:11, 69.15it/s][A
  1%|▋                                                    | 70/5001 [00:00<01:09, 70.46it/s][A
  2%|▊                                                    | 78/5001 [00:01<01:09, 71.06it/s][A
  2%|▉                                                    | 86/5001 [00:01<01:09, 71.00it/s][A
  2%|▉                                                    | 94/5001 [00:01<01:08, 72.03it/s][A
  2%|█                                 

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.2206730712393332
 	SES: 1.0
 	Learning Stability: 2.794637722496424
 	Mean Reward: 11.2
 	Std Reward: 2.181742422927143




  5%|██▊                                                 | 270/5001 [00:04<01:18, 59.94it/s][A
  6%|██▊                                                 | 276/5001 [00:04<01:19, 59.26it/s][A
  6%|██▉                                                 | 282/5001 [00:04<01:19, 59.18it/s][A
  6%|██▉                                                 | 288/5001 [00:04<01:19, 59.23it/s][A
  6%|███                                                 | 294/5001 [00:04<01:19, 58.97it/s][A
  6%|███                                                 | 300/5001 [00:04<01:19, 58.93it/s][A
  6%|███▏                                                | 307/5001 [00:04<01:18, 59.60it/s][A
  6%|███▎                                                | 313/5001 [00:04<01:26, 53.97it/s][A
  6%|███▎                                                | 319/5001 [00:05<01:31, 51.21it/s][A
  6%|███▍                                                | 325/5001 [00:05<01:32, 50.63it/s][A
  7%|███▍                              

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 1.6613247725836147
 	Mean Reward: 12.1
 	Std Reward: 1.3




 10%|█████▍                                              | 517/5001 [00:08<01:19, 56.37it/s][A
 10%|█████▍                                              | 523/5001 [00:08<01:19, 56.26it/s][A
 11%|█████▌                                              | 529/5001 [00:08<01:19, 56.45it/s][A
 11%|█████▌                                              | 535/5001 [00:08<01:20, 55.75it/s][A
 11%|█████▋                                              | 541/5001 [00:09<01:22, 54.29it/s][A
 11%|█████▋                                              | 547/5001 [00:09<01:22, 53.72it/s][A
 11%|█████▊                                              | 553/5001 [00:09<01:23, 53.36it/s][A
 11%|█████▊                                              | 559/5001 [00:09<01:25, 51.68it/s][A
 11%|█████▊                                              | 565/5001 [00:09<01:26, 51.05it/s][A
 11%|█████▉                                              | 571/5001 [00:09<01:29, 49.41it/s][A
 12%|█████▉                            

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.2206749738444453
 	SES: 0
 	Learning Stability: 5.118593556827891
 	Mean Reward: 16.1
 	Std Reward: 6.10655385630881




 15%|███████▉                                            | 761/5001 [00:13<01:35, 44.63it/s][A
 15%|███████▉                                            | 766/5001 [00:13<01:35, 44.16it/s][A
 15%|████████                                            | 771/5001 [00:14<01:35, 44.29it/s][A
 16%|████████                                            | 776/5001 [00:14<01:35, 44.14it/s][A
 16%|████████                                            | 781/5001 [00:14<01:35, 44.23it/s][A
 16%|████████▏                                           | 786/5001 [00:14<01:36, 43.61it/s][A
 16%|████████▏                                           | 791/5001 [00:14<01:39, 42.23it/s][A
 16%|████████▎                                           | 796/5001 [00:14<01:38, 42.89it/s][A
 16%|████████▎                                           | 801/5001 [00:14<01:39, 42.36it/s][A
 16%|████████▍                                           | 806/5001 [00:14<01:39, 41.96it/s][A
 16%|████████▍                         

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 4.561797891182818
 	Mean Reward: 19.6
 	Std Reward: 6.135144660071187




 20%|██████████▎                                        | 1012/5001 [00:20<01:47, 37.11it/s][A
 20%|██████████▎                                        | 1016/5001 [00:20<01:48, 36.76it/s][A
 20%|██████████▍                                        | 1020/5001 [00:20<01:49, 36.40it/s][A
 20%|██████████▍                                        | 1024/5001 [00:20<01:49, 36.46it/s][A
 21%|██████████▍                                        | 1028/5001 [00:20<01:48, 36.49it/s][A
 21%|██████████▌                                        | 1032/5001 [00:20<01:48, 36.66it/s][A
 21%|██████████▌                                        | 1036/5001 [00:20<01:47, 36.86it/s][A
 21%|██████████▌                                        | 1040/5001 [00:20<01:47, 36.95it/s][A
 21%|██████████▋                                        | 1044/5001 [00:21<01:47, 36.74it/s][A
 21%|██████████▋                                        | 1048/5001 [00:21<01:46, 37.10it/s][A
 21%|██████████▋                       

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 5.337602458033007
 	Mean Reward: 19.0
 	Std Reward: 4.560701700396552




 25%|████████████▊                                      | 1259/5001 [00:26<01:48, 34.63it/s][A
 25%|████████████▉                                      | 1263/5001 [00:27<01:46, 35.17it/s][A
 25%|████████████▉                                      | 1267/5001 [00:27<01:45, 35.38it/s][A
 25%|████████████▉                                      | 1271/5001 [00:27<01:45, 35.38it/s][A
 25%|█████████████                                      | 1275/5001 [00:27<01:43, 35.95it/s][A
 26%|█████████████                                      | 1279/5001 [00:27<01:43, 36.09it/s][A
 26%|█████████████                                      | 1284/5001 [00:27<01:39, 37.26it/s][A
 26%|█████████████▏                                     | 1288/5001 [00:27<01:39, 37.44it/s][A
 26%|█████████████▏                                     | 1292/5001 [00:27<01:37, 37.85it/s][A
 26%|█████████████▏                                     | 1296/5001 [00:27<01:38, 37.58it/s][A
 26%|█████████████▎                    

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 22.607299706068392
 	Mean Reward: 88.1
 	Std Reward: 9.648315915225828



 30%|███████████████▎                                   | 1504/5001 [00:44<06:05,  9.55it/s][A
 30%|███████████████▎                                   | 1505/5001 [00:44<06:07,  9.50it/s][A
 30%|███████████████▎                                   | 1507/5001 [00:44<05:56,  9.81it/s][A
 30%|███████████████▍                                   | 1508/5001 [00:44<05:55,  9.83it/s][A
 30%|███████████████▍                                   | 1510/5001 [00:44<05:29, 10.58it/s][A
 30%|███████████████▍                                   | 1512/5001 [00:45<05:36, 10.37it/s][A
 30%|███████████████▍                                   | 1514/5001 [00:45<05:29, 10.58it/s][A
 30%|███████████████▍                                   | 1516/5001 [00:45<05:37, 10.33it/s][A
 30%|███████████████▍                                   | 1518/5001 [00:45<05:39, 10.25it/s][A
 30%|███████████████▌                                   | 1520/5001 [00:45<05:38, 10.28it/s][A
 30%|███████████████▌                   

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 120.66768415777275
 	Mean Reward: 124.2
 	Std Reward: 67.17112474865966




 35%|█████████████████▉                                 | 1753/5001 [01:13<07:22,  7.33it/s][A
 35%|█████████████████▉                                 | 1754/5001 [01:13<07:49,  6.92it/s][A
 35%|█████████████████▉                                 | 1755/5001 [01:13<07:17,  7.43it/s][A
 35%|█████████████████▉                                 | 1756/5001 [01:13<06:58,  7.76it/s][A
 35%|█████████████████▉                                 | 1757/5001 [01:13<06:36,  8.18it/s][A
 35%|█████████████████▉                                 | 1758/5001 [01:13<06:35,  8.21it/s][A
 35%|█████████████████▉                                 | 1759/5001 [01:13<06:49,  7.91it/s][A
 35%|█████████████████▉                                 | 1760/5001 [01:14<07:25,  7.27it/s][A
 35%|█████████████████▉                                 | 1762/5001 [01:14<06:55,  7.80it/s][A
 35%|█████████████████▉                                 | 1763/5001 [01:14<06:58,  7.73it/s][A
 35%|█████████████████▉                

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 16.805951326836574
 	Mean Reward: 56.0
 	Std Reward: 16.056151469141042




 40%|████████████████████▍                              | 2005/5001 [02:01<04:16, 11.68it/s][A
 40%|████████████████████▍                              | 2007/5001 [02:01<04:19, 11.56it/s][A
 40%|████████████████████▍                              | 2009/5001 [02:01<04:10, 11.95it/s][A
 40%|████████████████████▌                              | 2011/5001 [02:01<04:07, 12.10it/s][A
 40%|████████████████████▌                              | 2013/5001 [02:01<04:04, 12.21it/s][A
 40%|████████████████████▌                              | 2015/5001 [02:01<03:56, 12.60it/s][A
 40%|████████████████████▌                              | 2017/5001 [02:02<03:54, 12.70it/s][A
 40%|████████████████████▌                              | 2019/5001 [02:02<04:17, 11.60it/s][A
 40%|████████████████████▌                              | 2021/5001 [02:02<05:30,  9.01it/s][A
 40%|████████████████████▋                              | 2023/5001 [02:02<05:58,  8.30it/s][A
 40%|████████████████████▋             

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 115.62997016344853
 	Mean Reward: 265.0
 	Std Reward: 60.08660416432269




 45%|██████████████████████▉                            | 2253/5001 [02:53<10:24,  4.40it/s][A
 45%|██████████████████████▉                            | 2254/5001 [02:53<10:09,  4.51it/s][A
 45%|██████████████████████▉                            | 2255/5001 [02:53<09:06,  5.03it/s][A
 45%|███████████████████████                            | 2256/5001 [02:54<07:54,  5.79it/s][A
 45%|███████████████████████                            | 2258/5001 [02:54<06:25,  7.12it/s][A
 45%|███████████████████████                            | 2259/5001 [02:54<06:21,  7.19it/s][A
 45%|███████████████████████                            | 2260/5001 [02:54<06:17,  7.26it/s][A
 45%|███████████████████████                            | 2261/5001 [02:54<06:05,  7.50it/s][A
 45%|███████████████████████                            | 2262/5001 [02:54<05:39,  8.06it/s][A
 45%|███████████████████████                            | 2263/5001 [02:54<05:29,  8.32it/s][A
 45%|███████████████████████           

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 108.83675849638301
 	Mean Reward: 287.3
 	Std Reward: 104.46631035889034




 50%|█████████████████████████▌                         | 2502/5001 [03:41<14:46,  2.82it/s][A
 50%|█████████████████████████▌                         | 2503/5001 [03:41<14:49,  2.81it/s][A
 50%|█████████████████████████▌                         | 2504/5001 [03:41<14:18,  2.91it/s][A
 50%|█████████████████████████▌                         | 2505/5001 [03:42<14:05,  2.95it/s][A
 50%|█████████████████████████▌                         | 2506/5001 [03:42<14:15,  2.92it/s][A
 50%|█████████████████████████▌                         | 2507/5001 [03:42<14:43,  2.82it/s][A
 50%|█████████████████████████▌                         | 2508/5001 [03:42<11:49,  3.51it/s][A
 50%|█████████████████████████▌                         | 2509/5001 [03:42<09:33,  4.34it/s][A
 50%|█████████████████████████▌                         | 2510/5001 [03:43<07:59,  5.19it/s][A
 50%|█████████████████████████▌                         | 2512/5001 [03:43<06:22,  6.50it/s][A
 50%|█████████████████████████▋        

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 148.3148340524305
 	Mean Reward: 267.4
 	Std Reward: 122.4444363783018




 55%|████████████████████████████                       | 2752/5001 [04:35<10:53,  3.44it/s][A
 55%|████████████████████████████                       | 2753/5001 [04:36<11:36,  3.23it/s][A
 55%|████████████████████████████                       | 2754/5001 [04:36<12:11,  3.07it/s][A
 55%|████████████████████████████                       | 2755/5001 [04:36<12:25,  3.01it/s][A
 55%|████████████████████████████                       | 2756/5001 [04:37<12:57,  2.89it/s][A
 55%|████████████████████████████                       | 2757/5001 [04:37<12:33,  2.98it/s][A
 55%|████████████████████████████▏                      | 2758/5001 [04:37<12:58,  2.88it/s][A
 55%|████████████████████████████▏                      | 2759/5001 [04:37<10:24,  3.59it/s][A
 55%|████████████████████████████▏                      | 2761/5001 [04:38<07:39,  4.87it/s][A
 55%|████████████████████████████▏                      | 2762/5001 [04:38<07:19,  5.10it/s][A
 55%|████████████████████████████▏     

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 9.28654941299512
 	Mean Reward: 75.4
 	Std Reward: 7.213875518748574



 60%|██████████████████████████████▌                    | 3003/5001 [05:26<05:36,  5.94it/s][A
 60%|██████████████████████████████▋                    | 3004/5001 [05:26<05:28,  6.09it/s][A
 60%|██████████████████████████████▋                    | 3005/5001 [05:26<05:05,  6.53it/s][A
 60%|██████████████████████████████▋                    | 3006/5001 [05:26<05:01,  6.61it/s][A
 60%|██████████████████████████████▋                    | 3007/5001 [05:27<06:35,  5.04it/s][A
 60%|██████████████████████████████▋                    | 3008/5001 [05:27<06:17,  5.28it/s][A
 60%|██████████████████████████████▋                    | 3009/5001 [05:27<06:10,  5.37it/s][A
 60%|██████████████████████████████▋                    | 3010/5001 [05:27<05:58,  5.56it/s][A
 60%|██████████████████████████████▋                    | 3011/5001 [05:27<05:49,  5.69it/s][A
 60%|██████████████████████████████▋                    | 3012/5001 [05:27<05:43,  5.79it/s][A
 60%|██████████████████████████████▋    

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 104.89847472675663
 	Mean Reward: 162.4
 	Std Reward: 31.331134674633155




 65%|█████████████████████████████████▏                 | 3253/5001 [06:14<05:56,  4.90it/s][A
 65%|█████████████████████████████████▏                 | 3254/5001 [06:14<06:37,  4.40it/s][A
 65%|█████████████████████████████████▏                 | 3255/5001 [06:15<07:26,  3.91it/s][A
 65%|█████████████████████████████████▏                 | 3256/5001 [06:15<07:35,  3.83it/s][A
 65%|█████████████████████████████████▏                 | 3257/5001 [06:15<07:11,  4.04it/s][A
 65%|█████████████████████████████████▏                 | 3258/5001 [06:15<06:58,  4.17it/s][A
 65%|█████████████████████████████████▏                 | 3259/5001 [06:15<06:35,  4.41it/s][A
 65%|█████████████████████████████████▏                 | 3260/5001 [06:16<06:29,  4.47it/s][A
 65%|█████████████████████████████████▎                 | 3261/5001 [06:16<06:47,  4.27it/s][A
 65%|█████████████████████████████████▎                 | 3262/5001 [06:16<06:44,  4.30it/s][A
 65%|█████████████████████████████████▎

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 75.28751556533128
 	Mean Reward: 323.2
 	Std Reward: 133.77653007908373




 70%|███████████████████████████████████▋               | 3502/5001 [07:20<08:35,  2.91it/s][A
 70%|███████████████████████████████████▋               | 3503/5001 [07:20<08:38,  2.89it/s][A
 70%|███████████████████████████████████▋               | 3504/5001 [07:21<08:25,  2.96it/s][A
 70%|███████████████████████████████████▋               | 3505/5001 [07:21<08:18,  3.00it/s][A
 70%|███████████████████████████████████▊               | 3506/5001 [07:21<08:13,  3.03it/s][A
 70%|███████████████████████████████████▊               | 3507/5001 [07:21<08:16,  3.01it/s][A
 70%|███████████████████████████████████▊               | 3508/5001 [07:22<08:16,  3.01it/s][A
 70%|███████████████████████████████████▊               | 3509/5001 [07:22<08:27,  2.94it/s][A
 70%|███████████████████████████████████▊               | 3510/5001 [07:23<08:36,  2.89it/s][A
 70%|███████████████████████████████████▊               | 3511/5001 [07:23<08:36,  2.88it/s][A
 70%|██████████████████████████████████

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 144.1625471473087
 	Mean Reward: 384.2
 	Std Reward: 117.31819978161957




 75%|██████████████████████████████████████▎            | 3752/5001 [08:44<06:55,  3.00it/s][A
 75%|██████████████████████████████████████▎            | 3753/5001 [08:44<06:56,  3.00it/s][A
 75%|██████████████████████████████████████▎            | 3754/5001 [08:44<06:52,  3.03it/s][A
 75%|██████████████████████████████████████▎            | 3755/5001 [08:45<07:26,  2.79it/s][A
 75%|██████████████████████████████████████▎            | 3756/5001 [08:45<07:32,  2.75it/s][A
 75%|██████████████████████████████████████▎            | 3757/5001 [08:46<07:13,  2.87it/s][A
 75%|██████████████████████████████████████▎            | 3758/5001 [08:46<07:24,  2.80it/s][A
 75%|██████████████████████████████████████▎            | 3759/5001 [08:46<07:02,  2.94it/s][A
 75%|██████████████████████████████████████▎            | 3760/5001 [08:47<06:58,  2.97it/s][A
 75%|██████████████████████████████████████▎            | 3761/5001 [08:47<07:20,  2.82it/s][A
 75%|██████████████████████████████████

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 56.63753172587944
 	Mean Reward: 126.3
 	Std Reward: 17.458808664969098




 80%|████████████████████████████████████████▊          | 4003/5001 [10:23<03:42,  4.49it/s][A
 80%|████████████████████████████████████████▊          | 4004/5001 [10:24<04:57,  3.35it/s][A
 80%|████████████████████████████████████████▊          | 4005/5001 [10:24<05:26,  3.05it/s][A
 80%|████████████████████████████████████████▊          | 4006/5001 [10:24<05:33,  2.98it/s][A
 80%|████████████████████████████████████████▊          | 4007/5001 [10:25<05:26,  3.04it/s][A
 80%|████████████████████████████████████████▊          | 4008/5001 [10:25<05:30,  3.01it/s][A
 80%|████████████████████████████████████████▉          | 4009/5001 [10:25<05:25,  3.05it/s][A
 80%|████████████████████████████████████████▉          | 4010/5001 [10:26<06:07,  2.69it/s][A
 80%|████████████████████████████████████████▉          | 4011/5001 [10:26<06:43,  2.46it/s][A
 80%|████████████████████████████████████████▉          | 4012/5001 [10:27<06:41,  2.46it/s][A
 80%|██████████████████████████████████

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 93.54148812158165
 	Mean Reward: 497.4
 	Std Reward: 7.799999999999999




 85%|███████████████████████████████████████████▎       | 4252/5001 [12:10<06:43,  1.86it/s][A
 85%|███████████████████████████████████████████▎       | 4253/5001 [12:10<06:45,  1.85it/s][A
 85%|███████████████████████████████████████████▍       | 4254/5001 [12:11<06:35,  1.89it/s][A
 85%|███████████████████████████████████████████▍       | 4255/5001 [12:11<06:28,  1.92it/s][A
 85%|███████████████████████████████████████████▍       | 4256/5001 [12:12<06:26,  1.93it/s][A
 85%|███████████████████████████████████████████▍       | 4257/5001 [12:12<06:21,  1.95it/s][A
 85%|███████████████████████████████████████████▍       | 4258/5001 [12:13<06:25,  1.93it/s][A
 85%|███████████████████████████████████████████▍       | 4259/5001 [12:13<06:25,  1.92it/s][A
 85%|███████████████████████████████████████████▍       | 4260/5001 [12:14<06:22,  1.94it/s][A
 85%|███████████████████████████████████████████▍       | 4261/5001 [12:14<06:05,  2.02it/s][A
 85%|██████████████████████████████████

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 139.41266083107374
 	Mean Reward: 328.0
 	Std Reward: 127.92028767947639




 90%|█████████████████████████████████████████████▉     | 4502/5001 [13:33<02:45,  3.01it/s][A
 90%|█████████████████████████████████████████████▉     | 4503/5001 [13:34<02:38,  3.13it/s][A
 90%|█████████████████████████████████████████████▉     | 4504/5001 [13:34<02:28,  3.34it/s][A
 90%|█████████████████████████████████████████████▉     | 4505/5001 [13:34<02:10,  3.79it/s][A
 90%|█████████████████████████████████████████████▉     | 4506/5001 [13:34<02:02,  4.05it/s][A
 90%|█████████████████████████████████████████████▉     | 4507/5001 [13:35<01:59,  4.13it/s][A
 90%|█████████████████████████████████████████████▉     | 4508/5001 [13:35<02:09,  3.80it/s][A
 90%|█████████████████████████████████████████████▉     | 4509/5001 [13:35<02:07,  3.86it/s][A
 90%|█████████████████████████████████████████████▉     | 4510/5001 [13:36<02:26,  3.34it/s][A
 90%|██████████████████████████████████████████████     | 4511/5001 [13:36<02:49,  2.89it/s][A
 90%|██████████████████████████████████

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 138.09981897164093
 	Mean Reward: 457.8
 	Std Reward: 126.6




 95%|████████████████████████████████████████████████▍  | 4752/5001 [15:07<02:05,  1.99it/s][A
 95%|████████████████████████████████████████████████▍  | 4753/5001 [15:08<02:00,  2.06it/s][A
 95%|████████████████████████████████████████████████▍  | 4754/5001 [15:08<02:00,  2.05it/s][A
 95%|████████████████████████████████████████████████▍  | 4755/5001 [15:09<02:01,  2.02it/s][A
 95%|████████████████████████████████████████████████▌  | 4756/5001 [15:09<02:02,  1.99it/s][A
 95%|████████████████████████████████████████████████▌  | 4757/5001 [15:10<02:03,  1.98it/s][A
 95%|████████████████████████████████████████████████▌  | 4758/5001 [15:10<02:04,  1.96it/s][A
 95%|████████████████████████████████████████████████▌  | 4759/5001 [15:11<02:05,  1.92it/s][A
 95%|████████████████████████████████████████████████▌  | 4760/5001 [15:11<02:06,  1.90it/s][A
 95%|████████████████████████████████████████████████▌  | 4761/5001 [15:12<02:04,  1.93it/s][A
 95%|██████████████████████████████████

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.2206749738444453
 	SES: 1.0
 	Learning Stability: 186.3048308552411
 	Mean Reward: 500.0
 	Std Reward: 0.0




100%|████████████████████████████████████████████████████████| 4/4 [51:46<00:00, 776.51s/it]


In [7]:
q_table_df.to_csv(DATASETS_Q_TABLE_DIR / 'q_table.csv', index=False)

### DQN

In [8]:
DATASETS_DQN_DIR = DATASETS_DIR / "dqn"
DATASETS_DQN_DIR.mkdir(parents=True, exist_ok=True)

#### Curriculum parameter: pole length 

In [9]:
from environments.cart_pole.rl_methods.dqn import DQNAgent

dqn_agent = functools.partial(experiments.get_agent, agent_name='dqn')

training_configurations = [
    (dqn_agent(curriculum_name='root_p'), experiments.get_curriculum('root_p')),
    (dqn_agent(curriculum_name='linear'), experiments.get_curriculum('linear')),
    (dqn_agent(curriculum_name='logarithmic'), experiments.get_curriculum('logarithmic')),
    (dqn_agent(curriculum_name='baseline'), experiments.get_curriculum('baseline'))
]

for training_configuration in tqdm(training_configurations):
    cart_pole.train_evaluate(*training_configuration)

dqn_df = data_frame_from_configurations(training_configurations)

  0%|                                                                 | 0/4 [00:00<?, ?it/s]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<01:02,  3.20it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.2206749738444453
 	SES: 0.9523809523809523
 	Learning Stability: 9.284934033152847
 	Mean Reward: 9.2
 	Std Reward: 2.749545416973504




  1%|▌                                                      | 2/201 [00:00<01:05,  3.03it/s][A
  1%|▊                                                      | 3/201 [00:00<01:04,  3.05it/s][A
  2%|█                                                      | 4/201 [00:01<00:55,  3.53it/s][A
  2%|█▎                                                     | 5/201 [00:01<00:49,  3.92it/s][A
  3%|█▋                                                     | 6/201 [00:01<00:46,  4.22it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:51,  3.80it/s][A
  4%|██▏                                                    | 8/201 [00:02<01:02,  3.07it/s][A
  4%|██▍                                                    | 9/201 [00:02<01:09,  2.77it/s][A
  5%|██▋                                                   | 10/201 [00:03<01:37,  1.97it/s][A
  5%|██▉                                                   | 11/201 [00:05<02:30,  1.27it/s][A
  6%|███▏                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 29.532355138051557
 	Mean Reward: 147.6
 	Std Reward: 14.319217855734998




 13%|███████▎                                              | 27/201 [00:35<06:48,  2.35s/it][A
 14%|███████▌                                              | 28/201 [00:37<06:44,  2.34s/it][A
 14%|███████▊                                              | 29/201 [00:39<06:32,  2.28s/it][A
 15%|████████                                              | 30/201 [00:42<06:46,  2.38s/it][A
 15%|████████▎                                             | 31/201 [00:44<06:21,  2.24s/it][A
 16%|████████▌                                             | 32/201 [00:46<05:55,  2.10s/it][A
 16%|████████▊                                             | 33/201 [00:48<05:58,  2.14s/it][A
 17%|█████████▏                                            | 34/201 [00:50<06:15,  2.25s/it][A
 17%|█████████▍                                            | 35/201 [00:54<07:13,  2.61s/it][A
 18%|█████████▋                                            | 36/201 [00:57<07:41,  2.80s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 89.20448419221984
 	Mean Reward: 500.0
 	Std Reward: 0.0




 26%|█████████████▉                                        | 52/201 [02:02<12:23,  4.99s/it][A
 26%|██████████████▏                                       | 53/201 [02:06<11:31,  4.67s/it][A
 27%|██████████████▌                                       | 54/201 [02:10<10:58,  4.48s/it][A
 27%|██████████████▊                                       | 55/201 [02:15<11:35,  4.77s/it][A
 28%|███████████████                                       | 56/201 [02:19<11:07,  4.61s/it][A
 28%|███████████████▎                                      | 57/201 [02:22<09:45,  4.07s/it][A
 29%|███████████████▌                                      | 58/201 [02:26<09:29,  3.98s/it][A
 29%|███████████████▊                                      | 59/201 [02:29<08:48,  3.72s/it][A
 30%|████████████████                                      | 60/201 [02:31<07:43,  3.29s/it][A
 30%|████████████████▍                                     | 61/201 [02:35<07:50,  3.36s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 55.06042135690573
 	Mean Reward: 500.0
 	Std Reward: 0.0




 38%|████████████████████▋                                 | 77/201 [03:33<08:28,  4.10s/it][A
 39%|████████████████████▉                                 | 78/201 [03:35<07:05,  3.46s/it][A
 39%|█████████████████████▏                                | 79/201 [03:39<07:24,  3.64s/it][A
 40%|█████████████████████▍                                | 80/201 [03:42<07:20,  3.64s/it][A
 40%|█████████████████████▊                                | 81/201 [03:47<08:05,  4.05s/it][A
 41%|██████████████████████                                | 82/201 [03:51<07:44,  3.90s/it][A
 41%|██████████████████████▎                               | 83/201 [03:56<08:10,  4.16s/it][A
 42%|██████████████████████▌                               | 84/201 [04:00<08:20,  4.28s/it][A
 42%|██████████████████████▊                               | 85/201 [04:06<08:57,  4.63s/it][A
 43%|███████████████████████                               | 86/201 [04:12<09:39,  5.04s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 132.28639385817425
 	Mean Reward: 153.1
 	Std Reward: 4.3




 51%|███████████████████████▊                       | 102/201 [4:33:52<13:08:10, 477.68s/it][A
 51%|████████████████████████▌                       | 103/201 [4:33:58<9:09:00, 336.12s/it][A
 52%|████████████████████████▎                      | 104/201 [5:08:29<23:05:02, 856.73s/it][A
 52%|████████████████████████                      | 105/201 [6:09:32<45:17:53, 1698.68s/it][A
 53%|████████████████████████▎                     | 106/201 [6:09:35<31:24:12, 1190.03s/it][A
 53%|████████████████████████▍                     | 107/201 [7:10:35<50:25:12, 1930.98s/it][A
 54%|████████████████████████▋                     | 108/201 [7:10:41<34:57:35, 1353.29s/it][A
 54%|████████████████████████▉                     | 109/201 [8:11:45<52:18:12, 2046.66s/it][A
 55%|█████████████████████████▏                    | 110/201 [8:11:51<36:15:32, 1434.42s/it][A
 55%|█████████████████████████▍                    | 111/201 [8:27:08<31:58:33, 1279.04s/it][A
 56%|██████████████████████████▏       

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 12.003749414245535
 	Mean Reward: 116.6
 	Std Reward: 3.6386810797320503




 63%|█████████████████████████████▋                 | 127/201 [11:18:48<5:29:12, 266.93s/it][A
 64%|█████████████████████████████▉                 | 128/201 [11:18:52<3:48:40, 187.95s/it][A
 64%|█████████████████████████████▌                | 129/201 [12:05:23<19:22:57, 969.14s/it][A
 65%|█████████████████████████████▊                | 130/201 [12:05:25<13:23:24, 678.94s/it][A
 65%|██████████████████████████████▋                | 131/201 [12:05:27<9:15:09, 475.85s/it][A
 66%|██████████████████████████████▊                | 132/201 [12:05:29<6:23:47, 333.73s/it][A
 66%|███████████████████████████████                | 133/201 [12:05:32<4:25:32, 234.30s/it][A
 67%|███████████████████████████████▎               | 134/201 [12:05:34<3:03:55, 164.70s/it][A
 67%|███████████████████████████████▌               | 135/201 [12:05:36<2:07:34, 115.97s/it][A
 68%|████████████████████████████████▍               | 136/201 [12:05:39<1:28:51, 82.02s/it][A
 68%|████████████████████████████████▋ 

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 12.327205684987982
 	Mean Reward: 139.0
 	Std Reward: 2.4899799195977463




 76%|███████████████████████████████████▌           | 152/201 [13:04:37<2:01:38, 148.95s/it][A
 76%|███████████████████████████████████▊           | 153/201 [13:04:39<1:23:58, 104.97s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [13:04:42<58:06, 74.19s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [13:04:44<40:26, 52.76s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [13:04:49<28:48, 38.41s/it][A
 78%|███████████████████████████████████████           | 157/201 [13:04:52<20:19, 27.72s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [13:04:55<14:24, 20.12s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [13:04:57<10:18, 14.73s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [13:04:59<07:33, 11.06s/it][A
 80%|████████████████████████████████████████          | 161/201 [13:05:03<05:52,  8.80s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 103.80385349301827
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|████████████████████████████████████████████      | 177/201 [13:06:55<02:48,  7.02s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [13:07:02<02:38,  6.91s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [13:07:05<02:04,  5.66s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [13:07:09<01:52,  5.38s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [13:07:13<01:37,  4.87s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [13:07:17<01:26,  4.55s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [13:07:21<01:21,  4.52s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [13:07:27<01:25,  5.01s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [13:07:33<01:24,  5.27s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [13:07:40<01:25,  5.68s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 19.428072472584613
 	Mean Reward: 121.6
 	Std Reward: 2.2449944320643644




 25%|████████████                                    | 1/4 [13:08:56<39:26:50, 47336.81s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:20,  9.55it/s][A
  1%|▌                                                      | 2/201 [00:00<00:29,  6.81it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.9323308270676691
 	Learning Stability: 6.867313885355759
 	Mean Reward: 7.3
 	Std Reward: 0.6403124237432849




  1%|▊                                                      | 3/201 [00:00<00:32,  6.13it/s][A
  2%|█                                                      | 4/201 [00:00<00:34,  5.66it/s][A
  2%|█▎                                                     | 5/201 [00:00<00:34,  5.74it/s][A
  3%|█▋                                                     | 6/201 [00:00<00:31,  6.21it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:29,  6.62it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:30,  6.31it/s][A
  4%|██▍                                                    | 9/201 [00:01<00:27,  6.89it/s][A
  5%|██▋                                                   | 10/201 [00:01<00:27,  7.04it/s][A
  5%|██▉                                                   | 11/201 [00:01<00:26,  7.20it/s][A
  6%|███▏                                                  | 12/201 [00:01<00:24,  7.58it/s][A
  6%|███▍                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 0.8333333333333334
 	Learning Stability: 2.0591260281974
 	Mean Reward: 9.1
 	Std Reward: 1.6401219466856727




 13%|███████▎                                              | 27/201 [00:03<00:33,  5.23it/s][A
 14%|███████▌                                              | 28/201 [00:04<00:57,  3.01it/s][A
 14%|███████▊                                              | 29/201 [00:06<02:27,  1.17it/s][A
 15%|████████                                              | 30/201 [00:07<02:40,  1.07it/s][A
 15%|████████▎                                             | 31/201 [00:08<02:41,  1.05it/s][A
 16%|████████▌                                             | 32/201 [00:10<02:57,  1.05s/it][A
 16%|████████▊                                             | 33/201 [00:11<03:01,  1.08s/it][A
 17%|█████████▏                                            | 34/201 [00:12<02:59,  1.08s/it][A
 17%|█████████▍                                            | 35/201 [00:13<02:53,  1.05s/it][A
 18%|█████████▋                                            | 36/201 [00:14<02:54,  1.06s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 67.659515221438
 	Mean Reward: 435.1
 	Std Reward: 85.1345405813645




 26%|█████████████▉                                        | 52/201 [00:51<07:08,  2.87s/it][A
 26%|██████████████▏                                       | 53/201 [00:54<07:17,  2.96s/it][A
 27%|██████████████▌                                       | 54/201 [00:57<07:23,  3.02s/it][A
 27%|██████████████▊                                       | 55/201 [01:01<07:30,  3.08s/it][A
 28%|███████████████                                       | 56/201 [01:03<07:10,  2.97s/it][A
 28%|███████████████▎                                      | 57/201 [01:09<08:49,  3.68s/it][A
 29%|███████████████▌                                      | 58/201 [01:12<08:49,  3.70s/it][A
 29%|███████████████▊                                      | 59/201 [01:16<08:18,  3.51s/it][A
 30%|████████████████                                      | 60/201 [01:19<07:56,  3.38s/it][A
 30%|████████████████▍                                     | 61/201 [01:22<07:37,  3.27s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 5.844655678480984
 	Mean Reward: 133.5
 	Std Reward: 4.104875150354759




 38%|████████████████████▋                                 | 77/201 [01:59<04:25,  2.14s/it][A
 39%|████████████████████▉                                 | 78/201 [02:01<04:16,  2.09s/it][A
 39%|█████████████████████▏                                | 79/201 [02:03<04:10,  2.05s/it][A
 40%|█████████████████████▍                                | 80/201 [02:05<04:03,  2.01s/it][A
 40%|█████████████████████▊                                | 81/201 [02:07<03:57,  1.98s/it][A
 41%|██████████████████████                                | 82/201 [02:09<03:57,  1.99s/it][A
 41%|██████████████████████▎                               | 83/201 [02:11<04:13,  2.15s/it][A
 42%|██████████████████████▌                               | 84/201 [02:14<04:10,  2.14s/it][A
 42%|██████████████████████▊                               | 85/201 [02:16<04:11,  2.17s/it][A
 43%|███████████████████████                               | 86/201 [02:18<04:11,  2.18s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.9998000000499503
 	SES: 0.9230769230769231
 	Learning Stability: 27.156767112452837
 	Mean Reward: 79.5
 	Std Reward: 13.440610105199838




 51%|██████████████████████████▉                          | 102/201 [02:48<02:21,  1.42s/it][A
 51%|███████████████████████████▏                         | 103/201 [02:50<02:47,  1.71s/it][A
 52%|███████████████████████████▍                         | 104/201 [02:53<03:14,  2.01s/it][A
 52%|███████████████████████████▋                         | 105/201 [02:55<03:14,  2.03s/it][A
 53%|███████████████████████████▉                         | 106/201 [02:57<03:11,  2.02s/it][A
 53%|████████████████████████████▏                        | 107/201 [03:00<03:38,  2.32s/it][A
 54%|████████████████████████████▍                        | 108/201 [03:03<03:54,  2.52s/it][A
 54%|████████████████████████████▋                        | 109/201 [03:05<03:45,  2.46s/it][A
 55%|█████████████████████████████                        | 110/201 [03:08<03:34,  2.35s/it][A
 55%|█████████████████████████████▎                       | 111/201 [03:10<03:22,  2.25s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 0.9333333333333333
 	Learning Stability: 23.1268242523698
 	Mean Reward: 321.9
 	Std Reward: 33.59598190260258




 63%|█████████████████████████████████▍                   | 127/201 [03:45<03:13,  2.61s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [03:50<03:57,  3.25s/it][A
 64%|██████████████████████████████████                   | 129/201 [03:56<04:41,  3.90s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [04:02<05:18,  4.49s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [04:06<05:21,  4.59s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [04:09<04:30,  3.92s/it][A
 66%|███████████████████████████████████                  | 133/201 [04:14<05:00,  4.42s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [04:19<04:56,  4.43s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [04:23<04:46,  4.34s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [04:28<04:58,  4.58s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 50.768198707458595
 	Mean Reward: 297.3
 	Std Reward: 4.775981574503821




 76%|████████████████████████████████████████             | 152/201 [05:32<02:55,  3.58s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [05:35<02:48,  3.52s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [05:42<03:26,  4.40s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [05:50<04:16,  5.57s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [05:58<04:40,  6.24s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [06:00<03:42,  5.06s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [06:00<02:36,  3.64s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [06:01<01:57,  2.80s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [06:07<02:25,  3.55s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [06:09<02:08,  3.21s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 34.41162594240499
 	Mean Reward: 259.3
 	Std Reward: 15.893709447451215




 88%|██████████████████████████████████████████████▋      | 177/201 [07:17<02:06,  5.29s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [07:23<02:03,  5.38s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [07:31<02:14,  6.10s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [07:38<02:18,  6.58s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [07:46<02:17,  6.85s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [07:53<02:10,  6.87s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [07:57<01:52,  6.23s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [08:04<01:48,  6.37s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [08:14<01:58,  7.41s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [08:22<01:55,  7.71s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 122.19365777322488
 	Mean Reward: 358.9
 	Std Reward: 142.20650477386752




 50%|████████████████████████                        | 2/4 [13:18:50<11:01:21, 19840.95s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:31,  6.27it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.9140419836719054
 	SES: 0.9467455621301775
 	Learning Stability: 5.76541412215983
 	Mean Reward: 9.6
 	Std Reward: 0.6633249580710799




  1%|▌                                                      | 2/201 [00:00<00:47,  4.16it/s][A
  1%|▊                                                      | 3/201 [00:00<00:46,  4.30it/s][A
  2%|█                                                      | 4/201 [00:00<00:43,  4.54it/s][A
  2%|█▎                                                     | 5/201 [00:01<00:37,  5.22it/s][A
  3%|█▋                                                     | 6/201 [00:01<00:35,  5.42it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:34,  5.68it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:39,  4.90it/s][A
  4%|██▍                                                    | 9/201 [00:01<00:36,  5.20it/s][A
  5%|██▋                                                   | 10/201 [00:01<00:36,  5.30it/s][A
  5%|██▉                                                   | 11/201 [00:02<00:35,  5.40it/s][A
  6%|███▏                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.468454693747073
 	Mean Reward: 56.7
 	Std Reward: 5.348831648126533




 13%|███████▎                                              | 27/201 [00:10<03:06,  1.07s/it][A
 14%|███████▌                                              | 28/201 [00:11<03:39,  1.27s/it][A
 14%|███████▊                                              | 29/201 [00:13<04:06,  1.44s/it][A
 15%|████████                                              | 30/201 [00:15<04:35,  1.61s/it][A
 15%|████████▎                                             | 31/201 [00:17<05:01,  1.77s/it][A
 16%|████████▌                                             | 32/201 [00:19<05:16,  1.87s/it][A
 16%|████████▊                                             | 33/201 [00:21<05:15,  1.88s/it][A
 17%|█████████▏                                            | 34/201 [00:25<06:38,  2.38s/it][A
 17%|█████████▍                                            | 35/201 [00:28<07:04,  2.55s/it][A
 18%|█████████▋                                            | 36/201 [00:32<07:59,  2.90s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 5.813776741499453
 	Mean Reward: 132.7
 	Std Reward: 3.7696153649941526




 26%|█████████████▉                                        | 52/201 [01:07<05:27,  2.20s/it][A
 26%|██████████████▏                                       | 53/201 [01:09<05:25,  2.20s/it][A
 27%|██████████████▌                                       | 54/201 [01:12<05:29,  2.24s/it][A
 27%|██████████████▊                                       | 55/201 [01:14<05:37,  2.31s/it][A
 28%|███████████████                                       | 56/201 [01:17<05:38,  2.33s/it][A
 28%|███████████████▎                                      | 57/201 [01:19<05:42,  2.38s/it][A
 29%|███████████████▌                                      | 58/201 [01:22<05:42,  2.39s/it][A
 29%|███████████████▊                                      | 59/201 [01:24<05:56,  2.51s/it][A
 30%|████████████████                                      | 60/201 [01:27<05:49,  2.48s/it][A
 30%|████████████████▍                                     | 61/201 [01:29<05:55,  2.54s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 8.64002314811714
 	Mean Reward: 114.9
 	Std Reward: 4.323193264243457




 38%|████████████████████▋                                 | 77/201 [02:06<04:00,  1.94s/it][A
 39%|████████████████████▉                                 | 78/201 [02:07<03:25,  1.67s/it][A
 39%|█████████████████████▏                                | 79/201 [02:08<03:20,  1.64s/it][A
 40%|█████████████████████▍                                | 80/201 [02:10<03:28,  1.73s/it][A
 40%|█████████████████████▊                                | 81/201 [02:12<03:37,  1.81s/it][A
 41%|██████████████████████                                | 82/201 [02:14<03:37,  1.83s/it][A
 41%|██████████████████████▎                               | 83/201 [02:16<03:39,  1.86s/it][A
 42%|██████████████████████▌                               | 84/201 [02:18<03:38,  1.87s/it][A
 42%|██████████████████████▊                               | 85/201 [02:20<03:37,  1.88s/it][A
 43%|███████████████████████                               | 86/201 [02:21<03:20,  1.74s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 26.286118009321953
 	Mean Reward: 139.9
 	Std Reward: 20.309849827115904




 51%|██████████████████████████▉                          | 102/201 [02:55<03:36,  2.19s/it][A
 51%|███████████████████████████▏                         | 103/201 [02:58<03:44,  2.29s/it][A
 52%|███████████████████████████▍                         | 104/201 [03:00<03:35,  2.23s/it][A
 52%|███████████████████████████▋                         | 105/201 [03:02<03:25,  2.14s/it][A
 53%|███████████████████████████▉                         | 106/201 [03:04<03:33,  2.24s/it][A
 53%|████████████████████████████▏                        | 107/201 [03:06<03:19,  2.12s/it][A
 54%|████████████████████████████▍                        | 108/201 [03:08<03:26,  2.22s/it][A
 54%|████████████████████████████▋                        | 109/201 [03:11<03:44,  2.44s/it][A
 55%|█████████████████████████████                        | 110/201 [03:14<03:45,  2.48s/it][A
 55%|█████████████████████████████▎                       | 111/201 [03:17<03:57,  2.64s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 44.42578080349292
 	Mean Reward: 500.0
 	Std Reward: 0.0




 63%|█████████████████████████████████▍                   | 127/201 [04:25<07:56,  6.45s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [04:28<06:34,  5.41s/it][A
 64%|██████████████████████████████████                   | 129/201 [04:33<06:12,  5.17s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [04:37<05:51,  4.95s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [04:44<06:24,  5.49s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [04:51<06:36,  5.74s/it][A
 66%|███████████████████████████████████                  | 133/201 [04:54<05:50,  5.15s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [04:57<04:53,  4.38s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [04:59<04:10,  3.80s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [05:02<03:41,  3.41s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 0.9333333333333333
 	Learning Stability: 166.9612230429569
 	Mean Reward: 55.4
 	Std Reward: 12.539537471533787




 76%|████████████████████████████████████████             | 152/201 [05:52<01:22,  1.68s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [05:52<01:07,  1.40s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [05:54<01:14,  1.58s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [05:56<01:19,  1.74s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [05:58<01:20,  1.78s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [06:00<01:18,  1.79s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [06:02<01:15,  1.76s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [06:04<01:14,  1.77s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [06:06<01:16,  1.85s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [06:08<01:18,  1.95s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 7.071774883294858
 	Mean Reward: 122.2
 	Std Reward: 3.3105890714493698




 88%|██████████████████████████████████████████████▋      | 177/201 [06:49<00:53,  2.21s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [06:51<00:49,  2.16s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [06:53<00:50,  2.29s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [06:56<00:48,  2.32s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [06:58<00:46,  2.35s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [07:02<00:51,  2.69s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [07:05<00:50,  2.79s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [07:07<00:47,  2.78s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [07:10<00:41,  2.58s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [07:12<00:36,  2.42s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 34.79094709834729
 	Mean Reward: 335.2
 	Std Reward: 23.823517792299274




 75%|████████████████████████████████████▊            | 3/4 [13:26:54<3:03:21, 11001.87s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                      | 1/201 [00:00<00:27,  7.35it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.0477747282382615
 	SES: 0.9310344827586207
 	Learning Stability: 6.216912416947821
 	Mean Reward: 10.8
 	Std Reward: 0.7483314773547883




  1%|▌                                                      | 2/201 [00:00<00:35,  5.55it/s][A
  1%|▊                                                      | 3/201 [00:00<00:43,  4.56it/s][A
  2%|█                                                      | 4/201 [00:00<00:43,  4.50it/s][A
  2%|█▎                                                     | 5/201 [00:01<00:43,  4.51it/s][A
  3%|█▋                                                     | 6/201 [00:01<00:40,  4.77it/s][A
  3%|█▉                                                     | 7/201 [00:01<00:39,  4.91it/s][A
  4%|██▏                                                    | 8/201 [00:01<00:49,  3.88it/s][A
  4%|██▍                                                    | 9/201 [00:02<00:47,  4.01it/s][A
  5%|██▋                                                   | 10/201 [00:02<00:47,  4.03it/s][A
  5%|██▉                                                   | 11/201 [00:02<00:45,  4.15it/s][A
  6%|███▏                              

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 43.35712167568322
 	Mean Reward: 50.6
 	Std Reward: 6.529931086925803




 13%|███████▎                                              | 27/201 [00:09<02:21,  1.23it/s][A
 14%|███████▌                                              | 28/201 [00:10<02:26,  1.18it/s][A
 14%|███████▊                                              | 29/201 [00:12<02:55,  1.02s/it][A
 15%|████████                                              | 30/201 [00:13<03:13,  1.13s/it][A
 15%|████████▎                                             | 31/201 [00:15<04:05,  1.44s/it][A
 16%|████████▌                                             | 32/201 [00:17<04:25,  1.57s/it][A
 16%|████████▊                                             | 33/201 [00:19<04:52,  1.74s/it][A
 17%|█████████▏                                            | 34/201 [00:22<05:13,  1.88s/it][A
 17%|█████████▍                                            | 35/201 [00:24<05:43,  2.07s/it][A
 18%|█████████▋                                            | 36/201 [00:27<06:09,  2.24s/it][A
 18%|█████████▉                        

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 19.511278789459187
 	Mean Reward: 142.7
 	Std Reward: 15.74833324514058




 26%|█████████████▉                                        | 52/201 [01:03<05:41,  2.30s/it][A
 26%|██████████████▏                                       | 53/201 [01:06<06:05,  2.47s/it][A
 27%|██████████████▌                                       | 54/201 [01:10<07:15,  2.97s/it][A
 27%|██████████████▊                                       | 55/201 [01:15<08:33,  3.51s/it][A
 28%|███████████████                                       | 56/201 [01:19<08:59,  3.72s/it][A
 28%|███████████████▎                                      | 57/201 [01:25<10:07,  4.22s/it][A
 29%|███████████████▌                                      | 58/201 [01:30<11:03,  4.64s/it][A
 29%|███████████████▊                                      | 59/201 [01:36<11:29,  4.86s/it][A
 30%|████████████████                                      | 60/201 [01:40<11:24,  4.85s/it][A
 30%|████████████████▍                                     | 61/201 [01:44<10:35,  4.54s/it][A
 31%|████████████████▋                 

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.0477747282382615
 	SES: 0.967741935483871
 	Learning Stability: 106.63306241499397
 	Mean Reward: 173.2
 	Std Reward: 11.443775600735973




 38%|████████████████████▋                                 | 77/201 [02:59<10:19,  4.99s/it][A
 39%|████████████████████▉                                 | 78/201 [03:04<10:39,  5.20s/it][A
 39%|█████████████████████▏                                | 79/201 [03:08<09:27,  4.65s/it][A
 40%|█████████████████████▍                                | 80/201 [03:14<10:11,  5.05s/it][A
 40%|█████████████████████▊                                | 81/201 [03:20<11:01,  5.51s/it][A
 41%|██████████████████████                                | 82/201 [03:28<11:59,  6.05s/it][A
 41%|██████████████████████▎                               | 83/201 [03:33<11:41,  5.95s/it][A
 42%|██████████████████████▌                               | 84/201 [03:40<11:46,  6.04s/it][A
 42%|██████████████████████▊                               | 85/201 [03:46<12:07,  6.27s/it][A
 43%|███████████████████████                               | 86/201 [03:52<11:36,  6.05s/it][A
 43%|███████████████████████▎          

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 87.70068414784458
 	Mean Reward: 160.8
 	Std Reward: 7.236021006050217




 51%|██████████████████████████▉                          | 102/201 [04:56<08:49,  5.35s/it][A
 51%|███████████████████████████▏                         | 103/201 [04:59<07:27,  4.57s/it][A
 52%|███████████████████████████▍                         | 104/201 [05:05<07:56,  4.91s/it][A
 52%|███████████████████████████▋                         | 105/201 [05:10<08:04,  5.05s/it][A
 53%|███████████████████████████▉                         | 106/201 [05:17<08:38,  5.46s/it][A
 53%|████████████████████████████▏                        | 107/201 [05:22<08:43,  5.57s/it][A
 54%|████████████████████████████▍                        | 108/201 [05:29<08:53,  5.74s/it][A
 54%|████████████████████████████▋                        | 109/201 [05:33<08:13,  5.36s/it][A
 55%|█████████████████████████████                        | 110/201 [05:36<07:09,  4.72s/it][A
 55%|█████████████████████████████▎                       | 111/201 [05:39<06:02,  4.03s/it][A
 56%|█████████████████████████████▌    

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 15.20690632574555
 	Mean Reward: 190.3
 	Std Reward: 33.14226908345293




 63%|█████████████████████████████████▍                   | 127/201 [06:46<03:38,  2.95s/it][A
 64%|█████████████████████████████████▊                   | 128/201 [06:50<04:16,  3.51s/it][A
 64%|██████████████████████████████████                   | 129/201 [06:54<04:08,  3.45s/it][A
 65%|██████████████████████████████████▎                  | 130/201 [06:56<03:41,  3.11s/it][A
 65%|██████████████████████████████████▌                  | 131/201 [06:59<03:27,  2.96s/it][A
 66%|██████████████████████████████████▊                  | 132/201 [07:01<03:09,  2.74s/it][A
 66%|███████████████████████████████████                  | 133/201 [07:03<02:56,  2.59s/it][A
 67%|███████████████████████████████████▎                 | 134/201 [07:05<02:44,  2.45s/it][A
 67%|███████████████████████████████████▌                 | 135/201 [07:07<02:33,  2.32s/it][A
 68%|███████████████████████████████████▊                 | 136/201 [07:10<02:34,  2.38s/it][A
 68%|██████████████████████████████████

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 122.03261859027693
 	Mean Reward: 113.8
 	Std Reward: 39.82662426066262




 76%|████████████████████████████████████████             | 152/201 [07:59<02:42,  3.32s/it][A
 76%|████████████████████████████████████████▎            | 153/201 [08:02<02:35,  3.23s/it][A
 77%|████████████████████████████████████████▌            | 154/201 [08:06<02:36,  3.34s/it][A
 77%|████████████████████████████████████████▊            | 155/201 [08:11<03:01,  3.94s/it][A
 78%|█████████████████████████████████████████▏           | 156/201 [08:18<03:29,  4.65s/it][A
 78%|█████████████████████████████████████████▍           | 157/201 [08:24<03:52,  5.29s/it][A
 79%|█████████████████████████████████████████▋           | 158/201 [08:29<03:35,  5.00s/it][A
 79%|█████████████████████████████████████████▉           | 159/201 [08:35<03:45,  5.37s/it][A
 80%|██████████████████████████████████████████▏          | 160/201 [08:42<04:02,  5.91s/it][A
 80%|██████████████████████████████████████████▍          | 161/201 [08:49<04:05,  6.14s/it][A
 81%|██████████████████████████████████

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 77.84015673159966
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|██████████████████████████████████████████████▋      | 177/201 [10:06<02:06,  5.26s/it][A
 89%|██████████████████████████████████████████████▉      | 178/201 [10:09<01:46,  4.63s/it][A
 89%|███████████████████████████████████████████████▏     | 179/201 [10:12<01:32,  4.21s/it][A
 90%|███████████████████████████████████████████████▍     | 180/201 [10:17<01:30,  4.31s/it][A
 90%|███████████████████████████████████████████████▋     | 181/201 [10:22<01:36,  4.81s/it][A
 91%|███████████████████████████████████████████████▉     | 182/201 [10:30<01:46,  5.59s/it][A
 91%|████████████████████████████████████████████████▎    | 183/201 [10:36<01:45,  5.89s/it][A
 92%|████████████████████████████████████████████████▌    | 184/201 [10:42<01:39,  5.87s/it][A
 92%|████████████████████████████████████████████████▊    | 185/201 [10:48<01:33,  5.85s/it][A
 93%|█████████████████████████████████████████████████    | 186/201 [10:51<01:15,  5.06s/it][A
 93%|██████████████████████████████████

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.0477747282382615
 	SES: 1.0
 	Learning Stability: 18.335757415498275
 	Mean Reward: 52.5
 	Std Reward: 4.224926034855522




100%|███████████████████████████████████████████████████| 4/4 [13:39:26<00:00, 12291.70s/it]


In [10]:
dqn_df.to_csv(DATASETS_DQN_DIR / 'dqn.csv', index=False)