In [1]:
%cd ..

/Users/danorel/Workspace/Education/University/KMA/Research/aclarel


In [2]:
import functools
import pathlib

from tqdm import tqdm

import environments.cart_pole.environment as cart_pole
import environments.cart_pole.experiments as experiments

## Curriculum Learning: Setup

### Data Frame

In [3]:
import pandas as pd

def data_frame_from_configurations(training_configurations):
    df = pd.DataFrame()
    for agent, _ in training_configurations:
        df = pd.concat([df, agent.measurements])
    return df

## Reinforcement Learning: Experiments

In [4]:
DATASETS_DIR = pathlib.Path("datasets")
DATASETS_DIR.mkdir(parents=True, exist_ok=True)

### QTable

In [5]:
DATASETS_Q_TABLE_DIR = DATASETS_DIR / "q_table"
DATASETS_Q_TABLE_DIR.mkdir(parents=True, exist_ok=True)

#### Curriculum parameter: pole length 

In [6]:
from environments.cart_pole.rl_methods.q_table import QLearningAgent

q_learning_agent = functools.partial(experiments.get_agent, agent_name='q-learning')

training_configurations = [
    (q_learning_agent(curriculum_name='baseline'), None),
    (q_learning_agent(curriculum_name='one-pass'), experiments.get_curriculum('one-pass')),
    (q_learning_agent(curriculum_name='root-p'), experiments.get_curriculum('root-p')),
    (q_learning_agent(curriculum_name='hard'), experiments.get_curriculum('hard')),
    (q_learning_agent(curriculum_name='linear'), experiments.get_curriculum('linear')),
    (q_learning_agent(curriculum_name='logarithmic'), experiments.get_curriculum('logarithmic')),
    (q_learning_agent(curriculum_name='logistic'), experiments.get_curriculum('logistic')),
    (q_learning_agent(curriculum_name='mixture'), experiments.get_curriculum('mixture')),
    (q_learning_agent(curriculum_name='polynomial'), experiments.get_curriculum('polynomial')),
    (q_learning_agent(curriculum_name='anti-curriculum'), experiments.get_curriculum('anti-curriculum')),
]

for training_configuration in tqdm(training_configurations):
    cart_pole.train_evaluate(*training_configuration)

q_table_df = data_frame_from_configurations(training_configurations)

  0%|                                                             | 0/10 [00:00<?, ?it/s]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 5/5001 [00:00<01:47, 46.35it/s][A
  0%|                                                  | 11/5001 [00:00<01:33, 53.36it/s][A


Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.0
 	SES: 0.9090909090909091
 	Learning Stability: 1.7916472867168918
 	Mean Reward: 11.1
 	Std Reward: 1.57797338380595



  0%|▏                                                 | 18/5001 [00:00<01:25, 58.51it/s][A
  0%|▏                                                 | 25/5001 [00:00<01:22, 60.46it/s][A
  1%|▎                                                 | 32/5001 [00:00<01:21, 60.83it/s][A
  1%|▍                                                 | 39/5001 [00:00<01:40, 49.30it/s][A
  1%|▍                                                 | 46/5001 [00:00<01:33, 53.26it/s][A
  1%|▌                                                 | 54/5001 [00:00<01:24, 58.68it/s][A
  1%|▌                                                 | 61/5001 [00:01<01:21, 60.93it/s][A
  1%|▋                                                 | 68/5001 [00:01<01:18, 62.91it/s][A
  1%|▋                                                 | 75/5001 [00:01<01:22, 59.70it/s][A
  2%|▊                                                 | 82/5001 [00:01<01:21, 60.24it/s][A
  2%|▉                                                 | 89/5001 [00:0

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.0
 	SES: 0
 	Learning Stability: 2.8213471959331766
 	Mean Reward: 13.4
 	Std Reward: 2.973213749463701




  5%|██▌                                              | 264/5001 [00:04<01:37, 48.77it/s][A
  5%|██▋                                              | 269/5001 [00:05<01:36, 49.07it/s][A
  6%|██▋                                              | 276/5001 [00:05<01:29, 52.98it/s][A
  6%|██▊                                              | 282/5001 [00:05<01:30, 52.23it/s][A
  6%|██▊                                              | 288/5001 [00:05<01:31, 51.65it/s][A
  6%|██▉                                              | 294/5001 [00:05<01:31, 51.53it/s][A
  6%|██▉                                              | 300/5001 [00:05<01:30, 51.90it/s][A
  6%|██▉                                              | 306/5001 [00:05<01:31, 51.40it/s][A
  6%|███                                              | 312/5001 [00:05<01:32, 50.94it/s][A
  6%|███                                              | 318/5001 [00:06<01:34, 49.70it/s][A
  6%|███▏                                             | 323/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.0
 	SES: 0
 	Learning Stability: 3.0
 	Mean Reward: 17.4
 	Std Reward: 1.9595917942265424




 10%|█████                                            | 511/5001 [00:10<01:46, 41.99it/s][A
 10%|█████                                            | 516/5001 [00:10<01:45, 42.69it/s][A
 10%|█████                                            | 521/5001 [00:10<01:45, 42.31it/s][A
 11%|█████▏                                           | 526/5001 [00:10<01:44, 42.93it/s][A
 11%|█████▏                                           | 531/5001 [00:10<01:43, 43.31it/s][A
 11%|█████▎                                           | 536/5001 [00:10<01:44, 42.91it/s][A
 11%|█████▎                                           | 541/5001 [00:10<02:03, 36.15it/s][A
 11%|█████▎                                           | 545/5001 [00:10<02:14, 33.25it/s][A
 11%|█████▍                                           | 550/5001 [00:11<02:04, 35.78it/s][A
 11%|█████▍                                           | 555/5001 [00:11<01:55, 38.44it/s][A
 11%|█████▍                                           | 560/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 4.0743097574926725
 	Mean Reward: 23.8
 	Std Reward: 3.4




 15%|███████▍                                         | 762/5001 [00:16<02:09, 32.73it/s][A
 15%|███████▌                                         | 766/5001 [00:16<02:08, 32.83it/s][A
 15%|███████▌                                         | 770/5001 [00:17<02:06, 33.38it/s][A
 15%|███████▌                                         | 774/5001 [00:17<02:07, 33.07it/s][A
 16%|███████▌                                         | 778/5001 [00:17<02:06, 33.28it/s][A
 16%|███████▋                                         | 782/5001 [00:17<02:06, 33.35it/s][A
 16%|███████▋                                         | 786/5001 [00:17<02:10, 32.29it/s][A
 16%|███████▋                                         | 790/5001 [00:17<02:07, 32.90it/s][A
 16%|███████▊                                         | 794/5001 [00:17<02:06, 33.16it/s][A
 16%|███████▊                                         | 798/5001 [00:17<02:05, 33.42it/s][A
 16%|███████▊                                         | 802/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 5.180733538795447
 	Mean Reward: 23.5
 	Std Reward: 3.0740852297878796




 20%|█████████▋                                      | 1011/5001 [00:24<01:57, 33.97it/s][A
 20%|█████████▋                                      | 1015/5001 [00:24<02:01, 32.83it/s][A
 20%|█████████▊                                      | 1019/5001 [00:24<01:59, 33.21it/s][A
 20%|█████████▊                                      | 1023/5001 [00:24<01:58, 33.54it/s][A
 21%|█████████▊                                      | 1027/5001 [00:25<01:59, 33.30it/s][A
 21%|█████████▉                                      | 1031/5001 [00:25<01:59, 33.20it/s][A
 21%|█████████▉                                      | 1035/5001 [00:25<01:59, 33.25it/s][A
 21%|█████████▉                                      | 1039/5001 [00:25<01:57, 33.59it/s][A
 21%|██████████                                      | 1043/5001 [00:25<01:56, 33.87it/s][A
 21%|██████████                                      | 1047/5001 [00:25<01:52, 35.13it/s][A
 21%|██████████                                      | 1051/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 6.356099432828281
 	Mean Reward: 24.1
 	Std Reward: 3.6455452267116364




 25%|████████████                                    | 1257/5001 [00:32<02:23, 26.07it/s][A
 25%|████████████                                    | 1260/5001 [00:32<02:25, 25.65it/s][A
 25%|████████████                                    | 1263/5001 [00:33<02:24, 25.80it/s][A
 25%|████████████▏                                   | 1266/5001 [00:33<02:25, 25.75it/s][A
 25%|████████████▏                                   | 1269/5001 [00:33<02:21, 26.29it/s][A
 25%|████████████▏                                   | 1272/5001 [00:33<02:17, 27.11it/s][A
 25%|████████████▏                                   | 1275/5001 [00:33<02:17, 27.03it/s][A
 26%|████████████▎                                   | 1278/5001 [00:33<02:19, 26.77it/s][A
 26%|████████████▎                                   | 1281/5001 [00:33<02:20, 26.46it/s][A
 26%|████████████▎                                   | 1284/5001 [00:33<02:19, 26.66it/s][A
 26%|████████████▎                                   | 1287/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 2.4413111231467406
 	Mean Reward: 32.1
 	Std Reward: 2.9137604568666933




 30%|██████████████▍                                 | 1508/5001 [00:42<02:34, 22.59it/s][A
 30%|██████████████▌                                 | 1511/5001 [00:42<02:26, 23.86it/s][A
 30%|██████████████▌                                 | 1514/5001 [00:42<02:21, 24.61it/s][A
 30%|██████████████▌                                 | 1517/5001 [00:43<02:17, 25.42it/s][A
 30%|██████████████▌                                 | 1520/5001 [00:43<02:20, 24.70it/s][A
 30%|██████████████▌                                 | 1523/5001 [00:43<02:19, 24.89it/s][A
 31%|██████████████▋                                 | 1526/5001 [00:43<02:28, 23.37it/s][A
 31%|██████████████▋                                 | 1529/5001 [00:43<02:25, 23.79it/s][A
 31%|██████████████▋                                 | 1532/5001 [00:43<02:24, 24.05it/s][A
 31%|██████████████▋                                 | 1535/5001 [00:43<02:22, 24.35it/s][A
 31%|██████████████▊                                 | 1538/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 2.891366458960192
 	Mean Reward: 36.4
 	Std Reward: 4.029888335921977




 35%|████████████████▊                               | 1758/5001 [00:53<02:41, 20.07it/s][A
 35%|████████████████▉                               | 1761/5001 [00:54<02:42, 19.96it/s][A
 35%|████████████████▉                               | 1764/5001 [00:54<02:33, 21.03it/s][A
 35%|████████████████▉                               | 1767/5001 [00:54<02:30, 21.45it/s][A
 35%|████████████████▉                               | 1770/5001 [00:54<02:25, 22.17it/s][A
 35%|█████████████████                               | 1773/5001 [00:54<02:24, 22.41it/s][A
 36%|█████████████████                               | 1776/5001 [00:54<02:23, 22.51it/s][A
 36%|█████████████████                               | 1779/5001 [00:54<02:21, 22.71it/s][A
 36%|█████████████████                               | 1782/5001 [00:55<02:22, 22.58it/s][A
 36%|█████████████████▏                              | 1785/5001 [00:55<02:26, 22.02it/s][A
 36%|█████████████████▏                              | 1788/5001 [00:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 2.9068883707497264
 	Mean Reward: 38.2
 	Std Reward: 2.4413111231467406




 40%|███████████████████▎                            | 2007/5001 [01:06<02:21, 21.12it/s][A
 40%|███████████████████▎                            | 2010/5001 [01:06<02:24, 20.65it/s][A
 40%|███████████████████▎                            | 2013/5001 [01:07<02:31, 19.78it/s][A
 40%|███████████████████▎                            | 2015/5001 [01:07<02:33, 19.42it/s][A
 40%|███████████████████▎                            | 2017/5001 [01:07<02:39, 18.71it/s][A
 40%|███████████████████▍                            | 2019/5001 [01:07<02:43, 18.22it/s][A
 40%|███████████████████▍                            | 2021/5001 [01:07<02:41, 18.44it/s][A
 40%|███████████████████▍                            | 2024/5001 [01:07<02:28, 20.07it/s][A
 41%|███████████████████▍                            | 2026/5001 [01:07<02:28, 20.02it/s][A
 41%|███████████████████▍                            | 2028/5001 [01:07<02:29, 19.88it/s][A
 41%|███████████████████▍                            | 2031/5001 [01:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 3.1000000000000005
 	Mean Reward: 37.0
 	Std Reward: 2.6076809620810595




 45%|█████████████████████▋                          | 2257/5001 [01:19<02:12, 20.76it/s][A
 45%|█████████████████████▋                          | 2260/5001 [01:19<02:11, 20.79it/s][A
 45%|█████████████████████▋                          | 2263/5001 [01:19<02:12, 20.67it/s][A
 45%|█████████████████████▋                          | 2266/5001 [01:19<02:09, 21.09it/s][A
 45%|█████████████████████▊                          | 2269/5001 [01:20<02:05, 21.84it/s][A
 45%|█████████████████████▊                          | 2272/5001 [01:20<02:05, 21.79it/s][A
 45%|█████████████████████▊                          | 2275/5001 [01:20<02:06, 21.55it/s][A
 46%|█████████████████████▊                          | 2278/5001 [01:20<02:07, 21.43it/s][A
 46%|█████████████████████▉                          | 2281/5001 [01:20<02:07, 21.29it/s][A
 46%|█████████████████████▉                          | 2284/5001 [01:20<02:06, 21.42it/s][A
 46%|█████████████████████▉                          | 2287/5001 [01:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.0
 	SES: 0
 	Learning Stability: 2.4576411454889016
 	Mean Reward: 38.0
 	Std Reward: 2.5298221281347035




 50%|████████████████████████                        | 2507/5001 [01:32<02:11, 18.89it/s][A
 50%|████████████████████████                        | 2510/5001 [01:32<02:08, 19.45it/s][A
 50%|████████████████████████                        | 2513/5001 [01:32<02:05, 19.76it/s][A
 50%|████████████████████████▏                       | 2516/5001 [01:32<02:04, 19.97it/s][A
 50%|████████████████████████▏                       | 2519/5001 [01:32<02:02, 20.28it/s][A
 50%|████████████████████████▏                       | 2522/5001 [01:32<02:01, 20.33it/s][A
 50%|████████████████████████▏                       | 2525/5001 [01:33<02:00, 20.46it/s][A
 51%|████████████████████████▎                       | 2528/5001 [01:33<02:00, 20.53it/s][A
 51%|████████████████████████▎                       | 2531/5001 [01:33<02:01, 20.37it/s][A
 51%|████████████████████████▎                       | 2534/5001 [01:33<01:58, 20.88it/s][A
 51%|████████████████████████▎                       | 2537/5001 [01:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 3.986226285598949
 	Mean Reward: 38.0
 	Std Reward: 5.215361924162119




 55%|██████████████████████████▍                     | 2757/5001 [01:45<01:42, 21.82it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [01:45<01:41, 22.15it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [01:45<01:41, 22.02it/s][A
 55%|██████████████████████████▌                     | 2766/5001 [01:45<01:41, 21.94it/s][A
 55%|██████████████████████████▌                     | 2769/5001 [01:45<01:42, 21.80it/s][A
 55%|██████████████████████████▌                     | 2772/5001 [01:46<01:40, 22.20it/s][A
 55%|██████████████████████████▋                     | 2775/5001 [01:46<01:43, 21.61it/s][A
 56%|██████████████████████████▋                     | 2778/5001 [01:46<01:43, 21.50it/s][A
 56%|██████████████████████████▋                     | 2781/5001 [01:46<01:45, 21.13it/s][A
 56%|██████████████████████████▋                     | 2784/5001 [01:46<01:41, 21.79it/s][A
 56%|██████████████████████████▋                     | 2787/5001 [01:

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 4.428317965096905
 	Mean Reward: 41.2
 	Std Reward: 2.638181191654584




 60%|████████████████████████████▊                   | 3006/5001 [01:58<01:53, 17.55it/s][A
 60%|████████████████████████████▊                   | 3008/5001 [01:58<01:52, 17.68it/s][A
 60%|████████████████████████████▉                   | 3010/5001 [01:58<01:52, 17.74it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [01:58<01:51, 17.84it/s][A
 60%|████████████████████████████▉                   | 3014/5001 [01:58<01:50, 18.05it/s][A
 60%|████████████████████████████▉                   | 3016/5001 [01:58<01:48, 18.34it/s][A
 60%|████████████████████████████▉                   | 3018/5001 [01:58<01:47, 18.52it/s][A
 60%|████████████████████████████▉                   | 3020/5001 [01:58<01:47, 18.49it/s][A
 60%|█████████████████████████████                   | 3022/5001 [01:58<01:48, 18.26it/s][A
 60%|█████████████████████████████                   | 3024/5001 [01:58<01:47, 18.42it/s][A
 61%|█████████████████████████████                   | 3026/5001 [01:

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 12.707871576310488
 	Mean Reward: 73.1
 	Std Reward: 11.291146974510605




 65%|███████████████████████████████▏                | 3255/5001 [02:12<02:04, 13.98it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [02:12<02:00, 14.49it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [02:12<02:01, 14.36it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [02:12<02:10, 13.31it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [02:12<02:13, 13.01it/s][A
 65%|███████████████████████████████▎                | 3265/5001 [02:12<02:10, 13.31it/s][A
 65%|███████████████████████████████▎                | 3267/5001 [02:13<02:14, 12.88it/s][A
 65%|███████████████████████████████▍                | 3269/5001 [02:13<02:14, 12.85it/s][A
 65%|███████████████████████████████▍                | 3271/5001 [02:13<02:18, 12.51it/s][A
 65%|███████████████████████████████▍                | 3273/5001 [02:13<02:25, 11.84it/s][A
 65%|███████████████████████████████▍                | 3275/5001 [02:

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 154.57752100483432
 	Mean Reward: 253.3
 	Std Reward: 144.65064811469045




 70%|█████████████████████████████████▌              | 3502/5001 [02:52<07:16,  3.43it/s][A
 70%|█████████████████████████████████▌              | 3503/5001 [02:52<05:57,  4.19it/s][A
 70%|█████████████████████████████████▋              | 3504/5001 [02:52<04:58,  5.01it/s][A
 70%|█████████████████████████████████▋              | 3505/5001 [02:52<04:53,  5.09it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [02:52<04:10,  5.96it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [02:52<04:20,  5.73it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [02:53<04:34,  5.45it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [02:53<04:02,  6.16it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [02:53<03:35,  6.90it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [02:53<03:15,  7.62it/s][A
 70%|█████████████████████████████████▋              | 3513/5001 [02:

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 102.82261424414378
 	Mean Reward: 148.4
 	Std Reward: 62.26266939346562




 75%|████████████████████████████████████            | 3752/5001 [03:52<05:24,  3.85it/s][A
 75%|████████████████████████████████████            | 3753/5001 [03:52<06:12,  3.35it/s][A
 75%|████████████████████████████████████            | 3754/5001 [03:52<06:32,  3.17it/s][A
 75%|████████████████████████████████████            | 3755/5001 [03:53<06:04,  3.42it/s][A
 75%|████████████████████████████████████            | 3756/5001 [03:53<05:33,  3.73it/s][A
 75%|████████████████████████████████████            | 3757/5001 [03:53<05:19,  3.90it/s][A
 75%|████████████████████████████████████            | 3758/5001 [03:53<05:43,  3.62it/s][A
 75%|████████████████████████████████████            | 3759/5001 [03:54<05:38,  3.67it/s][A
 75%|████████████████████████████████████            | 3760/5001 [03:54<04:45,  4.35it/s][A
 75%|████████████████████████████████████            | 3761/5001 [03:54<03:57,  5.22it/s][A
 75%|████████████████████████████████████            | 3763/5001 [03:

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 88.00999943188275
 	Mean Reward: 219.9
 	Std Reward: 79.68243219179494




 80%|██████████████████████████████████████▍         | 4002/5001 [04:51<04:43,  3.53it/s][A
 80%|██████████████████████████████████████▍         | 4003/5001 [04:51<04:18,  3.86it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [04:52<04:19,  3.85it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [04:52<04:30,  3.68it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [04:52<04:51,  3.41it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [04:53<04:59,  3.32it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [04:53<04:17,  3.85it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [04:53<03:45,  4.39it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [04:53<04:07,  4.01it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [04:54<04:21,  3.78it/s][A
 80%|██████████████████████████████████████▌         | 4013/5001 [04:

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 107.97610846849408
 	Mean Reward: 192.9
 	Std Reward: 72.00479150723235




 85%|████████████████████████████████████████▊       | 4253/5001 [05:36<02:11,  5.67it/s][A
 85%|████████████████████████████████████████▊       | 4254/5001 [05:36<02:00,  6.20it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [05:37<01:49,  6.80it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [05:37<01:52,  6.62it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [05:37<02:17,  5.40it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [05:37<03:06,  3.99it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [05:38<03:23,  3.65it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [05:38<02:55,  4.21it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [05:38<02:28,  4.98it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [05:38<02:40,  4.62it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [05:

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 128.2839039006843
 	Mean Reward: 304.8
 	Std Reward: 133.24623822082182




 90%|███████████████████████████████████████████▏    | 4502/5001 [06:29<02:34,  3.24it/s][A
 90%|███████████████████████████████████████████▏    | 4503/5001 [06:30<02:27,  3.37it/s][A
 90%|███████████████████████████████████████████▏    | 4504/5001 [06:30<02:20,  3.54it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [06:30<02:18,  3.59it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [06:30<02:02,  4.05it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [06:31<01:50,  4.45it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [06:31<01:54,  4.31it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [06:31<01:50,  4.46it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [06:31<01:59,  4.10it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [06:32<02:10,  3.75it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [06:

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 46.035203920478075
 	Mean Reward: 167.0
 	Std Reward: 51.450947513141095




 95%|█████████████████████████████████████████████▌  | 4752/5001 [07:19<00:51,  4.83it/s][A
 95%|█████████████████████████████████████████████▌  | 4753/5001 [07:19<00:48,  5.13it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [07:19<00:47,  5.20it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [07:19<00:42,  5.73it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [07:20<00:38,  6.35it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [07:20<00:41,  5.89it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [07:20<00:40,  6.02it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [07:20<00:39,  6.10it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [07:20<00:39,  6.16it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [07:20<00:38,  6.26it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [07:

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 25.244603383693715
 	Mean Reward: 177.1
 	Std Reward: 47.22171110834507



 10%|█████                                             | 1/10 [08:09<1:13:27, 489.72s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 8/5001 [00:00<01:02, 79.38it/s][A
  0%|▏                                                 | 16/5001 [00:00<01:03, 78.11it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.982352598615917
 	SES: 1.0
 	Learning Stability: 0.7745966692414834
 	Mean Reward: 8.1
 	Std Reward: 0.5385164807134504




  0%|▏                                                 | 24/5001 [00:00<01:05, 76.06it/s][A
  1%|▎                                                 | 32/5001 [00:00<01:05, 75.78it/s][A
  1%|▍                                                 | 42/5001 [00:00<01:00, 82.18it/s][A
  1%|▌                                                 | 51/5001 [00:00<01:01, 80.73it/s][A
  1%|▌                                                 | 60/5001 [00:00<01:00, 81.61it/s][A
  1%|▋                                                 | 69/5001 [00:00<01:00, 81.36it/s][A
  2%|▊                                                 | 78/5001 [00:00<01:00, 80.80it/s][A
  2%|▊                                                 | 87/5001 [00:01<01:01, 80.55it/s][A
  2%|▉                                                 | 96/5001 [00:01<01:01, 80.26it/s][A
  2%|█                                                | 105/5001 [00:01<01:00, 80.57it/s][A
  2%|█                                                | 114/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.3000000000000003
 	Mean Reward: 9.9
 	Std Reward: 2.981610303175115




  5%|██▋                                              | 273/5001 [00:03<01:06, 71.54it/s][A
  6%|██▊                                              | 281/5001 [00:03<01:06, 71.23it/s][A
  6%|██▊                                              | 289/5001 [00:03<01:06, 70.36it/s][A
  6%|██▉                                              | 297/5001 [00:04<01:09, 67.63it/s][A
  6%|██▉                                              | 304/5001 [00:04<01:09, 67.47it/s][A
  6%|███                                              | 311/5001 [00:04<01:10, 66.33it/s][A
  6%|███                                              | 318/5001 [00:04<01:09, 67.28it/s][A
  6%|███▏                                             | 325/5001 [00:04<01:12, 64.29it/s][A
  7%|███▎                                             | 332/5001 [00:04<01:14, 62.77it/s][A
  7%|███▎                                             | 339/5001 [00:04<01:12, 64.02it/s][A
  7%|███▍                                             | 347/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.9764701314878892
 	SES: 0
 	Learning Stability: 2.202271554554524
 	Mean Reward: 12.1
 	Std Reward: 4.548626166217664




 10%|█████                                            | 515/5001 [00:07<01:13, 60.86it/s][A
 10%|█████                                            | 522/5001 [00:07<01:12, 61.62it/s][A
 11%|█████▏                                           | 529/5001 [00:07<01:12, 61.72it/s][A
 11%|█████▎                                           | 536/5001 [00:07<01:11, 62.24it/s][A
 11%|█████▎                                           | 543/5001 [00:07<01:12, 61.79it/s][A
 11%|█████▍                                           | 550/5001 [00:07<01:12, 61.61it/s][A
 11%|█████▍                                           | 557/5001 [00:07<01:11, 62.13it/s][A
 11%|█████▌                                           | 564/5001 [00:08<01:09, 63.48it/s][A
 11%|█████▌                                           | 572/5001 [00:08<01:05, 67.69it/s][A
 12%|█████▋                                           | 579/5001 [00:08<01:05, 67.45it/s][A
 12%|█████▋                                           | 586/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.9882350657439445
 	SES: 1.0
 	Learning Stability: 5.57584074378026
 	Mean Reward: 11.6
 	Std Reward: 3.8262252939417984




 15%|███████▌                                         | 770/5001 [00:11<01:07, 62.25it/s][A
 16%|███████▌                                         | 777/5001 [00:11<01:06, 63.82it/s][A
 16%|███████▋                                         | 784/5001 [00:11<01:07, 62.84it/s][A
 16%|███████▊                                         | 791/5001 [00:11<01:05, 64.61it/s][A
 16%|███████▊                                         | 798/5001 [00:11<01:05, 64.01it/s][A
 16%|███████▉                                         | 805/5001 [00:11<01:04, 64.78it/s][A
 16%|███████▉                                         | 812/5001 [00:11<01:05, 63.78it/s][A
 16%|████████                                         | 820/5001 [00:11<01:02, 67.06it/s][A
 17%|████████                                         | 828/5001 [00:12<01:00, 69.00it/s][A
 17%|████████▏                                        | 835/5001 [00:12<01:02, 66.18it/s][A
 17%|████████▏                                        | 842/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.9882350657439445
 	SES: 1.0
 	Learning Stability: 1.8973665961010275
 	Mean Reward: 12.0
 	Std Reward: 3.7416573867739413




 20%|█████████▊                                      | 1020/5001 [00:15<01:06, 60.19it/s][A
 21%|█████████▊                                      | 1027/5001 [00:15<01:07, 58.82it/s][A
 21%|█████████▉                                      | 1034/5001 [00:15<01:06, 59.77it/s][A
 21%|█████████▉                                      | 1041/5001 [00:15<01:04, 61.45it/s][A
 21%|██████████                                      | 1048/5001 [00:15<01:05, 60.46it/s][A
 21%|██████████▏                                     | 1055/5001 [00:15<01:04, 60.84it/s][A
 21%|██████████▏                                     | 1062/5001 [00:15<01:05, 59.90it/s][A
 21%|██████████▎                                     | 1069/5001 [00:15<01:06, 59.00it/s][A
 21%|██████████▎                                     | 1075/5001 [00:16<01:07, 58.31it/s][A
 22%|██████████▍                                     | 1082/5001 [00:16<01:05, 59.80it/s][A
 22%|██████████▍                                     | 1088/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 8.487638069569178
 	Mean Reward: 17.4
 	Std Reward: 8.639444426582072




 25%|████████████▏                                   | 1264/5001 [00:20<01:24, 44.49it/s][A
 25%|████████████▏                                   | 1269/5001 [00:20<01:24, 44.38it/s][A
 25%|████████████▏                                   | 1274/5001 [00:20<01:28, 42.01it/s][A
 26%|████████████▎                                   | 1279/5001 [00:20<01:29, 41.62it/s][A
 26%|████████████▎                                   | 1284/5001 [00:20<01:31, 40.49it/s][A
 26%|████████████▎                                   | 1289/5001 [00:20<01:39, 37.40it/s][A
 26%|████████████▍                                   | 1293/5001 [00:20<01:42, 36.12it/s][A
 26%|████████████▍                                   | 1297/5001 [00:20<01:50, 33.56it/s][A
 26%|████████████▍                                   | 1301/5001 [00:21<01:52, 32.95it/s][A
 26%|████████████▌                                   | 1305/5001 [00:21<01:53, 32.55it/s][A
 26%|████████████▌                                   | 1309/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 13.214007719083565
 	Mean Reward: 48.4
 	Std Reward: 17.315888657530692




 30%|██████████████▍                                 | 1506/5001 [00:32<03:44, 15.56it/s][A
 30%|██████████████▍                                 | 1508/5001 [00:32<03:57, 14.73it/s][A
 30%|██████████████▍                                 | 1510/5001 [00:32<04:04, 14.30it/s][A
 30%|██████████████▌                                 | 1512/5001 [00:33<04:11, 13.85it/s][A
 30%|██████████████▌                                 | 1514/5001 [00:33<04:19, 13.44it/s][A
 30%|██████████████▌                                 | 1516/5001 [00:33<04:19, 13.42it/s][A
 30%|██████████████▌                                 | 1518/5001 [00:33<04:17, 13.51it/s][A
 30%|██████████████▌                                 | 1520/5001 [00:33<04:12, 13.80it/s][A
 30%|██████████████▌                                 | 1522/5001 [00:33<04:02, 14.36it/s][A
 30%|██████████████▋                                 | 1524/5001 [00:33<03:56, 14.73it/s][A
 31%|██████████████▋                                 | 1526/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 10.770793842609747
 	Mean Reward: 76.1
 	Std Reward: 7.968061244744546




 35%|████████████████▊                               | 1753/5001 [00:53<07:01,  7.71it/s][A
 35%|████████████████▊                               | 1754/5001 [00:53<06:49,  7.93it/s][A
 35%|████████████████▊                               | 1755/5001 [00:54<06:53,  7.85it/s][A
 35%|████████████████▊                               | 1756/5001 [00:54<07:13,  7.49it/s][A
 35%|████████████████▊                               | 1757/5001 [00:54<07:22,  7.33it/s][A
 35%|████████████████▉                               | 1759/5001 [00:54<05:50,  9.25it/s][A
 35%|████████████████▉                               | 1760/5001 [00:54<06:07,  8.82it/s][A
 35%|████████████████▉                               | 1761/5001 [00:54<06:25,  8.40it/s][A
 35%|████████████████▉                               | 1762/5001 [00:54<06:23,  8.45it/s][A
 35%|████████████████▉                               | 1763/5001 [00:54<06:29,  8.30it/s][A
 35%|████████████████▉                               | 1764/5001 [00:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 10.256705123966467
 	Mean Reward: 71.2
 	Std Reward: 8.818163074019441



 40%|███████████████████▏                            | 2003/5001 [01:25<04:29, 11.11it/s][A
 40%|███████████████████▏                            | 2005/5001 [01:25<04:37, 10.81it/s][A
 40%|███████████████████▎                            | 2007/5001 [01:26<04:32, 10.97it/s][A
 40%|███████████████████▎                            | 2009/5001 [01:26<04:20, 11.48it/s][A
 40%|███████████████████▎                            | 2011/5001 [01:26<04:14, 11.73it/s][A
 40%|███████████████████▎                            | 2013/5001 [01:26<04:16, 11.66it/s][A
 40%|███████████████████▎                            | 2015/5001 [01:26<04:14, 11.72it/s][A
 40%|███████████████████▎                            | 2017/5001 [01:26<04:19, 11.51it/s][A
 40%|███████████████████▍                            | 2019/5001 [01:27<04:19, 11.48it/s][A
 40%|███████████████████▍                            | 2021/5001 [01:27<04:17, 11.58it/s][A
 40%|███████████████████▍                            | 2023/5001 [01:2

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.589577675789482
 	Mean Reward: 79.2
 	Std Reward: 15.911002482559041




 45%|█████████████████████▌                          | 2253/5001 [01:52<05:15,  8.71it/s][A
 45%|█████████████████████▋                          | 2254/5001 [01:53<05:19,  8.60it/s][A
 45%|█████████████████████▋                          | 2255/5001 [01:53<05:17,  8.64it/s][A
 45%|█████████████████████▋                          | 2256/5001 [01:53<05:21,  8.53it/s][A
 45%|█████████████████████▋                          | 2257/5001 [01:53<05:23,  8.49it/s][A
 45%|█████████████████████▋                          | 2258/5001 [01:53<05:31,  8.28it/s][A
 45%|█████████████████████▋                          | 2259/5001 [01:53<05:33,  8.23it/s][A
 45%|█████████████████████▋                          | 2260/5001 [01:53<05:22,  8.49it/s][A
 45%|█████████████████████▋                          | 2261/5001 [01:53<05:30,  8.28it/s][A
 45%|█████████████████████▋                          | 2262/5001 [01:54<05:34,  8.18it/s][A
 45%|█████████████████████▋                          | 2263/5001 [01:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.012495120998476
 	Mean Reward: 83.1
 	Std Reward: 13.057181931795238




 50%|████████████████████████                        | 2505/5001 [02:17<04:00, 10.38it/s][A
 50%|████████████████████████                        | 2507/5001 [02:17<03:47, 10.96it/s][A
 50%|████████████████████████                        | 2509/5001 [02:17<03:46, 11.01it/s][A
 50%|████████████████████████                        | 2511/5001 [02:17<03:41, 11.24it/s][A
 50%|████████████████████████                        | 2513/5001 [02:17<03:34, 11.62it/s][A
 50%|████████████████████████▏                       | 2515/5001 [02:17<03:37, 11.42it/s][A
 50%|████████████████████████▏                       | 2517/5001 [02:18<03:29, 11.86it/s][A
 50%|████████████████████████▏                       | 2519/5001 [02:18<03:24, 12.11it/s][A
 50%|████████████████████████▏                       | 2521/5001 [02:18<03:18, 12.51it/s][A
 50%|████████████████████████▏                       | 2523/5001 [02:18<03:06, 13.31it/s][A
 50%|████████████████████████▏                       | 2525/5001 [02:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 0.5
 	Learning Stability: 13.401865541781861
 	Mean Reward: 71.4
 	Std Reward: 10.32666451474047




 55%|██████████████████████████▍                     | 2753/5001 [02:38<03:28, 10.80it/s][A
 55%|██████████████████████████▍                     | 2755/5001 [02:39<03:26, 10.85it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [02:39<03:27, 10.80it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [02:39<03:30, 10.64it/s][A
 55%|██████████████████████████▌                     | 2761/5001 [02:39<03:27, 10.78it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [02:39<03:23, 10.98it/s][A
 55%|██████████████████████████▌                     | 2765/5001 [02:40<03:17, 11.33it/s][A
 55%|██████████████████████████▌                     | 2767/5001 [02:40<03:31, 10.57it/s][A
 55%|██████████████████████████▌                     | 2769/5001 [02:40<03:31, 10.54it/s][A
 55%|██████████████████████████▌                     | 2771/5001 [02:40<03:23, 10.93it/s][A
 55%|██████████████████████████▌                     | 2773/5001 [02:

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0.8333333333333334
 	Learning Stability: 18.076504086797314
 	Mean Reward: 108.7
 	Std Reward: 27.357083177853593




 60%|████████████████████████████▊                   | 3003/5001 [03:03<03:59,  8.33it/s][A
 60%|████████████████████████████▊                   | 3004/5001 [03:03<04:04,  8.17it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [03:03<04:02,  8.23it/s][A
 60%|████████████████████████████▊                   | 3006/5001 [03:03<03:56,  8.43it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [03:03<03:49,  8.67it/s][A
 60%|████████████████████████████▊                   | 3008/5001 [03:03<03:43,  8.91it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [03:03<03:42,  8.97it/s][A
 60%|████████████████████████████▉                   | 3010/5001 [03:03<03:54,  8.48it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [03:03<04:01,  8.25it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [03:04<04:01,  8.24it/s][A
 60%|████████████████████████████▉                   | 3013/5001 [03:

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0.875
 	Learning Stability: 24.97378625679334
 	Mean Reward: 81.9
 	Std Reward: 10.290286682109492




 65%|███████████████████████████████▏                | 3253/5001 [03:27<03:18,  8.80it/s][A
 65%|███████████████████████████████▏                | 3254/5001 [03:27<03:24,  8.54it/s][A
 65%|███████████████████████████████▏                | 3255/5001 [03:27<03:25,  8.50it/s][A
 65%|███████████████████████████████▎                | 3256/5001 [03:27<03:21,  8.64it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [03:27<03:20,  8.69it/s][A
 65%|███████████████████████████████▎                | 3258/5001 [03:27<03:20,  8.68it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [03:28<03:20,  8.71it/s][A
 65%|███████████████████████████████▎                | 3260/5001 [03:28<03:20,  8.70it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [03:28<03:21,  8.62it/s][A
 65%|███████████████████████████████▎                | 3262/5001 [03:28<03:19,  8.73it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [03:

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 24.83243846262384
 	Mean Reward: 80.8
 	Std Reward: 18.356470248934023




 70%|█████████████████████████████████▋              | 3505/5001 [03:51<02:23, 10.43it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [03:51<02:21, 10.55it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [03:51<02:22, 10.50it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [03:52<02:28, 10.00it/s][A
 70%|█████████████████████████████████▋              | 3513/5001 [03:52<02:24, 10.31it/s][A
 70%|█████████████████████████████████▋              | 3515/5001 [03:52<02:21, 10.50it/s][A
 70%|█████████████████████████████████▊              | 3517/5001 [03:52<02:20, 10.55it/s][A
 70%|█████████████████████████████████▊              | 3519/5001 [03:52<02:25, 10.19it/s][A
 70%|█████████████████████████████████▊              | 3521/5001 [03:53<02:22, 10.41it/s][A
 70%|█████████████████████████████████▊              | 3523/5001 [03:53<02:13, 11.03it/s][A
 70%|█████████████████████████████████▊              | 3525/5001 [03:

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 12.472369462135092
 	Mean Reward: 85.0
 	Std Reward: 15.152557539900648




 75%|████████████████████████████████████            | 3755/5001 [04:15<01:51, 11.19it/s][A
 75%|████████████████████████████████████            | 3757/5001 [04:15<01:45, 11.81it/s][A
 75%|████████████████████████████████████            | 3759/5001 [04:15<01:44, 11.91it/s][A
 75%|████████████████████████████████████            | 3761/5001 [04:15<01:42, 12.05it/s][A
 75%|████████████████████████████████████            | 3763/5001 [04:15<01:44, 11.90it/s][A
 75%|████████████████████████████████████▏           | 3765/5001 [04:16<01:46, 11.60it/s][A
 75%|████████████████████████████████████▏           | 3767/5001 [04:16<02:13,  9.22it/s][A
 75%|████████████████████████████████████▏           | 3769/5001 [04:16<02:05,  9.83it/s][A
 75%|████████████████████████████████████▏           | 3771/5001 [04:16<02:01, 10.13it/s][A
 75%|████████████████████████████████████▏           | 3773/5001 [04:16<01:55, 10.64it/s][A
 75%|████████████████████████████████████▏           | 3775/5001 [04:

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 9.635351576356722
 	Mean Reward: 80.1
 	Std Reward: 11.657186624567696




 80%|██████████████████████████████████████▍         | 4004/5001 [04:38<01:26, 11.52it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [04:38<01:26, 11.55it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [04:39<01:24, 11.82it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [04:39<01:21, 12.11it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [04:39<01:21, 12.12it/s][A
 80%|██████████████████████████████████████▌         | 4014/5001 [04:39<01:26, 11.36it/s][A
 80%|██████████████████████████████████████▌         | 4016/5001 [04:39<01:27, 11.22it/s][A
 80%|██████████████████████████████████████▌         | 4018/5001 [04:39<01:27, 11.23it/s][A
 80%|██████████████████████████████████████▌         | 4020/5001 [04:40<01:27, 11.17it/s][A
 80%|██████████████████████████████████████▌         | 4022/5001 [04:40<01:29, 10.99it/s][A
 80%|██████████████████████████████████████▌         | 4024/5001 [04:

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 15.106621064950296
 	Mean Reward: 79.6
 	Std Reward: 16.81190054693401




 85%|████████████████████████████████████████▊       | 4254/5001 [05:05<01:12, 10.33it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [05:05<01:12, 10.32it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [05:05<01:14,  9.91it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [05:05<01:15,  9.77it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [05:05<01:12, 10.15it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [05:05<01:10, 10.49it/s][A
 85%|████████████████████████████████████████▉       | 4265/5001 [05:06<01:07, 10.88it/s][A
 85%|████████████████████████████████████████▉       | 4267/5001 [05:06<01:05, 11.20it/s][A
 85%|████████████████████████████████████████▉       | 4269/5001 [05:06<01:05, 11.24it/s][A
 85%|████████████████████████████████████████▉       | 4271/5001 [05:06<01:05, 11.21it/s][A
 85%|█████████████████████████████████████████       | 4273/5001 [05:

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 14.098226838861686
 	Mean Reward: 83.6
 	Std Reward: 12.232742946698423




 90%|███████████████████████████████████████████▏    | 4503/5001 [05:29<00:53,  9.24it/s][A
 90%|███████████████████████████████████████████▏    | 4504/5001 [05:29<00:54,  9.15it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [05:29<00:55,  8.88it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [05:29<01:01,  8.07it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [05:30<00:59,  8.30it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [05:30<00:57,  8.63it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [05:30<00:57,  8.61it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [05:30<00:57,  8.55it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [05:30<00:57,  8.53it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [05:30<00:56,  8.68it/s][A
 90%|███████████████████████████████████████████▎    | 4513/5001 [05:

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 17.529689101635544
 	Mean Reward: 94.0
 	Std Reward: 13.572030061858838




 95%|█████████████████████████████████████████████▌  | 4753/5001 [05:56<00:34,  7.16it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [05:56<00:34,  7.15it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [05:56<00:31,  7.73it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [05:56<00:30,  8.07it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [05:56<00:29,  8.22it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [05:57<00:28,  8.41it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [05:57<00:28,  8.59it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [05:57<00:27,  8.74it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [05:57<00:27,  8.87it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [05:57<00:27,  8.66it/s][A
 95%|█████████████████████████████████████████████▋  | 4763/5001 [05:

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 13.67662239004938
 	Mean Reward: 90.8
 	Std Reward: 19.661129163911212



 20%|██████████▍                                         | 2/10 [14:34<57:04, 428.07s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 6/5001 [00:00<01:28, 56.25it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.3333333333333335
 	SES: 0.8181818181818182
 	Learning Stability: 4.011234224026316
 	Mean Reward: 13.3
 	Std Reward: 5.710516614107694




  0%|▏                                                 | 13/5001 [00:00<01:23, 59.63it/s][A
  0%|▏                                                 | 19/5001 [00:00<01:26, 57.71it/s][A
  0%|▏                                                 | 25/5001 [00:00<01:25, 58.33it/s][A
  1%|▎                                                 | 31/5001 [00:00<01:27, 56.86it/s][A
  1%|▍                                                 | 39/5001 [00:00<01:20, 62.01it/s][A
  1%|▍                                                 | 46/5001 [00:00<01:23, 59.27it/s][A
  1%|▌                                                 | 53/5001 [00:00<01:21, 60.72it/s][A
  1%|▌                                                 | 60/5001 [00:01<01:22, 60.11it/s][A
  1%|▋                                                 | 67/5001 [00:01<01:24, 58.55it/s][A
  1%|▋                                                 | 73/5001 [00:01<01:25, 57.87it/s][A
  2%|▊                                                 | 79/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 6.095900261651268
 	Mean Reward: 17.6
 	Std Reward: 6.151422599691879




  5%|██▌                                              | 263/5001 [00:04<01:46, 44.40it/s][A
  5%|██▋                                              | 268/5001 [00:05<01:45, 44.90it/s][A
  5%|██▋                                              | 273/5001 [00:05<01:46, 44.24it/s][A
  6%|██▋                                              | 278/5001 [00:05<01:47, 43.93it/s][A
  6%|██▊                                              | 283/5001 [00:05<01:44, 45.04it/s][A
  6%|██▊                                              | 288/5001 [00:05<01:46, 44.05it/s][A
  6%|██▊                                              | 293/5001 [00:05<01:49, 42.88it/s][A
  6%|██▉                                              | 298/5001 [00:05<01:50, 42.75it/s][A
  6%|██▉                                              | 303/5001 [00:05<01:45, 44.61it/s][A
  6%|███                                              | 308/5001 [00:05<01:43, 45.25it/s][A
  6%|███                                              | 313/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.3333333333333335
 	SES: 0
 	Learning Stability: 8.369587803470372
 	Mean Reward: 17.3
 	Std Reward: 3.4073450074801643




 10%|█████                                            | 515/5001 [00:10<01:49, 40.86it/s][A
 10%|█████                                            | 520/5001 [00:10<01:46, 41.97it/s][A
 10%|█████▏                                           | 525/5001 [00:10<01:44, 42.70it/s][A
 11%|█████▏                                           | 530/5001 [00:10<01:45, 42.25it/s][A
 11%|█████▏                                           | 535/5001 [00:11<01:45, 42.43it/s][A
 11%|█████▎                                           | 540/5001 [00:11<01:45, 42.42it/s][A
 11%|█████▎                                           | 545/5001 [00:11<01:47, 41.28it/s][A
 11%|█████▍                                           | 550/5001 [00:11<01:50, 40.27it/s][A
 11%|█████▍                                           | 555/5001 [00:11<01:48, 41.04it/s][A
 11%|█████▍                                           | 560/5001 [00:11<01:49, 40.72it/s][A
 11%|█████▌                                           | 565/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 6.588626564011653
 	Mean Reward: 19.8
 	Std Reward: 6.193545026880809




 15%|███████▍                                         | 759/5001 [00:16<01:50, 38.35it/s][A
 15%|███████▍                                         | 763/5001 [00:16<01:50, 38.39it/s][A
 15%|███████▌                                         | 767/5001 [00:16<01:50, 38.43it/s][A
 15%|███████▌                                         | 772/5001 [00:16<01:45, 39.98it/s][A
 16%|███████▌                                         | 776/5001 [00:17<01:45, 39.96it/s][A
 16%|███████▋                                         | 781/5001 [00:17<01:45, 39.99it/s][A
 16%|███████▋                                         | 785/5001 [00:17<01:46, 39.74it/s][A
 16%|███████▋                                         | 789/5001 [00:17<01:50, 38.29it/s][A
 16%|███████▊                                         | 793/5001 [00:17<01:49, 38.53it/s][A
 16%|███████▊                                         | 797/5001 [00:17<01:50, 38.16it/s][A
 16%|███████▊                                         | 801/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 22.830900113661748
 	Mean Reward: 90.0
 	Std Reward: 13.334166640626627




 20%|█████████▋                                      | 1003/5001 [00:28<06:47,  9.82it/s][A
 20%|█████████▋                                      | 1004/5001 [00:28<06:56,  9.60it/s][A
 20%|█████████▋                                      | 1005/5001 [00:28<07:00,  9.49it/s][A
 20%|█████████▋                                      | 1006/5001 [00:29<07:05,  9.38it/s][A
 20%|█████████▋                                      | 1007/5001 [00:29<07:07,  9.34it/s][A
 20%|█████████▋                                      | 1008/5001 [00:29<07:09,  9.29it/s][A
 20%|█████████▋                                      | 1009/5001 [00:29<07:09,  9.29it/s][A
 20%|█████████▋                                      | 1010/5001 [00:29<07:08,  9.32it/s][A
 20%|█████████▋                                      | 1011/5001 [00:29<07:14,  9.17it/s][A
 20%|█████████▋                                      | 1012/5001 [00:29<07:23,  8.99it/s][A
 20%|█████████▋                                      | 1014/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 45.6649756377905
 	Mean Reward: 91.9
 	Std Reward: 19.418805318556547




 25%|████████████                                    | 1253/5001 [01:01<07:37,  8.18it/s][A
 25%|████████████                                    | 1254/5001 [01:01<07:33,  8.27it/s][A
 25%|████████████                                    | 1255/5001 [01:02<07:32,  8.27it/s][A
 25%|████████████                                    | 1256/5001 [01:02<07:51,  7.94it/s][A
 25%|████████████                                    | 1257/5001 [01:02<07:39,  8.15it/s][A
 25%|████████████                                    | 1258/5001 [01:02<07:31,  8.30it/s][A
 25%|████████████                                    | 1259/5001 [01:02<07:34,  8.24it/s][A
 25%|████████████                                    | 1260/5001 [01:02<07:52,  7.93it/s][A
 25%|████████████                                    | 1261/5001 [01:02<08:40,  7.19it/s][A
 25%|████████████                                    | 1262/5001 [01:03<10:56,  5.70it/s][A
 25%|████████████                                    | 1263/5001 [01:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 115.63740744240162
 	Mean Reward: 192.5
 	Std Reward: 80.17512082934456




 30%|██████████████▍                                 | 1503/5001 [01:50<12:18,  4.74it/s][A
 30%|██████████████▍                                 | 1504/5001 [01:50<10:22,  5.62it/s][A
 30%|██████████████▍                                 | 1506/5001 [01:50<08:26,  6.90it/s][A
 30%|██████████████▍                                 | 1507/5001 [01:50<10:41,  5.45it/s][A
 30%|██████████████▍                                 | 1508/5001 [01:51<12:44,  4.57it/s][A
 30%|██████████████▍                                 | 1509/5001 [01:51<12:43,  4.58it/s][A
 30%|██████████████▍                                 | 1510/5001 [01:51<14:41,  3.96it/s][A
 30%|██████████████▌                                 | 1511/5001 [01:52<15:42,  3.70it/s][A
 30%|██████████████▌                                 | 1512/5001 [01:52<16:37,  3.50it/s][A
 30%|██████████████▌                                 | 1513/5001 [01:52<18:11,  3.20it/s][A
 30%|██████████████▌                                 | 1514/5001 [01:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 104.5518531638727
 	Mean Reward: 318.2
 	Std Reward: 154.98116014535444




 35%|████████████████▊                               | 1752/5001 [02:32<14:47,  3.66it/s][A
 35%|████████████████▊                               | 1753/5001 [02:33<15:27,  3.50it/s][A
 35%|████████████████▊                               | 1754/5001 [02:33<15:53,  3.41it/s][A
 35%|████████████████▊                               | 1755/5001 [02:33<15:56,  3.39it/s][A
 35%|████████████████▊                               | 1756/5001 [02:34<16:21,  3.31it/s][A
 35%|████████████████▊                               | 1757/5001 [02:34<14:15,  3.79it/s][A
 35%|████████████████▊                               | 1758/5001 [02:34<13:51,  3.90it/s][A
 35%|████████████████▉                               | 1759/5001 [02:34<14:27,  3.74it/s][A
 35%|████████████████▉                               | 1760/5001 [02:35<15:54,  3.39it/s][A
 35%|████████████████▉                               | 1761/5001 [02:35<17:14,  3.13it/s][A
 35%|████████████████▉                               | 1762/5001 [02:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 88.02164506529061
 	Mean Reward: 266.9
 	Std Reward: 154.03535308493306



 40%|███████████████████▏                            | 2002/5001 [03:20<08:42,  5.74it/s][A
 40%|███████████████████▏                            | 2003/5001 [03:20<09:56,  5.02it/s][A
 40%|███████████████████▏                            | 2004/5001 [03:20<11:10,  4.47it/s][A
 40%|███████████████████▏                            | 2005/5001 [03:21<12:34,  3.97it/s][A
 40%|███████████████████▎                            | 2006/5001 [03:21<12:42,  3.93it/s][A
 40%|███████████████████▎                            | 2007/5001 [03:21<13:13,  3.77it/s][A
 40%|███████████████████▎                            | 2008/5001 [03:21<14:22,  3.47it/s][A
 40%|███████████████████▎                            | 2009/5001 [03:22<14:48,  3.37it/s][A
 40%|███████████████████▎                            | 2010/5001 [03:22<15:17,  3.26it/s][A
 40%|███████████████████▎                            | 2011/5001 [03:22<15:25,  3.23it/s][A
 40%|███████████████████▎                            | 2012/5001 [03:2

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 21.321585306913743
 	Mean Reward: 74.1
 	Std Reward: 18.495675170158023




 45%|█████████████████████▌                          | 2253/5001 [04:14<04:43,  9.69it/s][A
 45%|█████████████████████▋                          | 2254/5001 [04:14<04:58,  9.19it/s][A
 45%|█████████████████████▋                          | 2256/5001 [04:14<04:42,  9.71it/s][A
 45%|█████████████████████▋                          | 2257/5001 [04:14<05:50,  7.84it/s][A
 45%|█████████████████████▋                          | 2258/5001 [04:14<05:33,  8.22it/s][A
 45%|█████████████████████▋                          | 2259/5001 [04:14<05:24,  8.44it/s][A
 45%|█████████████████████▋                          | 2260/5001 [04:15<05:35,  8.17it/s][A
 45%|█████████████████████▋                          | 2262/5001 [04:15<04:51,  9.41it/s][A
 45%|█████████████████████▋                          | 2264/5001 [04:15<04:35,  9.94it/s][A
 45%|█████████████████████▋                          | 2265/5001 [04:15<05:05,  8.96it/s][A
 45%|█████████████████████▋                          | 2266/5001 [04:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 170.41549225349203
 	Mean Reward: 308.3
 	Std Reward: 157.29020948552392




 50%|████████████████████████                        | 2503/5001 [05:01<09:54,  4.20it/s][A
 50%|████████████████████████                        | 2505/5001 [05:01<07:25,  5.61it/s][A
 50%|████████████████████████                        | 2506/5001 [05:01<06:54,  6.02it/s][A
 50%|████████████████████████                        | 2507/5001 [05:02<06:34,  6.32it/s][A
 50%|████████████████████████                        | 2509/5001 [05:02<05:01,  8.27it/s][A
 50%|████████████████████████                        | 2511/5001 [05:02<04:04, 10.17it/s][A
 50%|████████████████████████                        | 2513/5001 [05:02<03:38, 11.40it/s][A
 50%|████████████████████████▏                       | 2515/5001 [05:02<03:46, 10.98it/s][A
 50%|████████████████████████▏                       | 2517/5001 [05:02<04:00, 10.31it/s][A
 50%|████████████████████████▏                       | 2519/5001 [05:03<04:04, 10.15it/s][A
 50%|████████████████████████▏                       | 2521/5001 [05:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 126.74383614203887
 	Mean Reward: 286.3
 	Std Reward: 145.76285535073742




 55%|██████████████████████████▍                     | 2752/5001 [05:50<11:16,  3.33it/s][A
 55%|██████████████████████████▍                     | 2753/5001 [05:50<10:56,  3.43it/s][A
 55%|██████████████████████████▍                     | 2754/5001 [05:51<11:22,  3.29it/s][A
 55%|██████████████████████████▍                     | 2755/5001 [05:51<10:52,  3.44it/s][A
 55%|██████████████████████████▍                     | 2756/5001 [05:51<10:12,  3.66it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [05:51<10:53,  3.43it/s][A
 55%|██████████████████████████▍                     | 2758/5001 [05:52<10:29,  3.56it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [05:52<08:35,  4.35it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [05:52<07:14,  5.16it/s][A
 55%|██████████████████████████▌                     | 2762/5001 [05:52<05:26,  6.86it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [05:

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 126.24614845610144
 	Mean Reward: 247.6
 	Std Reward: 136.3716979435249




 60%|████████████████████████████▊                   | 3002/5001 [06:28<07:28,  4.46it/s][A
 60%|████████████████████████████▊                   | 3003/5001 [06:28<07:18,  4.55it/s][A
 60%|████████████████████████████▊                   | 3004/5001 [06:29<06:58,  4.78it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [06:29<06:58,  4.77it/s][A
 60%|████████████████████████████▊                   | 3006/5001 [06:29<06:53,  4.83it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [06:29<06:14,  5.33it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [06:30<06:00,  5.52it/s][A
 60%|████████████████████████████▉                   | 3010/5001 [06:30<06:16,  5.29it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [06:30<06:35,  5.03it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [06:30<06:44,  4.92it/s][A
 60%|████████████████████████████▉                   | 3013/5001 [06:

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 51.79536658814184
 	Mean Reward: 78.4
 	Std Reward: 10.248902380255165




 65%|███████████████████████████████▏                | 3253/5001 [07:17<04:14,  6.87it/s][A
 65%|███████████████████████████████▏                | 3254/5001 [07:17<04:13,  6.90it/s][A
 65%|███████████████████████████████▏                | 3255/5001 [07:18<03:59,  7.29it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [07:18<03:21,  8.65it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [07:18<03:05,  9.39it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [07:18<03:00,  9.64it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [07:18<02:51, 10.12it/s][A
 65%|███████████████████████████████▎                | 3265/5001 [07:19<03:22,  8.55it/s][A
 65%|███████████████████████████████▎                | 3266/5001 [07:19<03:53,  7.42it/s][A
 65%|███████████████████████████████▎                | 3267/5001 [07:19<03:57,  7.29it/s][A
 65%|███████████████████████████████▎                | 3268/5001 [07:

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 135.65234977692054
 	Mean Reward: 146.7
 	Std Reward: 66.87757471679127




 70%|█████████████████████████████████▌              | 3502/5001 [08:29<05:43,  4.37it/s][A
 70%|█████████████████████████████████▌              | 3503/5001 [08:29<07:00,  3.57it/s][A
 70%|█████████████████████████████████▋              | 3504/5001 [08:29<08:14,  3.03it/s][A
 70%|█████████████████████████████████▋              | 3505/5001 [08:30<08:50,  2.82it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [08:30<07:23,  3.37it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [08:30<05:14,  4.75it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [08:30<04:36,  5.39it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [08:30<04:03,  6.12it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [08:31<03:17,  7.53it/s][A
 70%|█████████████████████████████████▋              | 3513/5001 [08:31<03:54,  6.34it/s][A
 70%|█████████████████████████████████▋              | 3514/5001 [08:

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 74.1929915827634
 	Mean Reward: 162.9
 	Std Reward: 63.43413907353043




 75%|████████████████████████████████████            | 3754/5001 [09:50<03:04,  6.78it/s][A
 75%|████████████████████████████████████            | 3755/5001 [09:50<03:48,  5.44it/s][A
 75%|████████████████████████████████████            | 3756/5001 [09:50<03:55,  5.29it/s][A
 75%|████████████████████████████████████            | 3757/5001 [09:51<04:31,  4.58it/s][A
 75%|████████████████████████████████████            | 3758/5001 [09:51<05:48,  3.56it/s][A
 75%|████████████████████████████████████            | 3759/5001 [09:51<06:52,  3.01it/s][A
 75%|████████████████████████████████████            | 3760/5001 [09:52<07:00,  2.95it/s][A
 75%|████████████████████████████████████            | 3761/5001 [09:52<07:41,  2.69it/s][A
 75%|████████████████████████████████████            | 3762/5001 [09:53<08:02,  2.57it/s][A
 75%|████████████████████████████████████            | 3763/5001 [09:53<08:30,  2.42it/s][A
 75%|████████████████████████████████████▏           | 3764/5001 [09:

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 115.55500854571385
 	Mean Reward: 267.4
 	Std Reward: 125.02335781764943




 80%|██████████████████████████████████████▍         | 4002/5001 [13:41<04:01,  4.14it/s][A
 80%|██████████████████████████████████████▍         | 4003/5001 [13:41<03:41,  4.51it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [13:41<03:35,  4.63it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [13:41<03:56,  4.20it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [13:42<04:10,  3.97it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [13:42<04:15,  3.88it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [13:42<04:47,  3.45it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [13:43<04:37,  3.58it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [13:43<04:33,  3.62it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [13:43<04:40,  3.53it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [13:

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 45.37499311294714
 	Mean Reward: 184.3
 	Std Reward: 114.45440140073251




 85%|████████████████████████████████████████▊       | 4253/5001 [15:08<03:26,  3.62it/s][A
 85%|████████████████████████████████████████▊       | 4254/5001 [15:08<03:26,  3.62it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [15:09<03:20,  3.72it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [15:09<03:17,  3.78it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [15:09<03:09,  3.93it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [15:09<03:05,  4.01it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [15:10<02:57,  4.19it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [15:10<02:52,  4.29it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [15:10<02:58,  4.15it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [15:10<02:47,  4.41it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [15:

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 109.79781418589353
 	Mean Reward: 488.6
 	Std Reward: 24.179330015531857




 90%|███████████████████████████████████████████▏    | 4502/5001 [16:20<03:38,  2.28it/s][A
 90%|███████████████████████████████████████████▏    | 4503/5001 [16:20<03:45,  2.21it/s][A
 90%|███████████████████████████████████████████▏    | 4504/5001 [16:21<03:47,  2.19it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [16:21<03:47,  2.18it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [16:22<03:48,  2.17it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [16:22<03:46,  2.18it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [16:23<03:31,  2.33it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [16:23<03:32,  2.32it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [16:23<03:28,  2.35it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [16:24<03:34,  2.29it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [16:

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 165.03890450436225
 	Mean Reward: 427.5
 	Std Reward: 126.98681033871195




 95%|█████████████████████████████████████████████▌  | 4752/5001 [18:04<01:45,  2.36it/s][A
 95%|█████████████████████████████████████████████▌  | 4753/5001 [18:04<01:45,  2.34it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [18:04<01:40,  2.45it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [18:05<01:41,  2.43it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [18:05<01:34,  2.58it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [18:05<01:26,  2.82it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [18:06<01:17,  3.15it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [18:06<01:13,  3.30it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [18:06<01:10,  3.43it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [18:07<01:09,  3.44it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [18:

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 42.18352759075514
 	Mean Reward: 498.8
 	Std Reward: 3.6




 30%|███████████████                                   | 3/10 [34:25<1:30:34, 776.32s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 9/5001 [00:00<01:01, 81.79it/s][A
  0%|▏                                                 | 18/5001 [00:00<00:58, 84.55it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 1.2
 	Mean Reward: 7.3
 	Std Reward: 0.6403124237432849




  1%|▎                                                 | 27/5001 [00:00<01:00, 82.56it/s][A
  1%|▎                                                 | 36/5001 [00:00<01:00, 81.47it/s][A
  1%|▍                                                 | 45/5001 [00:00<00:59, 82.94it/s][A
  1%|▌                                                 | 54/5001 [00:00<01:02, 79.23it/s][A
  1%|▌                                                 | 62/5001 [00:00<01:05, 75.92it/s][A
  1%|▋                                                 | 71/5001 [00:00<01:02, 78.41it/s][A
  2%|▊                                                 | 80/5001 [00:00<01:00, 81.08it/s][A
  2%|▉                                                 | 89/5001 [00:01<00:59, 82.30it/s][A
  2%|▉                                                 | 98/5001 [00:01<00:59, 82.81it/s][A
  2%|█                                                | 107/5001 [00:01<00:59, 82.93it/s][A
  2%|█▏                                               | 116/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 2.1071307505705477
 	Mean Reward: 10.5
 	Std Reward: 2.8372521918222215




  5%|██▋                                              | 273/5001 [00:03<01:08, 68.68it/s][A
  6%|██▋                                              | 280/5001 [00:03<01:09, 68.32it/s][A
  6%|██▊                                              | 289/5001 [00:03<01:05, 72.30it/s][A
  6%|██▉                                              | 297/5001 [00:03<01:04, 72.80it/s][A
  6%|██▉                                              | 305/5001 [00:03<01:06, 70.72it/s][A
  6%|███                                              | 313/5001 [00:04<01:06, 70.97it/s][A
  6%|███▏                                             | 321/5001 [00:04<01:04, 72.27it/s][A
  7%|███▏                                             | 329/5001 [00:04<01:04, 72.69it/s][A
  7%|███▎                                             | 337/5001 [00:04<01:03, 73.70it/s][A
  7%|███▍                                             | 345/5001 [00:04<01:01, 75.28it/s][A
  7%|███▍                                             | 353/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.879236009777594
 	Mean Reward: 10.9
 	Std Reward: 3.4190641994557516




 10%|█████                                            | 516/5001 [00:07<01:06, 67.66it/s][A
 10%|█████                                            | 523/5001 [00:07<01:06, 67.18it/s][A
 11%|█████▏                                           | 530/5001 [00:07<01:07, 66.47it/s][A
 11%|█████▎                                           | 537/5001 [00:07<01:07, 65.99it/s][A
 11%|█████▎                                           | 544/5001 [00:07<01:07, 65.75it/s][A
 11%|█████▍                                           | 551/5001 [00:07<01:07, 66.20it/s][A
 11%|█████▍                                           | 558/5001 [00:07<01:06, 66.85it/s][A
 11%|█████▌                                           | 566/5001 [00:07<01:04, 68.58it/s][A
 11%|█████▌                                           | 573/5001 [00:07<01:06, 66.81it/s][A
 12%|█████▋                                           | 580/5001 [00:08<01:06, 66.63it/s][A
 12%|█████▊                                           | 587/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.1656407827707715
 	Mean Reward: 11.7
 	Std Reward: 3.4942810419312296




 15%|███████▌                                         | 770/5001 [00:11<01:11, 59.01it/s][A
 16%|███████▌                                         | 776/5001 [00:11<01:12, 58.53it/s][A
 16%|███████▋                                         | 782/5001 [00:11<01:12, 58.10it/s][A
 16%|███████▋                                         | 788/5001 [00:11<01:12, 58.07it/s][A
 16%|███████▊                                         | 794/5001 [00:11<01:13, 57.08it/s][A
 16%|███████▊                                         | 800/5001 [00:11<01:13, 57.43it/s][A
 16%|███████▉                                         | 806/5001 [00:11<01:17, 54.05it/s][A
 16%|███████▉                                         | 812/5001 [00:11<01:19, 52.89it/s][A
 16%|████████                                         | 818/5001 [00:11<01:21, 51.57it/s][A
 16%|████████                                         | 824/5001 [00:12<01:25, 49.08it/s][A
 17%|████████                                         | 829/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 13.032651303552933
 	Mean Reward: 40.7
 	Std Reward: 13.183702059740277




 20%|█████████▋                                      | 1008/5001 [00:17<03:06, 21.41it/s][A
 20%|█████████▋                                      | 1011/5001 [00:17<02:59, 22.26it/s][A
 20%|█████████▋                                      | 1014/5001 [00:17<03:02, 21.88it/s][A
 20%|█████████▊                                      | 1017/5001 [00:17<02:57, 22.46it/s][A
 20%|█████████▊                                      | 1020/5001 [00:17<02:54, 22.84it/s][A
 20%|█████████▊                                      | 1023/5001 [00:18<02:54, 22.82it/s][A
 21%|█████████▊                                      | 1026/5001 [00:18<02:55, 22.62it/s][A
 21%|█████████▉                                      | 1029/5001 [00:18<02:57, 22.32it/s][A
 21%|█████████▉                                      | 1032/5001 [00:18<02:56, 22.54it/s][A
 21%|█████████▉                                      | 1035/5001 [00:18<02:56, 22.48it/s][A
 21%|█████████▉                                      | 1038/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 32.10545125052754
 	Mean Reward: 77.3
 	Std Reward: 46.765478720953986




 25%|████████████                                    | 1256/5001 [00:36<05:07, 12.19it/s][A
 25%|████████████                                    | 1258/5001 [00:36<05:10, 12.05it/s][A
 25%|████████████                                    | 1260/5001 [00:36<05:52, 10.61it/s][A
 25%|████████████                                    | 1262/5001 [00:36<06:09, 10.12it/s][A
 25%|████████████▏                                   | 1264/5001 [00:37<06:26,  9.68it/s][A
 25%|████████████▏                                   | 1266/5001 [00:37<06:10, 10.07it/s][A
 25%|████████████▏                                   | 1268/5001 [00:37<06:48,  9.14it/s][A
 25%|████████████▏                                   | 1269/5001 [00:37<06:42,  9.27it/s][A
 25%|████████████▏                                   | 1271/5001 [00:37<05:48, 10.71it/s][A
 25%|████████████▏                                   | 1273/5001 [00:37<05:10, 12.00it/s][A
 25%|████████████▏                                   | 1275/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 7.502666192761077
 	Mean Reward: 79.0
 	Std Reward: 39.61565347182853




 30%|██████████████▍                                 | 1504/5001 [01:07<04:27, 13.08it/s][A
 30%|██████████████▍                                 | 1506/5001 [01:07<04:42, 12.39it/s][A
 30%|██████████████▍                                 | 1508/5001 [01:07<04:45, 12.25it/s][A
 30%|██████████████▍                                 | 1510/5001 [01:07<04:37, 12.56it/s][A
 30%|██████████████▌                                 | 1512/5001 [01:07<04:41, 12.41it/s][A
 30%|██████████████▌                                 | 1514/5001 [01:08<04:39, 12.49it/s][A
 30%|██████████████▌                                 | 1516/5001 [01:08<04:37, 12.54it/s][A
 30%|██████████████▌                                 | 1518/5001 [01:08<04:34, 12.67it/s][A
 30%|██████████████▌                                 | 1520/5001 [01:08<04:21, 13.31it/s][A
 30%|██████████████▌                                 | 1522/5001 [01:08<04:07, 14.05it/s][A
 30%|██████████████▋                                 | 1524/5001 [01:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 69.93025096480063
 	Mean Reward: 113.0
 	Std Reward: 25.163465580082566




 35%|████████████████▊                               | 1754/5001 [01:50<08:16,  6.54it/s][A
 35%|████████████████▊                               | 1755/5001 [01:50<08:07,  6.67it/s][A
 35%|████████████████▊                               | 1756/5001 [01:50<09:37,  5.62it/s][A
 35%|████████████████▊                               | 1757/5001 [01:51<11:40,  4.63it/s][A
 35%|████████████████▊                               | 1758/5001 [01:51<12:10,  4.44it/s][A
 35%|████████████████▉                               | 1759/5001 [01:51<11:52,  4.55it/s][A
 35%|████████████████▉                               | 1760/5001 [01:51<12:26,  4.34it/s][A
 35%|████████████████▉                               | 1761/5001 [01:52<12:46,  4.23it/s][A
 35%|████████████████▉                               | 1762/5001 [01:52<13:18,  4.06it/s][A
 35%|████████████████▉                               | 1763/5001 [01:52<13:18,  4.06it/s][A
 35%|████████████████▉                               | 1764/5001 [01:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 187.26529310045683
 	Mean Reward: 296.3
 	Std Reward: 174.22689229851974




 40%|███████████████████▏                            | 2003/5001 [02:46<10:08,  4.93it/s][A
 40%|███████████████████▏                            | 2004/5001 [02:46<09:28,  5.27it/s][A
 40%|███████████████████▏                            | 2005/5001 [02:46<08:51,  5.63it/s][A
 40%|███████████████████▎                            | 2006/5001 [02:47<10:06,  4.94it/s][A
 40%|███████████████████▎                            | 2007/5001 [02:47<11:36,  4.30it/s][A
 40%|███████████████████▎                            | 2008/5001 [02:47<11:28,  4.35it/s][A
 40%|███████████████████▎                            | 2009/5001 [02:47<10:32,  4.73it/s][A
 40%|███████████████████▎                            | 2010/5001 [02:47<09:28,  5.26it/s][A
 40%|███████████████████▎                            | 2011/5001 [02:48<10:11,  4.89it/s][A
 40%|███████████████████▎                            | 2012/5001 [02:48<09:44,  5.12it/s][A
 40%|███████████████████▎                            | 2013/5001 [02:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 12.718490476467718
 	Mean Reward: 81.0
 	Std Reward: 11.515207336387824




 45%|█████████████████████▌                          | 2253/5001 [03:24<07:01,  6.52it/s][A
 45%|█████████████████████▋                          | 2254/5001 [03:24<07:59,  5.73it/s][A
 45%|█████████████████████▋                          | 2255/5001 [03:24<09:24,  4.86it/s][A
 45%|█████████████████████▋                          | 2256/5001 [03:24<08:59,  5.09it/s][A
 45%|█████████████████████▋                          | 2257/5001 [03:24<08:16,  5.53it/s][A
 45%|█████████████████████▋                          | 2258/5001 [03:25<07:44,  5.91it/s][A
 45%|█████████████████████▋                          | 2259/5001 [03:25<07:13,  6.32it/s][A
 45%|█████████████████████▋                          | 2260/5001 [03:25<07:59,  5.72it/s][A
 45%|█████████████████████▋                          | 2261/5001 [03:25<09:01,  5.06it/s][A
 45%|█████████████████████▋                          | 2262/5001 [03:25<09:07,  5.00it/s][A
 45%|█████████████████████▋                          | 2263/5001 [03:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 125.72748307351102
 	Mean Reward: 319.5
 	Std Reward: 169.818874098258




 50%|████████████████████████                        | 2502/5001 [04:10<10:35,  3.93it/s][A
 50%|████████████████████████                        | 2503/5001 [04:10<11:21,  3.66it/s][A
 50%|████████████████████████                        | 2504/5001 [04:10<12:08,  3.43it/s][A
 50%|████████████████████████                        | 2505/5001 [04:11<12:08,  3.43it/s][A
 50%|████████████████████████                        | 2506/5001 [04:11<12:19,  3.38it/s][A
 50%|████████████████████████                        | 2507/5001 [04:11<11:20,  3.67it/s][A
 50%|████████████████████████                        | 2508/5001 [04:11<11:24,  3.64it/s][A
 50%|████████████████████████                        | 2509/5001 [04:12<11:34,  3.59it/s][A
 50%|████████████████████████                        | 2510/5001 [04:13<19:52,  2.09it/s][A
 50%|████████████████████████                        | 2511/5001 [04:13<18:40,  2.22it/s][A
 50%|████████████████████████                        | 2512/5001 [04:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 47.70911862526911
 	Mean Reward: 115.8
 	Std Reward: 26.32033434438096




 55%|██████████████████████████▍                     | 2752/5001 [46:07<27:56,  1.34it/s][A
 55%|██████████████████████████▍                     | 2753/5001 [46:08<28:49,  1.30it/s][A
 55%|██████████████████████████▍                     | 2754/5001 [46:08<25:39,  1.46it/s][A
 55%|██████████████████████████▍                     | 2755/5001 [46:09<24:46,  1.51it/s][A
 55%|██████████████████████████▍                     | 2756/5001 [46:09<23:41,  1.58it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [46:10<21:05,  1.77it/s][A
 55%|██████████████████████████▍                     | 2758/5001 [46:10<19:40,  1.90it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [46:11<18:50,  1.98it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [46:11<17:36,  2.12it/s][A
 55%|██████████████████████████▌                     | 2761/5001 [46:11<16:49,  2.22it/s][A
 55%|██████████████████████████▌                     | 2762/5001 [46:

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 56.6347066735584
 	Mean Reward: 66.0
 	Std Reward: 9.518403227432634




 60%|████████████████████████████▊                   | 3003/5001 [55:06<04:28,  7.45it/s][A
 60%|████████████████████████████▊                   | 3004/5001 [55:06<04:11,  7.95it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [55:06<04:06,  8.10it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [55:06<04:02,  8.24it/s][A
 60%|████████████████████████████▊                   | 3008/5001 [55:07<04:34,  7.25it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [55:07<04:28,  7.43it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [55:07<03:44,  8.88it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [55:07<03:38,  9.09it/s][A
 60%|████████████████████████████▉                   | 3015/5001 [55:07<02:40, 12.41it/s][A
 60%|████████████████████████████▉                   | 3017/5001 [55:07<02:37, 12.56it/s][A
 60%|████████████████████████████▉                   | 3019/5001 [55:

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 111.95753659312088
 	Mean Reward: 85.9
 	Std Reward: 26.135990511170604




 65%|███████████████████████████████▏                | 3254/5001 [55:54<04:13,  6.90it/s][A
 65%|███████████████████████████████▎                | 3256/5001 [55:54<03:57,  7.34it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [55:54<03:59,  7.29it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [55:54<03:24,  8.53it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [55:55<02:57,  9.83it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [55:55<03:06,  9.33it/s][A
 65%|███████████████████████████████▎                | 3264/5001 [55:55<03:20,  8.68it/s][A
 65%|███████████████████████████████▎                | 3265/5001 [55:55<05:10,  5.60it/s][A
 65%|███████████████████████████████▎                | 3266/5001 [55:56<05:08,  5.63it/s][A
 65%|███████████████████████████████▎                | 3267/5001 [55:56<04:44,  6.09it/s][A
 65%|███████████████████████████████▎                | 3268/5001 [55:

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0.9444444444444444
 	Learning Stability: 149.10281687479952
 	Mean Reward: 127.8
 	Std Reward: 66.59699692929104




 70%|█████████████████████████████████▌              | 3502/5001 [56:46<04:36,  5.43it/s][A
 70%|█████████████████████████████████▌              | 3503/5001 [56:47<05:18,  4.71it/s][A
 70%|█████████████████████████████████▋              | 3504/5001 [56:47<05:23,  4.63it/s][A
 70%|█████████████████████████████████▋              | 3505/5001 [56:47<05:50,  4.27it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [56:47<06:24,  3.89it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [56:48<07:21,  3.38it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [56:48<08:00,  3.11it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [56:48<08:24,  2.96it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [56:49<08:09,  3.05it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [56:49<08:32,  2.91it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [56:

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 74.33976055920546
 	Mean Reward: 88.6
 	Std Reward: 12.823416081528354




 75%|████████████████████████████████████            | 3753/5001 [57:42<03:01,  6.86it/s][A
 75%|████████████████████████████████████            | 3754/5001 [57:42<02:46,  7.51it/s][A
 75%|████████████████████████████████████            | 3756/5001 [57:42<02:20,  8.85it/s][A
 75%|████████████████████████████████████            | 3757/5001 [57:42<02:16,  9.11it/s][A
 75%|████████████████████████████████████            | 3758/5001 [57:42<02:55,  7.10it/s][A
 75%|████████████████████████████████████            | 3759/5001 [57:43<03:39,  5.65it/s][A
 75%|████████████████████████████████████            | 3760/5001 [57:43<04:32,  4.56it/s][A
 75%|████████████████████████████████████            | 3761/5001 [57:43<04:33,  4.53it/s][A
 75%|████████████████████████████████████            | 3762/5001 [57:43<04:24,  4.68it/s][A
 75%|████████████████████████████████████            | 3763/5001 [57:43<04:01,  5.13it/s][A
 75%|████████████████████████████████████▏           | 3764/5001 [57:

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 111.17085949114544
 	Mean Reward: 185.7
 	Std Reward: 79.31588743751153




 80%|██████████████████████████████████████▍         | 4002/5001 [58:30<04:21,  3.82it/s][A
 80%|██████████████████████████████████████▍         | 4003/5001 [58:30<04:10,  3.98it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [58:31<03:51,  4.30it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [58:31<03:52,  4.29it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [58:31<03:22,  4.92it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [58:31<03:25,  4.83it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [58:31<03:31,  4.69it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [58:32<03:17,  5.04it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [58:32<02:53,  5.73it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [58:32<02:30,  6.56it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [58:

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 48.13979642665723
 	Mean Reward: 68.0
 	Std Reward: 13.971399357258385




 85%|████████████████████████████████████████▊       | 4255/5001 [59:24<01:40,  7.42it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [59:24<01:41,  7.31it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [59:24<01:44,  7.14it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [59:24<01:44,  7.13it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [59:24<01:36,  7.70it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [59:24<01:58,  6.28it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [59:24<01:50,  6.67it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [59:25<01:57,  6.28it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [59:25<01:47,  6.85it/s][A
 85%|████████████████████████████████████████▉       | 4264/5001 [59:25<01:45,  6.96it/s][A
 85%|████████████████████████████████████████▉       | 4265/5001 [59:

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 207.410824211274
 	Mean Reward: 274.8
 	Std Reward: 184.18295252275658




 90%|█████████████████████████████████████████▍    | 4502/5001 [1:00:20<02:40,  3.11it/s][A
 90%|█████████████████████████████████████████▍    | 4503/5001 [1:00:20<02:35,  3.20it/s][A
 90%|█████████████████████████████████████████▍    | 4504/5001 [1:00:21<02:45,  3.00it/s][A
 90%|█████████████████████████████████████████▍    | 4505/5001 [1:00:21<02:15,  3.66it/s][A
 90%|█████████████████████████████████████████▍    | 4506/5001 [1:00:21<02:25,  3.41it/s][A
 90%|█████████████████████████████████████████▍    | 4507/5001 [1:00:22<02:39,  3.09it/s][A
 90%|█████████████████████████████████████████▍    | 4508/5001 [1:00:22<02:25,  3.39it/s][A
 90%|█████████████████████████████████████████▍    | 4510/5001 [1:00:22<01:35,  5.13it/s][A
 90%|█████████████████████████████████████████▌    | 4512/5001 [1:00:22<01:16,  6.36it/s][A
 90%|█████████████████████████████████████████▌    | 4513/5001 [1:00:22<01:15,  6.48it/s][A
 90%|█████████████████████████████████████████▌    | 4514/5001 [1:00:

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 94.48920573271849
 	Mean Reward: 219.7
 	Std Reward: 49.475347396455945




 95%|███████████████████████████████████████████▋  | 4752/5001 [1:01:14<00:52,  4.71it/s][A
 95%|███████████████████████████████████████████▋  | 4753/5001 [1:01:14<00:52,  4.74it/s][A
 95%|███████████████████████████████████████████▋  | 4754/5001 [1:01:15<00:46,  5.37it/s][A
 95%|███████████████████████████████████████████▋  | 4755/5001 [1:01:15<00:45,  5.44it/s][A
 95%|███████████████████████████████████████████▋  | 4756/5001 [1:01:15<00:51,  4.79it/s][A
 95%|███████████████████████████████████████████▊  | 4757/5001 [1:01:15<00:55,  4.43it/s][A
 95%|███████████████████████████████████████████▊  | 4758/5001 [1:01:16<01:07,  3.62it/s][A
 95%|███████████████████████████████████████████▊  | 4759/5001 [1:01:16<01:12,  3.32it/s][A
 95%|███████████████████████████████████████████▊  | 4760/5001 [1:01:16<01:11,  3.38it/s][A
 95%|███████████████████████████████████████████▊  | 4761/5001 [1:01:17<01:09,  3.43it/s][A
 95%|███████████████████████████████████████████▊  | 4762/5001 [1:01:

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 50.30347900493563
 	Mean Reward: 370.0
 	Std Reward: 104.97618777608568




 40%|██████████████████▊                            | 4/10 [1:36:42<3:14:30, 1945.11s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 5/5001 [00:00<02:31, 32.94it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.9999880000000048
 	SES: 0.8571428571428571
 	Learning Stability: 0.6324555320336759
 	Mean Reward: 7.0
 	Std Reward: 0.6324555320336759




  0%|                                                  | 12/5001 [00:00<01:42, 48.67it/s][A
  0%|▏                                                 | 22/5001 [00:00<01:12, 68.44it/s][A
  1%|▎                                                 | 31/5001 [00:00<01:07, 73.91it/s][A
  1%|▍                                                 | 42/5001 [00:00<00:58, 84.40it/s][A
  1%|▌                                                 | 52/5001 [00:00<00:57, 86.56it/s][A
  1%|▌                                                 | 61/5001 [00:00<00:57, 86.67it/s][A
  1%|▋                                                 | 70/5001 [00:00<01:07, 73.53it/s][A
  2%|▊                                                 | 78/5001 [00:01<01:11, 68.60it/s][A
  2%|▊                                                 | 87/5001 [00:01<01:07, 72.81it/s][A
  2%|▉                                                 | 95/5001 [00:01<01:06, 74.29it/s][A
  2%|█                                                | 104/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 3.3000000000000003
 	Mean Reward: 8.3
 	Std Reward: 2.5709920264364885



  5%|██▌                                              | 261/5001 [00:03<01:20, 58.63it/s][A
  5%|██▌                                              | 267/5001 [00:03<01:21, 58.25it/s][A
  5%|██▋                                              | 275/5001 [00:03<01:15, 62.69it/s][A
  6%|██▊                                              | 282/5001 [00:03<01:14, 63.30it/s][A
  6%|██▊                                              | 290/5001 [00:04<01:10, 66.61it/s][A
  6%|██▉                                              | 297/5001 [00:04<01:10, 67.19it/s][A
  6%|██▉                                              | 304/5001 [00:04<01:12, 64.88it/s][A
  6%|███                                              | 311/5001 [00:04<01:15, 61.80it/s][A
  6%|███                                              | 318/5001 [00:04<01:16, 60.84it/s][A
  6%|███▏                                             | 325/5001 [00:04<01:17, 60.25it/s][A
  7%|███▎                                             | 332/5001 [00:0

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 2.0
 	SES: 0.0
 	Learning Stability: 2.7202941017470885
 	Mean Reward: 11.8
 	Std Reward: 2.3579652245103193




 10%|█████                                            | 514/5001 [00:08<01:27, 51.23it/s][A
 10%|█████                                            | 520/5001 [00:08<01:30, 49.72it/s][A
 11%|█████▏                                           | 526/5001 [00:08<01:27, 51.27it/s][A
 11%|█████▏                                           | 532/5001 [00:08<01:26, 51.76it/s][A
 11%|█████▎                                           | 538/5001 [00:08<01:25, 52.38it/s][A
 11%|█████▎                                           | 544/5001 [00:08<01:24, 52.63it/s][A
 11%|█████▍                                           | 550/5001 [00:08<01:28, 50.50it/s][A
 11%|█████▍                                           | 557/5001 [00:09<01:20, 54.97it/s][A
 11%|█████▌                                           | 563/5001 [00:09<01:23, 53.13it/s][A
 11%|█████▌                                           | 569/5001 [00:09<01:23, 53.32it/s][A
 11%|█████▋                                           | 575/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 3.8157568056677826
 	Mean Reward: 12.6
 	Std Reward: 3.8522720568516444




 15%|███████▍                                         | 764/5001 [00:12<01:14, 56.83it/s][A
 15%|███████▌                                         | 770/5001 [00:12<01:16, 55.62it/s][A
 16%|███████▌                                         | 776/5001 [00:13<01:23, 50.32it/s][A
 16%|███████▋                                         | 782/5001 [00:13<01:20, 52.17it/s][A
 16%|███████▋                                         | 789/5001 [00:13<01:17, 54.70it/s][A
 16%|███████▊                                         | 795/5001 [00:13<01:14, 56.09it/s][A
 16%|███████▊                                         | 801/5001 [00:13<01:14, 56.23it/s][A
 16%|███████▉                                         | 808/5001 [00:13<01:12, 57.52it/s][A
 16%|███████▉                                         | 814/5001 [00:13<01:14, 56.56it/s][A
 16%|████████                                         | 820/5001 [00:13<01:13, 56.99it/s][A
 17%|████████                                         | 826/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 2.539685019840059
 	Mean Reward: 12.0
 	Std Reward: 2.0




 20%|█████████▋                                      | 1013/5001 [00:17<01:18, 50.63it/s][A
 20%|█████████▊                                      | 1019/5001 [00:17<01:16, 52.37it/s][A
 20%|█████████▊                                      | 1025/5001 [00:17<01:33, 42.43it/s][A
 21%|█████████▉                                      | 1031/5001 [00:17<01:27, 45.20it/s][A
 21%|█████████▉                                      | 1037/5001 [00:18<01:23, 47.64it/s][A
 21%|██████████                                      | 1043/5001 [00:18<01:19, 49.50it/s][A
 21%|██████████                                      | 1049/5001 [00:18<01:16, 51.64it/s][A
 21%|██████████▏                                     | 1055/5001 [00:18<01:17, 50.63it/s][A
 21%|██████████▏                                     | 1061/5001 [00:18<01:24, 46.57it/s][A
 21%|██████████▏                                     | 1066/5001 [00:18<01:23, 47.26it/s][A
 21%|██████████▎                                     | 1072/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.8284271247461903
 	Mean Reward: 13.8
 	Std Reward: 4.621688003316537




 25%|████████████▏                                   | 1266/5001 [00:22<01:16, 48.52it/s][A
 25%|████████████▏                                   | 1272/5001 [00:23<01:13, 50.64it/s][A
 26%|████████████▎                                   | 1278/5001 [00:23<01:12, 51.26it/s][A
 26%|████████████▎                                   | 1284/5001 [00:23<01:11, 51.74it/s][A
 26%|████████████▍                                   | 1290/5001 [00:23<01:12, 51.08it/s][A
 26%|████████████▍                                   | 1296/5001 [00:23<01:11, 51.76it/s][A
 26%|████████████▍                                   | 1302/5001 [00:23<01:09, 53.50it/s][A
 26%|████████████▌                                   | 1308/5001 [00:23<01:09, 52.95it/s][A
 26%|████████████▌                                   | 1314/5001 [00:23<01:14, 49.70it/s][A
 26%|████████████▋                                   | 1320/5001 [00:23<01:13, 49.81it/s][A
 27%|████████████▋                                   | 1326/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 3.6110940170535577
 	Mean Reward: 15.1
 	Std Reward: 4.4147480109288235




 30%|██████████████▌                                 | 1514/5001 [00:28<01:18, 44.40it/s][A
 30%|██████████████▌                                 | 1519/5001 [00:28<01:21, 42.92it/s][A
 30%|██████████████▋                                 | 1524/5001 [00:28<01:19, 43.87it/s][A
 31%|██████████████▋                                 | 1529/5001 [00:28<01:17, 45.09it/s][A
 31%|██████████████▋                                 | 1534/5001 [00:28<01:16, 45.42it/s][A
 31%|██████████████▊                                 | 1539/5001 [00:28<01:14, 46.31it/s][A
 31%|██████████████▊                                 | 1544/5001 [00:28<01:15, 46.08it/s][A
 31%|██████████████▊                                 | 1549/5001 [00:29<01:15, 45.70it/s][A
 31%|██████████████▉                                 | 1554/5001 [00:29<01:14, 46.28it/s][A
 31%|██████████████▉                                 | 1559/5001 [00:29<01:14, 46.14it/s][A
 31%|███████████████                                 | 1564/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.9999960000000017
 	SES: 1.0
 	Learning Stability: 3.9293765408777004
 	Mean Reward: 15.8
 	Std Reward: 3.7094473981982814




 35%|████████████████▉                               | 1764/5001 [00:33<01:15, 43.05it/s][A
 35%|████████████████▉                               | 1769/5001 [00:33<01:12, 44.52it/s][A
 35%|█████████████████                               | 1774/5001 [00:33<01:11, 45.07it/s][A
 36%|█████████████████                               | 1779/5001 [00:34<01:10, 45.89it/s][A
 36%|█████████████████                               | 1784/5001 [00:34<01:11, 45.07it/s][A
 36%|█████████████████▏                              | 1789/5001 [00:34<01:13, 43.45it/s][A
 36%|█████████████████▏                              | 1795/5001 [00:34<01:09, 46.18it/s][A
 36%|█████████████████▎                              | 1801/5001 [00:34<01:05, 48.71it/s][A
 36%|█████████████████▎                              | 1806/5001 [00:34<01:08, 46.65it/s][A
 36%|█████████████████▍                              | 1811/5001 [00:34<01:07, 47.17it/s][A
 36%|█████████████████▍                              | 1816/5001 [00:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 0.0
 	Learning Stability: 4.94064773081425
 	Mean Reward: 14.5
 	Std Reward: 4.272001872658765




 40%|███████████████████▎                            | 2016/5001 [00:39<01:00, 49.28it/s][A
 40%|███████████████████▍                            | 2022/5001 [00:39<00:57, 51.58it/s][A
 41%|███████████████████▍                            | 2028/5001 [00:39<00:57, 51.68it/s][A
 41%|███████████████████▌                            | 2034/5001 [00:39<00:58, 50.61it/s][A
 41%|███████████████████▌                            | 2040/5001 [00:39<00:58, 50.70it/s][A
 41%|███████████████████▋                            | 2046/5001 [00:39<01:00, 49.15it/s][A
 41%|███████████████████▋                            | 2051/5001 [00:39<01:04, 45.95it/s][A
 41%|███████████████████▋                            | 2056/5001 [00:39<01:12, 40.63it/s][A
 41%|███████████████████▊                            | 2061/5001 [00:40<01:13, 39.76it/s][A
 41%|███████████████████▊                            | 2066/5001 [00:40<01:14, 39.26it/s][A
 41%|███████████████████▊                            | 2070/5001 [00:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 20.159613091525344
 	Mean Reward: 28.9
 	Std Reward: 14.875819305167699




 45%|█████████████████████▋                          | 2256/5001 [00:47<02:09, 21.26it/s][A
 45%|█████████████████████▋                          | 2259/5001 [00:47<02:08, 21.37it/s][A
 45%|█████████████████████▋                          | 2262/5001 [00:47<02:27, 18.58it/s][A
 45%|█████████████████████▋                          | 2265/5001 [00:47<02:18, 19.69it/s][A
 45%|█████████████████████▊                          | 2268/5001 [00:47<02:10, 20.97it/s][A
 45%|█████████████████████▊                          | 2271/5001 [00:48<02:02, 22.29it/s][A
 45%|█████████████████████▊                          | 2274/5001 [00:48<02:01, 22.40it/s][A
 46%|█████████████████████▊                          | 2277/5001 [00:48<02:13, 20.33it/s][A
 46%|█████████████████████▉                          | 2280/5001 [00:48<02:07, 21.26it/s][A
 46%|█████████████████████▉                          | 2283/5001 [00:48<02:05, 21.72it/s][A
 46%|█████████████████████▉                          | 2286/5001 [00:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 42.75757242875232
 	Mean Reward: 121.7
 	Std Reward: 32.096884584021545




 50%|████████████████████████                        | 2503/5001 [01:07<05:34,  7.46it/s][A
 50%|████████████████████████                        | 2504/5001 [01:07<05:49,  7.14it/s][A
 50%|████████████████████████                        | 2505/5001 [01:07<06:02,  6.88it/s][A
 50%|████████████████████████                        | 2506/5001 [01:07<06:08,  6.77it/s][A
 50%|████████████████████████                        | 2507/5001 [01:07<05:57,  6.97it/s][A
 50%|████████████████████████                        | 2508/5001 [01:07<05:46,  7.20it/s][A
 50%|████████████████████████                        | 2509/5001 [01:07<05:34,  7.44it/s][A
 50%|████████████████████████                        | 2510/5001 [01:08<05:38,  7.36it/s][A
 50%|████████████████████████                        | 2511/5001 [01:08<05:34,  7.45it/s][A
 50%|████████████████████████                        | 2512/5001 [01:08<05:45,  7.19it/s][A
 50%|████████████████████████                        | 2513/5001 [01:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 29.421250823172016
 	Mean Reward: 114.8
 	Std Reward: 18.021098745637016




 55%|██████████████████████████▍                     | 2753/5001 [01:39<05:47,  6.46it/s][A
 55%|██████████████████████████▍                     | 2754/5001 [01:40<05:39,  6.62it/s][A
 55%|██████████████████████████▍                     | 2755/5001 [01:40<05:27,  6.86it/s][A
 55%|██████████████████████████▍                     | 2756/5001 [01:40<05:16,  7.10it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [01:40<05:09,  7.26it/s][A
 55%|██████████████████████████▍                     | 2758/5001 [01:40<05:08,  7.26it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [01:40<04:53,  7.63it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [01:40<04:52,  7.67it/s][A
 55%|██████████████████████████▌                     | 2761/5001 [01:41<05:00,  7.45it/s][A
 55%|██████████████████████████▌                     | 2762/5001 [01:41<05:03,  7.37it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [01:

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 25.958428303732106
 	Mean Reward: 80.9
 	Std Reward: 7.841555968046137




 60%|████████████████████████████▊                   | 3003/5001 [02:09<03:27,  9.63it/s][A
 60%|████████████████████████████▊                   | 3004/5001 [02:09<03:40,  9.05it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [02:10<03:49,  8.69it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [02:10<03:30,  9.48it/s][A
 60%|████████████████████████████▊                   | 3008/5001 [02:10<03:42,  8.96it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [02:10<03:43,  8.89it/s][A
 60%|████████████████████████████▉                   | 3010/5001 [02:10<03:58,  8.34it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [02:10<04:06,  8.07it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [02:10<04:10,  7.94it/s][A
 60%|████████████████████████████▉                   | 3013/5001 [02:11<04:24,  7.52it/s][A
 60%|████████████████████████████▉                   | 3014/5001 [02:

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 48.191700530278034
 	Mean Reward: 120.8
 	Std Reward: 40.66644808684427




 65%|███████████████████████████████▏                | 3253/5001 [02:35<05:38,  5.16it/s][A
 65%|███████████████████████████████▏                | 3254/5001 [02:36<05:32,  5.26it/s][A
 65%|███████████████████████████████▏                | 3255/5001 [02:36<05:06,  5.69it/s][A
 65%|███████████████████████████████▎                | 3256/5001 [02:36<05:00,  5.80it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [02:36<05:13,  5.57it/s][A
 65%|███████████████████████████████▎                | 3258/5001 [02:36<04:50,  6.00it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [02:36<04:46,  6.08it/s][A
 65%|███████████████████████████████▎                | 3260/5001 [02:36<04:49,  6.02it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [02:37<04:52,  5.95it/s][A
 65%|███████████████████████████████▎                | 3262/5001 [02:37<04:44,  6.11it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [02:

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 39.724174000223094
 	Mean Reward: 93.8
 	Std Reward: 21.423351745233518




 70%|█████████████████████████████████▋              | 3504/5001 [03:07<03:18,  7.56it/s][A
 70%|█████████████████████████████████▋              | 3505/5001 [03:07<03:21,  7.42it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [03:07<03:33,  7.00it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [03:07<03:36,  6.92it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [03:07<03:31,  7.06it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [03:07<03:22,  7.36it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [03:08<03:22,  7.38it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [03:08<03:23,  7.32it/s][A
 70%|█████████████████████████████████▋              | 3513/5001 [03:08<02:48,  8.83it/s][A
 70%|█████████████████████████████████▋              | 3515/5001 [03:08<02:25, 10.19it/s][A
 70%|█████████████████████████████████▊              | 3517/5001 [03:

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 11.984990613262907
 	Mean Reward: 71.7
 	Std Reward: 20.683568357515103




 75%|████████████████████████████████████            | 3755/5001 [03:33<01:59, 10.39it/s][A
 75%|████████████████████████████████████            | 3757/5001 [03:33<02:04, 10.03it/s][A
 75%|████████████████████████████████████            | 3759/5001 [03:34<02:14,  9.22it/s][A
 75%|████████████████████████████████████            | 3760/5001 [03:34<02:15,  9.18it/s][A
 75%|████████████████████████████████████            | 3761/5001 [03:34<02:16,  9.08it/s][A
 75%|████████████████████████████████████            | 3762/5001 [03:34<02:18,  8.97it/s][A
 75%|████████████████████████████████████▏           | 3764/5001 [03:34<02:12,  9.37it/s][A
 75%|████████████████████████████████████▏           | 3766/5001 [03:34<02:00, 10.21it/s][A
 75%|████████████████████████████████████▏           | 3768/5001 [03:34<02:02, 10.08it/s][A
 75%|████████████████████████████████████▏           | 3770/5001 [03:35<02:01, 10.14it/s][A
 75%|████████████████████████████████████▏           | 3772/5001 [03:

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 28.695121536595728
 	Mean Reward: 116.1
 	Std Reward: 22.3




 80%|██████████████████████████████████████▍         | 4003/5001 [04:01<02:37,  6.34it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [04:01<02:22,  7.02it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [04:02<02:12,  7.52it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [04:02<02:07,  7.83it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [04:02<02:01,  8.20it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [04:02<02:00,  8.24it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [04:02<02:01,  8.16it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [04:02<01:57,  8.45it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [04:02<01:55,  8.54it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [04:02<01:56,  8.51it/s][A
 80%|██████████████████████████████████████▌         | 4013/5001 [04:

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 20.63879841463645
 	Mean Reward: 89.5
 	Std Reward: 17.545654732725136




 85%|████████████████████████████████████████▊       | 4253/5001 [04:38<01:47,  6.96it/s][A
 85%|████████████████████████████████████████▊       | 4254/5001 [04:38<01:51,  6.68it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [04:38<02:01,  6.12it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [04:39<02:04,  6.00it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [04:39<01:57,  6.31it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [04:39<01:58,  6.29it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [04:39<02:07,  5.81it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [04:39<02:08,  5.78it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [04:40<02:05,  5.88it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [04:40<02:05,  5.88it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [04:

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 23.277456905770443
 	Mean Reward: 129.1
 	Std Reward: 21.915519615103815




 90%|███████████████████████████████████████████▏    | 4503/5001 [05:20<01:30,  5.51it/s][A
 90%|███████████████████████████████████████████▏    | 4504/5001 [05:20<01:28,  5.64it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [05:20<01:27,  5.69it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [05:21<01:23,  5.96it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [05:21<01:19,  6.21it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [05:21<01:14,  6.66it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [05:21<01:16,  6.44it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [05:21<01:13,  6.65it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [05:21<01:08,  7.20it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [05:21<01:06,  7.36it/s][A
 90%|███████████████████████████████████████████▎    | 4513/5001 [05:

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 34.47549854606892
 	Mean Reward: 115.0
 	Std Reward: 51.93457422565434




 95%|█████████████████████████████████████████████▌  | 4752/5001 [06:14<00:50,  4.89it/s][A
 95%|█████████████████████████████████████████████▌  | 4753/5001 [06:14<00:49,  4.99it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [06:14<00:46,  5.29it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [06:14<00:41,  5.92it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [06:15<00:43,  5.68it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [06:15<00:43,  5.64it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [06:15<00:41,  5.80it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [06:15<00:44,  5.39it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [06:15<00:52,  4.63it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [06:16<00:52,  4.54it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [06:

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 27.58912829358695
 	Mean Reward: 95.4
 	Std Reward: 38.525835487371324



 50%|███████████████████████▌                       | 5/10 [1:43:42<1:56:15, 1395.13s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 6/5001 [00:00<01:38, 50.95it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.9355162109291704
 	SES: 0.8888888888888888
 	Learning Stability: 1.2688577540449522
 	Mean Reward: 8.8
 	Std Reward: 0.6




  0%|                                                  | 12/5001 [00:00<01:37, 51.35it/s][A
  0%|▏                                                 | 19/5001 [00:00<01:28, 56.55it/s][A
  0%|▏                                                 | 25/5001 [00:00<01:36, 51.55it/s][A
  1%|▎                                                 | 31/5001 [00:00<01:32, 53.50it/s][A
  1%|▎                                                 | 37/5001 [00:00<01:41, 48.74it/s][A
  1%|▍                                                 | 42/5001 [00:00<01:41, 48.84it/s][A
  1%|▍                                                 | 49/5001 [00:00<01:32, 53.28it/s][A
  1%|▌                                                 | 55/5001 [00:01<01:36, 51.16it/s][A
  1%|▌                                                 | 61/5001 [00:01<01:33, 52.68it/s][A
  1%|▋                                                 | 67/5001 [00:01<01:36, 51.26it/s][A
  1%|▋                                                 | 73/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.9032743163937553
 	SES: 1.0
 	Learning Stability: 1.0999999999999999
 	Mean Reward: 10.9
 	Std Reward: 0.9433981132056604




  5%|██▌                                              | 256/5001 [00:05<02:31, 31.24it/s][A
  5%|██▌                                              | 261/5001 [00:05<02:16, 34.81it/s][A
  5%|██▌                                              | 265/5001 [00:05<02:21, 33.40it/s][A
  5%|██▋                                              | 270/5001 [00:05<02:10, 36.37it/s][A
  5%|██▋                                              | 275/5001 [00:05<02:02, 38.50it/s][A
  6%|██▊                                              | 281/5001 [00:06<01:52, 41.98it/s][A
  6%|██▊                                              | 287/5001 [00:06<01:48, 43.63it/s][A
  6%|██▊                                              | 292/5001 [00:06<02:46, 28.33it/s][A
  6%|██▉                                              | 296/5001 [00:06<02:39, 29.56it/s][A
  6%|██▉                                              | 301/5001 [00:06<02:20, 33.56it/s][A
  6%|██▉                                              | 305/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.9032743163937553
 	SES: 1.0
 	Learning Stability: 1.7320508075688772
 	Mean Reward: 10.9
 	Std Reward: 1.3




 10%|█████                                            | 515/5001 [00:11<01:50, 40.62it/s][A
 10%|█████                                            | 520/5001 [00:12<01:48, 41.16it/s][A
 11%|█████▏                                           | 526/5001 [00:12<01:42, 43.86it/s][A
 11%|█████▏                                           | 531/5001 [00:12<01:42, 43.64it/s][A
 11%|█████▎                                           | 537/5001 [00:12<01:35, 46.73it/s][A
 11%|█████▎                                           | 542/5001 [00:12<01:41, 44.10it/s][A
 11%|█████▎                                           | 547/5001 [00:12<01:48, 41.12it/s][A
 11%|█████▍                                           | 552/5001 [00:12<01:52, 39.65it/s][A
 11%|█████▍                                           | 557/5001 [00:12<01:58, 37.57it/s][A
 11%|█████▌                                           | 562/5001 [00:13<01:53, 38.95it/s][A
 11%|█████▌                                           | 567/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.9355162109291704
 	SES: 0
 	Learning Stability: 1.1135528725660042
 	Mean Reward: 10.5
 	Std Reward: 1.02469507659596




 15%|███████▍                                         | 761/5001 [00:17<01:33, 45.17it/s][A
 15%|███████▌                                         | 766/5001 [00:17<01:32, 45.56it/s][A
 15%|███████▌                                         | 771/5001 [00:17<01:33, 45.18it/s][A
 16%|███████▌                                         | 777/5001 [00:17<01:27, 48.54it/s][A
 16%|███████▋                                         | 783/5001 [00:18<01:24, 49.99it/s][A
 16%|███████▋                                         | 789/5001 [00:18<01:24, 50.09it/s][A
 16%|███████▊                                         | 795/5001 [00:18<01:28, 47.46it/s][A
 16%|███████▊                                         | 800/5001 [00:18<01:27, 48.05it/s][A
 16%|███████▉                                         | 805/5001 [00:18<01:30, 46.44it/s][A
 16%|███████▉                                         | 810/5001 [00:18<01:38, 42.75it/s][A
 16%|███████▉                                         | 815/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.9677581054645852
 	SES: 1.0
 	Learning Stability: 2.4103941586387903
 	Mean Reward: 11.2
 	Std Reward: 1.32664991614216




 20%|█████████▋                                      | 1015/5001 [00:23<01:27, 45.74it/s][A
 20%|█████████▊                                      | 1021/5001 [00:24<01:23, 47.87it/s][A
 21%|█████████▊                                      | 1026/5001 [00:24<01:28, 44.71it/s][A
 21%|█████████▉                                      | 1031/5001 [00:24<01:36, 41.32it/s][A
 21%|█████████▉                                      | 1036/5001 [00:24<01:50, 35.97it/s][A
 21%|█████████▉                                      | 1040/5001 [00:24<01:51, 35.49it/s][A
 21%|██████████                                      | 1044/5001 [00:24<01:51, 35.58it/s][A
 21%|██████████                                      | 1050/5001 [00:24<01:40, 39.19it/s][A
 21%|██████████▏                                     | 1056/5001 [00:25<01:32, 42.61it/s][A
 21%|██████████▏                                     | 1061/5001 [00:25<01:36, 40.72it/s][A
 21%|██████████▏                                     | 1066/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.5475478405713994
 	Mean Reward: 14.2
 	Std Reward: 2.4413111231467406




 25%|████████████                                    | 1262/5001 [00:30<01:40, 37.26it/s][A
 25%|████████████▏                                   | 1266/5001 [00:30<01:41, 36.96it/s][A
 25%|████████████▏                                   | 1270/5001 [00:30<01:42, 36.51it/s][A
 25%|████████████▏                                   | 1274/5001 [00:30<01:45, 35.43it/s][A
 26%|████████████▎                                   | 1278/5001 [00:30<01:44, 35.49it/s][A
 26%|████████████▎                                   | 1282/5001 [00:30<01:45, 35.29it/s][A
 26%|████████████▎                                   | 1286/5001 [00:30<01:53, 32.61it/s][A
 26%|████████████▍                                   | 1291/5001 [00:30<01:44, 35.49it/s][A
 26%|████████████▍                                   | 1295/5001 [00:31<01:47, 34.38it/s][A
 26%|████████████▍                                   | 1299/5001 [00:31<01:51, 33.21it/s][A
 26%|████████████▌                                   | 1303/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.9355162109291704
 	SES: 0
 	Learning Stability: 1.5620499351813308
 	Mean Reward: 14.5
 	Std Reward: 2.4596747752497685




 30%|██████████████▌                                 | 1514/5001 [00:37<01:26, 40.30it/s][A
 30%|██████████████▌                                 | 1519/5001 [00:37<01:29, 38.84it/s][A
 30%|██████████████▌                                 | 1523/5001 [00:37<01:29, 38.81it/s][A
 31%|██████████████▋                                 | 1527/5001 [00:37<01:30, 38.40it/s][A
 31%|██████████████▋                                 | 1531/5001 [00:37<01:32, 37.66it/s][A
 31%|██████████████▊                                 | 1537/5001 [00:37<01:22, 41.84it/s][A
 31%|██████████████▊                                 | 1542/5001 [00:37<01:22, 42.17it/s][A
 31%|██████████████▊                                 | 1547/5001 [00:37<01:25, 40.55it/s][A
 31%|██████████████▉                                 | 1552/5001 [00:38<01:27, 39.58it/s][A
 31%|██████████████▉                                 | 1557/5001 [00:38<01:24, 40.99it/s][A
 31%|██████████████▉                                 | 1562/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.9355162109291704
 	SES: 0
 	Learning Stability: 3.6891733491393435
 	Mean Reward: 16.1
 	Std Reward: 3.8845849199110063




 35%|████████████████▉                               | 1759/5001 [00:43<01:27, 36.85it/s][A
 35%|████████████████▉                               | 1763/5001 [00:43<01:30, 35.87it/s][A
 35%|████████████████▉                               | 1768/5001 [00:43<01:27, 37.10it/s][A
 35%|█████████████████                               | 1772/5001 [00:44<01:25, 37.56it/s][A
 36%|█████████████████                               | 1776/5001 [00:44<01:27, 36.90it/s][A
 36%|█████████████████                               | 1780/5001 [00:44<01:29, 35.99it/s][A
 36%|█████████████████                               | 1784/5001 [00:44<01:30, 35.39it/s][A
 36%|█████████████████▏                              | 1788/5001 [00:44<01:28, 36.45it/s][A
 36%|█████████████████▏                              | 1792/5001 [00:44<01:49, 29.18it/s][A
 36%|█████████████████▏                              | 1796/5001 [00:44<01:47, 29.92it/s][A
 36%|█████████████████▎                              | 1800/5001 [00:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.9664793948382653
 	Mean Reward: 17.4
 	Std Reward: 4.127953488110059




 40%|███████████████████▎                            | 2013/5001 [00:50<01:13, 40.58it/s][A
 40%|███████████████████▎                            | 2018/5001 [00:50<01:15, 39.37it/s][A
 40%|███████████████████▍                            | 2022/5001 [00:50<01:17, 38.65it/s][A
 41%|███████████████████▍                            | 2027/5001 [00:50<01:13, 40.38it/s][A
 41%|███████████████████▌                            | 2032/5001 [00:50<01:11, 41.31it/s][A
 41%|███████████████████▌                            | 2037/5001 [00:51<01:10, 41.84it/s][A
 41%|███████████████████▌                            | 2042/5001 [00:51<01:09, 42.68it/s][A
 41%|███████████████████▋                            | 2047/5001 [00:51<01:21, 36.18it/s][A
 41%|███████████████████▋                            | 2052/5001 [00:51<01:16, 38.48it/s][A
 41%|███████████████████▋                            | 2057/5001 [00:51<01:13, 40.25it/s][A
 41%|███████████████████▊                            | 2062/5001 [00:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 3.4655446902326914
 	Mean Reward: 15.8
 	Std Reward: 3.9698866482558417




 45%|█████████████████████▋                          | 2260/5001 [00:57<01:13, 37.54it/s][A
 45%|█████████████████████▋                          | 2264/5001 [00:57<01:14, 36.97it/s][A
 45%|█████████████████████▊                          | 2268/5001 [00:57<01:12, 37.52it/s][A
 45%|█████████████████████▊                          | 2273/5001 [00:57<01:10, 38.79it/s][A
 46%|█████████████████████▊                          | 2277/5001 [00:57<01:10, 38.65it/s][A
 46%|█████████████████████▉                          | 2282/5001 [00:57<01:06, 40.84it/s][A
 46%|█████████████████████▉                          | 2287/5001 [00:57<01:04, 42.18it/s][A
 46%|█████████████████████▉                          | 2292/5001 [00:57<01:03, 42.35it/s][A
 46%|██████████████████████                          | 2297/5001 [00:57<01:02, 43.61it/s][A
 46%|██████████████████████                          | 2302/5001 [00:58<01:02, 43.40it/s][A
 46%|██████████████████████▏                         | 2307/5001 [00:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.9355162109291704
 	SES: 1.0
 	Learning Stability: 4.313930922024599
 	Mean Reward: 17.4
 	Std Reward: 2.65329983228432




 50%|████████████████████████                        | 2511/5001 [01:03<01:01, 40.27it/s][A
 50%|████████████████████████▏                       | 2516/5001 [01:03<01:05, 38.14it/s][A
 50%|████████████████████████▏                       | 2520/5001 [01:03<01:06, 37.43it/s][A
 50%|████████████████████████▏                       | 2524/5001 [01:04<01:07, 36.73it/s][A
 51%|████████████████████████▎                       | 2528/5001 [01:04<01:06, 37.36it/s][A
 51%|████████████████████████▎                       | 2532/5001 [01:04<01:06, 36.92it/s][A
 51%|████████████████████████▎                       | 2537/5001 [01:04<01:04, 38.46it/s][A
 51%|████████████████████████▍                       | 2541/5001 [01:04<01:05, 37.42it/s][A
 51%|████████████████████████▍                       | 2545/5001 [01:04<01:05, 37.70it/s][A
 51%|████████████████████████▍                       | 2549/5001 [01:04<01:04, 37.82it/s][A
 51%|████████████████████████▌                       | 2553/5001 [01:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 3.2
 	Mean Reward: 18.0
 	Std Reward: 3.40587727318528




 55%|██████████████████████████▌                     | 2764/5001 [01:10<00:52, 42.38it/s][A
 55%|██████████████████████████▌                     | 2769/5001 [01:10<00:53, 42.05it/s][A
 55%|██████████████████████████▋                     | 2774/5001 [01:10<00:53, 41.89it/s][A
 56%|██████████████████████████▋                     | 2779/5001 [01:10<00:52, 42.36it/s][A
 56%|██████████████████████████▋                     | 2784/5001 [01:10<00:52, 42.51it/s][A
 56%|██████████████████████████▊                     | 2789/5001 [01:10<00:50, 43.42it/s][A
 56%|██████████████████████████▊                     | 2794/5001 [01:10<00:51, 42.67it/s][A
 56%|██████████████████████████▊                     | 2799/5001 [01:11<00:51, 42.72it/s][A
 56%|██████████████████████████▉                     | 2804/5001 [01:11<00:51, 42.48it/s][A
 56%|██████████████████████████▉                     | 2809/5001 [01:11<00:52, 42.03it/s][A
 56%|███████████████████████████                     | 2814/5001 [01:

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0
 	Learning Stability: 2.9410882339705484
 	Mean Reward: 21.6
 	Std Reward: 1.907878402833891




 60%|████████████████████████████▉                   | 3014/5001 [01:16<00:49, 40.33it/s][A
 60%|████████████████████████████▉                   | 3019/5001 [01:16<00:47, 41.58it/s][A
 60%|█████████████████████████████                   | 3024/5001 [01:16<00:50, 38.84it/s][A
 61%|█████████████████████████████                   | 3028/5001 [01:16<00:53, 36.82it/s][A
 61%|█████████████████████████████                   | 3032/5001 [01:16<00:53, 37.06it/s][A
 61%|█████████████████████████████▏                  | 3036/5001 [01:16<00:53, 36.91it/s][A
 61%|█████████████████████████████▏                  | 3041/5001 [01:16<00:50, 38.85it/s][A
 61%|█████████████████████████████▏                  | 3045/5001 [01:17<00:50, 38.94it/s][A
 61%|█████████████████████████████▎                  | 3049/5001 [01:17<00:50, 38.96it/s][A
 61%|█████████████████████████████▎                  | 3053/5001 [01:17<00:49, 39.09it/s][A
 61%|█████████████████████████████▎                  | 3057/5001 [01:

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.54569430395715
 	Mean Reward: 47.0
 	Std Reward: 23.01303978182804




 65%|███████████████████████████████▎                | 3256/5001 [01:29<01:48, 16.03it/s][A
 65%|███████████████████████████████▎                | 3258/5001 [01:29<01:51, 15.61it/s][A
 65%|███████████████████████████████▎                | 3260/5001 [01:29<01:54, 15.21it/s][A
 65%|███████████████████████████████▎                | 3262/5001 [01:29<01:51, 15.55it/s][A
 65%|███████████████████████████████▎                | 3264/5001 [01:29<01:51, 15.58it/s][A
 65%|███████████████████████████████▎                | 3266/5001 [01:29<01:52, 15.47it/s][A
 65%|███████████████████████████████▎                | 3268/5001 [01:30<01:56, 14.93it/s][A
 65%|███████████████████████████████▍                | 3270/5001 [01:30<01:55, 14.92it/s][A
 65%|███████████████████████████████▍                | 3272/5001 [01:30<01:50, 15.67it/s][A
 65%|███████████████████████████████▍                | 3274/5001 [01:30<01:50, 15.63it/s][A
 66%|███████████████████████████████▍                | 3276/5001 [01:

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.62283544468994
 	Mean Reward: 94.9
 	Std Reward: 41.14717487264466




 70%|█████████████████████████████████▋              | 3504/5001 [02:04<03:26,  7.23it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [02:05<03:15,  7.66it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [02:05<02:58,  8.36it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [02:05<03:08,  7.90it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [02:05<03:07,  7.94it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [02:05<03:03,  8.13it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [02:05<03:06,  7.98it/s][A
 70%|█████████████████████████████████▋              | 3513/5001 [02:06<03:58,  6.23it/s][A
 70%|█████████████████████████████████▋              | 3514/5001 [02:06<05:03,  4.91it/s][A
 70%|█████████████████████████████████▋              | 3515/5001 [02:06<05:50,  4.25it/s][A
 70%|█████████████████████████████████▋              | 3516/5001 [02:

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 25.91698284908951
 	Mean Reward: 98.8
 	Std Reward: 32.80182921728604




 75%|████████████████████████████████████            | 3753/5001 [02:41<02:49,  7.35it/s][A
 75%|████████████████████████████████████            | 3754/5001 [02:42<02:41,  7.74it/s][A
 75%|████████████████████████████████████            | 3755/5001 [02:42<02:33,  8.12it/s][A
 75%|████████████████████████████████████            | 3756/5001 [02:42<02:46,  7.48it/s][A
 75%|████████████████████████████████████            | 3757/5001 [02:42<02:40,  7.73it/s][A
 75%|████████████████████████████████████            | 3758/5001 [02:42<03:00,  6.89it/s][A
 75%|████████████████████████████████████            | 3759/5001 [02:42<02:54,  7.12it/s][A
 75%|████████████████████████████████████            | 3760/5001 [02:42<02:58,  6.94it/s][A
 75%|████████████████████████████████████            | 3761/5001 [02:43<03:03,  6.75it/s][A
 75%|████████████████████████████████████            | 3762/5001 [02:43<02:48,  7.37it/s][A
 75%|████████████████████████████████████            | 3763/5001 [02:

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 152.9431266843986
 	Mean Reward: 242.2
 	Std Reward: 142.04069839310142




 80%|██████████████████████████████████████▍         | 4002/5001 [03:18<03:53,  4.28it/s][A
 80%|██████████████████████████████████████▍         | 4003/5001 [03:18<04:03,  4.10it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [03:18<04:08,  4.02it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [03:19<04:35,  3.62it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [03:19<04:39,  3.56it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [03:19<04:42,  3.52it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [03:19<04:39,  3.55it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [03:20<04:36,  3.58it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [03:20<04:40,  3.53it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [03:20<04:04,  4.05it/s][A
 80%|██████████████████████████████████████▌         | 4013/5001 [03:

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 131.42301929266426
 	Mean Reward: 323.0
 	Std Reward: 141.7377860699115




 85%|████████████████████████████████████████▊       | 4252/5001 [04:04<02:45,  4.52it/s][A
 85%|████████████████████████████████████████▊       | 4253/5001 [04:04<03:13,  3.87it/s][A
 85%|████████████████████████████████████████▊       | 4254/5001 [04:04<03:21,  3.72it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [04:05<03:27,  3.60it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [04:05<04:09,  2.98it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [04:05<03:46,  3.28it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [04:06<03:46,  3.28it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [04:06<03:35,  3.44it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [04:06<03:40,  3.37it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [04:07<03:49,  3.23it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [04:

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 60.15488342603616
 	Mean Reward: 64.9
 	Std Reward: 6.073713855624086




 90%|███████████████████████████████████████████▏    | 4502/5001 [04:51<01:48,  4.61it/s][A
 90%|███████████████████████████████████████████▏    | 4503/5001 [04:52<01:33,  5.31it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [04:52<01:07,  7.36it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [04:52<01:22,  6.00it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [04:52<01:40,  4.92it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [04:53<01:57,  4.21it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [04:53<01:56,  4.23it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [04:53<02:04,  3.96it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [04:53<02:11,  3.71it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [04:54<02:13,  3.67it/s][A
 90%|███████████████████████████████████████████▎    | 4513/5001 [04:

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 122.52056970158112
 	Mean Reward: 264.1
 	Std Reward: 60.681875383016965




 95%|█████████████████████████████████████████████▌  | 4753/5001 [05:38<00:56,  4.38it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [05:39<00:57,  4.33it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [05:39<00:50,  4.87it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [05:39<00:47,  5.15it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [05:39<00:41,  5.81it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [05:39<00:41,  5.81it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [05:39<00:33,  7.15it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [05:39<00:32,  7.38it/s][A
 95%|█████████████████████████████████████████████▋  | 4763/5001 [05:40<00:27,  8.78it/s][A
 95%|█████████████████████████████████████████████▋  | 4764/5001 [05:40<00:27,  8.74it/s][A
 95%|█████████████████████████████████████████████▋  | 4765/5001 [05:

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 27.111067850603007
 	Mean Reward: 76.8
 	Std Reward: 14.44852933692561



 60%|████████████████████████████▏                  | 6/10 [1:50:09<1:10:10, 1052.55s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 8/5001 [00:00<01:04, 76.95it/s][A
  0%|▏                                                 | 16/5001 [00:00<01:04, 77.80it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.986700587540152
 	SES: 1.0
 	Learning Stability: 0.7000000000000001
 	Mean Reward: 7.2
 	Std Reward: 0.7483314773547882




  0%|▏                                                 | 25/5001 [00:00<01:01, 80.53it/s][A
  1%|▎                                                 | 34/5001 [00:00<01:01, 80.58it/s][A
  1%|▍                                                 | 43/5001 [00:00<01:01, 80.49it/s][A
  1%|▌                                                 | 53/5001 [00:00<00:58, 84.52it/s][A
  1%|▌                                                 | 62/5001 [00:00<00:58, 84.13it/s][A
  1%|▋                                                 | 71/5001 [00:00<00:57, 85.56it/s][A
  2%|▊                                                 | 80/5001 [00:00<00:57, 86.10it/s][A
  2%|▉                                                 | 89/5001 [00:01<00:56, 86.48it/s][A
  2%|▉                                                 | 98/5001 [00:01<00:56, 86.45it/s][A
  2%|█                                                | 107/5001 [00:01<00:57, 85.85it/s][A
  2%|█▏                                               | 116/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.9867006403837402
 	SES: 0
 	Learning Stability: 1.32664991614216
 	Mean Reward: 9.6
 	Std Reward: 2.4166091947189146




  5%|██▋                                              | 269/5001 [00:03<01:02, 75.35it/s][A
  6%|██▋                                              | 277/5001 [00:03<01:03, 74.90it/s][A
  6%|██▊                                              | 285/5001 [00:03<01:03, 73.98it/s][A
  6%|██▊                                              | 293/5001 [00:03<01:03, 74.20it/s][A
  6%|██▉                                              | 301/5001 [00:03<01:03, 74.49it/s][A
  6%|███                                              | 309/5001 [00:03<01:04, 73.21it/s][A
  6%|███                                              | 317/5001 [00:03<01:04, 72.13it/s][A
  6%|███▏                                             | 325/5001 [00:04<01:04, 73.00it/s][A
  7%|███▎                                             | 333/5001 [00:04<01:04, 72.07it/s][A
  7%|███▎                                             | 341/5001 [00:04<01:02, 74.05it/s][A
  7%|███▍                                             | 349/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.986700561118358
 	SES: 0
 	Learning Stability: 1.7916472867168918
 	Mean Reward: 10.5
 	Std Reward: 2.6551836094703507




 10%|█████                                            | 520/5001 [00:06<00:59, 75.70it/s][A
 11%|█████▏                                           | 529/5001 [00:06<00:57, 78.37it/s][A
 11%|█████▎                                           | 538/5001 [00:06<00:55, 79.99it/s][A
 11%|█████▎                                           | 547/5001 [00:06<00:56, 79.51it/s][A
 11%|█████▍                                           | 556/5001 [00:06<00:54, 80.90it/s][A
 11%|█████▌                                           | 565/5001 [00:07<00:53, 82.80it/s][A
 11%|█████▌                                           | 574/5001 [00:07<00:54, 81.40it/s][A
 12%|█████▋                                           | 583/5001 [00:07<00:54, 81.45it/s][A
 12%|█████▊                                           | 592/5001 [00:07<00:54, 80.79it/s][A
 12%|█████▉                                           | 601/5001 [00:07<00:55, 79.24it/s][A
 12%|█████▉                                           | 609/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 1.9595917942265424
 	Mean Reward: 9.5
 	Std Reward: 3.0083217912982647




 15%|███████▌                                         | 774/5001 [00:09<00:53, 78.58it/s][A
 16%|███████▋                                         | 782/5001 [00:09<00:54, 77.13it/s][A
 16%|███████▋                                         | 790/5001 [00:10<00:55, 76.23it/s][A
 16%|███████▊                                         | 798/5001 [00:10<00:55, 75.97it/s][A
 16%|███████▉                                         | 806/5001 [00:10<00:56, 74.90it/s][A
 16%|███████▉                                         | 814/5001 [00:10<00:55, 75.14it/s][A
 16%|████████                                         | 822/5001 [00:10<00:56, 74.45it/s][A
 17%|████████▏                                        | 831/5001 [00:10<00:54, 76.72it/s][A
 17%|████████▏                                        | 839/5001 [00:10<00:56, 73.06it/s][A
 17%|████████▎                                        | 847/5001 [00:10<01:00, 68.49it/s][A
 17%|████████▎                                        | 854/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.9867006668055338
 	SES: 0.0
 	Learning Stability: 4.780167361086848
 	Mean Reward: 11.7
 	Std Reward: 4.124318125460256




 20%|█████████▊                                      | 1016/5001 [00:13<01:12, 54.83it/s][A
 20%|█████████▊                                      | 1022/5001 [00:13<01:13, 54.21it/s][A
 21%|█████████▊                                      | 1028/5001 [00:14<01:12, 54.97it/s][A
 21%|█████████▉                                      | 1034/5001 [00:14<01:13, 53.78it/s][A
 21%|█████████▉                                      | 1040/5001 [00:14<01:11, 55.27it/s][A
 21%|██████████                                      | 1046/5001 [00:14<01:17, 50.85it/s][A
 21%|██████████                                      | 1052/5001 [00:14<01:18, 50.22it/s][A
 21%|██████████▏                                     | 1058/5001 [00:14<01:16, 51.29it/s][A
 21%|██████████▏                                     | 1064/5001 [00:14<01:16, 51.74it/s][A
 21%|██████████▎                                     | 1070/5001 [00:14<01:14, 53.11it/s][A
 22%|██████████▎                                     | 1076/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.9867006668055338
 	SES: 0
 	Learning Stability: 4.651881339845203
 	Mean Reward: 17.2
 	Std Reward: 4.308131845707603




 25%|████████████▏                                   | 1264/5001 [00:18<01:24, 44.28it/s][A
 25%|████████████▏                                   | 1269/5001 [00:18<01:26, 43.25it/s][A
 25%|████████████▏                                   | 1274/5001 [00:18<01:27, 42.76it/s][A
 26%|████████████▎                                   | 1279/5001 [00:19<01:26, 42.97it/s][A
 26%|████████████▎                                   | 1284/5001 [00:19<01:26, 42.97it/s][A
 26%|████████████▎                                   | 1289/5001 [00:19<01:27, 42.34it/s][A
 26%|████████████▍                                   | 1294/5001 [00:19<01:28, 42.00it/s][A
 26%|████████████▍                                   | 1299/5001 [00:19<01:29, 41.52it/s][A
 26%|████████████▌                                   | 1304/5001 [00:19<01:28, 41.95it/s][A
 26%|████████████▌                                   | 1309/5001 [00:19<01:27, 42.43it/s][A
 26%|████████████▌                                   | 1314/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 29.438240436547833
 	Mean Reward: 52.6
 	Std Reward: 34.57224320173628




 30%|██████████████▍                                 | 1503/5001 [00:31<05:00, 11.65it/s][A
 30%|██████████████▍                                 | 1505/5001 [00:31<04:51, 12.00it/s][A
 30%|██████████████▍                                 | 1507/5001 [00:31<04:41, 12.43it/s][A
 30%|██████████████▍                                 | 1509/5001 [00:31<04:37, 12.59it/s][A
 30%|██████████████▌                                 | 1511/5001 [00:31<04:30, 12.89it/s][A
 30%|██████████████▌                                 | 1513/5001 [00:32<04:33, 12.74it/s][A
 30%|██████████████▌                                 | 1515/5001 [00:32<05:00, 11.60it/s][A
 30%|██████████████▌                                 | 1517/5001 [00:32<04:58, 11.68it/s][A
 30%|██████████████▌                                 | 1519/5001 [00:32<04:48, 12.08it/s][A
 30%|██████████████▌                                 | 1521/5001 [00:32<04:46, 12.13it/s][A
 30%|██████████████▌                                 | 1523/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.9867006668055338
 	SES: 0.9090909090909091
 	Learning Stability: 114.90261093639255
 	Mean Reward: 181.7
 	Std Reward: 59.78469703862352




 35%|████████████████▊                               | 1752/5001 [00:54<12:29,  4.33it/s][A
 35%|████████████████▊                               | 1753/5001 [00:54<11:57,  4.53it/s][A
 35%|████████████████▊                               | 1754/5001 [00:55<11:19,  4.78it/s][A
 35%|████████████████▊                               | 1755/5001 [00:55<11:06,  4.87it/s][A
 35%|████████████████▊                               | 1757/5001 [00:55<08:59,  6.02it/s][A
 35%|████████████████▊                               | 1758/5001 [00:55<09:12,  5.87it/s][A
 35%|████████████████▉                               | 1759/5001 [00:55<10:19,  5.23it/s][A
 35%|████████████████▉                               | 1760/5001 [00:56<11:37,  4.65it/s][A
 35%|████████████████▉                               | 1761/5001 [00:56<11:10,  4.83it/s][A
 35%|████████████████▉                               | 1762/5001 [00:56<12:16,  4.40it/s][A
 35%|████████████████▉                               | 1763/5001 [00:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 26.07220742476555
 	Mean Reward: 128.2
 	Std Reward: 45.89073980663201




 40%|███████████████████▏                            | 2003/5001 [01:25<07:31,  6.64it/s][A
 40%|███████████████████▏                            | 2004/5001 [01:25<07:38,  6.53it/s][A
 40%|███████████████████▏                            | 2005/5001 [01:25<07:39,  6.52it/s][A
 40%|███████████████████▎                            | 2006/5001 [01:26<08:01,  6.22it/s][A
 40%|███████████████████▎                            | 2007/5001 [01:26<08:07,  6.14it/s][A
 40%|███████████████████▎                            | 2008/5001 [01:26<08:20,  5.98it/s][A
 40%|███████████████████▎                            | 2009/5001 [01:26<07:41,  6.48it/s][A
 40%|███████████████████▎                            | 2010/5001 [01:26<07:02,  7.08it/s][A
 40%|███████████████████▎                            | 2011/5001 [01:26<06:28,  7.70it/s][A
 40%|███████████████████▎                            | 2012/5001 [01:26<06:15,  7.95it/s][A
 40%|███████████████████▎                            | 2014/5001 [01:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 110.21615126649996
 	Mean Reward: 220.4
 	Std Reward: 137.2786946324884




 45%|█████████████████████▌                          | 2252/5001 [01:56<09:37,  4.76it/s][A
 45%|█████████████████████▌                          | 2253/5001 [01:56<09:26,  4.85it/s][A
 45%|█████████████████████▋                          | 2254/5001 [01:57<09:28,  4.84it/s][A
 45%|█████████████████████▋                          | 2255/5001 [01:57<09:13,  4.96it/s][A
 45%|█████████████████████▋                          | 2256/5001 [01:57<09:00,  5.08it/s][A
 45%|█████████████████████▋                          | 2257/5001 [01:57<09:18,  4.91it/s][A
 45%|█████████████████████▋                          | 2258/5001 [01:57<09:37,  4.75it/s][A
 45%|█████████████████████▋                          | 2259/5001 [01:58<09:00,  5.07it/s][A
 45%|█████████████████████▋                          | 2260/5001 [01:58<08:50,  5.17it/s][A
 45%|█████████████████████▋                          | 2261/5001 [01:58<09:06,  5.02it/s][A
 45%|█████████████████████▋                          | 2262/5001 [01:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 15.814234094637653
 	Mean Reward: 80.4
 	Std Reward: 21.110187114282052




 50%|████████████████████████                        | 2504/5001 [02:32<04:20,  9.59it/s][A
 50%|████████████████████████                        | 2505/5001 [02:32<04:22,  9.52it/s][A
 50%|████████████████████████                        | 2507/5001 [02:32<04:14,  9.79it/s][A
 50%|████████████████████████                        | 2508/5001 [02:32<04:21,  9.53it/s][A
 50%|████████████████████████                        | 2510/5001 [02:32<04:13,  9.81it/s][A
 50%|████████████████████████                        | 2512/5001 [02:32<04:10,  9.96it/s][A
 50%|████████████████████████                        | 2513/5001 [02:33<04:11,  9.89it/s][A
 50%|████████████████████████▏                       | 2515/5001 [02:33<04:04, 10.16it/s][A
 50%|████████████████████████▏                       | 2517/5001 [02:33<04:08, 10.00it/s][A
 50%|████████████████████████▏                       | 2518/5001 [02:33<04:09,  9.95it/s][A
 50%|████████████████████████▏                       | 2519/5001 [02:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 50.203983905662305
 	Mean Reward: 264.6
 	Std Reward: 160.5086913534591




 55%|██████████████████████████▍                     | 2752/5001 [03:06<06:59,  5.36it/s][A
 55%|██████████████████████████▍                     | 2753/5001 [03:06<08:55,  4.20it/s][A
 55%|██████████████████████████▍                     | 2754/5001 [03:06<09:44,  3.84it/s][A
 55%|██████████████████████████▍                     | 2755/5001 [03:07<10:27,  3.58it/s][A
 55%|██████████████████████████▍                     | 2756/5001 [03:07<11:06,  3.37it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [03:07<10:37,  3.52it/s][A
 55%|██████████████████████████▍                     | 2758/5001 [03:07<10:30,  3.56it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [03:08<10:56,  3.41it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [03:08<11:07,  3.36it/s][A
 55%|██████████████████████████▌                     | 2761/5001 [03:08<11:08,  3.35it/s][A
 55%|██████████████████████████▌                     | 2762/5001 [03:

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 170.77423693285823
 	Mean Reward: 370.6
 	Std Reward: 159.27598689067977




 60%|████████████████████████████▊                   | 3002/5001 [03:58<11:14,  2.96it/s][A
 60%|████████████████████████████▊                   | 3003/5001 [03:58<11:11,  2.98it/s][A
 60%|████████████████████████████▊                   | 3004/5001 [03:59<10:10,  3.27it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [03:59<09:58,  3.33it/s][A
 60%|████████████████████████████▊                   | 3006/5001 [03:59<08:26,  3.94it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [03:59<07:12,  4.61it/s][A
 60%|████████████████████████████▊                   | 3008/5001 [03:59<06:18,  5.26it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [03:59<05:44,  5.78it/s][A
 60%|████████████████████████████▉                   | 3010/5001 [04:00<05:37,  5.89it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [04:00<04:58,  6.67it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [04:

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 12.273548794053006
 	Mean Reward: 83.6
 	Std Reward: 12.051555916146263




 65%|███████████████████████████████▏                | 3252/5001 [04:53<07:07,  4.09it/s][A
 65%|███████████████████████████████▏                | 3253/5001 [04:53<08:03,  3.62it/s][A
 65%|███████████████████████████████▏                | 3254/5001 [04:54<06:38,  4.38it/s][A
 65%|███████████████████████████████▏                | 3255/5001 [04:54<06:07,  4.75it/s][A
 65%|███████████████████████████████▎                | 3256/5001 [04:54<06:28,  4.49it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [04:54<05:35,  5.20it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [04:54<04:37,  6.29it/s][A
 65%|███████████████████████████████▎                | 3260/5001 [04:55<05:19,  5.46it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [04:55<06:18,  4.60it/s][A
 65%|███████████████████████████████▎                | 3262/5001 [04:55<06:57,  4.16it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [04:

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 112.8708997040424
 	Mean Reward: 223.5
 	Std Reward: 167.3202020080062




 70%|█████████████████████████████████▌              | 3502/5001 [05:41<06:30,  3.84it/s][A
 70%|█████████████████████████████████▌              | 3503/5001 [05:41<06:58,  3.58it/s][A
 70%|█████████████████████████████████▋              | 3504/5001 [05:41<07:06,  3.51it/s][A
 70%|█████████████████████████████████▋              | 3505/5001 [05:41<06:24,  3.89it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [05:42<06:54,  3.60it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [05:42<07:06,  3.50it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [05:42<07:29,  3.32it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [05:43<07:19,  3.40it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [05:43<07:24,  3.35it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [05:43<07:19,  3.39it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [05:

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 135.89646794527076
 	Mean Reward: 64.9
 	Std Reward: 24.885537968868586




 75%|████████████████████████████████████            | 3754/5001 [06:38<03:08,  6.60it/s][A
 75%|████████████████████████████████████            | 3755/5001 [06:38<03:03,  6.78it/s][A
 75%|████████████████████████████████████            | 3756/5001 [06:38<03:44,  5.55it/s][A
 75%|████████████████████████████████████            | 3757/5001 [06:38<03:49,  5.43it/s][A
 75%|████████████████████████████████████            | 3758/5001 [06:38<03:37,  5.72it/s][A
 75%|████████████████████████████████████            | 3759/5001 [06:39<03:52,  5.35it/s][A
 75%|████████████████████████████████████            | 3760/5001 [06:39<03:45,  5.50it/s][A
 75%|████████████████████████████████████            | 3762/5001 [06:39<02:48,  7.36it/s][A
 75%|████████████████████████████████████▏           | 3764/5001 [06:39<02:35,  7.96it/s][A
 75%|████████████████████████████████████▏           | 3765/5001 [06:39<02:43,  7.55it/s][A
 75%|████████████████████████████████████▏           | 3766/5001 [06:

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 74.66866812793704
 	Mean Reward: 202.9
 	Std Reward: 102.985872817586




 80%|██████████████████████████████████████▍         | 4002/5001 [07:24<04:52,  3.42it/s][A
 80%|██████████████████████████████████████▍         | 4003/5001 [07:24<04:46,  3.48it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [07:24<04:27,  3.72it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [07:25<04:33,  3.64it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [07:25<04:32,  3.65it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [07:25<04:12,  3.93it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [07:25<04:03,  4.08it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [07:26<03:55,  4.21it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [07:26<04:30,  3.67it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [07:26<04:44,  3.47it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [07:

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 143.67480642061085
 	Mean Reward: 243.2
 	Std Reward: 196.48297636182124




 85%|████████████████████████████████████████▊       | 4252/5001 [08:09<02:45,  4.51it/s][A
 85%|████████████████████████████████████████▊       | 4253/5001 [08:09<02:40,  4.67it/s][A
 85%|████████████████████████████████████████▊       | 4254/5001 [08:09<02:37,  4.73it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [08:10<02:34,  4.84it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [08:10<02:39,  4.66it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [08:10<02:41,  4.61it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [08:10<02:29,  4.96it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [08:10<02:39,  4.66it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [08:11<02:37,  4.71it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [08:11<02:25,  5.09it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [08:

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 53.68659050451984
 	Mean Reward: 153.9
 	Std Reward: 54.27973839288469




 90%|███████████████████████████████████████████▏    | 4502/5001 [09:10<01:46,  4.67it/s][A
 90%|███████████████████████████████████████████▏    | 4503/5001 [09:10<01:48,  4.58it/s][A
 90%|███████████████████████████████████████████▏    | 4504/5001 [09:10<02:04,  4.00it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [09:11<01:59,  4.14it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [09:11<02:10,  3.79it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [09:11<02:13,  3.71it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [09:11<02:14,  3.67it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [09:12<02:17,  3.57it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [09:12<02:21,  3.47it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [09:12<02:24,  3.39it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [09:

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 33.65709434874021
 	Mean Reward: 131.6
 	Std Reward: 75.06690349281766




 95%|█████████████████████████████████████████████▌  | 4752/5001 [10:01<00:42,  5.82it/s][A
 95%|█████████████████████████████████████████████▌  | 4753/5001 [10:01<00:40,  6.15it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [10:02<00:44,  5.51it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [10:02<00:49,  5.01it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [10:02<00:52,  4.67it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [10:02<00:58,  4.18it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [10:03<00:59,  4.06it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [10:03<01:06,  3.62it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [10:03<01:06,  3.61it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [10:04<01:09,  3.47it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [10:

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.9867006668055338
 	SES: 1.0
 	Learning Stability: 17.156922801015337
 	Mean Reward: 90.6
 	Std Reward: 21.918941580286216



 70%|███████████████████████████████████               | 7/10 [2:00:59<46:02, 920.92s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 9/5001 [00:00<00:58, 85.02it/s][A
  0%|▏                                                 | 18/5001 [00:00<00:59, 83.34it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.9999680006399998
 	SES: 1.0
 	Learning Stability: 2.758622844826744
 	Mean Reward: 6.9
 	Std Reward: 0.5385164807134504




  1%|▎                                                 | 27/5001 [00:00<00:59, 83.79it/s][A
  1%|▎                                                 | 36/5001 [00:00<01:01, 81.35it/s][A
  1%|▍                                                 | 45/5001 [00:00<01:00, 81.95it/s][A
  1%|▌                                                 | 54/5001 [00:00<00:59, 83.09it/s][A
  1%|▋                                                 | 63/5001 [00:00<01:00, 81.85it/s][A
  1%|▋                                                 | 72/5001 [00:00<00:59, 82.37it/s][A
  2%|▊                                                 | 81/5001 [00:01<01:05, 75.44it/s][A
  2%|▉                                                 | 89/5001 [00:01<01:06, 74.34it/s][A
  2%|▉                                                 | 97/5001 [00:01<01:06, 74.01it/s][A
  2%|█                                                | 106/5001 [00:01<01:03, 77.23it/s][A
  2%|█                                                | 114/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.99998400032
 	SES: 0
 	Learning Stability: 2.08806130178211
 	Mean Reward: 10.8
 	Std Reward: 2.315167380558045




  5%|██▋                                              | 273/5001 [00:03<01:06, 71.13it/s][A
  6%|██▊                                              | 281/5001 [00:03<01:06, 70.50it/s][A
  6%|██▊                                              | 289/5001 [00:03<01:06, 70.54it/s][A
  6%|██▉                                              | 297/5001 [00:03<01:04, 72.55it/s][A
  6%|██▉                                              | 305/5001 [00:03<01:04, 72.25it/s][A
  6%|███                                              | 313/5001 [00:04<01:05, 71.16it/s][A
  6%|███▏                                             | 321/5001 [00:04<01:05, 71.35it/s][A
  7%|███▏                                             | 329/5001 [00:04<01:06, 70.19it/s][A
  7%|███▎                                             | 337/5001 [00:04<01:07, 69.17it/s][A
  7%|███▎                                             | 344/5001 [00:04<01:09, 67.44it/s][A
  7%|███▍                                             | 351/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 5.883026432033091
 	Mean Reward: 11.6
 	Std Reward: 2.244994432064365




 10%|█████                                            | 515/5001 [00:07<01:05, 68.57it/s][A
 10%|█████                                            | 522/5001 [00:07<01:06, 67.14it/s][A
 11%|█████▏                                           | 529/5001 [00:07<01:12, 62.03it/s][A
 11%|█████▎                                           | 536/5001 [00:07<01:10, 63.43it/s][A
 11%|█████▎                                           | 543/5001 [00:07<01:08, 65.09it/s][A
 11%|█████▍                                           | 551/5001 [00:07<01:06, 67.11it/s][A
 11%|█████▍                                           | 558/5001 [00:07<01:05, 67.87it/s][A
 11%|█████▌                                           | 565/5001 [00:07<01:05, 68.02it/s][A
 11%|█████▌                                           | 572/5001 [00:08<01:04, 68.28it/s][A
 12%|█████▋                                           | 579/5001 [00:08<01:04, 68.74it/s][A
 12%|█████▋                                           | 586/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.99999200016
 	SES: 0
 	Learning Stability: 2.4413111231467406
 	Mean Reward: 12.5
 	Std Reward: 1.118033988749895




 15%|███████▌                                         | 770/5001 [00:11<01:10, 60.11it/s][A
 16%|███████▌                                         | 777/5001 [00:11<01:11, 58.91it/s][A
 16%|███████▋                                         | 783/5001 [00:11<01:11, 58.63it/s][A
 16%|███████▋                                         | 789/5001 [00:11<01:14, 56.57it/s][A
 16%|███████▊                                         | 795/5001 [00:11<01:14, 56.71it/s][A
 16%|███████▊                                         | 802/5001 [00:11<01:11, 58.90it/s][A
 16%|███████▉                                         | 809/5001 [00:11<01:10, 59.77it/s][A
 16%|███████▉                                         | 815/5001 [00:11<01:10, 59.79it/s][A
 16%|████████                                         | 822/5001 [00:12<01:09, 60.35it/s][A
 17%|████████                                         | 829/5001 [00:12<01:08, 60.66it/s][A
 17%|████████▏                                        | 836/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.99999200016
 	SES: 0
 	Learning Stability: 1.57797338380595
 	Mean Reward: 10.2
 	Std Reward: 1.1661903789690602




 20%|█████████▊                                      | 1020/5001 [00:15<01:02, 63.47it/s][A
 21%|█████████▊                                      | 1027/5001 [00:15<01:01, 64.37it/s][A
 21%|█████████▉                                      | 1034/5001 [00:15<01:01, 64.53it/s][A
 21%|█████████▉                                      | 1041/5001 [00:15<01:02, 63.55it/s][A
 21%|██████████                                      | 1048/5001 [00:15<01:01, 64.04it/s][A
 21%|██████████▏                                     | 1055/5001 [00:15<01:02, 63.10it/s][A
 21%|██████████▏                                     | 1062/5001 [00:15<01:02, 63.18it/s][A
 21%|██████████▎                                     | 1069/5001 [00:15<01:02, 63.06it/s][A
 22%|██████████▎                                     | 1076/5001 [00:16<01:02, 63.02it/s][A
 22%|██████████▍                                     | 1083/5001 [00:16<01:02, 62.93it/s][A
 22%|██████████▍                                     | 1090/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 2.7730849247724096
 	Mean Reward: 11.7
 	Std Reward: 1.9000000000000001




 25%|████████████▏                                   | 1271/5001 [00:19<00:57, 65.04it/s][A
 26%|████████████▎                                   | 1278/5001 [00:19<00:57, 64.82it/s][A
 26%|████████████▎                                   | 1285/5001 [00:19<00:57, 64.58it/s][A
 26%|████████████▍                                   | 1292/5001 [00:19<00:58, 63.69it/s][A
 26%|████████████▍                                   | 1299/5001 [00:19<00:58, 63.82it/s][A
 26%|████████████▌                                   | 1306/5001 [00:19<00:58, 62.72it/s][A
 26%|████████████▌                                   | 1313/5001 [00:19<01:01, 59.87it/s][A
 26%|████████████▋                                   | 1320/5001 [00:19<01:02, 58.88it/s][A
 27%|████████████▋                                   | 1326/5001 [00:20<01:07, 54.39it/s][A
 27%|████████████▊                                   | 1332/5001 [00:20<01:07, 54.36it/s][A
 27%|████████████▊                                   | 1338/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.99999200016
 	SES: 0
 	Learning Stability: 12.53036312322991
 	Mean Reward: 15.1
 	Std Reward: 6.28410693734599




 30%|██████████████▌                                 | 1515/5001 [00:23<01:07, 51.82it/s][A
 30%|██████████████▌                                 | 1521/5001 [00:23<01:09, 50.22it/s][A
 31%|██████████████▋                                 | 1527/5001 [00:24<01:09, 49.67it/s][A
 31%|██████████████▋                                 | 1532/5001 [00:24<01:09, 49.70it/s][A
 31%|██████████████▊                                 | 1538/5001 [00:24<01:08, 50.23it/s][A
 31%|██████████████▊                                 | 1544/5001 [00:24<01:09, 50.04it/s][A
 31%|██████████████▉                                 | 1550/5001 [00:24<01:08, 50.20it/s][A
 31%|██████████████▉                                 | 1556/5001 [00:24<01:07, 51.05it/s][A
 31%|██████████████▉                                 | 1562/5001 [00:24<01:07, 51.13it/s][A
 31%|███████████████                                 | 1568/5001 [00:24<01:05, 52.76it/s][A
 31%|███████████████                                 | 1575/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 1.42828568570857
 	Mean Reward: 15.4
 	Std Reward: 5.023942674832188




 35%|████████████████▉                               | 1762/5001 [00:28<01:06, 49.06it/s][A
 35%|████████████████▉                               | 1767/5001 [00:28<01:05, 49.23it/s][A
 35%|█████████████████                               | 1772/5001 [00:28<01:05, 49.22it/s][A
 36%|█████████████████                               | 1778/5001 [00:28<01:04, 50.04it/s][A
 36%|█████████████████                               | 1784/5001 [00:29<01:05, 49.12it/s][A
 36%|█████████████████▏                              | 1789/5001 [00:29<01:06, 48.45it/s][A
 36%|█████████████████▏                              | 1794/5001 [00:29<01:06, 47.91it/s][A
 36%|█████████████████▎                              | 1799/5001 [00:29<01:06, 48.24it/s][A
 36%|█████████████████▎                              | 1804/5001 [00:29<01:06, 48.24it/s][A
 36%|█████████████████▎                              | 1809/5001 [00:29<01:07, 47.39it/s][A
 36%|█████████████████▍                              | 1815/5001 [00:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 5.550675634551167
 	Mean Reward: 13.8
 	Std Reward: 2.5219040425836985




 40%|███████████████████▎                            | 2015/5001 [00:34<01:05, 45.51it/s][A
 40%|███████████████████▍                            | 2020/5001 [00:34<01:38, 30.31it/s][A
 40%|███████████████████▍                            | 2024/5001 [00:34<01:56, 25.45it/s][A
 41%|███████████████████▍                            | 2028/5001 [00:34<02:10, 22.72it/s][A
 41%|███████████████████▍                            | 2031/5001 [00:34<02:19, 21.24it/s][A
 41%|███████████████████▌                            | 2034/5001 [00:35<02:27, 20.15it/s][A
 41%|███████████████████▌                            | 2037/5001 [00:35<02:29, 19.80it/s][A
 41%|███████████████████▌                            | 2040/5001 [00:35<02:39, 18.59it/s][A
 41%|███████████████████▌                            | 2042/5001 [00:35<02:43, 18.10it/s][A
 41%|███████████████████▌                            | 2044/5001 [00:35<02:43, 18.04it/s][A
 41%|███████████████████▋                            | 2046/5001 [00:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 13.969967788080258
 	Mean Reward: 47.0
 	Std Reward: 20.53290042833696




 45%|█████████████████████▋                          | 2256/5001 [00:49<02:47, 16.37it/s][A
 45%|█████████████████████▋                          | 2258/5001 [00:49<02:46, 16.43it/s][A
 45%|█████████████████████▋                          | 2260/5001 [00:49<02:47, 16.36it/s][A
 45%|█████████████████████▋                          | 2262/5001 [00:49<02:47, 16.32it/s][A
 45%|█████████████████████▋                          | 2264/5001 [00:49<02:45, 16.57it/s][A
 45%|█████████████████████▋                          | 2266/5001 [00:49<02:53, 15.76it/s][A
 45%|█████████████████████▊                          | 2268/5001 [00:49<02:56, 15.52it/s][A
 45%|█████████████████████▊                          | 2270/5001 [00:50<02:48, 16.18it/s][A
 45%|█████████████████████▊                          | 2272/5001 [00:50<02:55, 15.53it/s][A
 45%|█████████████████████▊                          | 2274/5001 [00:50<02:50, 16.02it/s][A
 46%|█████████████████████▊                          | 2276/5001 [00:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 28.163096420670794
 	Mean Reward: 66.8
 	Std Reward: 41.865976639748894




 50%|████████████████████████                        | 2505/5001 [01:07<03:39, 11.36it/s][A
 50%|████████████████████████                        | 2507/5001 [01:07<03:50, 10.80it/s][A
 50%|████████████████████████                        | 2509/5001 [01:07<03:51, 10.75it/s][A
 50%|████████████████████████                        | 2511/5001 [01:07<04:07, 10.05it/s][A
 50%|████████████████████████                        | 2513/5001 [01:08<04:01, 10.30it/s][A
 50%|████████████████████████▏                       | 2515/5001 [01:08<03:59, 10.39it/s][A
 50%|████████████████████████▏                       | 2517/5001 [01:08<04:30,  9.18it/s][A
 50%|████████████████████████▏                       | 2518/5001 [01:08<05:00,  8.25it/s][A
 50%|████████████████████████▏                       | 2519/5001 [01:08<05:38,  7.34it/s][A
 50%|████████████████████████▏                       | 2520/5001 [01:08<05:30,  7.50it/s][A
 50%|████████████████████████▏                       | 2521/5001 [01:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 57.76512788871847
 	Mean Reward: 110.6
 	Std Reward: 53.353912696258746




 55%|██████████████████████████▍                     | 2753/5001 [01:41<05:35,  6.71it/s][A
 55%|██████████████████████████▍                     | 2754/5001 [01:41<05:48,  6.46it/s][A
 55%|██████████████████████████▍                     | 2755/5001 [01:41<05:37,  6.65it/s][A
 55%|██████████████████████████▍                     | 2756/5001 [01:41<05:25,  6.90it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [01:41<05:25,  6.89it/s][A
 55%|██████████████████████████▍                     | 2758/5001 [01:41<05:47,  6.45it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [01:41<05:18,  7.05it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [01:42<05:20,  6.99it/s][A
 55%|██████████████████████████▌                     | 2761/5001 [01:42<05:24,  6.91it/s][A
 55%|██████████████████████████▌                     | 2762/5001 [01:42<05:11,  7.19it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [01:

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 134.0426797702881
 	Mean Reward: 209.6
 	Std Reward: 140.2720214440499




 60%|████████████████████████████▊                   | 3002/5001 [02:21<07:18,  4.56it/s][A
 60%|████████████████████████████▊                   | 3003/5001 [02:21<06:20,  5.24it/s][A
 60%|████████████████████████████▊                   | 3004/5001 [02:21<06:29,  5.13it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [02:21<07:12,  4.62it/s][A
 60%|████████████████████████████▊                   | 3006/5001 [02:22<07:21,  4.52it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [02:22<07:11,  4.62it/s][A
 60%|████████████████████████████▊                   | 3008/5001 [02:22<06:05,  5.45it/s][A
 60%|████████████████████████████▉                   | 3010/5001 [02:22<05:23,  6.15it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [02:23<06:05,  5.45it/s][A
 60%|████████████████████████████▉                   | 3012/5001 [02:23<06:46,  4.89it/s][A
 60%|████████████████████████████▉                   | 3013/5001 [02:

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.951696080333672
 	Mean Reward: 61.3
 	Std Reward: 16.118622769951532




 65%|███████████████████████████████▏                | 3255/5001 [03:10<02:38, 11.01it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [03:10<02:34, 11.29it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [03:10<02:31, 11.49it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [03:10<02:38, 11.01it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [03:10<02:33, 11.35it/s][A
 65%|███████████████████████████████▎                | 3265/5001 [03:11<02:26, 11.83it/s][A
 65%|███████████████████████████████▎                | 3267/5001 [03:11<02:22, 12.19it/s][A
 65%|███████████████████████████████▍                | 3269/5001 [03:11<02:25, 11.89it/s][A
 65%|███████████████████████████████▍                | 3271/5001 [03:11<02:15, 12.80it/s][A
 65%|███████████████████████████████▍                | 3273/5001 [03:11<02:07, 13.50it/s][A
 65%|███████████████████████████████▍                | 3275/5001 [03:

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0.9473684210526315
 	Learning Stability: 90.11969817969876
 	Mean Reward: 337.1
 	Std Reward: 129.107280972066




 70%|█████████████████████████████████▌              | 3502/5001 [03:53<08:19,  3.00it/s][A
 70%|█████████████████████████████████▌              | 3503/5001 [03:53<08:35,  2.91it/s][A
 70%|█████████████████████████████████▋              | 3504/5001 [03:54<08:21,  2.98it/s][A
 70%|█████████████████████████████████▋              | 3505/5001 [03:54<08:34,  2.91it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [03:54<08:32,  2.91it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [03:55<08:56,  2.79it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [03:55<08:17,  3.00it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [03:55<08:37,  2.88it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [03:56<08:35,  2.89it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [03:56<08:28,  2.93it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [03:

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 21.072256642324763
 	Mean Reward: 112.6
 	Std Reward: 35.09187940250565




 75%|████████████████████████████████████            | 3755/5001 [04:41<01:55, 10.79it/s][A
 75%|████████████████████████████████████            | 3757/5001 [04:41<01:57, 10.58it/s][A
 75%|████████████████████████████████████            | 3759/5001 [04:42<02:05,  9.90it/s][A
 75%|████████████████████████████████████            | 3761/5001 [04:42<02:05,  9.91it/s][A
 75%|████████████████████████████████████            | 3763/5001 [04:42<02:07,  9.74it/s][A
 75%|████████████████████████████████████▏           | 3764/5001 [04:42<02:21,  8.75it/s][A
 75%|████████████████████████████████████▏           | 3765/5001 [04:42<02:46,  7.42it/s][A
 75%|████████████████████████████████████▏           | 3766/5001 [04:43<02:46,  7.43it/s][A
 75%|████████████████████████████████████▏           | 3768/5001 [04:43<02:25,  8.46it/s][A
 75%|████████████████████████████████████▏           | 3769/5001 [04:43<02:22,  8.65it/s][A
 75%|████████████████████████████████████▏           | 3770/5001 [04:

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 138.1817643540565
 	Mean Reward: 356.5
 	Std Reward: 180.28657742605245




 80%|██████████████████████████████████████▍         | 4002/5001 [05:23<04:16,  3.89it/s][A
 80%|██████████████████████████████████████▍         | 4003/5001 [05:23<03:34,  4.64it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [05:23<03:51,  4.31it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [05:24<03:59,  4.17it/s][A
 80%|██████████████████████████████████████▍         | 4006/5001 [05:24<04:19,  3.84it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [05:24<03:38,  4.54it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [05:24<03:04,  5.38it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [05:24<02:42,  6.11it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [05:25<03:30,  4.72it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [05:25<03:41,  4.46it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [05:

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 140.3246236410417
 	Mean Reward: 348.8
 	Std Reward: 172.06556889744098




 85%|████████████████████████████████████████▊       | 4252/5001 [06:11<03:49,  3.26it/s][A
 85%|████████████████████████████████████████▊       | 4253/5001 [06:11<03:58,  3.14it/s][A
 85%|████████████████████████████████████████▊       | 4254/5001 [06:12<04:23,  2.84it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [06:12<04:00,  3.10it/s][A
 85%|████████████████████████████████████████▊       | 4256/5001 [06:13<04:16,  2.90it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [06:13<03:54,  3.17it/s][A
 85%|████████████████████████████████████████▊       | 4258/5001 [06:13<03:10,  3.91it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [06:13<03:08,  3.93it/s][A
 85%|████████████████████████████████████████▉       | 4260/5001 [06:13<03:23,  3.64it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [06:14<03:50,  3.21it/s][A
 85%|████████████████████████████████████████▉       | 4262/5001 [06:

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 112.95928470028481
 	Mean Reward: 229.3
 	Std Reward: 137.5791045180917




 90%|███████████████████████████████████████████▏    | 4502/5001 [06:49<01:56,  4.28it/s][A
 90%|███████████████████████████████████████████▏    | 4503/5001 [06:49<01:38,  5.05it/s][A
 90%|███████████████████████████████████████████▏    | 4505/5001 [06:49<01:17,  6.39it/s][A
 90%|███████████████████████████████████████████▏    | 4506/5001 [06:50<01:15,  6.59it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [06:50<01:11,  6.91it/s][A
 90%|███████████████████████████████████████████▎    | 4508/5001 [06:50<01:10,  6.99it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [06:50<01:07,  7.25it/s][A
 90%|███████████████████████████████████████████▎    | 4510/5001 [06:50<01:06,  7.42it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [06:50<01:03,  7.75it/s][A
 90%|███████████████████████████████████████████▎    | 4512/5001 [06:50<01:20,  6.11it/s][A
 90%|███████████████████████████████████████████▎    | 4513/5001 [06:

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 150.43589997071842
 	Mean Reward: 61.1
 	Std Reward: 10.587256490706173




 95%|█████████████████████████████████████████████▌  | 4752/5001 [07:45<01:10,  3.55it/s][A
 95%|█████████████████████████████████████████████▌  | 4753/5001 [07:46<01:06,  3.75it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [07:46<00:59,  4.14it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [07:46<00:50,  4.83it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [07:46<00:44,  5.47it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [07:46<00:51,  4.72it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [07:47<00:48,  5.06it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [07:47<00:47,  5.09it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [07:47<00:43,  5.60it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [07:47<00:34,  6.84it/s][A
 95%|█████████████████████████████████████████████▋  | 4763/5001 [07:

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 11.51911454930456
 	Mean Reward: 56.6
 	Std Reward: 6.959885056522126



 80%|████████████████████████████████████████          | 8/10 [2:09:32<26:22, 791.08s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 9/5001 [00:00<00:58, 85.92it/s][A
  0%|▏                                                 | 19/5001 [00:00<00:53, 93.17it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.999999999759995
 	SES: 0.6666666666666666
 	Learning Stability: 0.4472135954999579
 	Mean Reward: 7.2
 	Std Reward: 0.7483314773547882




  1%|▎                                                 | 29/5001 [00:00<00:53, 93.11it/s][A
  1%|▍                                                 | 39/5001 [00:00<00:55, 89.79it/s][A
  1%|▍                                                 | 49/5001 [00:00<00:56, 88.09it/s][A
  1%|▌                                                 | 59/5001 [00:00<00:55, 89.64it/s][A
  1%|▋                                                 | 68/5001 [00:00<00:55, 88.56it/s][A
  2%|▊                                                 | 77/5001 [00:00<00:55, 88.67it/s][A
  2%|▊                                                 | 86/5001 [00:00<00:55, 87.82it/s][A
  2%|▉                                                 | 95/5001 [00:01<00:56, 86.92it/s][A
  2%|█                                                | 105/5001 [00:01<00:55, 88.98it/s][A
  2%|█                                                | 114/5001 [00:01<00:54, 89.07it/s][A
  2%|█▏                                               | 124/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.9999999996799935
 	SES: 1.0
 	Learning Stability: 1.791647286716892
 	Mean Reward: 7.2
 	Std Reward: 1.077032961426901




  5%|██▋                                              | 271/5001 [00:03<00:54, 86.85it/s][A
  6%|██▊                                              | 281/5001 [00:03<00:53, 88.59it/s][A
  6%|██▊                                              | 290/5001 [00:03<00:53, 88.12it/s][A
  6%|██▉                                              | 299/5001 [00:03<00:53, 87.34it/s][A
  6%|███                                              | 308/5001 [00:03<00:53, 87.30it/s][A
  6%|███                                              | 317/5001 [00:03<00:53, 87.55it/s][A
  7%|███▏                                             | 326/5001 [00:03<00:53, 87.43it/s][A
  7%|███▎                                             | 336/5001 [00:03<00:52, 89.09it/s][A
  7%|███▍                                             | 345/5001 [00:03<00:52, 88.57it/s][A
  7%|███▍                                             | 354/5001 [00:04<00:53, 87.48it/s][A
  7%|███▌                                             | 363/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.9999999996799935
 	SES: 0
 	Learning Stability: 2.1540659228538015
 	Mean Reward: 9.7
 	Std Reward: 3.606937759374287




 10%|█████▏                                           | 524/5001 [00:06<00:55, 80.23it/s][A
 11%|█████▏                                           | 533/5001 [00:06<00:56, 79.21it/s][A
 11%|█████▎                                           | 542/5001 [00:06<00:55, 80.37it/s][A
 11%|█████▍                                           | 551/5001 [00:06<00:55, 80.44it/s][A
 11%|█████▍                                           | 560/5001 [00:06<00:55, 80.10it/s][A
 11%|█████▌                                           | 569/5001 [00:06<00:55, 80.22it/s][A
 12%|█████▋                                           | 578/5001 [00:06<00:55, 79.31it/s][A
 12%|█████▊                                           | 587/5001 [00:06<00:55, 79.75it/s][A
 12%|█████▊                                           | 595/5001 [00:07<00:55, 79.44it/s][A
 12%|█████▉                                           | 604/5001 [00:07<00:54, 80.60it/s][A
 12%|██████                                           | 613/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.999999999759995
 	SES: 1.0
 	Learning Stability: 9.65867485734974
 	Mean Reward: 11.3
 	Std Reward: 6.050619802962338




 15%|███████▌                                         | 768/5001 [00:09<01:08, 61.88it/s][A
 15%|███████▌                                         | 775/5001 [00:09<01:08, 61.56it/s][A
 16%|███████▋                                         | 782/5001 [00:09<01:09, 60.69it/s][A
 16%|███████▋                                         | 789/5001 [00:09<01:08, 61.84it/s][A
 16%|███████▊                                         | 796/5001 [00:10<01:07, 62.75it/s][A
 16%|███████▊                                         | 803/5001 [00:10<01:07, 62.58it/s][A
 16%|███████▉                                         | 810/5001 [00:10<01:05, 63.83it/s][A
 16%|████████                                         | 817/5001 [00:10<01:05, 64.30it/s][A
 16%|████████                                         | 824/5001 [00:10<01:06, 63.16it/s][A
 17%|████████▏                                        | 832/5001 [00:10<01:03, 66.06it/s][A
 17%|████████▏                                        | 839/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.999999999839997
 	SES: 0
 	Learning Stability: 4.024922359499621
 	Mean Reward: 13.0
 	Std Reward: 11.189280584559492




 20%|█████████▊                                      | 1016/5001 [00:13<01:13, 54.29it/s][A
 20%|█████████▊                                      | 1022/5001 [00:13<01:13, 54.05it/s][A
 21%|█████████▊                                      | 1028/5001 [00:13<01:12, 54.44it/s][A
 21%|█████████▉                                      | 1034/5001 [00:14<01:11, 55.19it/s][A
 21%|█████████▉                                      | 1040/5001 [00:14<01:10, 56.37it/s][A
 21%|██████████                                      | 1046/5001 [00:14<01:11, 55.09it/s][A
 21%|██████████                                      | 1052/5001 [00:14<01:11, 54.86it/s][A
 21%|██████████▏                                     | 1058/5001 [00:14<01:10, 55.70it/s][A
 21%|██████████▏                                     | 1064/5001 [00:14<01:11, 55.25it/s][A
 21%|██████████▎                                     | 1071/5001 [00:14<01:07, 58.43it/s][A
 22%|██████████▎                                     | 1077/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.999999999839997
 	SES: 0
 	Learning Stability: 2.7
 	Mean Reward: 11.6
 	Std Reward: 4.2708313008125245




 25%|████████████▏                                   | 1264/5001 [00:18<01:08, 54.37it/s][A
 25%|████████████▏                                   | 1270/5001 [00:18<01:14, 49.96it/s][A
 26%|████████████▏                                   | 1276/5001 [00:18<01:18, 47.41it/s][A
 26%|████████████▎                                   | 1281/5001 [00:18<01:22, 45.00it/s][A
 26%|████████████▎                                   | 1286/5001 [00:18<01:27, 42.52it/s][A
 26%|████████████▍                                   | 1291/5001 [00:18<01:26, 42.95it/s][A
 26%|████████████▍                                   | 1296/5001 [00:18<01:27, 42.49it/s][A
 26%|████████████▍                                   | 1301/5001 [00:18<01:28, 41.98it/s][A
 26%|████████████▌                                   | 1306/5001 [00:19<01:28, 41.63it/s][A
 26%|████████████▌                                   | 1311/5001 [00:19<01:27, 41.96it/s][A
 26%|████████████▋                                   | 1316/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 61.18300417599646
 	Mean Reward: 48.0
 	Std Reward: 34.72175110791505




 30%|██████████████▍                                 | 1505/5001 [00:27<04:30, 12.91it/s][A
 30%|██████████████▍                                 | 1507/5001 [00:27<04:20, 13.44it/s][A
 30%|██████████████▍                                 | 1509/5001 [00:28<04:15, 13.66it/s][A
 30%|██████████████▌                                 | 1511/5001 [00:28<03:52, 14.99it/s][A
 30%|██████████████▌                                 | 1513/5001 [00:28<03:53, 14.95it/s][A
 30%|██████████████▌                                 | 1515/5001 [00:28<03:57, 14.67it/s][A
 30%|██████████████▌                                 | 1517/5001 [00:28<04:08, 14.04it/s][A
 30%|██████████████▌                                 | 1519/5001 [00:28<04:11, 13.85it/s][A
 30%|██████████████▌                                 | 1521/5001 [00:28<04:10, 13.88it/s][A
 30%|██████████████▌                                 | 1523/5001 [00:29<04:25, 13.08it/s][A
 30%|██████████████▋                                 | 1525/5001 [00:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 31.635581233794326
 	Mean Reward: 86.3
 	Std Reward: 18.319661568926428




 35%|████████████████▊                               | 1755/5001 [01:04<05:25,  9.97it/s][A
 35%|████████████████▊                               | 1757/5001 [01:04<05:15, 10.27it/s][A
 35%|████████████████▉                               | 1759/5001 [01:04<04:39, 11.59it/s][A
 35%|████████████████▉                               | 1761/5001 [01:04<04:39, 11.58it/s][A
 35%|████████████████▉                               | 1763/5001 [01:04<04:25, 12.21it/s][A
 35%|████████████████▉                               | 1765/5001 [01:05<04:24, 12.26it/s][A
 35%|████████████████▉                               | 1767/5001 [01:05<04:24, 12.23it/s][A
 35%|████████████████▉                               | 1769/5001 [01:05<04:17, 12.53it/s][A
 35%|████████████████▉                               | 1771/5001 [01:05<04:20, 12.42it/s][A
 35%|█████████████████                               | 1773/5001 [01:05<04:07, 13.05it/s][A
 35%|█████████████████                               | 1775/5001 [01:

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 2.0
 	SES: 0.8333333333333334
 	Learning Stability: 16.44992401198255
 	Mean Reward: 60.1
 	Std Reward: 14.68638825579659




 40%|███████████████████▏                            | 2005/5001 [01:26<03:57, 12.59it/s][A
 40%|███████████████████▎                            | 2007/5001 [01:26<04:00, 12.45it/s][A
 40%|███████████████████▎                            | 2009/5001 [01:26<04:08, 12.06it/s][A
 40%|███████████████████▎                            | 2011/5001 [01:26<04:00, 12.46it/s][A
 40%|███████████████████▎                            | 2013/5001 [01:26<04:02, 12.32it/s][A
 40%|███████████████████▎                            | 2015/5001 [01:27<04:04, 12.21it/s][A
 40%|███████████████████▎                            | 2017/5001 [01:27<04:08, 12.01it/s][A
 40%|███████████████████▍                            | 2019/5001 [01:27<04:05, 12.16it/s][A
 40%|███████████████████▍                            | 2021/5001 [01:27<04:04, 12.18it/s][A
 40%|███████████████████▍                            | 2023/5001 [01:27<03:57, 12.55it/s][A
 40%|███████████████████▍                            | 2025/5001 [01:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 8.555699854482976
 	Mean Reward: 76.1
 	Std Reward: 11.96202324023825




 45%|█████████████████████▋                          | 2255/5001 [01:48<03:40, 12.44it/s][A
 45%|█████████████████████▋                          | 2257/5001 [01:48<03:47, 12.07it/s][A
 45%|█████████████████████▋                          | 2259/5001 [01:48<03:51, 11.87it/s][A
 45%|█████████████████████▋                          | 2261/5001 [01:48<03:52, 11.77it/s][A
 45%|█████████████████████▋                          | 2263/5001 [01:49<03:50, 11.88it/s][A
 45%|█████████████████████▋                          | 2265/5001 [01:49<03:55, 11.64it/s][A
 45%|█████████████████████▊                          | 2267/5001 [01:49<04:00, 11.36it/s][A
 45%|█████████████████████▊                          | 2269/5001 [01:49<04:00, 11.34it/s][A
 45%|█████████████████████▊                          | 2271/5001 [01:49<03:53, 11.69it/s][A
 45%|█████████████████████▊                          | 2273/5001 [01:49<03:37, 12.53it/s][A
 45%|█████████████████████▊                          | 2275/5001 [01:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.217583050504164
 	Mean Reward: 68.8
 	Std Reward: 20.50755958177374




 50%|████████████████████████                        | 2505/5001 [02:08<03:15, 12.80it/s][A
 50%|████████████████████████                        | 2507/5001 [02:09<03:13, 12.89it/s][A
 50%|████████████████████████                        | 2509/5001 [02:09<03:16, 12.66it/s][A
 50%|████████████████████████                        | 2511/5001 [02:09<03:15, 12.75it/s][A
 50%|████████████████████████                        | 2513/5001 [02:09<03:22, 12.31it/s][A
 50%|████████████████████████▏                       | 2515/5001 [02:09<03:24, 12.16it/s][A
 50%|████████████████████████▏                       | 2517/5001 [02:09<03:27, 12.00it/s][A
 50%|████████████████████████▏                       | 2519/5001 [02:10<03:21, 12.32it/s][A
 50%|████████████████████████▏                       | 2521/5001 [02:10<03:20, 12.35it/s][A
 50%|████████████████████████▏                       | 2523/5001 [02:10<03:15, 12.70it/s][A
 50%|████████████████████████▏                       | 2525/5001 [02:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 37.14956258154327
 	Mean Reward: 77.8
 	Std Reward: 29.126620126612696




 55%|██████████████████████████▍                     | 2755/5001 [02:31<03:25, 10.95it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [02:31<03:30, 10.64it/s][A
 55%|██████████████████████████▍                     | 2759/5001 [02:32<03:29, 10.71it/s][A
 55%|██████████████████████████▌                     | 2761/5001 [02:32<03:30, 10.66it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [02:32<03:29, 10.68it/s][A
 55%|██████████████████████████▌                     | 2765/5001 [02:32<03:27, 10.80it/s][A
 55%|██████████████████████████▌                     | 2767/5001 [02:32<03:34, 10.42it/s][A
 55%|██████████████████████████▌                     | 2769/5001 [02:33<03:30, 10.62it/s][A
 55%|██████████████████████████▌                     | 2771/5001 [02:33<03:30, 10.61it/s][A
 55%|██████████████████████████▌                     | 2773/5001 [02:33<03:32, 10.51it/s][A
 55%|██████████████████████████▋                     | 2775/5001 [02:

Evaluation 3000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 22.444598459317554
 	Mean Reward: 129.4
 	Std Reward: 52.276572190609436




 60%|████████████████████████████▊                   | 3003/5001 [02:55<03:08, 10.63it/s][A
 60%|████████████████████████████▊                   | 3005/5001 [02:55<03:07, 10.64it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [02:55<03:11, 10.41it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [02:55<03:06, 10.67it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [02:56<03:03, 10.84it/s][A
 60%|████████████████████████████▉                   | 3013/5001 [02:56<03:05, 10.70it/s][A
 60%|████████████████████████████▉                   | 3015/5001 [02:56<03:05, 10.69it/s][A
 60%|████████████████████████████▉                   | 3017/5001 [02:56<03:04, 10.77it/s][A
 60%|████████████████████████████▉                   | 3019/5001 [02:56<03:04, 10.74it/s][A
 60%|████████████████████████████▉                   | 3021/5001 [02:57<03:03, 10.80it/s][A
 60%|█████████████████████████████                   | 3023/5001 [02:

Evaluation 3250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 14.311184437355282
 	Mean Reward: 73.2
 	Std Reward: 18.648324321504063




 65%|███████████████████████████████▏                | 3254/5001 [03:17<02:36, 11.14it/s][A
 65%|███████████████████████████████▎                | 3256/5001 [03:17<02:34, 11.32it/s][A
 65%|███████████████████████████████▎                | 3258/5001 [03:17<02:28, 11.74it/s][A
 65%|███████████████████████████████▎                | 3260/5001 [03:17<02:26, 11.90it/s][A
 65%|███████████████████████████████▎                | 3262/5001 [03:17<02:25, 11.97it/s][A
 65%|███████████████████████████████▎                | 3264/5001 [03:17<02:28, 11.73it/s][A
 65%|███████████████████████████████▎                | 3266/5001 [03:17<02:20, 12.35it/s][A
 65%|███████████████████████████████▎                | 3268/5001 [03:18<02:16, 12.69it/s][A
 65%|███████████████████████████████▍                | 3270/5001 [03:18<02:14, 12.82it/s][A
 65%|███████████████████████████████▍                | 3272/5001 [03:18<02:12, 13.05it/s][A
 65%|███████████████████████████████▍                | 3274/5001 [03:

Evaluation 3500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 19.865548066942427
 	Mean Reward: 67.6
 	Std Reward: 8.2365041127896




 70%|█████████████████████████████████▋              | 3504/5001 [03:37<02:09, 11.60it/s][A
 70%|█████████████████████████████████▋              | 3506/5001 [03:37<02:10, 11.50it/s][A
 70%|█████████████████████████████████▋              | 3508/5001 [03:38<02:07, 11.70it/s][A
 70%|█████████████████████████████████▋              | 3510/5001 [03:38<02:03, 12.03it/s][A
 70%|█████████████████████████████████▋              | 3512/5001 [03:38<01:55, 12.92it/s][A
 70%|█████████████████████████████████▋              | 3514/5001 [03:38<01:51, 13.39it/s][A
 70%|█████████████████████████████████▋              | 3516/5001 [03:38<01:45, 14.07it/s][A
 70%|█████████████████████████████████▊              | 3518/5001 [03:38<01:49, 13.58it/s][A
 70%|█████████████████████████████████▊              | 3520/5001 [03:38<01:58, 12.50it/s][A
 70%|█████████████████████████████████▊              | 3522/5001 [03:39<01:58, 12.50it/s][A
 70%|█████████████████████████████████▊              | 3524/5001 [03:

Evaluation 3750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 0.8
 	Learning Stability: 9.664884893261792
 	Mean Reward: 69.5
 	Std Reward: 15.57080601638849




 75%|████████████████████████████████████            | 3754/5001 [03:57<01:41, 12.35it/s][A
 75%|████████████████████████████████████            | 3756/5001 [03:57<01:37, 12.81it/s][A
 75%|████████████████████████████████████            | 3758/5001 [03:58<01:37, 12.77it/s][A
 75%|████████████████████████████████████            | 3760/5001 [03:58<01:33, 13.26it/s][A
 75%|████████████████████████████████████            | 3762/5001 [03:58<01:29, 13.89it/s][A
 75%|████████████████████████████████████▏           | 3764/5001 [03:58<01:30, 13.63it/s][A
 75%|████████████████████████████████████▏           | 3766/5001 [03:58<01:30, 13.60it/s][A
 75%|████████████████████████████████████▏           | 3768/5001 [03:58<01:35, 12.98it/s][A
 75%|████████████████████████████████████▏           | 3770/5001 [03:59<01:36, 12.75it/s][A
 75%|████████████████████████████████████▏           | 3772/5001 [03:59<01:34, 12.95it/s][A
 75%|████████████████████████████████████▏           | 3774/5001 [03:

Evaluation 4000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 6.675327707311455
 	Mean Reward: 62.9
 	Std Reward: 10.64377752492037




 80%|██████████████████████████████████████▍         | 4003/5001 [04:21<01:49,  9.13it/s][A
 80%|██████████████████████████████████████▍         | 4004/5001 [04:22<01:47,  9.23it/s][A
 80%|██████████████████████████████████████▍         | 4005/5001 [04:22<01:47,  9.25it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [04:22<01:40,  9.92it/s][A
 80%|██████████████████████████████████████▍         | 4008/5001 [04:22<01:40,  9.93it/s][A
 80%|██████████████████████████████████████▍         | 4010/5001 [04:22<01:32, 10.70it/s][A
 80%|██████████████████████████████████████▌         | 4012/5001 [04:22<01:34, 10.49it/s][A
 80%|██████████████████████████████████████▌         | 4014/5001 [04:23<01:36, 10.19it/s][A
 80%|██████████████████████████████████████▌         | 4016/5001 [04:23<01:38, 10.01it/s][A
 80%|██████████████████████████████████████▌         | 4018/5001 [04:23<01:39,  9.88it/s][A
 80%|██████████████████████████████████████▌         | 4019/5001 [04:

Evaluation 4250 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 14.164744967700619
 	Mean Reward: 68.3
 	Std Reward: 5.514526271584895



 85%|████████████████████████████████████████▊       | 4253/5001 [04:49<01:06, 11.24it/s][A
 85%|████████████████████████████████████████▊       | 4255/5001 [04:49<01:05, 11.33it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [04:49<01:05, 11.32it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [04:49<01:04, 11.46it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [04:50<01:03, 11.69it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [04:50<01:04, 11.44it/s][A
 85%|████████████████████████████████████████▉       | 4265/5001 [04:50<01:04, 11.46it/s][A
 85%|████████████████████████████████████████▉       | 4267/5001 [04:50<01:03, 11.61it/s][A
 85%|████████████████████████████████████████▉       | 4269/5001 [04:50<01:03, 11.54it/s][A
 85%|████████████████████████████████████████▉       | 4271/5001 [04:50<01:04, 11.38it/s][A
 85%|█████████████████████████████████████████       | 4273/5001 [04:5

Evaluation 4500 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 8.104936767180853
 	Mean Reward: 69.3
 	Std Reward: 6.050619802962338




 90%|███████████████████████████████████████████▏    | 4505/5001 [05:10<00:45, 10.89it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [05:10<00:45, 10.85it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [05:10<00:43, 11.40it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [05:10<00:43, 11.28it/s][A
 90%|███████████████████████████████████████████▎    | 4513/5001 [05:10<00:42, 11.57it/s][A
 90%|███████████████████████████████████████████▎    | 4515/5001 [05:10<00:41, 11.61it/s][A
 90%|███████████████████████████████████████████▎    | 4517/5001 [05:11<00:41, 11.80it/s][A
 90%|███████████████████████████████████████████▎    | 4519/5001 [05:11<00:40, 12.04it/s][A
 90%|███████████████████████████████████████████▍    | 4521/5001 [05:11<00:39, 12.25it/s][A
 90%|███████████████████████████████████████████▍    | 4523/5001 [05:11<00:38, 12.42it/s][A
 90%|███████████████████████████████████████████▍    | 4525/5001 [05:

Evaluation 4750 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 34.86559909136798
 	Mean Reward: 97.8
 	Std Reward: 19.502820308868152




 95%|█████████████████████████████████████████████▌  | 4753/5001 [05:33<00:31,  7.80it/s][A
 95%|█████████████████████████████████████████████▋  | 4754/5001 [05:33<00:32,  7.66it/s][A
 95%|█████████████████████████████████████████████▋  | 4755/5001 [05:33<00:31,  7.86it/s][A
 95%|█████████████████████████████████████████████▋  | 4756/5001 [05:34<00:31,  7.90it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [05:34<00:31,  7.81it/s][A
 95%|█████████████████████████████████████████████▋  | 4758/5001 [05:34<00:31,  7.67it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [05:34<00:30,  7.85it/s][A
 95%|█████████████████████████████████████████████▋  | 4760/5001 [05:34<00:30,  7.89it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [05:34<00:29,  8.00it/s][A
 95%|█████████████████████████████████████████████▋  | 4762/5001 [05:34<00:30,  7.86it/s][A
 95%|█████████████████████████████████████████████▋  | 4763/5001 [05:

Evaluation 5000 (Epsilon=0.005):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 8.508818954473059
 	Mean Reward: 63.4
 	Std Reward: 13.222707740852478



 90%|█████████████████████████████████████████████     | 9/10 [2:15:36<10:57, 657.52s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                   | 5/5001 [00:00<01:57, 42.46it/s][A
  0%|                                                  | 10/5001 [00:00<01:59, 41.92it/s][A

Evaluation 0 (Epsilon=0.0999000449880021):
	AAR: 1.0
 	SES: 0.9333333333333333
 	Learning Stability: 4.494441010848846
 	Mean Reward: 14.2
 	Std Reward: 2.9597297173897483




  0%|▏                                                 | 15/5001 [00:00<02:02, 40.70it/s][A
  0%|▏                                                 | 20/5001 [00:00<02:09, 38.59it/s][A
  0%|▏                                                 | 24/5001 [00:00<02:18, 35.97it/s][A
  1%|▎                                                 | 29/5001 [00:00<02:09, 38.31it/s][A
  1%|▎                                                 | 34/5001 [00:00<02:03, 40.36it/s][A
  1%|▍                                                 | 39/5001 [00:01<02:10, 37.92it/s][A
  1%|▍                                                 | 43/5001 [00:01<02:11, 37.72it/s][A
  1%|▍                                                 | 47/5001 [00:01<02:13, 37.00it/s][A
  1%|▌                                                 | 51/5001 [00:01<02:15, 36.62it/s][A
  1%|▌                                                 | 55/5001 [00:01<02:15, 36.63it/s][A
  1%|▌                                                 | 59/5001 [00:

Evaluation 250 (Epsilon=0.0778012606788499):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 4.182104733265297
 	Mean Reward: 28.9
 	Std Reward: 5.430469592954186




  5%|██▌                                              | 258/5001 [00:08<03:16, 24.08it/s][A
  5%|██▌                                              | 261/5001 [00:08<03:17, 24.00it/s][A
  5%|██▌                                              | 264/5001 [00:09<03:19, 23.69it/s][A
  5%|██▌                                              | 267/5001 [00:09<03:20, 23.66it/s][A
  5%|██▋                                              | 270/5001 [00:09<03:17, 23.97it/s][A
  5%|██▋                                              | 273/5001 [00:09<03:13, 24.47it/s][A
  6%|██▋                                              | 276/5001 [00:09<03:11, 24.74it/s][A
  6%|██▋                                              | 279/5001 [00:09<03:09, 24.96it/s][A
  6%|██▊                                              | 282/5001 [00:09<03:11, 24.67it/s][A
  6%|██▊                                              | 285/5001 [00:09<03:12, 24.47it/s][A
  6%|██▊                                              | 288/5001 [00:

Evaluation 500 (Epsilon=0.060590925298835814):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 5.923681287847954
 	Mean Reward: 31.3
 	Std Reward: 4.428317965096906




 10%|████▉                                            | 506/5001 [00:19<03:42, 20.18it/s][A
 10%|████▉                                            | 509/5001 [00:19<03:39, 20.44it/s][A
 10%|█████                                            | 512/5001 [00:20<03:40, 20.37it/s][A
 10%|█████                                            | 515/5001 [00:20<03:42, 20.20it/s][A
 10%|█████                                            | 518/5001 [00:20<03:36, 20.69it/s][A
 10%|█████                                            | 521/5001 [00:20<03:28, 21.48it/s][A
 10%|█████▏                                           | 524/5001 [00:20<03:22, 22.11it/s][A
 11%|█████▏                                           | 527/5001 [00:20<03:30, 21.24it/s][A
 11%|█████▏                                           | 530/5001 [00:20<03:32, 21.08it/s][A
 11%|█████▏                                           | 533/5001 [00:21<03:34, 20.79it/s][A
 11%|█████▎                                           | 536/5001 [00:

Evaluation 750 (Epsilon=0.047187670180865476):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 3.3778691508109073
 	Mean Reward: 37.9
 	Std Reward: 4.72122865364515




 15%|███████▍                                         | 758/5001 [00:31<03:45, 18.80it/s][A
 15%|███████▍                                         | 761/5001 [00:31<03:27, 20.44it/s][A
 15%|███████▍                                         | 764/5001 [00:31<03:28, 20.36it/s][A
 15%|███████▌                                         | 767/5001 [00:31<03:26, 20.50it/s][A
 15%|███████▌                                         | 770/5001 [00:31<03:21, 21.02it/s][A
 15%|███████▌                                         | 773/5001 [00:31<03:23, 20.82it/s][A
 16%|███████▌                                         | 776/5001 [00:32<03:24, 20.69it/s][A
 16%|███████▋                                         | 779/5001 [00:32<03:20, 21.03it/s][A
 16%|███████▋                                         | 782/5001 [00:32<03:24, 20.63it/s][A
 16%|███████▋                                         | 785/5001 [00:32<03:25, 20.56it/s][A
 16%|███████▋                                         | 788/5001 [00:

Evaluation 1000 (Epsilon=0.03674933508798743):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 5.929586832149439
 	Mean Reward: 36.8
 	Std Reward: 4.237924020083418




 20%|█████████▋                                      | 1007/5001 [00:42<03:16, 20.37it/s][A
 20%|█████████▋                                      | 1010/5001 [00:42<03:24, 19.52it/s][A
 20%|█████████▋                                      | 1012/5001 [00:42<03:25, 19.45it/s][A
 20%|█████████▋                                      | 1014/5001 [00:43<03:24, 19.54it/s][A
 20%|█████████▊                                      | 1016/5001 [00:43<03:22, 19.63it/s][A
 20%|█████████▊                                      | 1018/5001 [00:43<03:22, 19.65it/s][A
 20%|█████████▊                                      | 1021/5001 [00:43<03:19, 19.90it/s][A
 20%|█████████▊                                      | 1023/5001 [00:43<03:26, 19.30it/s][A
 21%|█████████▊                                      | 1026/5001 [00:43<03:21, 19.72it/s][A
 21%|█████████▊                                      | 1028/5001 [00:43<03:22, 19.61it/s][A
 21%|█████████▉                                      | 1030/5001 [00:

Evaluation 1250 (Epsilon=0.028620053167126226):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 3.6
 	Mean Reward: 35.0
 	Std Reward: 6.6332495807108




 25%|████████████                                    | 1255/5001 [00:55<03:11, 19.57it/s][A
 25%|████████████                                    | 1257/5001 [00:55<03:11, 19.53it/s][A
 25%|████████████                                    | 1259/5001 [00:55<03:11, 19.54it/s][A
 25%|████████████                                    | 1262/5001 [00:55<03:07, 19.97it/s][A
 25%|████████████▏                                   | 1264/5001 [00:55<03:15, 19.11it/s][A
 25%|████████████▏                                   | 1266/5001 [00:56<03:36, 17.21it/s][A
 25%|████████████▏                                   | 1268/5001 [00:56<03:50, 16.21it/s][A
 25%|████████████▏                                   | 1270/5001 [00:56<04:00, 15.49it/s][A
 25%|████████████▏                                   | 1272/5001 [00:56<04:01, 15.45it/s][A
 25%|████████████▏                                   | 1274/5001 [00:56<04:00, 15.50it/s][A
 26%|████████████▏                                   | 1276/5001 [00:

Evaluation 1500 (Epsilon=0.022289041184771863):
	AAR: 1.0
 	SES: 0
 	Learning Stability: 16.05739704933524
 	Mean Reward: 48.1
 	Std Reward: 6.204030947698439




 30%|██████████████▍                                 | 1506/5001 [01:12<04:00, 14.55it/s][A
 30%|██████████████▍                                 | 1508/5001 [01:12<04:02, 14.39it/s][A
 30%|██████████████▍                                 | 1510/5001 [01:12<04:04, 14.27it/s][A
 30%|██████████████▌                                 | 1512/5001 [01:12<03:54, 14.89it/s][A
 30%|██████████████▌                                 | 1514/5001 [01:12<03:55, 14.83it/s][A
 30%|██████████████▌                                 | 1516/5001 [01:13<03:55, 14.83it/s][A
 30%|██████████████▌                                 | 1518/5001 [01:13<03:47, 15.29it/s][A
 30%|██████████████▌                                 | 1520/5001 [01:13<03:45, 15.44it/s][A
 30%|██████████████▌                                 | 1522/5001 [01:13<03:41, 15.72it/s][A
 30%|██████████████▋                                 | 1524/5001 [01:13<03:43, 15.58it/s][A
 31%|██████████████▋                                 | 1526/5001 [01:

Evaluation 1750 (Epsilon=0.01735850573146705):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 10.325211862233141
 	Mean Reward: 52.9
 	Std Reward: 7.529276193632427



 35%|████████████████▊                               | 1754/5001 [01:29<03:41, 14.66it/s][A
 35%|████████████████▊                               | 1756/5001 [01:29<03:44, 14.46it/s][A
 35%|████████████████▊                               | 1758/5001 [01:29<03:46, 14.31it/s][A
 35%|████████████████▉                               | 1760/5001 [01:29<03:45, 14.36it/s][A
 35%|████████████████▉                               | 1762/5001 [01:29<03:46, 14.27it/s][A
 35%|████████████████▉                               | 1764/5001 [01:29<03:42, 14.55it/s][A
 35%|████████████████▉                               | 1766/5001 [01:30<03:43, 14.45it/s][A
 35%|████████████████▉                               | 1768/5001 [01:30<03:42, 14.54it/s][A
 35%|████████████████▉                               | 1770/5001 [01:30<03:41, 14.57it/s][A
 35%|█████████████████                               | 1772/5001 [01:30<03:37, 14.83it/s][A
 35%|█████████████████                               | 1774/5001 [01:3

Evaluation 2000 (Epsilon=0.013518648861182937):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 5.974110812497539
 	Mean Reward: 50.8
 	Std Reward: 8.292164976651152




 40%|███████████████████▏                            | 2004/5001 [01:46<04:08, 12.05it/s][A
 40%|███████████████████▎                            | 2006/5001 [01:46<04:11, 11.93it/s][A
 40%|███████████████████▎                            | 2008/5001 [01:46<04:00, 12.46it/s][A
 40%|███████████████████▎                            | 2010/5001 [01:47<03:56, 12.64it/s][A
 40%|███████████████████▎                            | 2012/5001 [01:47<04:04, 12.24it/s][A
 40%|███████████████████▎                            | 2014/5001 [01:47<04:02, 12.33it/s][A
 40%|███████████████████▎                            | 2016/5001 [01:47<04:03, 12.27it/s][A
 40%|███████████████████▎                            | 2018/5001 [01:47<04:06, 12.11it/s][A
 40%|███████████████████▍                            | 2020/5001 [01:47<04:15, 11.66it/s][A
 40%|███████████████████▍                            | 2022/5001 [01:48<04:11, 11.84it/s][A
 40%|███████████████████▍                            | 2024/5001 [01:

Evaluation 2250 (Epsilon=0.010528202707026325):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 11.15750868249718
 	Mean Reward: 46.7
 	Std Reward: 6.419501538281613




 45%|█████████████████████▋                          | 2256/5001 [02:04<03:01, 15.16it/s][A
 45%|█████████████████████▋                          | 2258/5001 [02:04<03:02, 15.05it/s][A
 45%|█████████████████████▋                          | 2260/5001 [02:04<03:02, 15.00it/s][A
 45%|█████████████████████▋                          | 2262/5001 [02:04<03:01, 15.07it/s][A
 45%|█████████████████████▋                          | 2264/5001 [02:04<03:03, 14.89it/s][A
 45%|█████████████████████▋                          | 2266/5001 [02:04<03:04, 14.81it/s][A
 45%|█████████████████████▊                          | 2268/5001 [02:04<03:06, 14.63it/s][A
 45%|█████████████████████▊                          | 2270/5001 [02:05<03:03, 14.86it/s][A
 45%|█████████████████████▊                          | 2272/5001 [02:05<03:04, 14.80it/s][A
 45%|█████████████████████▊                          | 2274/5001 [02:05<03:07, 14.58it/s][A
 46%|█████████████████████▊                          | 2276/5001 [02:

Evaluation 2500 (Epsilon=0.008199270014217728):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 13.43726162579266
 	Mean Reward: 51.1
 	Std Reward: 8.360023923410745




 50%|████████████████████████                        | 2505/5001 [02:21<03:00, 13.81it/s][A
 50%|████████████████████████                        | 2507/5001 [02:22<03:06, 13.38it/s][A
 50%|████████████████████████                        | 2509/5001 [02:22<03:01, 13.75it/s][A
 50%|████████████████████████                        | 2511/5001 [02:22<02:52, 14.40it/s][A
 50%|████████████████████████                        | 2513/5001 [02:22<02:48, 14.79it/s][A
 50%|████████████████████████▏                       | 2515/5001 [02:22<02:48, 14.73it/s][A
 50%|████████████████████████▏                       | 2517/5001 [02:22<02:45, 15.02it/s][A
 50%|████████████████████████▏                       | 2519/5001 [02:22<02:42, 15.31it/s][A
 50%|████████████████████████▏                       | 2521/5001 [02:23<02:44, 15.08it/s][A
 50%|████████████████████████▏                       | 2523/5001 [02:23<02:43, 15.17it/s][A
 50%|████████████████████████▏                       | 2525/5001 [02:

Evaluation 2750 (Epsilon=0.006385518082890183):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 9.318798205777396
 	Mean Reward: 50.7
 	Std Reward: 5.728001396647874




 55%|██████████████████████████▍                     | 2755/5001 [02:39<04:00,  9.34it/s][A
 55%|██████████████████████████▍                     | 2756/5001 [02:39<04:07,  9.07it/s][A
 55%|██████████████████████████▍                     | 2757/5001 [02:39<04:38,  8.07it/s][A
 55%|██████████████████████████▍                     | 2758/5001 [02:39<04:54,  7.62it/s][A
 55%|██████████████████████████▍                     | 2760/5001 [02:39<04:15,  8.77it/s][A
 55%|██████████████████████████▌                     | 2762/5001 [02:39<03:50,  9.69it/s][A
 55%|██████████████████████████▌                     | 2763/5001 [02:40<03:57,  9.42it/s][A
 55%|██████████████████████████▌                     | 2764/5001 [02:40<04:08,  8.99it/s][A
 55%|██████████████████████████▌                     | 2766/5001 [02:40<03:32, 10.52it/s][A
 55%|██████████████████████████▌                     | 2768/5001 [02:40<03:13, 11.53it/s][A
 55%|██████████████████████████▌                     | 2770/5001 [02:

Evaluation 3000 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 6.415605972938176
 	Mean Reward: 51.5
 	Std Reward: 7.6583287994183165




 60%|████████████████████████████▊                   | 3005/5001 [06:58<02:27, 13.54it/s][A
 60%|████████████████████████████▊                   | 3007/5001 [06:58<02:18, 14.35it/s][A
 60%|████████████████████████████▉                   | 3009/5001 [06:58<02:19, 14.24it/s][A
 60%|████████████████████████████▉                   | 3011/5001 [06:58<02:17, 14.44it/s][A
 60%|████████████████████████████▉                   | 3013/5001 [06:58<02:17, 14.43it/s][A
 60%|████████████████████████████▉                   | 3015/5001 [06:58<02:13, 14.93it/s][A
 60%|████████████████████████████▉                   | 3017/5001 [06:58<02:14, 14.74it/s][A
 60%|████████████████████████████▉                   | 3019/5001 [06:59<02:10, 15.16it/s][A
 60%|████████████████████████████▉                   | 3021/5001 [06:59<02:07, 15.54it/s][A
 60%|█████████████████████████████                   | 3023/5001 [06:59<02:10, 15.14it/s][A
 60%|█████████████████████████████                   | 3025/5001 [06:

Evaluation 3250 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 14.492756811593853
 	Mean Reward: 51.0
 	Std Reward: 9.09945053286186




 65%|███████████████████████████████▏                | 3255/5001 [07:14<01:57, 14.86it/s][A
 65%|███████████████████████████████▎                | 3257/5001 [07:15<01:52, 15.45it/s][A
 65%|███████████████████████████████▎                | 3259/5001 [07:15<01:48, 16.00it/s][A
 65%|███████████████████████████████▎                | 3261/5001 [07:15<01:49, 15.94it/s][A
 65%|███████████████████████████████▎                | 3263/5001 [07:15<01:48, 16.06it/s][A
 65%|███████████████████████████████▎                | 3265/5001 [07:15<01:44, 16.57it/s][A
 65%|███████████████████████████████▎                | 3267/5001 [07:15<01:42, 16.87it/s][A
 65%|███████████████████████████████▍                | 3269/5001 [07:15<01:41, 17.06it/s][A
 65%|███████████████████████████████▍                | 3271/5001 [07:15<01:42, 16.94it/s][A
 65%|███████████████████████████████▍                | 3273/5001 [07:16<01:46, 16.29it/s][A
 65%|███████████████████████████████▍                | 3275/5001 [07:

Evaluation 3500 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 6.296824596572466
 	Mean Reward: 49.9
 	Std Reward: 8.83685464404615




 70%|█████████████████████████████████▋              | 3505/5001 [07:30<01:35, 15.64it/s][A
 70%|█████████████████████████████████▋              | 3507/5001 [07:30<01:36, 15.53it/s][A
 70%|█████████████████████████████████▋              | 3509/5001 [07:30<01:38, 15.11it/s][A
 70%|█████████████████████████████████▋              | 3511/5001 [07:31<01:35, 15.57it/s][A
 70%|█████████████████████████████████▋              | 3513/5001 [07:31<01:35, 15.56it/s][A
 70%|█████████████████████████████████▋              | 3515/5001 [07:31<01:36, 15.43it/s][A
 70%|█████████████████████████████████▊              | 3517/5001 [07:31<01:34, 15.69it/s][A
 70%|█████████████████████████████████▊              | 3519/5001 [07:31<01:34, 15.71it/s][A
 70%|█████████████████████████████████▊              | 3521/5001 [07:31<01:33, 15.79it/s][A
 70%|█████████████████████████████████▊              | 3523/5001 [07:31<01:33, 15.85it/s][A
 70%|█████████████████████████████████▊              | 3525/5001 [07:

Evaluation 3750 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 10.92748827498799
 	Mean Reward: 57.2
 	Std Reward: 7.152621896899067




 75%|████████████████████████████████████            | 3755/5001 [07:46<01:22, 15.07it/s][A
 75%|████████████████████████████████████            | 3757/5001 [07:46<01:20, 15.37it/s][A
 75%|████████████████████████████████████            | 3759/5001 [07:47<01:20, 15.35it/s][A
 75%|████████████████████████████████████            | 3761/5001 [07:47<01:20, 15.44it/s][A
 75%|████████████████████████████████████            | 3763/5001 [07:47<01:23, 14.86it/s][A
 75%|████████████████████████████████████▏           | 3765/5001 [07:47<01:22, 15.03it/s][A
 75%|████████████████████████████████████▏           | 3767/5001 [07:47<01:20, 15.29it/s][A
 75%|████████████████████████████████████▏           | 3769/5001 [07:47<01:19, 15.51it/s][A
 75%|████████████████████████████████████▏           | 3771/5001 [07:47<01:18, 15.61it/s][A
 75%|████████████████████████████████████▏           | 3773/5001 [07:47<01:17, 15.84it/s][A
 75%|████████████████████████████████████▏           | 3775/5001 [07:

Evaluation 4000 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 9.505787710652914
 	Mean Reward: 55.4
 	Std Reward: 10.031948963187562




 80%|██████████████████████████████████████▍         | 4005/5001 [08:03<01:05, 15.31it/s][A
 80%|██████████████████████████████████████▍         | 4007/5001 [08:03<01:03, 15.60it/s][A
 80%|██████████████████████████████████████▍         | 4009/5001 [08:03<01:03, 15.54it/s][A
 80%|██████████████████████████████████████▍         | 4011/5001 [08:03<01:04, 15.40it/s][A
 80%|██████████████████████████████████████▌         | 4014/5001 [08:04<00:54, 17.98it/s][A
 80%|██████████████████████████████████████▌         | 4017/5001 [08:04<00:50, 19.41it/s][A
 80%|██████████████████████████████████████▌         | 4019/5001 [08:04<00:54, 17.92it/s][A
 80%|██████████████████████████████████████▌         | 4021/5001 [08:04<00:57, 17.15it/s][A
 80%|██████████████████████████████████████▌         | 4023/5001 [08:04<00:58, 16.73it/s][A
 80%|██████████████████████████████████████▋         | 4025/5001 [08:04<00:59, 16.30it/s][A
 81%|██████████████████████████████████████▋         | 4027/5001 [08:

Evaluation 4250 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 12.726350615946426
 	Mean Reward: 52.9
 	Std Reward: 6.073713855624086




 85%|████████████████████████████████████████▊       | 4255/5001 [08:20<00:45, 16.40it/s][A
 85%|████████████████████████████████████████▊       | 4257/5001 [08:20<00:48, 15.34it/s][A
 85%|████████████████████████████████████████▉       | 4259/5001 [08:20<00:49, 14.87it/s][A
 85%|████████████████████████████████████████▉       | 4261/5001 [08:20<00:49, 15.02it/s][A
 85%|████████████████████████████████████████▉       | 4263/5001 [08:20<00:49, 14.79it/s][A
 85%|████████████████████████████████████████▉       | 4265/5001 [08:21<00:49, 14.88it/s][A
 85%|████████████████████████████████████████▉       | 4267/5001 [08:21<00:48, 15.15it/s][A
 85%|████████████████████████████████████████▉       | 4269/5001 [08:21<00:47, 15.29it/s][A
 85%|████████████████████████████████████████▉       | 4271/5001 [08:21<00:48, 15.15it/s][A
 85%|█████████████████████████████████████████       | 4273/5001 [08:21<00:48, 15.09it/s][A
 85%|█████████████████████████████████████████       | 4275/5001 [08:

Evaluation 4500 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 12.509596316428441
 	Mean Reward: 53.2
 	Std Reward: 5.6000000000000005




 90%|███████████████████████████████████████████▏    | 4505/5001 [08:37<00:35, 14.16it/s][A
 90%|███████████████████████████████████████████▎    | 4507/5001 [08:37<00:34, 14.42it/s][A
 90%|███████████████████████████████████████████▎    | 4509/5001 [08:37<00:33, 14.79it/s][A
 90%|███████████████████████████████████████████▎    | 4511/5001 [08:38<00:32, 14.91it/s][A
 90%|███████████████████████████████████████████▎    | 4513/5001 [08:38<00:32, 15.00it/s][A
 90%|███████████████████████████████████████████▎    | 4515/5001 [08:38<00:32, 14.90it/s][A
 90%|███████████████████████████████████████████▎    | 4517/5001 [08:38<00:32, 14.94it/s][A
 90%|███████████████████████████████████████████▎    | 4519/5001 [08:38<00:31, 15.18it/s][A
 90%|███████████████████████████████████████████▍    | 4521/5001 [08:38<00:31, 15.09it/s][A
 90%|███████████████████████████████████████████▍    | 4523/5001 [08:38<00:31, 15.00it/s][A
 90%|███████████████████████████████████████████▍    | 4525/5001 [08:

Evaluation 4750 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 23.551857676200406
 	Mean Reward: 56.5
 	Std Reward: 18.789624796679682




 95%|█████████████████████████████████████████████▋  | 4755/5001 [08:54<00:19, 12.58it/s][A
 95%|█████████████████████████████████████████████▋  | 4757/5001 [08:54<00:19, 12.60it/s][A
 95%|█████████████████████████████████████████████▋  | 4759/5001 [08:55<00:19, 12.71it/s][A
 95%|█████████████████████████████████████████████▋  | 4761/5001 [08:55<00:17, 13.78it/s][A
 95%|█████████████████████████████████████████████▋  | 4763/5001 [08:55<00:16, 14.50it/s][A
 95%|█████████████████████████████████████████████▋  | 4765/5001 [08:55<00:15, 15.01it/s][A
 95%|█████████████████████████████████████████████▊  | 4767/5001 [08:55<00:15, 15.43it/s][A
 95%|█████████████████████████████████████████████▊  | 4769/5001 [08:55<00:14, 15.49it/s][A
 95%|█████████████████████████████████████████████▊  | 4771/5001 [08:55<00:14, 15.36it/s][A
 95%|█████████████████████████████████████████████▊  | 4773/5001 [08:55<00:14, 15.41it/s][A
 95%|█████████████████████████████████████████████▊  | 4775/5001 [08:

Evaluation 5000 (Epsilon=0.005):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 10.423531071570709
 	Mean Reward: 49.0
 	Std Reward: 10.936178491593852



100%|█████████████████████████████████████████████████| 10/10 [2:24:48<00:00, 868.89s/it]


In [7]:
q_table_df.to_csv(DATASETS_Q_TABLE_DIR / 'q_table.csv', index=False)

### DQN

In [8]:
DATASETS_DQN_DIR = DATASETS_DIR / "dqn"
DATASETS_DQN_DIR.mkdir(parents=True, exist_ok=True)

#### Curriculum parameter: pole length 

In [9]:
from environments.cart_pole.rl_methods.dqn import DQNAgent

dqn_agent = functools.partial(experiments.get_agent, agent_name='dqn')

training_configurations = [
    (dqn_agent(curriculum_name='baseline'), None),
    (dqn_agent(curriculum_name='one-pass'), experiments.get_curriculum('one-pass')),
    (dqn_agent(curriculum_name='root-p'), experiments.get_curriculum('root-p')),
    (dqn_agent(curriculum_name='hard'), experiments.get_curriculum('hard')),
    (dqn_agent(curriculum_name='linear'), experiments.get_curriculum('linear')),
    (dqn_agent(curriculum_name='logarithmic'), experiments.get_curriculum('logarithmic')),
    (dqn_agent(curriculum_name='logistic'), experiments.get_curriculum('logistic')),
    (dqn_agent(curriculum_name='mixture'), experiments.get_curriculum('mixture')),
    (dqn_agent(curriculum_name='polynomial'), experiments.get_curriculum('polynomial')),
    (dqn_agent(curriculum_name='anti-curriculum'), experiments.get_curriculum('anti-curriculum'))
]

for training_configuration in tqdm(training_configurations):
    cart_pole.train_evaluate(*training_configuration)

dqn_df = data_frame_from_configurations(training_configurations)

  0%|                                                             | 0/10 [00:00<?, ?it/s]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<01:29,  2.24it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.0
 	SES: 0.9696969696969697
 	Learning Stability: 12.149485585818026
 	Mean Reward: 41.2
 	Std Reward: 7.025667228100119




  1%|▌                                                   | 2/201 [00:01<01:48,  1.83it/s][A
  1%|▊                                                   | 3/201 [00:01<02:03,  1.61it/s][A
  2%|█                                                   | 4/201 [00:02<01:51,  1.76it/s][A
  2%|█▎                                                  | 5/201 [00:02<01:37,  2.01it/s][A
  3%|█▌                                                  | 6/201 [00:03<01:30,  2.16it/s][A
  3%|█▊                                                  | 7/201 [00:03<01:40,  1.92it/s][A
  4%|██                                                  | 8/201 [00:04<02:02,  1.58it/s][A
  4%|██▎                                                 | 9/201 [00:05<02:20,  1.37it/s][A
  5%|██▌                                                | 10/201 [00:06<02:38,  1.20it/s][A
  5%|██▊                                                | 11/201 [00:08<03:47,  1.20s/it][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 21.5613079380635
 	Mean Reward: 232.9
 	Std Reward: 22.358219964925652




 13%|██████▊                                            | 27/201 [00:57<10:45,  3.71s/it][A
 14%|███████                                            | 28/201 [01:02<12:05,  4.19s/it][A
 14%|███████▎                                           | 29/201 [01:07<11:53,  4.15s/it][A
 15%|███████▌                                           | 30/201 [01:10<11:33,  4.06s/it][A
 15%|███████▊                                           | 31/201 [01:14<11:20,  4.00s/it][A
 16%|████████                                           | 32/201 [01:18<11:11,  3.98s/it][A
 16%|████████▎                                          | 33/201 [01:22<10:43,  3.83s/it][A
 17%|████████▋                                          | 34/201 [01:25<10:37,  3.82s/it][A
 17%|████████▉                                          | 35/201 [01:29<10:39,  3.85s/it][A
 18%|█████████▏                                         | 36/201 [01:33<10:06,  3.68s/it][A
 18%|█████████▍                                         | 37/201 [01:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 52.90264643663869
 	Mean Reward: 46.6
 	Std Reward: 5.517245689653488




 26%|█████████████▏                                     | 52/201 [02:19<07:38,  3.07s/it][A
 26%|█████████████▍                                     | 53/201 [02:22<07:12,  2.92s/it][A
 27%|█████████████▋                                     | 54/201 [02:23<06:04,  2.48s/it][A
 27%|█████████████▉                                     | 55/201 [02:25<05:15,  2.16s/it][A
 28%|██████████████▏                                    | 56/201 [02:27<05:01,  2.08s/it][A
 28%|██████████████▍                                    | 57/201 [02:30<05:39,  2.36s/it][A
 29%|██████████████▋                                    | 58/201 [02:35<08:00,  3.36s/it][A
 29%|██████████████▉                                    | 59/201 [02:40<08:41,  3.67s/it][A
 30%|███████████████▏                                   | 60/201 [02:44<09:19,  3.96s/it][A
 30%|███████████████▍                                   | 61/201 [02:47<08:24,  3.60s/it][A
 31%|███████████████▋                                   | 62/201 [02:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 116.03344345489364
 	Mean Reward: 500.0
 	Std Reward: 0.0




 38%|███████████████████▌                               | 77/201 [04:03<12:04,  5.84s/it][A
 39%|███████████████████▊                               | 78/201 [04:12<13:40,  6.67s/it][A
 39%|████████████████████                               | 79/201 [04:20<14:28,  7.12s/it][A
 40%|████████████████████▎                              | 80/201 [04:27<14:12,  7.04s/it][A
 40%|████████████████████▌                              | 81/201 [04:33<13:42,  6.85s/it][A
 41%|████████████████████▊                              | 82/201 [04:40<13:15,  6.69s/it][A
 41%|█████████████████████                              | 83/201 [04:45<12:24,  6.31s/it][A
 42%|█████████████████████▎                             | 84/201 [04:52<12:27,  6.39s/it][A
 42%|█████████████████████▌                             | 85/201 [04:57<11:57,  6.18s/it][A
 43%|█████████████████████▊                             | 86/201 [05:02<11:04,  5.78s/it][A
 43%|██████████████████████                             | 87/201 [05:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 108.95177832417423
 	Mean Reward: 237.9
 	Std Reward: 19.81136037731887




 51%|█████████████████████████▎                        | 102/201 [05:49<08:05,  4.90s/it][A
 51%|█████████████████████████▌                        | 103/201 [05:57<09:28,  5.80s/it][A
 52%|█████████████████████████▊                        | 104/201 [06:03<09:19,  5.77s/it][A
 52%|██████████████████████████                        | 105/201 [06:09<09:33,  5.97s/it][A
 53%|██████████████████████████▎                       | 106/201 [06:17<09:59,  6.31s/it][A
 53%|██████████████████████████▌                       | 107/201 [06:22<09:41,  6.18s/it][A
 54%|██████████████████████████▊                       | 108/201 [06:29<09:42,  6.27s/it][A
 54%|███████████████████████████                       | 109/201 [06:35<09:23,  6.13s/it][A
 55%|███████████████████████████▎                      | 110/201 [06:42<09:56,  6.55s/it][A
 55%|███████████████████████████▌                      | 111/201 [06:49<09:48,  6.54s/it][A
 56%|███████████████████████████▊                      | 112/201 [06:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 22.4240941846042
 	Mean Reward: 384.0
 	Std Reward: 96.16860194470958




 63%|███████████████████████████████▌                  | 127/201 [07:45<03:55,  3.19s/it][A
 64%|███████████████████████████████▊                  | 128/201 [07:50<04:35,  3.78s/it][A
 64%|████████████████████████████████                  | 129/201 [07:55<04:52,  4.06s/it][A
 65%|████████████████████████████████▎                 | 130/201 [07:57<04:13,  3.57s/it][A
 65%|████████████████████████████████▌                 | 131/201 [08:00<03:57,  3.39s/it][A
 66%|████████████████████████████████▊                 | 132/201 [08:03<03:48,  3.31s/it][A
 66%|█████████████████████████████████                 | 133/201 [08:07<03:59,  3.53s/it][A
 67%|█████████████████████████████████▎                | 134/201 [08:11<04:01,  3.60s/it][A
 67%|█████████████████████████████████▌                | 135/201 [08:14<03:41,  3.35s/it][A
 68%|█████████████████████████████████▊                | 136/201 [08:16<03:09,  2.91s/it][A
 68%|██████████████████████████████████                | 137/201 [08:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 22.914842351628778
 	Mean Reward: 407.3
 	Std Reward: 76.64469975151576




 76%|█████████████████████████████████████▊            | 152/201 [18:28<18:10, 22.26s/it][A
 76%|██████████████████████████████████████            | 153/201 [18:33<13:30, 16.88s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [18:38<10:34, 13.50s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [18:45<08:39, 11.30s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [18:50<07:06,  9.47s/it][A
 78%|███████████████████████████████████████           | 157/201 [19:03<07:39, 10.45s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [19:17<08:22, 11.69s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [19:29<08:19, 11.88s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [19:43<08:34, 12.54s/it][A
 80%|█████████████████████████████████████▋         | 161/201 [27:04<1:33:55, 140.88s/it][A
 81%|██████████████████████████████████████▋         | 162/201 [27:06

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 93.91804938349178
 	Mean Reward: 284.1
 	Std Reward: 44.19604054663721




 88%|████████████████████████████████████████████      | 177/201 [27:52<02:03,  5.16s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [27:56<01:51,  4.85s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [27:58<01:29,  4.07s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [28:00<01:09,  3.29s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [28:02<00:58,  2.92s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [28:10<01:26,  4.56s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [28:14<01:17,  4.30s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [28:18<01:12,  4.25s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [28:22<01:06,  4.13s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [28:27<01:05,  4.39s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [28:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 12.018319350058892
 	Mean Reward: 132.2
 	Std Reward: 4.166533331199931




 10%|████▉                                            | 1/10 [29:27<4:25:05, 1767.33s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:24,  8.13it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.935251798561151
 	Learning Stability: 6.6000000000000005
 	Mean Reward: 12.1
 	Std Reward: 3.1128764832546763




  1%|▌                                                   | 2/201 [00:00<00:34,  5.81it/s][A
  1%|▊                                                   | 3/201 [00:00<00:34,  5.66it/s][A
  2%|█                                                   | 4/201 [00:00<00:32,  6.01it/s][A
  2%|█▎                                                  | 5/201 [00:00<00:32,  6.09it/s][A
  3%|█▌                                                  | 6/201 [00:00<00:30,  6.31it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:30,  6.40it/s][A
  4%|██                                                  | 8/201 [00:01<00:29,  6.46it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:30,  6.39it/s][A
  5%|██▌                                                | 10/201 [00:01<00:28,  6.68it/s][A
  5%|██▊                                                | 11/201 [00:01<00:29,  6.53it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 41.42330262062647
 	Mean Reward: 121.1
 	Std Reward: 14.909393012460297




 13%|██████▊                                            | 27/201 [00:13<04:39,  1.61s/it][A
 14%|███████                                            | 28/201 [00:15<04:46,  1.65s/it][A
 14%|███████▎                                           | 29/201 [00:16<04:47,  1.67s/it][A
 15%|███████▌                                           | 30/201 [00:18<05:10,  1.81s/it][A
 15%|███████▊                                           | 31/201 [00:21<05:58,  2.11s/it][A
 16%|████████                                           | 32/201 [00:23<05:41,  2.02s/it][A
 16%|████████▎                                          | 33/201 [00:25<05:27,  1.95s/it][A
 17%|████████▋                                          | 34/201 [00:27<05:36,  2.02s/it][A
 17%|████████▉                                          | 35/201 [00:29<05:28,  1.98s/it][A
 18%|█████████▏                                         | 36/201 [00:31<05:43,  2.08s/it][A
 18%|█████████▍                                         | 37/201 [00:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 24.178709642989634
 	Mean Reward: 146.3
 	Std Reward: 4.050925820105818




 26%|█████████████▏                                     | 52/201 [01:09<06:23,  2.58s/it][A
 26%|█████████████▍                                     | 53/201 [01:11<06:23,  2.59s/it][A
 27%|█████████████▋                                     | 54/201 [01:14<06:07,  2.50s/it][A
 27%|█████████████▉                                     | 55/201 [01:16<06:04,  2.50s/it][A
 28%|██████████████▏                                    | 56/201 [01:19<05:59,  2.48s/it][A
 28%|██████████████▍                                    | 57/201 [01:21<05:47,  2.41s/it][A
 29%|██████████████▋                                    | 58/201 [01:23<05:46,  2.42s/it][A
 29%|██████████████▉                                    | 59/201 [01:26<05:43,  2.42s/it][A
 30%|███████████████▏                                   | 60/201 [01:28<05:26,  2.31s/it][A
 30%|███████████████▍                                   | 61/201 [01:30<05:25,  2.32s/it][A
 31%|███████████████▋                                   | 62/201 [01:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 32.45057780687426
 	Mean Reward: 138.5
 	Std Reward: 3.640054944640259




 38%|███████████████████▌                               | 77/201 [02:11<05:23,  2.61s/it][A
 39%|███████████████████▊                               | 78/201 [02:13<04:44,  2.31s/it][A
 39%|████████████████████                               | 79/201 [02:15<04:26,  2.18s/it][A
 40%|████████████████████▎                              | 80/201 [02:18<05:01,  2.49s/it][A
 40%|████████████████████▌                              | 81/201 [02:22<05:47,  2.90s/it][A
 41%|████████████████████▊                              | 82/201 [02:25<05:45,  2.90s/it][A
 41%|█████████████████████                              | 83/201 [02:27<05:25,  2.75s/it][A
 42%|█████████████████████▎                             | 84/201 [02:31<06:05,  3.12s/it][A
 42%|█████████████████████▌                             | 85/201 [02:35<06:25,  3.33s/it][A
 43%|█████████████████████▊                             | 86/201 [02:39<06:30,  3.40s/it][A
 43%|██████████████████████                             | 87/201 [02:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.218507946170636
 	Mean Reward: 14.2
 	Std Reward: 2.85657137141714




 51%|█████████████████████████▎                        | 102/201 [03:06<01:25,  1.16it/s][A
 51%|█████████████████████████▌                        | 103/201 [03:07<01:42,  1.04s/it][A
 52%|█████████████████████████▊                        | 104/201 [03:09<02:02,  1.26s/it][A
 52%|██████████████████████████                        | 105/201 [03:11<02:41,  1.68s/it][A
 53%|██████████████████████████▎                       | 106/201 [03:14<03:07,  1.98s/it][A
 53%|██████████████████████████▌                       | 107/201 [03:17<03:30,  2.24s/it][A
 54%|██████████████████████████▊                       | 108/201 [03:20<03:46,  2.44s/it][A
 54%|███████████████████████████                       | 109/201 [03:23<03:57,  2.58s/it][A
 55%|███████████████████████████▎                      | 110/201 [03:27<04:48,  3.17s/it][A
 55%|███████████████████████████▌                      | 111/201 [03:32<05:23,  3.60s/it][A
 56%|███████████████████████████▊                      | 112/201 [03:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 62.92733905068607
 	Mean Reward: 500.0
 	Std Reward: 0.0




 63%|███████████████████████████████▌                  | 127/201 [05:07<07:25,  6.02s/it][A
 64%|███████████████████████████████▊                  | 128/201 [05:11<06:19,  5.19s/it][A
 64%|████████████████████████████████                  | 129/201 [05:13<05:08,  4.28s/it][A
 65%|████████████████████████████████▎                 | 130/201 [05:16<04:46,  4.03s/it][A
 65%|████████████████████████████████▌                 | 131/201 [05:22<05:12,  4.46s/it][A
 66%|████████████████████████████████▊                 | 132/201 [05:25<04:41,  4.07s/it][A
 66%|█████████████████████████████████                 | 133/201 [05:26<03:39,  3.23s/it][A
 67%|█████████████████████████████████▎                | 134/201 [05:27<02:53,  2.59s/it][A
 67%|█████████████████████████████████▌                | 135/201 [05:29<02:40,  2.43s/it][A
 68%|█████████████████████████████████▊                | 136/201 [05:31<02:18,  2.13s/it][A
 68%|██████████████████████████████████                | 137/201 [05:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 43.753856972842975
 	Mean Reward: 500.0
 	Std Reward: 0.0




 76%|█████████████████████████████████████▊            | 152/201 [07:14<05:49,  7.14s/it][A
 76%|██████████████████████████████████████            | 153/201 [07:22<05:47,  7.25s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [07:28<05:30,  7.03s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [07:33<04:53,  6.38s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [07:38<04:30,  6.00s/it][A
 78%|███████████████████████████████████████           | 157/201 [07:41<03:36,  4.93s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [07:44<03:14,  4.52s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [07:47<02:43,  3.88s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [07:50<02:29,  3.65s/it][A
 80%|████████████████████████████████████████          | 161/201 [07:52<02:07,  3.18s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [07:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 121.10165151640172
 	Mean Reward: 110.3
 	Std Reward: 3.4073450074801643




 88%|████████████████████████████████████████████      | 177/201 [08:40<01:23,  3.46s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [08:45<01:31,  4.00s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [08:53<01:53,  5.16s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [09:02<02:09,  6.15s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [09:07<01:59,  5.97s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [09:13<01:53,  5.97s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [09:17<01:36,  5.36s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [09:24<01:36,  5.68s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [09:31<01:41,  6.33s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [09:39<01:41,  6.79s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [09:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 120.02233125547929
 	Mean Reward: 193.6
 	Std Reward: 9.210863151735564




 20%|█████████▊                                       | 2/10 [40:46<2:30:19, 1127.50s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:21,  9.23it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.3333111111111111
 	SES: 0.921875
 	Learning Stability: 3.5846896657869842
 	Mean Reward: 14.4
 	Std Reward: 6.6211781428987395




  1%|▌                                                   | 2/201 [00:00<00:34,  5.77it/s][A
  1%|▊                                                   | 3/201 [00:00<00:36,  5.47it/s][A
  2%|█                                                   | 4/201 [00:00<00:35,  5.53it/s][A
  2%|█▎                                                  | 5/201 [00:00<00:35,  5.45it/s][A
  3%|█▌                                                  | 6/201 [00:01<00:34,  5.73it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:33,  5.88it/s][A
  4%|██                                                  | 8/201 [00:01<00:33,  5.77it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:35,  5.47it/s][A
  5%|██▌                                                | 10/201 [00:01<00:35,  5.35it/s][A
  5%|██▊                                                | 11/201 [00:01<00:34,  5.56it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 11.886547017532047
 	Mean Reward: 90.7
 	Std Reward: 4.69148164229596




 13%|██████▊                                            | 27/201 [00:08<02:36,  1.11it/s][A
 14%|███████                                            | 28/201 [00:10<03:40,  1.28s/it][A
 14%|███████▎                                           | 29/201 [00:13<04:55,  1.72s/it][A
 15%|███████▌                                           | 30/201 [00:15<05:31,  1.94s/it][A
 15%|███████▊                                           | 31/201 [00:18<06:00,  2.12s/it][A
 16%|████████                                           | 32/201 [00:20<06:10,  2.19s/it][A
 16%|████████▎                                          | 33/201 [00:22<06:00,  2.14s/it][A
 17%|████████▋                                          | 34/201 [00:24<05:26,  1.95s/it][A
 17%|████████▉                                          | 35/201 [00:26<05:27,  1.97s/it][A
 18%|█████████▏                                         | 36/201 [00:28<05:13,  1.90s/it][A
 18%|█████████▍                                         | 37/201 [00:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 25.043162739558277
 	Mean Reward: 126.2
 	Std Reward: 17.71327186038762




 26%|█████████████▏                                     | 52/201 [01:11<07:11,  2.89s/it][A
 26%|█████████████▍                                     | 53/201 [01:13<06:53,  2.79s/it][A
 27%|█████████████▋                                     | 54/201 [01:16<06:44,  2.75s/it][A
 27%|█████████████▉                                     | 55/201 [01:18<06:27,  2.65s/it][A
 28%|██████████████▏                                    | 56/201 [01:21<06:17,  2.61s/it][A
 28%|██████████████▍                                    | 57/201 [01:23<06:11,  2.58s/it][A
 29%|██████████████▋                                    | 58/201 [01:26<06:08,  2.58s/it][A
 29%|██████████████▉                                    | 59/201 [01:29<06:10,  2.61s/it][A
 30%|███████████████▏                                   | 60/201 [01:31<06:10,  2.63s/it][A
 30%|███████████████▍                                   | 61/201 [01:34<06:31,  2.80s/it][A
 31%|███████████████▋                                   | 62/201 [01:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 35.83978236541065
 	Mean Reward: 155.6
 	Std Reward: 18.017769007288333




 38%|███████████████████▌                               | 77/201 [02:26<06:34,  3.18s/it][A
 39%|███████████████████▊                               | 78/201 [02:29<06:25,  3.14s/it][A
 39%|████████████████████                               | 79/201 [02:32<06:20,  3.12s/it][A
 40%|████████████████████▎                              | 80/201 [02:35<06:21,  3.15s/it][A
 40%|████████████████████▌                              | 81/201 [02:38<06:27,  3.23s/it][A
 41%|████████████████████▊                              | 82/201 [02:41<06:11,  3.12s/it][A
 41%|█████████████████████                              | 83/201 [02:44<06:05,  3.10s/it][A
 42%|█████████████████████▎                             | 84/201 [02:48<06:13,  3.19s/it][A
 42%|█████████████████████▌                             | 85/201 [02:51<06:09,  3.18s/it][A
 43%|█████████████████████▊                             | 86/201 [02:54<05:58,  3.11s/it][A
 43%|██████████████████████                             | 87/201 [02:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 39.143326378835
 	Mean Reward: 157.0
 	Std Reward: 5.761944116355173




 51%|█████████████████████████▎                        | 102/201 [03:50<06:15,  3.79s/it][A
 51%|█████████████████████████▌                        | 103/201 [03:53<05:50,  3.57s/it][A
 52%|█████████████████████████▊                        | 104/201 [03:57<06:06,  3.77s/it][A
 52%|██████████████████████████                        | 105/201 [04:00<05:24,  3.38s/it][A
 53%|██████████████████████████▎                       | 106/201 [04:03<05:04,  3.21s/it][A
 53%|██████████████████████████▌                       | 107/201 [04:06<05:12,  3.33s/it][A
 54%|██████████████████████████▊                       | 108/201 [04:10<05:21,  3.46s/it][A
 54%|███████████████████████████                       | 109/201 [04:14<05:41,  3.71s/it][A
 55%|███████████████████████████▎                      | 110/201 [04:18<05:33,  3.67s/it][A
 55%|███████████████████████████▌                      | 111/201 [04:21<05:10,  3.45s/it][A
 56%|███████████████████████████▊                      | 112/201 [04:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 16.64602054546371
 	Mean Reward: 185.0
 	Std Reward: 10.981803130633876




 63%|███████████████████████████████▌                  | 127/201 [05:10<03:41,  2.99s/it][A
 64%|███████████████████████████████▊                  | 128/201 [05:13<03:47,  3.12s/it][A
 64%|████████████████████████████████                  | 129/201 [05:16<03:48,  3.17s/it][A
 65%|████████████████████████████████▎                 | 130/201 [05:20<03:47,  3.20s/it][A
 65%|████████████████████████████████▌                 | 131/201 [05:22<03:30,  3.01s/it][A
 66%|████████████████████████████████▊                 | 132/201 [05:25<03:26,  2.99s/it][A
 66%|█████████████████████████████████                 | 133/201 [05:28<03:18,  2.92s/it][A
 67%|█████████████████████████████████▎                | 134/201 [05:30<03:02,  2.73s/it][A
 67%|█████████████████████████████████▌                | 135/201 [05:32<02:46,  2.53s/it][A
 68%|█████████████████████████████████▊                | 136/201 [05:34<02:33,  2.37s/it][A
 68%|██████████████████████████████████                | 137/201 [05:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 16.07762420259909
 	Mean Reward: 115.3
 	Std Reward: 4.670117771534247




 76%|█████████████████████████████████████▊            | 152/201 [06:17<02:08,  2.63s/it][A
 76%|██████████████████████████████████████            | 153/201 [06:19<02:04,  2.59s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [06:21<01:55,  2.45s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [06:24<01:51,  2.42s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [06:26<01:48,  2.41s/it][A
 78%|███████████████████████████████████████           | 157/201 [06:28<01:44,  2.38s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [06:31<01:40,  2.33s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [06:33<01:40,  2.38s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [06:36<01:38,  2.40s/it][A
 80%|████████████████████████████████████████          | 161/201 [06:38<01:40,  2.51s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [06:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 115.23736373242838
 	Mean Reward: 224.3
 	Std Reward: 16.964963896218585




 88%|████████████████████████████████████████████      | 177/201 [07:36<01:30,  3.79s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [07:39<01:21,  3.56s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [07:42<01:13,  3.34s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [07:46<01:18,  3.72s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [07:50<01:16,  3.84s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [07:54<01:13,  3.89s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [08:01<01:26,  4.79s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [08:07<01:26,  5.11s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [08:14<01:28,  5.56s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [08:21<01:29,  5.99s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [08:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.3333333333333335
 	SES: 1.0
 	Learning Stability: 49.24591353604887
 	Mean Reward: 181.4
 	Std Reward: 13.230268326832983




 30%|███████████████                                   | 3/10 [50:37<1:42:56, 882.39s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:55,  3.62it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.953125
 	Learning Stability: 11.648605066702192
 	Mean Reward: 75.1
 	Std Reward: 9.374966666607408




  1%|▌                                                   | 2/201 [00:00<00:57,  3.44it/s][A
  1%|▊                                                   | 3/201 [00:01<01:21,  2.42it/s][A
  2%|█                                                   | 4/201 [00:01<01:39,  1.98it/s][A
  2%|█▎                                                  | 5/201 [00:02<01:26,  2.26it/s][A
  3%|█▌                                                  | 6/201 [00:02<01:33,  2.08it/s][A
  3%|█▊                                                  | 7/201 [00:03<01:28,  2.19it/s][A
  4%|██                                                  | 8/201 [00:03<01:26,  2.24it/s][A
  4%|██▎                                                 | 9/201 [00:03<01:19,  2.43it/s][A
  5%|██▌                                                | 10/201 [00:04<01:51,  1.71it/s][A
  5%|██▊                                                | 11/201 [00:05<02:04,  1.52it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 57.446409809491136
 	Mean Reward: 98.1
 	Std Reward: 5.8898217290508885




 13%|██████▊                                            | 27/201 [00:43<06:53,  2.38s/it][A
 14%|███████                                            | 28/201 [00:45<06:11,  2.15s/it][A
 14%|███████▎                                           | 29/201 [00:47<06:12,  2.16s/it][A
 15%|███████▌                                           | 30/201 [00:50<07:12,  2.53s/it][A
 15%|███████▊                                           | 31/201 [00:54<08:17,  2.93s/it][A
 16%|████████                                           | 32/201 [00:57<08:02,  2.85s/it][A
 16%|████████▎                                          | 33/201 [01:00<08:14,  2.94s/it][A
 17%|████████▋                                          | 34/201 [01:03<08:04,  2.90s/it][A
 17%|████████▉                                          | 35/201 [01:06<08:16,  2.99s/it][A
 18%|█████████▏                                         | 36/201 [01:10<09:32,  3.47s/it][A
 18%|█████████▍                                         | 37/201 [01:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 104.5114347810803
 	Mean Reward: 73.1
 	Std Reward: 60.05239379075575




 26%|████████████▍                                   | 52/201 [40:02<5:25:26, 131.05s/it][A
 26%|████████████▉                                    | 53/201 [40:03<3:46:46, 91.93s/it][A
 27%|█████████████▏                                   | 54/201 [40:04<2:38:31, 64.70s/it][A
 27%|█████████████▍                                   | 55/201 [40:05<1:51:15, 45.72s/it][A
 28%|█████████████▋                                   | 56/201 [40:08<1:19:05, 32.73s/it][A
 28%|██████████████▍                                    | 57/201 [40:10<56:58, 23.74s/it][A
 29%|██████████████▋                                    | 58/201 [40:13<41:31, 17.42s/it][A
 29%|██████████████▉                                    | 59/201 [40:16<30:51, 13.04s/it][A
 30%|███████████████▏                                   | 60/201 [40:18<23:00,  9.79s/it][A
 30%|███████████████▍                                   | 61/201 [40:20<17:30,  7.50s/it][A
 31%|███████████████▋                                   | 62/201 [40:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 0.96
 	Learning Stability: 24.54872705457454
 	Mean Reward: 126.9
 	Std Reward: 2.4269322199023193




 38%|███████████████████▌                               | 77/201 [41:06<05:53,  2.85s/it][A
 39%|███████████████████▊                               | 78/201 [41:08<05:22,  2.62s/it][A
 39%|████████████████████                               | 79/201 [41:10<05:00,  2.46s/it][A
 40%|████████████████████▎                              | 80/201 [41:13<05:20,  2.65s/it][A
 40%|████████████████████▌                              | 81/201 [41:16<05:19,  2.66s/it][A
 41%|████████████████████▊                              | 82/201 [41:18<04:54,  2.47s/it][A
 41%|█████████████████████                              | 83/201 [41:20<04:38,  2.36s/it][A
 42%|█████████████████████▎                             | 84/201 [41:22<04:28,  2.30s/it][A
 42%|█████████████████████▌                             | 85/201 [41:24<04:16,  2.21s/it][A
 43%|█████████████████████▊                             | 86/201 [41:26<04:11,  2.19s/it][A
 43%|██████████████████████                             | 87/201 [41:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.258148865643527
 	Mean Reward: 106.6
 	Std Reward: 3.826225293941798




 51%|██████████████████████▊                      | 102/201 [1:40:50<3:29:06, 126.73s/it][A
 51%|███████████████████████▌                      | 103/201 [1:40:53<2:26:22, 89.62s/it][A
 52%|███████████████████████▊                      | 104/201 [1:40:56<1:42:38, 63.49s/it][A
 52%|████████████████████████                      | 105/201 [1:40:59<1:12:37, 45.39s/it][A
 53%|█████████████████████████▎                      | 106/201 [1:41:03<52:09, 32.94s/it][A
 53%|█████████████████████████▌                      | 107/201 [1:41:09<38:53, 24.82s/it][A
 54%|█████████████████████████▊                      | 108/201 [1:41:12<28:38, 18.48s/it][A
 54%|██████████████████████████                      | 109/201 [1:41:16<21:22, 13.94s/it][A
 55%|██████████████████████████▎                     | 110/201 [1:41:19<16:17, 10.75s/it][A
 55%|██████████████████████████▌                     | 111/201 [1:41:23<13:17,  8.86s/it][A
 56%|██████████████████████████▋                     | 112/201 [1:41:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 172.10915141270087
 	Mean Reward: 490.1
 	Std Reward: 20.082081565415475




 63%|██████████████████████████████▎                 | 127/201 [1:42:55<06:45,  5.47s/it][A
 64%|██████████████████████████████▌                 | 128/201 [1:43:01<06:45,  5.55s/it][A
 64%|██████████████████████████████▊                 | 129/201 [1:43:09<07:29,  6.25s/it][A
 65%|███████████████████████████████                 | 130/201 [1:43:13<06:51,  5.80s/it][A
 65%|███████████████████████████████▎                | 131/201 [1:43:15<05:20,  4.58s/it][A
 66%|███████████████████████████████▌                | 132/201 [1:43:17<04:18,  3.74s/it][A
 66%|███████████████████████████████▊                | 133/201 [1:43:18<03:24,  3.00s/it][A
 67%|█████████████████████████████▎              | 134/201 [2:14:58<10:38:43, 572.00s/it][A
 67%|██████████████████████████████▏              | 135/201 [2:15:00<7:21:13, 401.11s/it][A
 68%|█████████████████████████████▊              | 136/201 [2:32:48<10:51:05, 601.01s/it][A
 68%|██████████████████████████████▋              | 137/201 [2:32:51<

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 166.21804956141196
 	Mean Reward: 293.6
 	Std Reward: 112.00910677261916




 76%|████████████████████████████████████▎           | 152/201 [2:33:55<04:37,  5.67s/it][A
 76%|████████████████████████████████████▌           | 153/201 [2:34:02<04:45,  5.94s/it][A
 77%|████████████████████████████████████▊           | 154/201 [2:34:08<04:47,  6.11s/it][A
 77%|█████████████████████████████████████           | 155/201 [2:34:14<04:33,  5.95s/it][A
 78%|█████████████████████████████████████▎          | 156/201 [2:34:19<04:20,  5.79s/it][A
 78%|█████████████████████████████████████▍          | 157/201 [2:34:21<03:24,  4.66s/it][A
 79%|█████████████████████████████████████▋          | 158/201 [2:34:25<03:09,  4.41s/it][A
 79%|█████████████████████████████████████▉          | 159/201 [2:34:27<02:30,  3.59s/it][A
 80%|██████████████████████████████████████▏         | 160/201 [2:34:29<02:19,  3.39s/it][A
 80%|██████████████████████████████████████▍         | 161/201 [2:34:34<02:28,  3.71s/it][A
 81%|██████████████████████████████████████▋         | 162/201 [2:34:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 76.91787828587057
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|██████████████████████████████████████████▎     | 177/201 [2:35:27<02:09,  5.39s/it][A
 89%|██████████████████████████████████████████▌     | 178/201 [2:35:32<02:02,  5.33s/it][A
 89%|██████████████████████████████████████████▋     | 179/201 [2:35:34<01:36,  4.40s/it][A
 90%|██████████████████████████████████████████▉     | 180/201 [2:35:37<01:18,  3.75s/it][A
 90%|███████████████████████████████████████████▏    | 181/201 [2:35:39<01:08,  3.43s/it][A
 91%|███████████████████████████████████████████▍    | 182/201 [2:35:44<01:13,  3.89s/it][A
 91%|███████████████████████████████████████████▋    | 183/201 [2:35:51<01:23,  4.66s/it][A
 92%|███████████████████████████████████████████▉    | 184/201 [2:35:59<01:37,  5.72s/it][A
 92%|████████████████████████████████████████████▏   | 185/201 [2:36:07<01:43,  6.47s/it][A
 93%|████████████████████████████████████████████▍   | 186/201 [2:36:15<01:45,  7.01s/it][A
 93%|████████████████████████████████████████████▋   | 187/201 [2:36:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 66.16464312606847
 	Mean Reward: 500.0
 	Std Reward: 0.0




 40%|██████████████████▊                            | 4/10 [3:29:27<7:09:38, 4296.36s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:25,  7.84it/s][A
  1%|▌                                                   | 2/201 [00:00<00:27,  7.11it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.9166666666666666
 	Learning Stability: 4.838388161361178
 	Mean Reward: 8.7
 	Std Reward: 1.4866068747318506




  1%|▊                                                   | 3/201 [00:00<00:33,  5.91it/s][A
  2%|█                                                   | 4/201 [00:00<00:35,  5.51it/s][A
  2%|█▎                                                  | 5/201 [00:00<00:32,  5.96it/s][A
  3%|█▌                                                  | 6/201 [00:01<00:34,  5.66it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:33,  5.76it/s][A
  4%|██                                                  | 8/201 [00:01<00:31,  6.22it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:29,  6.59it/s][A
  5%|██▌                                                | 10/201 [00:01<00:28,  6.74it/s][A
  5%|██▊                                                | 11/201 [00:01<00:27,  6.94it/s][A
  6%|███                                                | 12/201 [00:01<00:26,  7.09it/s][A
  6%|███▎                                               | 13/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.9998000000499503
 	SES: 0.7777777777777778
 	Learning Stability: 0.3
 	Mean Reward: 7.4
 	Std Reward: 0.4898979485566356




 14%|███████                                            | 28/201 [00:04<00:25,  6.85it/s][A
 14%|███████▎                                           | 29/201 [00:04<00:24,  6.96it/s][A
 15%|███████▌                                           | 30/201 [00:04<00:24,  7.01it/s][A
 15%|███████▊                                           | 31/201 [00:04<00:26,  6.45it/s][A
 16%|████████                                           | 32/201 [00:04<00:27,  6.25it/s][A
 16%|████████▎                                          | 33/201 [00:04<00:26,  6.45it/s][A
 17%|████████▋                                          | 34/201 [00:05<00:25,  6.50it/s][A
 17%|████████▉                                          | 35/201 [00:05<00:32,  5.15it/s][A
 18%|█████████▏                                         | 36/201 [00:05<00:36,  4.47it/s][A
 18%|█████████▍                                         | 37/201 [00:06<00:44,  3.65it/s][A
 19%|█████████▋                                         | 38/201 [00:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 54.425729209630255
 	Mean Reward: 102.9
 	Std Reward: 7.892401408950257




 26%|█████████████▏                                     | 52/201 [00:34<05:59,  2.41s/it][A
 26%|█████████████▍                                     | 53/201 [00:36<06:09,  2.50s/it][A
 27%|█████████████▋                                     | 54/201 [00:40<07:10,  2.93s/it][A
 27%|█████████████▉                                     | 55/201 [00:44<07:26,  3.06s/it][A
 28%|██████████████▏                                    | 56/201 [00:46<07:01,  2.91s/it][A
 28%|██████████████▍                                    | 57/201 [00:49<07:15,  3.02s/it][A
 29%|██████████████▋                                    | 58/201 [00:54<08:22,  3.51s/it][A
 29%|██████████████▉                                    | 59/201 [00:59<09:27,  4.00s/it][A
 30%|███████████████▏                                   | 60/201 [01:03<09:19,  3.97s/it][A
 30%|███████████████▍                                   | 61/201 [01:07<09:25,  4.04s/it][A
 31%|███████████████▋                                   | 62/201 [01:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 11.001818031580054
 	Mean Reward: 146.9
 	Std Reward: 2.5475478405713994




 38%|███████████████████▌                               | 77/201 [02:22<08:44,  4.23s/it][A
 39%|███████████████████▊                               | 78/201 [02:27<09:05,  4.44s/it][A
 39%|████████████████████                               | 79/201 [02:31<08:57,  4.40s/it][A
 40%|████████████████████▎                              | 80/201 [02:35<08:29,  4.21s/it][A
 40%|████████████████████▌                              | 81/201 [02:38<07:37,  3.81s/it][A
 41%|████████████████████▊                              | 82/201 [02:41<07:27,  3.76s/it][A
 41%|█████████████████████                              | 83/201 [02:45<07:14,  3.69s/it][A
 42%|█████████████████████▎                             | 84/201 [02:49<07:12,  3.70s/it][A
 42%|█████████████████████▌                             | 85/201 [02:52<07:12,  3.73s/it][A
 43%|█████████████████████▊                             | 86/201 [02:56<06:51,  3.57s/it][A
 43%|██████████████████████                             | 87/201 [02:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 80.89276852722992
 	Mean Reward: 214.3
 	Std Reward: 13.8351002887583




 51%|█████████████████████████▎                        | 102/201 [03:41<07:43,  4.68s/it][A
 51%|█████████████████████████▌                        | 103/201 [03:47<08:24,  5.15s/it][A
 52%|█████████████████████████▊                        | 104/201 [03:52<08:04,  5.00s/it][A
 52%|██████████████████████████                        | 105/201 [03:56<07:48,  4.88s/it][A
 53%|██████████████████████████▎                       | 106/201 [04:00<07:16,  4.59s/it][A
 53%|██████████████████████████▌                       | 107/201 [04:05<07:04,  4.51s/it][A
 54%|██████████████████████████▊                       | 108/201 [04:08<06:39,  4.29s/it][A
 54%|███████████████████████████                       | 109/201 [04:12<06:22,  4.16s/it][A
 55%|███████████████████████████▎                      | 110/201 [04:15<05:49,  3.84s/it][A
 55%|███████████████████████████▌                      | 111/201 [04:19<05:38,  3.76s/it][A
 56%|███████████████████████████▊                      | 112/201 [04:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 63.823584982355854
 	Mean Reward: 74.5
 	Std Reward: 7.433034373659253




 63%|███████████████████████████████▌                  | 127/201 [04:59<02:09,  1.76s/it][A
 64%|███████████████████████████████▊                  | 128/201 [05:03<02:48,  2.31s/it][A
 64%|████████████████████████████████                  | 129/201 [05:07<03:30,  2.92s/it][A
 65%|████████████████████████████████▎                 | 130/201 [05:11<03:41,  3.13s/it][A
 65%|████████████████████████████████▌                 | 131/201 [05:18<05:02,  4.32s/it][A
 66%|████████████████████████████████▊                 | 132/201 [05:25<06:00,  5.23s/it][A
 66%|█████████████████████████████████                 | 133/201 [05:32<06:21,  5.61s/it][A
 67%|█████████████████████████████████▎                | 134/201 [05:36<05:44,  5.15s/it][A
 67%|█████████████████████████████████▌                | 135/201 [05:41<05:47,  5.27s/it][A
 68%|█████████████████████████████████▊                | 136/201 [05:48<06:15,  5.78s/it][A
 68%|██████████████████████████████████                | 137/201 [05:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 129.05351603114116
 	Mean Reward: 418.9
 	Std Reward: 47.37815952524961




 76%|█████████████████████████████████████▊            | 152/201 [07:16<04:58,  6.08s/it][A
 76%|██████████████████████████████████████            | 153/201 [07:25<05:23,  6.73s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [07:32<05:25,  6.93s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [07:40<05:30,  7.17s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [07:47<05:16,  7.04s/it][A
 78%|███████████████████████████████████████           | 157/201 [07:51<04:39,  6.36s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [08:00<04:59,  6.97s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [08:08<05:10,  7.40s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [08:11<04:09,  6.08s/it][A
 80%|████████████████████████████████████████          | 161/201 [08:13<03:13,  4.83s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [08:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 132.023520631742
 	Mean Reward: 139.0
 	Std Reward: 6.0




 88%|████████████████████████████████████████████      | 177/201 [09:41<01:52,  4.69s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [09:43<01:34,  4.10s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [09:46<01:18,  3.59s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [09:48<01:10,  3.33s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [09:51<01:01,  3.05s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [09:53<00:55,  2.94s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [09:56<00:48,  2.70s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [09:58<00:42,  2.52s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [10:02<00:47,  2.96s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [10:04<00:41,  2.76s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [10:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 128.7223756772691
 	Mean Reward: 130.2
 	Std Reward: 4.044749683231337




 50%|███████████████████████▌                       | 5/10 [3:40:31<4:08:52, 2986.60s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:29,  6.79it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.9407407407407408
 	Learning Stability: 4.586937976471886
 	Mean Reward: 9.6
 	Std Reward: 0.9165151389911681




  1%|▌                                                   | 2/201 [00:00<00:42,  4.65it/s][A
  1%|▊                                                   | 3/201 [00:00<00:42,  4.70it/s][A
  2%|█                                                   | 4/201 [00:00<00:40,  4.84it/s][A
  2%|█▎                                                  | 5/201 [00:01<00:40,  4.88it/s][A
  3%|█▌                                                  | 6/201 [00:01<00:37,  5.21it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:37,  5.19it/s][A
  4%|██                                                  | 8/201 [00:01<00:38,  5.07it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:39,  4.90it/s][A
  5%|██▌                                                | 10/201 [00:02<00:41,  4.66it/s][A
  5%|██▊                                                | 11/201 [00:02<00:48,  3.92it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 20.19405853215247
 	Mean Reward: 117.3
 	Std Reward: 16.95906837063876




 13%|██████▊                                            | 27/201 [00:20<05:25,  1.87s/it][A
 14%|███████                                            | 28/201 [00:21<05:07,  1.78s/it][A
 14%|███████▎                                           | 29/201 [00:23<05:03,  1.77s/it][A
 15%|███████▌                                           | 30/201 [00:25<05:01,  1.76s/it][A
 15%|███████▊                                           | 31/201 [00:26<04:48,  1.70s/it][A
 16%|████████                                           | 32/201 [00:28<05:00,  1.78s/it][A
 16%|████████▎                                          | 33/201 [00:30<05:22,  1.92s/it][A
 17%|████████▋                                          | 34/201 [00:34<06:36,  2.37s/it][A
 17%|████████▉                                          | 35/201 [00:37<07:21,  2.66s/it][A
 18%|█████████▏                                         | 36/201 [00:40<07:25,  2.70s/it][A
 18%|█████████▍                                         | 37/201 [00:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 24.36062396573618
 	Mean Reward: 158.3
 	Std Reward: 16.000312496948304




 26%|█████████████▏                                     | 52/201 [01:28<07:47,  3.14s/it][A
 26%|█████████████▍                                     | 53/201 [01:32<08:32,  3.47s/it][A
 27%|█████████████▋                                     | 54/201 [01:36<09:01,  3.68s/it][A
 27%|█████████████▉                                     | 55/201 [01:43<11:02,  4.54s/it][A
 28%|██████████████▏                                    | 56/201 [01:48<11:31,  4.77s/it][A
 28%|██████████████▍                                    | 57/201 [01:51<10:25,  4.34s/it][A
 29%|██████████████▋                                    | 58/201 [01:57<11:01,  4.62s/it][A
 29%|██████████████▉                                    | 59/201 [02:02<11:46,  4.97s/it][A
 30%|███████████████▏                                   | 60/201 [02:08<12:08,  5.17s/it][A
 30%|███████████████▍                                   | 61/201 [02:12<11:26,  4.90s/it][A
 31%|███████████████▋                                   | 62/201 [02:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 40.17412102336528
 	Mean Reward: 159.8
 	Std Reward: 15.48418548067673




 38%|███████████████████▌                               | 77/201 [03:30<09:38,  4.66s/it][A
 39%|███████████████████▊                               | 78/201 [03:32<08:03,  3.93s/it][A
 39%|████████████████████                               | 79/201 [03:35<07:16,  3.58s/it][A
 40%|████████████████████▎                              | 80/201 [03:38<07:19,  3.63s/it][A
 40%|████████████████████▌                              | 81/201 [03:43<07:38,  3.82s/it][A
 41%|████████████████████▊                              | 82/201 [03:46<07:35,  3.83s/it][A
 41%|█████████████████████                              | 83/201 [03:51<07:40,  3.90s/it][A
 42%|█████████████████████▎                             | 84/201 [03:55<07:43,  3.96s/it][A
 42%|█████████████████████▌                             | 85/201 [03:59<07:50,  4.06s/it][A
 43%|█████████████████████▊                             | 86/201 [04:03<07:34,  3.95s/it][A
 43%|██████████████████████                             | 87/201 [04:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 88.70225476277365
 	Mean Reward: 167.0
 	Std Reward: 10.119288512538814




 51%|█████████████████████████▎                        | 102/201 [05:12<07:42,  4.67s/it][A
 51%|█████████████████████████▌                        | 103/201 [05:15<07:07,  4.36s/it][A
 52%|█████████████████████████▊                        | 104/201 [05:18<06:09,  3.81s/it][A
 52%|██████████████████████████                        | 105/201 [05:20<05:24,  3.38s/it][A
 53%|██████████████████████████▎                       | 106/201 [05:22<04:47,  3.03s/it][A
 53%|██████████████████████████▌                       | 107/201 [05:25<04:30,  2.88s/it][A
 54%|██████████████████████████▊                       | 108/201 [05:28<04:38,  3.00s/it][A
 54%|███████████████████████████                       | 109/201 [05:32<04:56,  3.23s/it][A
 55%|███████████████████████████▎                      | 110/201 [05:36<05:06,  3.36s/it][A
 55%|███████████████████████████▌                      | 111/201 [05:41<05:57,  3.98s/it][A
 56%|███████████████████████████▊                      | 112/201 [05:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 16.367345539213133
 	Mean Reward: 500.0
 	Std Reward: 0.0




 63%|███████████████████████████████▌                  | 127/201 [07:45<11:35,  9.39s/it][A
 64%|███████████████████████████████▊                  | 128/201 [07:53<11:02,  9.08s/it][A
 64%|████████████████████████████████                  | 129/201 [08:02<10:47,  9.00s/it][A
 65%|████████████████████████████████▎                 | 130/201 [08:12<11:01,  9.32s/it][A
 65%|████████████████████████████████▌                 | 131/201 [08:20<10:13,  8.77s/it][A
 66%|████████████████████████████████▊                 | 132/201 [08:26<09:18,  8.10s/it][A
 66%|█████████████████████████████████                 | 133/201 [08:36<09:43,  8.59s/it][A
 67%|█████████████████████████████████▎                | 134/201 [08:46<09:53,  8.86s/it][A
 67%|█████████████████████████████████▌                | 135/201 [08:54<09:30,  8.64s/it][A
 68%|█████████████████████████████████▊                | 136/201 [09:02<09:22,  8.66s/it][A
 68%|██████████████████████████████████                | 137/201 [09:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 0.0
 	Mean Reward: 142.0
 	Std Reward: 4.147288270665544




 76%|█████████████████████████████████████▊            | 152/201 [10:34<07:25,  9.09s/it][A
 76%|██████████████████████████████████████            | 153/201 [10:43<07:13,  9.03s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [10:52<07:00,  8.96s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [10:58<06:03,  7.89s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [11:03<05:28,  7.29s/it][A
 78%|███████████████████████████████████████           | 157/201 [11:07<04:32,  6.20s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [11:09<03:29,  4.87s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [11:10<02:41,  3.84s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [11:13<02:19,  3.40s/it][A
 80%|████████████████████████████████████████          | 161/201 [11:17<02:25,  3.64s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [11:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 57.274427103202
 	Mean Reward: 191.5
 	Std Reward: 18.39157415774952




 88%|████████████████████████████████████████████      | 177/201 [12:58<01:40,  4.21s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [13:00<01:22,  3.59s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [13:03<01:11,  3.25s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [13:05<01:02,  2.98s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [13:07<00:56,  2.84s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [13:10<00:52,  2.75s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [13:13<00:51,  2.88s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [13:16<00:49,  2.93s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [13:19<00:47,  2.94s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [13:21<00:40,  2.72s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [13:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 108.92547911301561
 	Mean Reward: 117.0
 	Std Reward: 3.7416573867739413




 60%|████████████████████████████▏                  | 6/10 [3:54:50<2:30:52, 2263.23s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:36,  5.43it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.986636867960658
 	SES: 0.9382716049382716
 	Learning Stability: 9.64157663455516
 	Mean Reward: 7.0
 	Std Reward: 0.4472135954999579




  1%|▌                                                   | 2/201 [00:00<00:40,  4.89it/s][A
  1%|▊                                                   | 3/201 [00:00<00:46,  4.25it/s][A
  2%|█                                                   | 4/201 [00:00<00:47,  4.14it/s][A
  2%|█▎                                                  | 5/201 [00:01<00:44,  4.41it/s][A
  3%|█▌                                                  | 6/201 [00:01<00:40,  4.79it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:38,  5.08it/s][A
  4%|██                                                  | 8/201 [00:01<00:37,  5.12it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:35,  5.42it/s][A
  5%|██▌                                                | 10/201 [00:01<00:32,  5.84it/s][A
  5%|██▊                                                | 11/201 [00:02<00:33,  5.72it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.9866375316201883
 	SES: 0.9230769230769231
 	Learning Stability: 4.261455150532504
 	Mean Reward: 54.3
 	Std Reward: 3.7696153649941526




 13%|██████▊                                            | 27/201 [00:08<02:34,  1.12it/s][A
 14%|███████                                            | 28/201 [00:10<03:13,  1.12s/it][A
 14%|███████▎                                           | 29/201 [00:12<03:39,  1.28s/it][A
 15%|███████▌                                           | 30/201 [00:13<03:51,  1.35s/it][A
 15%|███████▊                                           | 31/201 [00:15<04:14,  1.50s/it][A
 16%|████████                                           | 32/201 [00:17<04:26,  1.57s/it][A
 16%|████████▎                                          | 33/201 [00:18<04:19,  1.54s/it][A
 17%|████████▋                                          | 34/201 [00:20<04:22,  1.57s/it][A
 17%|████████▉                                          | 35/201 [00:22<04:27,  1.61s/it][A
 18%|█████████▏                                         | 36/201 [00:24<04:34,  1.66s/it][A
 18%|█████████▍                                         | 37/201 [00:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 8.309632964216892
 	Mean Reward: 150.2
 	Std Reward: 3.1559467676119




 26%|█████████████▏                                     | 52/201 [01:08<06:23,  2.58s/it][A
 26%|█████████████▍                                     | 53/201 [01:10<06:14,  2.53s/it][A
 27%|█████████████▋                                     | 54/201 [01:12<05:57,  2.44s/it][A
 27%|█████████████▉                                     | 55/201 [01:14<05:47,  2.38s/it][A
 28%|██████████████▏                                    | 56/201 [01:17<05:55,  2.45s/it][A
 28%|██████████████▍                                    | 57/201 [01:20<06:04,  2.53s/it][A
 29%|██████████████▋                                    | 58/201 [01:22<06:07,  2.57s/it][A
 29%|██████████████▉                                    | 59/201 [01:25<06:14,  2.63s/it][A
 30%|███████████████▏                                   | 60/201 [01:28<06:11,  2.64s/it][A
 30%|███████████████▍                                   | 61/201 [01:30<05:57,  2.55s/it][A
 31%|███████████████▋                                   | 62/201 [01:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 12.705904139414873
 	Mean Reward: 131.7
 	Std Reward: 5.197114584074513




 38%|███████████████████▌                               | 77/201 [02:09<05:03,  2.45s/it][A
 39%|███████████████████▊                               | 78/201 [02:11<04:55,  2.41s/it][A
 39%|████████████████████                               | 79/201 [02:14<04:57,  2.44s/it][A
 40%|████████████████████▎                              | 80/201 [02:16<04:38,  2.30s/it][A
 40%|████████████████████▌                              | 81/201 [02:18<04:32,  2.27s/it][A
 41%|████████████████████▊                              | 82/201 [02:20<04:21,  2.20s/it][A
 41%|█████████████████████                              | 83/201 [02:22<04:19,  2.20s/it][A
 42%|█████████████████████▎                             | 84/201 [02:24<04:12,  2.15s/it][A
 42%|█████████████████████▌                             | 85/201 [02:26<03:56,  2.04s/it][A
 43%|█████████████████████▊                             | 86/201 [02:28<03:39,  1.91s/it][A
 43%|██████████████████████                             | 87/201 [02:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 6.779380502671317
 	Mean Reward: 122.9
 	Std Reward: 3.8845849199110063




 51%|█████████████████████████▎                        | 102/201 [02:59<04:49,  2.92s/it][A
 51%|█████████████████████████▌                        | 103/201 [03:05<06:06,  3.74s/it][A
 52%|█████████████████████████▊                        | 104/201 [03:08<06:02,  3.74s/it][A
 52%|██████████████████████████                        | 105/201 [03:12<05:39,  3.54s/it][A
 53%|██████████████████████████▎                       | 106/201 [03:15<05:23,  3.41s/it][A
 53%|██████████████████████████▌                       | 107/201 [03:18<05:08,  3.28s/it][A
 54%|██████████████████████████▊                       | 108/201 [03:20<04:49,  3.11s/it][A
 54%|███████████████████████████                       | 109/201 [03:23<04:33,  2.97s/it][A
 55%|███████████████████████████▎                      | 110/201 [03:26<04:23,  2.90s/it][A
 55%|███████████████████████████▌                      | 111/201 [03:28<04:15,  2.84s/it][A
 56%|███████████████████████████▊                      | 112/201 [03:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 75.65242891011498
 	Mean Reward: 203.6
 	Std Reward: 9.243376006633074




 63%|███████████████████████████████▌                  | 127/201 [04:21<04:43,  3.84s/it][A
 64%|███████████████████████████████▊                  | 128/201 [04:25<04:42,  3.87s/it][A
 64%|████████████████████████████████                  | 129/201 [04:29<04:44,  3.96s/it][A
 65%|████████████████████████████████▎                 | 130/201 [04:33<04:28,  3.79s/it][A
 65%|████████████████████████████████▌                 | 131/201 [04:35<04:03,  3.47s/it][A
 66%|████████████████████████████████▊                 | 132/201 [04:38<03:50,  3.34s/it][A
 66%|█████████████████████████████████                 | 133/201 [04:42<03:45,  3.31s/it][A
 67%|█████████████████████████████████▎                | 134/201 [04:45<03:38,  3.26s/it][A
 67%|█████████████████████████████████▌                | 135/201 [04:48<03:31,  3.21s/it][A
 68%|█████████████████████████████████▊                | 136/201 [04:51<03:17,  3.03s/it][A
 68%|██████████████████████████████████                | 137/201 [04:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 19.66341781074694
 	Mean Reward: 176.4
 	Std Reward: 3.4698703145794947




 76%|███████████████████████████████████▌           | 152/201 [14:45<2:16:00, 166.53s/it][A
 76%|███████████████████████████████████▊           | 153/201 [14:48<1:34:04, 117.59s/it][A
 77%|████████████████████████████████████▊           | 154/201 [14:51<1:05:01, 83.00s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [14:53<45:06, 58.85s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [14:55<31:24, 41.87s/it][A
 78%|███████████████████████████████████████           | 157/201 [14:58<21:58, 29.97s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [15:00<15:33, 21.71s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [15:02<11:00, 15.72s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [15:04<07:53, 11.55s/it][A
 80%|████████████████████████████████████████          | 161/201 [15:06<05:50,  8.75s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [15:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 6.3
 	Mean Reward: 204.0
 	Std Reward: 18.97893569197177




 88%|██████████████████████████████████████▋     | 177/201 [1:28:55<6:51:28, 1028.69s/it][A
 89%|██████████████████████████████████████▉     | 178/201 [2:15:38<9:58:21, 1560.92s/it][A
 89%|██████████████████████████████████████▎    | 179/201 [3:16:47<13:24:18, 2193.55s/it][A
 90%|███████████████████████████████████████▍    | 180/201 [3:16:50<8:57:38, 1536.12s/it][A
 90%|███████████████████████████████████████▌    | 181/201 [3:16:52<5:58:38, 1075.91s/it][A
 91%|███████████████████████████████████████▊    | 182/201 [4:17:55<9:46:32, 1852.25s/it][A
 91%|████████████████████████████████████████    | 183/201 [4:17:59<6:29:17, 1297.66s/it][A
 92%|█████████████████████████████████████████▏   | 184/201 [4:18:01<4:17:31, 908.92s/it][A
 92%|████████████████████████████████████████▍   | 185/201 [5:19:06<7:42:52, 1735.81s/it][A
 93%|████████████████████████████████████████▋   | 186/201 [5:19:09<5:03:59, 1215.94s/it][A
 93%|█████████████████████████████████████████▊   | 187/201 [5:19:11<

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.9866375316201883
 	SES: 1.0
 	Learning Stability: 109.25516006120718
 	Mean Reward: 163.5
 	Std Reward: 4.801041553663121




 70%|████████████████████████████████▏             | 7/10 [10:29:31<7:43:15, 9265.14s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:26,  7.66it/s][A
  1%|▌                                                   | 2/201 [00:00<00:29,  6.70it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 2.0
 	SES: 0.9290780141843972
 	Learning Stability: 8.154140052758477
 	Mean Reward: 7.1
 	Std Reward: 0.5385164807134504




  1%|▊                                                   | 3/201 [00:00<00:33,  5.86it/s][A
  2%|█                                                   | 4/201 [00:00<00:30,  6.45it/s][A
  2%|█▎                                                  | 5/201 [00:00<00:31,  6.28it/s][A
  3%|█▌                                                  | 6/201 [00:00<00:29,  6.56it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:28,  6.92it/s][A
  4%|██                                                  | 8/201 [00:01<00:26,  7.42it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:25,  7.55it/s][A
  5%|██▌                                                | 10/201 [00:01<00:23,  8.04it/s][A
  5%|██▊                                                | 11/201 [00:01<00:23,  8.14it/s][A
  6%|███                                                | 12/201 [00:01<00:22,  8.44it/s][A
  6%|███▎                                               | 13/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 0.9473684210526315
 	Learning Stability: 39.35682914056975
 	Mean Reward: 62.9
 	Std Reward: 5.223983154643591




 13%|██████▊                                            | 27/201 [00:04<01:17,  2.24it/s][A
 14%|██████▌                                        | 28/201 [46:41<38:57:55, 810.84s/it][A
 14%|██████▊                                        | 29/201 [46:43<27:25:32, 574.03s/it][A
 15%|███████                                        | 30/201 [46:45<19:14:44, 405.17s/it][A
 15%|███████▏                                       | 31/201 [46:47<13:29:28, 285.70s/it][A
 16%|███████▋                                        | 32/201 [46:48<9:26:32, 201.14s/it][A
 16%|███████▍                                     | 33/201 [1:01:01<18:27:24, 395.50s/it][A
 17%|███████▍                                    | 34/201 [1:47:42<51:41:01, 1114.14s/it][A
 17%|███████▊                                     | 35/201 [1:47:48<36:05:41, 782.78s/it][A
 18%|████████                                     | 36/201 [2:00:51<35:52:24, 782.70s/it][A
 18%|████████                                    | 37/201 [2:48:54<64

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 13.311649033834989
 	Mean Reward: 167.2
 	Std Reward: 16.442627527253666




 26%|████████████▏                                  | 52/201 [3:07:26<2:55:03, 70.49s/it][A
 26%|████████████▏                                 | 53/201 [3:14:14<7:03:23, 171.64s/it][A
 27%|████████████▎                                 | 54/201 [3:14:16<4:55:56, 120.79s/it][A
 27%|████████████▊                                  | 55/201 [3:14:18<3:27:19, 85.20s/it][A
 28%|█████████████                                  | 56/201 [3:14:20<2:25:39, 60.27s/it][A
 28%|█████████████                                 | 57/201 [3:21:06<6:33:32, 163.97s/it][A
 29%|█████████████▎                                | 58/201 [3:21:10<4:36:07, 115.86s/it][A
 29%|█████████████▊                                 | 59/201 [3:21:19<3:18:17, 83.79s/it][A
 30%|██████████████                                 | 60/201 [3:21:28<2:24:13, 61.37s/it][A
 30%|██████████████▎                                | 61/201 [3:21:33<1:43:53, 44.52s/it][A
 31%|██████████████▍                                | 62/201 [3:21:38

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 0.9230769230769231
 	Learning Stability: 19.667485858644973
 	Mean Reward: 128.9
 	Std Reward: 3.4770677301427417




 38%|██████████████████▊                              | 77/201 [3:22:34<06:18,  3.06s/it][A
 39%|███████████████████                              | 78/201 [3:22:37<06:05,  2.97s/it][A
 39%|███████████████████▎                             | 79/201 [3:22:40<06:19,  3.11s/it][A
 40%|███████████████████▌                             | 80/201 [3:22:43<05:58,  2.96s/it][A
 40%|███████████████████▋                             | 81/201 [3:22:45<05:36,  2.81s/it][A
 41%|███████████████████▉                             | 82/201 [3:22:47<05:04,  2.56s/it][A
 41%|████████████████████▏                            | 83/201 [3:22:50<04:59,  2.54s/it][A
 42%|████████████████████▍                            | 84/201 [3:22:52<05:02,  2.59s/it][A
 42%|████████████████████▋                            | 85/201 [3:22:54<04:29,  2.32s/it][A
 43%|████████████████████▉                            | 86/201 [3:22:56<04:23,  2.29s/it][A
 43%|█████████████████████▏                           | 87/201 [3:22:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 81.12712246838292
 	Mean Reward: 150.4
 	Std Reward: 12.784365451597509




 51%|████████████████████████▎                       | 102/201 [3:23:51<04:25,  2.69s/it][A
 51%|████████████████████████▌                       | 103/201 [3:23:54<04:45,  2.92s/it][A
 52%|████████████████████████▊                       | 104/201 [3:23:56<04:11,  2.59s/it][A
 52%|█████████████████████████                       | 105/201 [3:23:59<04:06,  2.57s/it][A
 53%|█████████████████████████▎                      | 106/201 [3:24:03<04:53,  3.09s/it][A
 53%|█████████████████████████▌                      | 107/201 [3:24:07<05:07,  3.27s/it][A
 54%|█████████████████████████▊                      | 108/201 [3:24:09<04:42,  3.03s/it][A
 54%|██████████████████████████                      | 109/201 [3:24:12<04:41,  3.06s/it][A
 55%|██████████████████████████▎                     | 110/201 [3:24:17<05:27,  3.59s/it][A
 55%|██████████████████████████▌                     | 111/201 [3:24:20<05:18,  3.54s/it][A
 56%|██████████████████████████▋                     | 112/201 [3:24:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 0.9285714285714286
 	Learning Stability: 9.730878685915267
 	Mean Reward: 113.9
 	Std Reward: 3.047950130825634




 63%|██████████████████████████████▎                 | 127/201 [3:25:11<04:04,  3.30s/it][A
 64%|██████████████████████████████▌                 | 128/201 [3:25:14<03:58,  3.27s/it][A
 64%|██████████████████████████████▊                 | 129/201 [3:25:18<04:13,  3.52s/it][A
 65%|███████████████████████████████                 | 130/201 [3:25:23<04:32,  3.84s/it][A
 65%|███████████████████████████████▎                | 131/201 [3:25:26<04:14,  3.63s/it][A
 66%|███████████████████████████████▌                | 132/201 [3:25:29<03:58,  3.46s/it][A
 66%|███████████████████████████████▊                | 133/201 [3:25:32<03:50,  3.39s/it][A
 67%|████████████████████████████████                | 134/201 [3:25:35<03:39,  3.27s/it][A
 67%|████████████████████████████████▏               | 135/201 [3:25:39<03:51,  3.51s/it][A
 68%|████████████████████████████████▍               | 136/201 [3:25:45<04:26,  4.10s/it][A
 68%|████████████████████████████████▋               | 137/201 [3:25:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 137.62227290667744
 	Mean Reward: 137.5
 	Std Reward: 4.201190307520001




 76%|████████████████████████████████████▎           | 152/201 [3:27:04<05:03,  6.19s/it][A
 76%|████████████████████████████████████▌           | 153/201 [3:27:12<05:28,  6.84s/it][A
 77%|████████████████████████████████████▊           | 154/201 [3:27:22<06:02,  7.72s/it][A
 77%|█████████████████████████████████████           | 155/201 [3:27:32<06:28,  8.44s/it][A
 78%|█████████████████████████████████████▎          | 156/201 [3:27:41<06:28,  8.63s/it][A
 78%|█████████████████████████████████████▍          | 157/201 [3:27:49<06:08,  8.38s/it][A
 79%|█████████████████████████████████████▋          | 158/201 [3:27:57<06:00,  8.38s/it][A
 79%|█████████████████████████████████████▉          | 159/201 [3:28:07<06:10,  8.81s/it][A
 80%|██████████████████████████████████████▏         | 160/201 [3:28:16<06:07,  8.97s/it][A
 80%|██████████████████████████████████████▍         | 161/201 [3:28:24<05:37,  8.44s/it][A
 81%|██████████████████████████████████████▋         | 162/201 [3:28:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 107.55096466327022
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|██████████████████████████████████████████▎     | 177/201 [3:30:47<03:19,  8.31s/it][A
 89%|██████████████████████████████████████████▌     | 178/201 [3:30:56<03:16,  8.53s/it][A
 89%|██████████████████████████████████████████▋     | 179/201 [3:31:06<03:21,  9.14s/it][A
 90%|██████████████████████████████████████████▉     | 180/201 [3:31:16<03:17,  9.42s/it][A
 90%|███████████████████████████████████████████▏    | 181/201 [3:31:27<03:18,  9.93s/it][A
 91%|███████████████████████████████████████████▍    | 182/201 [3:31:37<03:04,  9.71s/it][A
 91%|███████████████████████████████████████████▋    | 183/201 [3:31:45<02:45,  9.19s/it][A
 92%|███████████████████████████████████████████▉    | 184/201 [3:31:54<02:37,  9.29s/it][A
 92%|████████████████████████████████████████████▏   | 185/201 [3:32:03<02:27,  9.19s/it][A
 93%|████████████████████████████████████████████▍   | 186/201 [3:32:14<02:24,  9.63s/it][A
 93%|████████████████████████████████████████████▋   | 187/201 [3:32:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 150.33083516032232
 	Mean Reward: 115.0
 	Std Reward: 3.22490309931942




 80%|████████████████████████████████████         | 8/10 [14:03:45<5:46:54, 10407.49s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<00:30,  6.56it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.9999998499250373
 	SES: 0.9323308270676691
 	Learning Stability: 6.3118935352238
 	Mean Reward: 7.1
 	Std Reward: 0.5385164807134504




  1%|▌                                                   | 2/201 [00:00<00:37,  5.30it/s][A
  1%|▊                                                   | 3/201 [00:00<00:41,  4.75it/s][A
  2%|█                                                   | 4/201 [00:00<00:39,  5.01it/s][A
  2%|█▎                                                  | 5/201 [00:00<00:39,  5.01it/s][A
  3%|█▌                                                  | 6/201 [00:01<00:43,  4.47it/s][A
  3%|█▊                                                  | 7/201 [00:01<00:38,  4.98it/s][A
  4%|██                                                  | 8/201 [00:01<00:36,  5.27it/s][A
  4%|██▎                                                 | 9/201 [00:01<00:34,  5.54it/s][A
  5%|██▌                                                | 10/201 [00:01<00:32,  5.94it/s][A
  5%|██▊                                                | 11/201 [00:02<00:30,  6.22it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 37.60598356644857
 	Mean Reward: 88.7
 	Std Reward: 8.319254774317228




 13%|██████▊                                            | 27/201 [00:24<06:57,  2.40s/it][A
 14%|███████                                            | 28/201 [00:28<07:52,  2.73s/it][A
 14%|███████▎                                           | 29/201 [00:30<07:36,  2.66s/it][A
 15%|███████▌                                           | 30/201 [00:34<08:08,  2.86s/it][A
 15%|███████▊                                           | 31/201 [00:38<08:59,  3.17s/it][A
 16%|████████                                           | 32/201 [00:40<08:36,  3.06s/it][A
 16%|████████▎                                          | 33/201 [00:43<08:10,  2.92s/it][A
 17%|████████▋                                          | 34/201 [00:46<08:10,  2.94s/it][A
 17%|████████▉                                          | 35/201 [00:50<08:47,  3.18s/it][A
 18%|█████████▏                                         | 36/201 [00:53<08:33,  3.11s/it][A
 18%|█████████▍                                         | 37/201 [00:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 12.353137253345807
 	Mean Reward: 162.5
 	Std Reward: 9.447221813845593




 26%|█████████████▏                                     | 52/201 [01:40<07:23,  2.98s/it][A
 26%|█████████████▍                                     | 53/201 [01:43<07:27,  3.02s/it][A
 27%|█████████████▋                                     | 54/201 [01:46<07:19,  2.99s/it][A
 27%|█████████████▉                                     | 55/201 [01:49<07:14,  2.98s/it][A
 28%|██████████████▏                                    | 56/201 [01:52<07:18,  3.02s/it][A
 28%|██████████████▍                                    | 57/201 [01:55<07:14,  3.02s/it][A
 29%|██████████████▋                                    | 58/201 [01:58<07:01,  2.95s/it][A
 29%|██████████████▉                                    | 59/201 [02:01<06:39,  2.81s/it][A
 30%|███████████████▏                                   | 60/201 [02:03<06:23,  2.72s/it][A
 30%|███████████████▍                                   | 61/201 [02:06<06:26,  2.76s/it][A
 31%|███████████████▋                                   | 62/201 [02:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 26.371196408202643
 	Mean Reward: 20.5
 	Std Reward: 3.0413812651491097




 38%|███████████████████▌                               | 77/201 [02:49<04:27,  2.15s/it][A
 39%|███████████████████▊                               | 78/201 [02:51<04:33,  2.22s/it][A
 39%|████████████████████                               | 79/201 [02:53<04:41,  2.31s/it][A
 40%|████████████████████▎                              | 80/201 [02:57<05:14,  2.60s/it][A
 40%|████████████████████▌                              | 81/201 [03:00<05:42,  2.85s/it][A
 41%|████████████████████▊                              | 82/201 [03:03<05:23,  2.72s/it][A
 41%|█████████████████████                              | 83/201 [03:05<05:06,  2.60s/it][A
 42%|█████████████████████▎                             | 84/201 [03:07<05:04,  2.60s/it][A
 42%|█████████████████████▌                             | 85/201 [03:11<05:34,  2.88s/it][A
 43%|█████████████████████▊                             | 86/201 [03:15<06:01,  3.14s/it][A
 43%|██████████████████████                             | 87/201 [03:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 155.1452545197564
 	Mean Reward: 187.8
 	Std Reward: 12.592060990957755




 51%|█████████████████████████▎                        | 102/201 [04:17<08:18,  5.03s/it][A
 51%|█████████████████████████▌                        | 103/201 [04:22<08:19,  5.09s/it][A
 52%|█████████████████████████▊                        | 104/201 [04:28<08:21,  5.17s/it][A
 52%|██████████████████████████                        | 105/201 [04:34<08:47,  5.50s/it][A
 53%|██████████████████████████▎                       | 106/201 [04:41<09:22,  5.92s/it][A
 53%|██████████████████████████▌                       | 107/201 [04:49<10:27,  6.67s/it][A
 54%|██████████████████████████▊                       | 108/201 [04:56<10:23,  6.70s/it][A
 54%|███████████████████████████                       | 109/201 [05:03<10:18,  6.72s/it][A
 55%|███████████████████████████▎                      | 110/201 [05:11<10:43,  7.07s/it][A
 55%|███████████████████████████▌                      | 111/201 [05:19<11:18,  7.54s/it][A
 56%|███████████████████████████▊                      | 112/201 [05:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 23.426694175662085
 	Mean Reward: 102.0
 	Std Reward: 6.29285308902091




 63%|███████████████████████████████▌                  | 127/201 [06:32<03:18,  2.68s/it][A
 64%|███████████████████████████████▊                  | 128/201 [06:41<05:40,  4.66s/it][A
 64%|████████████████████████████████                  | 129/201 [06:49<06:53,  5.74s/it][A
 65%|████████████████████████████████▎                 | 130/201 [06:57<07:38,  6.46s/it][A
 65%|████████████████████████████████▌                 | 131/201 [07:07<08:41,  7.45s/it][A
 66%|████████████████████████████████▊                 | 132/201 [07:16<09:07,  7.94s/it][A
 66%|█████████████████████████████████                 | 133/201 [07:26<09:34,  8.45s/it][A
 67%|█████████████████████████████████▎                | 134/201 [07:35<09:37,  8.61s/it][A
 67%|█████████████████████████████████▌                | 135/201 [07:44<09:38,  8.77s/it][A
 68%|█████████████████████████████████▊                | 136/201 [07:50<08:41,  8.03s/it][A
 68%|██████████████████████████████████                | 137/201 [07:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 18.571214284478007
 	Mean Reward: 126.9
 	Std Reward: 7.7517739905133975




 76%|█████████████████████████████████████▊            | 152/201 [09:39<03:39,  4.48s/it][A
 76%|██████████████████████████████████████            | 153/201 [09:45<03:57,  4.95s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [09:53<04:38,  5.93s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [10:02<05:09,  6.72s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [10:11<05:32,  7.38s/it][A
 78%|███████████████████████████████████████           | 157/201 [10:19<05:35,  7.62s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [10:27<05:30,  7.69s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [10:36<05:43,  8.17s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [10:43<05:22,  7.86s/it][A
 80%|████████████████████████████████████████          | 161/201 [10:48<04:34,  6.87s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [10:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 7.256031973468694
 	Mean Reward: 158.2
 	Std Reward: 8.89719056781409




 88%|████████████████████████████████████████████      | 177/201 [11:39<01:15,  3.14s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [11:40<00:55,  2.40s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [11:40<00:42,  1.95s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [11:41<00:34,  1.65s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [11:43<00:30,  1.52s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [11:45<00:31,  1.65s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [11:50<00:52,  2.91s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [11:56<01:05,  3.87s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [12:00<00:59,  3.74s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [12:05<01:01,  4.12s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [12:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 2.0
 	SES: 1.0
 	Learning Stability: 155.9525889493342
 	Mean Reward: 500.0
 	Std Reward: 0.0




 90%|█████████████████████████████████████████▍    | 9/10 [14:17:16<2:03:27, 7407.52s/it]
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                   | 1/201 [00:00<01:22,  2.43it/s][A

Evaluation 0 (Epsilon=0.9900448802097482):
	AAR: 1.0
 	SES: 0.9647887323943662
 	Learning Stability: 14.494481708567575
 	Mean Reward: 13.5
 	Std Reward: 1.118033988749895




  1%|▌                                                   | 2/201 [00:00<01:13,  2.69it/s][A
  1%|▊                                                   | 3/201 [00:01<01:13,  2.68it/s][A
  2%|█                                                   | 4/201 [00:01<01:11,  2.75it/s][A
  2%|█▎                                                  | 5/201 [00:01<01:08,  2.86it/s][A
  3%|█▌                                                  | 6/201 [00:02<01:14,  2.61it/s][A
  3%|█▊                                                  | 7/201 [00:02<01:11,  2.73it/s][A
  4%|██                                                  | 8/201 [00:02<01:03,  3.03it/s][A
  4%|██▎                                                 | 9/201 [00:03<00:58,  3.27it/s][A
  5%|██▌                                                | 10/201 [00:03<00:57,  3.35it/s][A
  5%|██▊                                                | 11/201 [00:03<00:59,  3.22it/s][A
  6%|███                                                | 12/201 [00:

Evaluation 25 (Epsilon=0.7709512887465825):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 36.04219749127403
 	Mean Reward: 128.5
 	Std Reward: 8.34565755348253




 13%|██████▊                                            | 27/201 [00:36<08:08,  2.81s/it][A
 14%|███████                                            | 28/201 [00:39<07:45,  2.69s/it][A
 14%|███████▎                                           | 29/201 [00:41<07:21,  2.57s/it][A
 15%|███████▌                                           | 30/201 [00:43<06:59,  2.45s/it][A
 15%|███████▊                                           | 31/201 [00:46<07:00,  2.47s/it][A
 16%|████████                                           | 32/201 [00:49<07:22,  2.62s/it][A
 16%|████████▎                                          | 33/201 [00:52<07:43,  2.76s/it][A
 17%|████████▋                                          | 34/201 [00:55<07:58,  2.87s/it][A
 17%|████████▉                                          | 35/201 [00:58<08:22,  3.03s/it][A
 18%|█████████▏                                         | 36/201 [01:02<09:04,  3.30s/it][A
 18%|█████████▍                                         | 37/201 [01:

Evaluation 50 (Epsilon=0.6003423698268052):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 39.77134646953759
 	Mean Reward: 224.9
 	Std Reward: 17.716941045225614




 26%|█████████████▏                                     | 52/201 [02:18<11:28,  4.62s/it][A
 26%|█████████████▍                                     | 53/201 [02:23<11:44,  4.76s/it][A
 27%|█████████████▋                                     | 54/201 [02:26<10:50,  4.43s/it][A
 27%|█████████████▉                                     | 55/201 [02:30<09:53,  4.07s/it][A
 28%|██████████████▏                                    | 56/201 [02:33<08:58,  3.72s/it][A
 28%|██████████████▍                                    | 57/201 [02:36<08:21,  3.49s/it][A
 29%|██████████████▋                                    | 58/201 [02:39<08:00,  3.36s/it][A
 29%|██████████████▉                                    | 59/201 [02:42<07:55,  3.35s/it][A
 30%|███████████████▏                                   | 60/201 [02:45<07:59,  3.40s/it][A
 30%|███████████████▍                                   | 61/201 [02:51<09:42,  4.16s/it][A
 31%|███████████████▋                                   | 62/201 [02:

Evaluation 75 (Epsilon=0.46748862900952265):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 115.87169628515844
 	Mean Reward: 147.4
 	Std Reward: 4.586937976471886




 38%|███████████████████▌                               | 77/201 [04:16<07:35,  3.67s/it][A
 39%|███████████████████▊                               | 78/201 [04:19<07:05,  3.46s/it][A
 39%|████████████████████                               | 79/201 [04:22<06:49,  3.35s/it][A
 40%|████████████████████▎                              | 80/201 [04:25<06:28,  3.21s/it][A
 40%|████████████████████▌                              | 81/201 [04:30<07:14,  3.62s/it][A
 41%|████████████████████▊                              | 82/201 [04:37<09:05,  4.59s/it][A
 41%|█████████████████████                              | 83/201 [04:41<09:06,  4.63s/it][A
 42%|█████████████████████▎                             | 84/201 [04:46<09:01,  4.63s/it][A
 42%|█████████████████████▌                             | 85/201 [04:54<10:46,  5.58s/it][A
 43%|█████████████████████▊                             | 86/201 [04:58<10:13,  5.33s/it][A
 43%|██████████████████████                             | 87/201 [05:

Evaluation 100 (Epsilon=0.36403497277104113):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 35.88718434204611
 	Mean Reward: 32.9
 	Std Reward: 2.586503431275513




 51%|█████████████████████████▎                        | 102/201 [06:00<04:10,  2.53s/it][A
 51%|█████████████████████████▌                        | 103/201 [06:02<03:50,  2.35s/it][A
 52%|█████████████████████████▊                        | 104/201 [06:03<03:22,  2.08s/it][A
 52%|██████████████████████████                        | 105/201 [06:05<03:15,  2.04s/it][A
 53%|██████████████████████████▎                       | 106/201 [06:07<03:16,  2.07s/it][A
 53%|██████████████████████████▌                       | 107/201 [06:11<04:08,  2.65s/it][A
 54%|██████████████████████████▊                       | 108/201 [06:15<04:42,  3.03s/it][A
 54%|███████████████████████████                       | 109/201 [06:19<04:49,  3.15s/it][A
 55%|███████████████████████████▎                      | 110/201 [06:23<05:24,  3.57s/it][A
 55%|███████████████████████████▌                      | 111/201 [06:28<05:59,  3.99s/it][A
 56%|███████████████████████████▊                      | 112/201 [06:

Evaluation 125 (Epsilon=0.28347526159339653):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 63.61171275795048
 	Mean Reward: 183.4
 	Std Reward: 19.158288023724875




 63%|███████████████████████████████▌                  | 127/201 [07:55<06:26,  5.22s/it][A
 64%|███████████████████████████████▊                  | 128/201 [08:02<07:09,  5.89s/it][A
 64%|████████████████████████████████                  | 129/201 [08:10<07:49,  6.52s/it][A
 65%|████████████████████████████████▎                 | 130/201 [08:15<07:08,  6.04s/it][A
 65%|████████████████████████████████▌                 | 131/201 [08:18<06:07,  5.25s/it][A
 66%|████████████████████████████████▊                 | 132/201 [08:22<05:33,  4.83s/it][A
 66%|█████████████████████████████████                 | 133/201 [08:25<04:54,  4.33s/it][A
 67%|█████████████████████████████████▎                | 134/201 [08:29<04:28,  4.01s/it][A
 67%|█████████████████████████████████▌                | 135/201 [08:32<04:03,  3.69s/it][A
 68%|█████████████████████████████████▊                | 136/201 [08:34<03:43,  3.44s/it][A
 68%|██████████████████████████████████                | 137/201 [08:

Evaluation 150 (Epsilon=0.22074314268147424):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 4.323193264243457
 	Mean Reward: 123.7
 	Std Reward: 5.478138369920935




 76%|█████████████████████████████████████▊            | 152/201 [09:22<02:18,  2.82s/it][A
 76%|██████████████████████████████████████            | 153/201 [09:25<02:15,  2.83s/it][A
 77%|██████████████████████████████████████▎           | 154/201 [09:29<02:19,  2.97s/it][A
 77%|██████████████████████████████████████▌           | 155/201 [09:32<02:15,  2.95s/it][A
 78%|██████████████████████████████████████▊           | 156/201 [09:34<02:11,  2.93s/it][A
 78%|███████████████████████████████████████           | 157/201 [09:37<02:07,  2.91s/it][A
 79%|███████████████████████████████████████▎          | 158/201 [09:40<02:09,  3.00s/it][A
 79%|███████████████████████████████████████▌          | 159/201 [09:44<02:11,  3.12s/it][A
 80%|███████████████████████████████████████▊          | 160/201 [09:47<02:05,  3.07s/it][A
 80%|████████████████████████████████████████          | 161/201 [09:49<01:55,  2.88s/it][A
 81%|████████████████████████████████████████▎         | 162/201 [09:

Evaluation 175 (Epsilon=0.1718934300192521):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 5.223983154643591
 	Mean Reward: 131.8
 	Std Reward: 3.919183588453085




 88%|████████████████████████████████████████████      | 177/201 [10:31<01:02,  2.62s/it][A
 89%|████████████████████████████████████████████▎     | 178/201 [10:34<01:01,  2.68s/it][A
 89%|████████████████████████████████████████████▌     | 179/201 [10:37<01:00,  2.74s/it][A
 90%|████████████████████████████████████████████▊     | 180/201 [10:40<00:55,  2.65s/it][A
 90%|█████████████████████████████████████████████     | 181/201 [10:43<01:00,  3.03s/it][A
 91%|█████████████████████████████████████████████▎    | 182/201 [10:49<01:14,  3.94s/it][A
 91%|█████████████████████████████████████████████▌    | 183/201 [10:54<01:11,  3.98s/it][A
 92%|█████████████████████████████████████████████▊    | 184/201 [11:01<01:23,  4.93s/it][A
 92%|██████████████████████████████████████████████    | 185/201 [11:07<01:23,  5.24s/it][A
 93%|██████████████████████████████████████████████▎   | 186/201 [11:09<01:06,  4.43s/it][A
 93%|██████████████████████████████████████████████▌   | 187/201 [11:

Evaluation 200 (Epsilon=0.13385399394453418):
	AAR: 1.0
 	SES: 1.0
 	Learning Stability: 4.323193264243457
 	Mean Reward: 113.5
 	Std Reward: 4.944694126030447




100%|███████████████████████████████████████████████| 10/10 [14:29:05<00:00, 5214.57s/it]


In [10]:
dqn_df.to_csv(DATASETS_DQN_DIR / 'dqn.csv', index=False)