In [1]:
%cd ..

/Users/danorel/Workspace/Education/University/KMA/Research/aclarel


In [2]:
import functools
import pathlib

from tqdm import tqdm

import environments.cart_pole.environment as cart_pole
import environments.cart_pole.experiments as experiments

## Curriculum Learning: Setup

### Data Frame

In [3]:
import pandas as pd

def data_frame_from_agents(agents):
    df = pd.DataFrame()
    for agent in agents:
        df = pd.concat([df, agent.measurements])
    return df

## Reinforcement Learning: Experiments

In [4]:
DATASETS_DIR = pathlib.Path("datasets") / "cart_pole"
DATASETS_DIR.mkdir(parents=True, exist_ok=True)

### QTable

#### Curriculum parameter: pole length 

In [5]:
from environments.cart_pole.rl_methods.q_table import QLearningAgent

q_learning_agent = functools.partial(experiments.get_agent, agent_name='q-learning')

agents = [
    q_learning_agent(curriculum_name='baseline'),
    q_learning_agent(curriculum_name='transfer-learning'),
    q_learning_agent(curriculum_name='teacher-learning'),
    q_learning_agent(curriculum_name='one-pass'),
    q_learning_agent(curriculum_name='root-p'),
    q_learning_agent(curriculum_name='hard'),
    q_learning_agent(curriculum_name='linear'),
    q_learning_agent(curriculum_name='logarithmic'),
    q_learning_agent(curriculum_name='logistic'),
    q_learning_agent(curriculum_name='mixture'),
    q_learning_agent(curriculum_name='polynomial'),
    q_learning_agent(curriculum_name='anti-curriculum')
]

for agent in tqdm(agents):
    curriculum = experiments.get_curriculum(agent)
    cart_pole.train_evaluate(agent, curriculum)

q_learning_df = data_frame_from_agents(agents)

  0%|                                                                     | 0/12 [00:00<?, ?it/s]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 8/5001 [00:00<01:07, 73.99it/s][A
  0%|▏                                                         | 16/5001 [00:00<01:08, 72.86it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.5
 	Training Stability: 0.4
 	AAR: 1.0
 	SES: 0.833
 	Mean Reward: 9.2
 	Std Reward: 0.98




  0%|▎                                                         | 24/5001 [00:00<01:06, 74.37it/s][A
  1%|▎                                                         | 32/5001 [00:00<01:07, 73.81it/s][A
  1%|▍                                                         | 40/5001 [00:00<01:05, 75.90it/s][A
  1%|▌                                                         | 48/5001 [00:00<01:05, 75.58it/s][A
  1%|▋                                                         | 56/5001 [00:00<01:05, 75.91it/s][A
  1%|▋                                                         | 64/5001 [00:00<01:09, 71.35it/s][A
  1%|▊                                                         | 72/5001 [00:01<01:17, 63.87it/s][A
  2%|▉                                                         | 79/5001 [00:01<01:18, 62.41it/s][A
  2%|▉                                                         | 86/5001 [00:01<01:18, 62.81it/s][A
  2%|█                                                         | 93/5001 [00:01<01:21, 59.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.5
 	Training Stability: 1.269
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 11.6
 	Std Reward: 1.562




  5%|███                                                      | 266/5001 [00:04<01:21, 57.83it/s][A
  5%|███                                                      | 273/5001 [00:04<01:19, 59.77it/s][A
  6%|███▏                                                     | 280/5001 [00:04<01:17, 60.70it/s][A
  6%|███▎                                                     | 287/5001 [00:04<01:15, 62.12it/s][A
  6%|███▎                                                     | 294/5001 [00:04<01:14, 63.18it/s][A
  6%|███▍                                                     | 301/5001 [00:04<01:14, 62.68it/s][A
  6%|███▌                                                     | 308/5001 [00:04<01:17, 60.39it/s][A
  6%|███▌                                                     | 315/5001 [00:04<01:14, 62.50it/s][A
  6%|███▋                                                     | 322/5001 [00:05<01:14, 62.67it/s][A
  7%|███▋                                                     | 329/5001 [00:05<01:14, 62.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.5
 	Training Stability: 1.327
 	AAR: 1.0
 	SES: 0
 	Mean Reward: 13.9
 	Std Reward: 2.427




 10%|█████▉                                                   | 516/5001 [00:08<01:16, 58.27it/s][A
 10%|█████▉                                                   | 522/5001 [00:08<01:17, 57.59it/s][A
 11%|██████                                                   | 529/5001 [00:08<01:15, 58.85it/s][A
 11%|██████                                                   | 535/5001 [00:08<01:17, 57.96it/s][A
 11%|██████▏                                                  | 541/5001 [00:08<01:17, 57.71it/s][A
 11%|██████▏                                                  | 547/5001 [00:08<01:18, 56.81it/s][A
 11%|██████▎                                                  | 553/5001 [00:08<01:18, 56.50it/s][A
 11%|██████▎                                                  | 559/5001 [00:09<01:18, 56.30it/s][A
 11%|██████▍                                                  | 565/5001 [00:09<01:20, 55.10it/s][A
 11%|██████▌                                                  | 571/5001 [00:09<01:19, 55.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.5
 	Training Stability: 1.833
 	AAR: 1.0
 	SES: 0
 	Mean Reward: 13.7
 	Std Reward: 2.283




 15%|████████▊                                                | 768/5001 [00:12<01:12, 58.37it/s][A
 15%|████████▊                                                | 774/5001 [00:12<01:13, 57.86it/s][A
 16%|████████▉                                                | 780/5001 [00:12<01:13, 57.56it/s][A
 16%|████████▉                                                | 786/5001 [00:13<01:12, 58.08it/s][A
 16%|█████████                                                | 792/5001 [00:13<01:12, 57.85it/s][A
 16%|█████████                                                | 798/5001 [00:13<01:14, 56.64it/s][A
 16%|█████████▏                                               | 804/5001 [00:13<01:13, 57.07it/s][A
 16%|█████████▏                                               | 810/5001 [00:13<01:13, 56.80it/s][A
 16%|█████████▎                                               | 816/5001 [00:13<01:12, 57.34it/s][A
 16%|█████████▎                                               | 822/5001 [00:13<01:12, 57.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.5
 	Training Stability: 2.625
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 17.4
 	Std Reward: 2.059




 20%|███████████▎                                            | 1015/5001 [00:17<01:23, 47.64it/s][A
 20%|███████████▍                                            | 1020/5001 [00:17<01:23, 47.55it/s][A
 20%|███████████▍                                            | 1025/5001 [00:17<01:22, 47.98it/s][A
 21%|███████████▌                                            | 1030/5001 [00:17<01:23, 47.74it/s][A
 21%|███████████▌                                            | 1035/5001 [00:17<01:22, 47.91it/s][A
 21%|███████████▋                                            | 1040/5001 [00:17<01:22, 47.83it/s][A
 21%|███████████▋                                            | 1045/5001 [00:18<01:22, 48.12it/s][A
 21%|███████████▊                                            | 1050/5001 [00:18<01:23, 47.07it/s][A
 21%|███████████▊                                            | 1055/5001 [00:18<01:22, 47.60it/s][A
 21%|███████████▊                                            | 1060/5001 [00:18<01:22, 47.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.5
 	Training Stability: 2.441
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 18.9
 	Std Reward: 2.256




 25%|██████████████                                          | 1260/5001 [00:22<01:25, 43.80it/s][A
 25%|██████████████▏                                         | 1265/5001 [00:22<01:25, 43.58it/s][A
 25%|██████████████▏                                         | 1270/5001 [00:22<01:25, 43.74it/s][A
 25%|██████████████▎                                         | 1275/5001 [00:23<01:24, 43.92it/s][A
 26%|██████████████▎                                         | 1280/5001 [00:23<01:25, 43.33it/s][A
 26%|██████████████▍                                         | 1285/5001 [00:23<01:25, 43.49it/s][A
 26%|██████████████▍                                         | 1290/5001 [00:23<01:25, 43.34it/s][A
 26%|██████████████▌                                         | 1295/5001 [00:23<01:23, 44.46it/s][A
 26%|██████████████▌                                         | 1300/5001 [00:23<01:23, 44.43it/s][A
 26%|██████████████▌                                         | 1305/5001 [00:23<01:24, 43.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.5
 	Training Stability: 2.193
 	AAR: 1.0
 	SES: 0.0
 	Mean Reward: 18.2
 	Std Reward: 3.187




 30%|████████████████▉                                       | 1510/5001 [00:28<01:23, 41.66it/s][A
 30%|████████████████▉                                       | 1515/5001 [00:28<01:24, 41.15it/s][A
 30%|█████████████████                                       | 1520/5001 [00:28<01:23, 41.79it/s][A
 30%|█████████████████                                       | 1525/5001 [00:28<01:22, 42.13it/s][A
 31%|█████████████████▏                                      | 1530/5001 [00:29<01:21, 42.69it/s][A
 31%|█████████████████▏                                      | 1535/5001 [00:29<01:22, 42.17it/s][A
 31%|█████████████████▏                                      | 1540/5001 [00:29<01:23, 41.21it/s][A
 31%|█████████████████▎                                      | 1545/5001 [00:29<01:21, 42.20it/s][A
 31%|█████████████████▎                                      | 1550/5001 [00:29<01:21, 42.34it/s][A
 31%|█████████████████▍                                      | 1555/5001 [00:29<01:21, 42.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.5
 	Training Stability: 2.786
 	AAR: 1.0
 	SES: 0
 	Mean Reward: 21.6
 	Std Reward: 3.666




 35%|███████████████████▋                                    | 1761/5001 [00:34<01:30, 35.66it/s][A
 35%|███████████████████▊                                    | 1765/5001 [00:35<01:31, 35.49it/s][A
 35%|███████████████████▊                                    | 1769/5001 [00:35<01:31, 35.39it/s][A
 35%|███████████████████▊                                    | 1773/5001 [00:35<01:31, 35.25it/s][A
 36%|███████████████████▉                                    | 1778/5001 [00:35<01:25, 37.76it/s][A
 36%|███████████████████▉                                    | 1782/5001 [00:35<01:25, 37.71it/s][A
 36%|███████████████████▉                                    | 1786/5001 [00:35<01:26, 37.37it/s][A
 36%|████████████████████                                    | 1790/5001 [00:35<01:27, 36.87it/s][A
 36%|████████████████████                                    | 1794/5001 [00:35<01:27, 36.65it/s][A
 36%|████████████████████▏                                   | 1798/5001 [00:35<01:26, 36.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.5
 	Training Stability: 3.156
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 19.6
 	Std Reward: 3.72




 40%|██████████████████████▌                                 | 2011/5001 [00:41<01:28, 33.95it/s][A
 40%|██████████████████████▌                                 | 2015/5001 [00:41<01:25, 34.84it/s][A
 40%|██████████████████████▌                                 | 2019/5001 [00:42<01:24, 35.23it/s][A
 40%|██████████████████████▋                                 | 2023/5001 [00:42<01:24, 35.17it/s][A
 41%|██████████████████████▋                                 | 2027/5001 [00:42<01:28, 33.57it/s][A
 41%|██████████████████████▋                                 | 2031/5001 [00:42<01:26, 34.24it/s][A
 41%|██████████████████████▊                                 | 2035/5001 [00:42<01:25, 34.50it/s][A
 41%|██████████████████████▊                                 | 2039/5001 [00:42<01:25, 34.68it/s][A
 41%|██████████████████████▉                                 | 2043/5001 [00:42<01:26, 34.16it/s][A
 41%|██████████████████████▉                                 | 2047/5001 [00:42<01:25, 34.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.5
 	Training Stability: 7.267
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 44.6
 	Std Reward: 4.055




 45%|█████████████████████████▎                              | 2256/5001 [00:53<02:40, 17.14it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [00:53<02:40, 17.07it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [00:53<02:35, 17.68it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [00:53<02:30, 18.16it/s][A
 45%|█████████████████████████▎                              | 2264/5001 [00:53<02:26, 18.63it/s][A
 45%|█████████████████████████▎                              | 2266/5001 [00:53<02:23, 19.01it/s][A
 45%|█████████████████████████▍                              | 2268/5001 [00:54<02:24, 18.86it/s][A
 45%|█████████████████████████▍                              | 2270/5001 [00:54<02:22, 19.14it/s][A
 45%|█████████████████████████▍                              | 2273/5001 [00:54<02:18, 19.72it/s][A
 45%|█████████████████████████▍                              | 2275/5001 [00:54<02:28, 18.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.5
 	Training Stability: 5.77
 	AAR: 1.0
 	SES: 0
 	Mean Reward: 56.3
 	Std Reward: 7.267



 50%|████████████████████████████                            | 2505/5001 [01:09<02:55, 14.26it/s][A
 50%|████████████████████████████                            | 2507/5001 [01:09<02:55, 14.18it/s][A
 50%|████████████████████████████                            | 2509/5001 [01:10<02:56, 14.10it/s][A
 50%|████████████████████████████                            | 2511/5001 [01:10<02:59, 13.89it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [01:10<02:58, 13.90it/s][A
 50%|████████████████████████████▏                           | 2515/5001 [01:10<02:53, 14.30it/s][A
 50%|████████████████████████████▏                           | 2517/5001 [01:10<02:48, 14.76it/s][A
 50%|████████████████████████████▏                           | 2519/5001 [01:10<02:51, 14.43it/s][A
 50%|████████████████████████████▏                           | 2521/5001 [01:10<02:58, 13.89it/s][A
 50%|████████████████████████████▎                           | 2523/5001 [01:11<02:50, 14.5

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.5
 	Training Stability: 27.019
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 79.3
 	Std Reward: 21.448




 55%|██████████████████████████████▊                         | 2754/5001 [01:31<03:39, 10.23it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [01:31<03:32, 10.58it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [01:31<03:18, 11.31it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [01:31<03:18, 11.31it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [01:31<03:26, 10.85it/s][A
 55%|██████████████████████████████▉                         | 2764/5001 [01:32<03:24, 10.97it/s][A
 55%|██████████████████████████████▉                         | 2766/5001 [01:32<03:27, 10.80it/s][A
 55%|██████████████████████████████▉                         | 2768/5001 [01:32<03:27, 10.76it/s][A
 55%|███████████████████████████████                         | 2770/5001 [01:32<03:29, 10.66it/s][A
 55%|███████████████████████████████                         | 2772/5001 [01:32<03:19, 11.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 8.619
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 89.8
 	Std Reward: 9.775



 60%|█████████████████████████████████▋                      | 3003/5001 [01:54<03:52,  8.59it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [01:54<03:50,  8.66it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [01:54<03:46,  8.82it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [01:54<03:46,  8.79it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [01:54<03:42,  8.96it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [01:54<03:43,  8.93it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [01:54<03:28,  9.56it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [01:54<03:45,  8.81it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [01:55<04:16,  7.74it/s][A
 60%|█████████████████████████████████▋                      | 3013/5001 [01:55<04:41,  7.0

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 137.431
 	AAR: 1.0
 	SES: 0.933
 	Mean Reward: 209.3
 	Std Reward: 135.551




 65%|████████████████████████████████████▍                   | 3253/5001 [02:31<04:49,  6.04it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [02:31<04:28,  6.50it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [02:32<04:09,  7.00it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [02:32<04:32,  6.39it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [02:32<05:26,  5.35it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [02:32<04:50,  6.00it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [02:32<04:43,  6.13it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [02:33<05:39,  5.13it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [02:33<05:06,  5.68it/s][A
 65%|████████████████████████████████████▌                   | 3262/5001 [02:33<05:03,  5.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 21.652
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 88.6
 	Std Reward: 13.017




 70%|███████████████████████████████████████▏                | 3503/5001 [03:20<03:25,  7.31it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [03:20<03:29,  7.14it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [03:20<03:17,  7.56it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [03:20<03:31,  7.08it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [03:21<03:31,  7.07it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [03:21<03:32,  7.03it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [03:21<03:24,  7.29it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [03:21<03:16,  7.60it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [03:21<03:25,  7.26it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [03:21<03:48,  6.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 152.85
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 345.0
 	Std Reward: 143.842




 75%|██████████████████████████████████████████              | 3752/5001 [04:12<06:40,  3.12it/s][A
 75%|██████████████████████████████████████████              | 3753/5001 [04:12<07:14,  2.87it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [04:13<07:25,  2.80it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [04:13<07:01,  2.95it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [04:13<07:03,  2.94it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [04:14<07:05,  2.92it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [04:14<07:06,  2.91it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [04:14<06:45,  3.06it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [04:15<07:04,  2.93it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [04:15<07:22,  2.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 118.527
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 332.3
 	Std Reward: 136.692




 80%|████████████████████████████████████████████▊           | 4002/5001 [05:17<06:46,  2.46it/s][A
 80%|████████████████████████████████████████████▊           | 4003/5001 [05:18<06:38,  2.50it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [05:18<06:45,  2.46it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [05:18<06:27,  2.57it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [05:19<07:04,  2.34it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [05:19<07:10,  2.31it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [05:20<06:24,  2.58it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [05:20<06:26,  2.57it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [05:20<06:52,  2.41it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [05:21<06:55,  2.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 61.56
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 177.3
 	Std Reward: 69.071



 85%|███████████████████████████████████████████████▌        | 4252/5001 [06:18<02:16,  5.48it/s][A
 85%|███████████████████████████████████████████████▌        | 4253/5001 [06:18<02:17,  5.43it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [06:18<02:23,  5.22it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [06:19<02:24,  5.17it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [06:19<02:25,  5.12it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [06:19<02:24,  5.15it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [06:19<02:30,  4.95it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [06:19<02:37,  4.72it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [06:20<02:31,  4.89it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [06:20<02:52,  4.2

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 93.271
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 385.9
 	Std Reward: 128.73



 90%|██████████████████████████████████████████████████▍     | 4502/5001 [07:34<03:36,  2.31it/s][A
 90%|██████████████████████████████████████████████████▍     | 4503/5001 [07:34<03:43,  2.22it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [07:34<03:30,  2.36it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [07:35<03:25,  2.41it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [07:35<03:34,  2.31it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [07:36<03:26,  2.39it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [07:36<03:24,  2.41it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [07:36<03:24,  2.41it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [07:37<03:15,  2.52it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [07:37<03:11,  2.5

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 80.161
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 302.2
 	Std Reward: 77.989




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [09:11<01:08,  3.66it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [09:11<01:10,  3.50it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [09:12<01:10,  3.51it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [09:12<01:00,  4.04it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [09:12<01:07,  3.62it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [09:13<01:16,  3.17it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [09:13<01:17,  3.14it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [09:13<01:11,  3.39it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [09:13<01:01,  3.92it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [09:14<00:55,  4.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 0.0
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




  8%|████▊                                                     | 1/12 [10:46<1:58:31, 646.52s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 8/5001 [00:00<01:06, 75.61it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 1.02
 	AAR: 2.0
 	SES: 0.889
 	Mean Reward: 9.8
 	Std Reward: 0.4




  0%|▏                                                         | 17/5001 [00:00<01:03, 78.61it/s][A
  1%|▎                                                         | 26/5001 [00:00<01:02, 79.96it/s][A
  1%|▍                                                         | 36/5001 [00:00<00:58, 85.25it/s][A
  1%|▌                                                         | 45/5001 [00:00<00:58, 85.01it/s][A
  1%|▋                                                         | 54/5001 [00:00<00:58, 85.00it/s][A
  1%|▋                                                         | 64/5001 [00:00<00:55, 89.20it/s][A
  1%|▊                                                         | 73/5001 [00:00<00:55, 88.35it/s][A
  2%|▉                                                         | 82/5001 [00:00<00:56, 86.86it/s][A
  2%|█                                                         | 91/5001 [00:01<00:57, 84.73it/s][A
  2%|█▏                                                       | 100/5001 [00:01<00:59, 82.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.275
 	Training Stability: 0.781
 	AAR: 1.818
 	SES: 1.0
 	Mean Reward: 9.1
 	Std Reward: 0.7



  5%|███                                                      | 269/5001 [00:03<00:59, 79.60it/s][A
  6%|███▏                                                     | 277/5001 [00:03<01:00, 77.77it/s][A
  6%|███▏                                                     | 285/5001 [00:03<01:00, 77.82it/s][A
  6%|███▎                                                     | 293/5001 [00:03<01:01, 77.17it/s][A
  6%|███▍                                                     | 301/5001 [00:03<01:01, 76.14it/s][A
  6%|███▌                                                     | 309/5001 [00:03<01:01, 76.46it/s][A
  6%|███▌                                                     | 317/5001 [00:03<01:00, 76.84it/s][A
  6%|███▋                                                     | 325/5001 [00:04<01:00, 77.31it/s][A
  7%|███▊                                                     | 333/5001 [00:04<01:00, 76.89it/s][A
  7%|███▉                                                     | 341/5001 [00:04<01:00, 77.2

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.3
 	Training Stability: 0.98
 	AAR: 1.667
 	SES: 0
 	Mean Reward: 9.6
 	Std Reward: 0.663




 10%|█████▉                                                   | 524/5001 [00:06<00:56, 78.97it/s][A
 11%|██████                                                   | 532/5001 [00:06<00:56, 79.02it/s][A
 11%|██████▏                                                  | 540/5001 [00:06<00:56, 78.49it/s][A
 11%|██████▏                                                  | 548/5001 [00:06<00:56, 78.28it/s][A
 11%|██████▎                                                  | 556/5001 [00:06<00:57, 77.92it/s][A
 11%|██████▍                                                  | 564/5001 [00:07<00:56, 77.87it/s][A
 11%|██████▌                                                  | 573/5001 [00:07<00:55, 80.10it/s][A
 12%|██████▋                                                  | 582/5001 [00:07<00:55, 79.08it/s][A
 12%|██████▋                                                  | 590/5001 [00:07<00:55, 79.18it/s][A
 12%|██████▊                                                  | 598/5001 [00:07<00:56, 78.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.325
 	Training Stability: 1.327
 	AAR: 1.538
 	SES: 0
 	Mean Reward: 9.5
 	Std Reward: 0.806




 15%|████████▊                                                | 773/5001 [00:09<00:55, 75.59it/s][A
 16%|████████▉                                                | 781/5001 [00:09<00:56, 74.77it/s][A
 16%|████████▉                                                | 789/5001 [00:09<00:56, 75.17it/s][A
 16%|█████████                                                | 797/5001 [00:10<00:56, 73.80it/s][A
 16%|█████████▏                                               | 806/5001 [00:10<00:53, 78.08it/s][A
 16%|█████████▎                                               | 814/5001 [00:10<00:55, 75.98it/s][A
 16%|█████████▎                                               | 822/5001 [00:10<00:55, 74.91it/s][A
 17%|█████████▍                                               | 830/5001 [00:10<00:55, 75.00it/s][A
 17%|█████████▌                                               | 838/5001 [00:10<00:57, 72.04it/s][A
 17%|█████████▋                                               | 846/5001 [00:10<00:57, 71.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.35
 	Training Stability: 1.744
 	AAR: 1.428
 	SES: 0
 	Mean Reward: 8.9
 	Std Reward: 0.831




 20%|███████████▍                                            | 1022/5001 [00:13<00:54, 72.63it/s][A
 21%|███████████▌                                            | 1030/5001 [00:13<00:54, 73.17it/s][A
 21%|███████████▌                                            | 1038/5001 [00:13<00:53, 73.51it/s][A
 21%|███████████▋                                            | 1046/5001 [00:13<00:53, 74.37it/s][A
 21%|███████████▊                                            | 1054/5001 [00:13<00:52, 74.77it/s][A
 21%|███████████▉                                            | 1062/5001 [00:13<00:52, 74.89it/s][A
 21%|███████████▉                                            | 1070/5001 [00:13<00:53, 73.85it/s][A
 22%|████████████                                            | 1078/5001 [00:13<00:53, 73.76it/s][A
 22%|████████████▏                                           | 1086/5001 [00:13<00:53, 72.59it/s][A
 22%|████████████▎                                           | 1094/5001 [00:14<00:54, 71.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.375
 	Training Stability: 2.508
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 10.7
 	Std Reward: 1.847




 25%|██████████████▏                                         | 1267/5001 [00:16<00:54, 68.79it/s][A
 25%|██████████████▎                                         | 1274/5001 [00:16<00:54, 68.85it/s][A
 26%|██████████████▎                                         | 1281/5001 [00:16<00:54, 68.89it/s][A
 26%|██████████████▍                                         | 1288/5001 [00:16<00:54, 68.16it/s][A
 26%|██████████████▌                                         | 1295/5001 [00:16<00:56, 66.06it/s][A
 26%|██████████████▌                                         | 1302/5001 [00:17<00:57, 64.27it/s][A
 26%|██████████████▋                                         | 1309/5001 [00:17<00:58, 62.83it/s][A
 26%|██████████████▋                                         | 1316/5001 [00:17<00:59, 62.09it/s][A
 26%|██████████████▊                                         | 1323/5001 [00:17<00:59, 61.65it/s][A
 27%|██████████████▉                                         | 1330/5001 [00:17<00:59, 61.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.4
 	Training Stability: 4.494
 	AAR: 1.25
 	SES: 0
 	Mean Reward: 12.4
 	Std Reward: 2.107




 30%|████████████████▉                                       | 1513/5001 [00:20<01:08, 51.09it/s][A
 30%|█████████████████                                       | 1519/5001 [00:20<01:08, 51.11it/s][A
 30%|█████████████████                                       | 1525/5001 [00:21<01:05, 53.02it/s][A
 31%|█████████████████▏                                      | 1531/5001 [00:21<01:06, 51.81it/s][A
 31%|█████████████████▏                                      | 1537/5001 [00:21<01:07, 51.41it/s][A
 31%|█████████████████▎                                      | 1543/5001 [00:21<01:07, 51.50it/s][A
 31%|█████████████████▎                                      | 1549/5001 [00:21<01:07, 50.88it/s][A
 31%|█████████████████▍                                      | 1555/5001 [00:21<01:07, 51.07it/s][A
 31%|█████████████████▍                                      | 1561/5001 [00:21<01:07, 50.98it/s][A
 31%|█████████████████▌                                      | 1567/5001 [00:21<01:06, 51.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.425
 	Training Stability: 3.555
 	AAR: 1.176
 	SES: 0
 	Mean Reward: 12.6
 	Std Reward: 2.289




 35%|███████████████████▊                                    | 1765/5001 [00:25<01:03, 50.71it/s][A
 35%|███████████████████▊                                    | 1771/5001 [00:25<01:03, 50.78it/s][A
 36%|███████████████████▉                                    | 1777/5001 [00:25<01:03, 51.05it/s][A
 36%|███████████████████▉                                    | 1783/5001 [00:26<01:02, 51.26it/s][A
 36%|████████████████████                                    | 1789/5001 [00:26<01:02, 51.12it/s][A
 36%|████████████████████                                    | 1795/5001 [00:26<01:02, 51.20it/s][A
 36%|████████████████████▏                                   | 1801/5001 [00:26<01:02, 51.08it/s][A
 36%|████████████████████▏                                   | 1807/5001 [00:26<01:03, 50.09it/s][A
 36%|████████████████████▎                                   | 1813/5001 [00:26<01:03, 50.43it/s][A
 36%|████████████████████▎                                   | 1819/5001 [00:26<01:03, 50.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.45
 	Training Stability: 8.582
 	AAR: 1.111
 	SES: 0
 	Mean Reward: 14.4
 	Std Reward: 4.317




 40%|██████████████████████▌                                 | 2014/5001 [00:30<01:07, 43.97it/s][A
 40%|██████████████████████▌                                 | 2019/5001 [00:30<01:08, 43.79it/s][A
 40%|██████████████████████▋                                 | 2024/5001 [00:30<01:07, 43.83it/s][A
 41%|██████████████████████▋                                 | 2029/5001 [00:31<01:10, 42.43it/s][A
 41%|██████████████████████▊                                 | 2034/5001 [00:31<01:10, 42.23it/s][A
 41%|██████████████████████▊                                 | 2039/5001 [00:31<01:13, 40.25it/s][A
 41%|██████████████████████▉                                 | 2044/5001 [00:31<01:12, 40.57it/s][A
 41%|██████████████████████▉                                 | 2049/5001 [00:31<01:14, 39.73it/s][A
 41%|██████████████████████▉                                 | 2053/5001 [00:31<01:15, 38.96it/s][A
 41%|███████████████████████                                 | 2057/5001 [00:31<01:16, 38.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.475
 	Training Stability: 6.096
 	AAR: 1.052
 	SES: 1.0
 	Mean Reward: 20.5
 	Std Reward: 9.025




 45%|█████████████████████████▎                              | 2261/5001 [00:37<01:20, 33.87it/s][A
 45%|█████████████████████████▎                              | 2265/5001 [00:37<01:22, 33.32it/s][A
 45%|█████████████████████████▍                              | 2270/5001 [00:37<01:16, 35.88it/s][A
 45%|█████████████████████████▍                              | 2274/5001 [00:37<01:16, 35.78it/s][A
 46%|█████████████████████████▌                              | 2278/5001 [00:37<01:17, 35.25it/s][A
 46%|█████████████████████████▌                              | 2282/5001 [00:38<01:17, 34.97it/s][A
 46%|█████████████████████████▌                              | 2286/5001 [00:38<01:17, 35.10it/s][A
 46%|█████████████████████████▋                              | 2290/5001 [00:38<01:17, 34.97it/s][A
 46%|█████████████████████████▋                              | 2294/5001 [00:38<01:18, 34.56it/s][A
 46%|█████████████████████████▋                              | 2298/5001 [00:38<01:18, 34.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.5
 	Training Stability: 11.254
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 78.8
 	Std Reward: 16.455




 50%|████████████████████████████                            | 2504/5001 [00:54<04:15,  9.78it/s][A
 50%|████████████████████████████                            | 2505/5001 [00:54<04:24,  9.44it/s][A
 50%|████████████████████████████                            | 2506/5001 [00:55<04:29,  9.26it/s][A
 50%|████████████████████████████                            | 2507/5001 [00:55<04:27,  9.31it/s][A
 50%|████████████████████████████                            | 2508/5001 [00:55<04:29,  9.25it/s][A
 50%|████████████████████████████                            | 2509/5001 [00:55<04:32,  9.15it/s][A
 50%|████████████████████████████                            | 2510/5001 [00:55<04:31,  9.16it/s][A
 50%|████████████████████████████                            | 2511/5001 [00:55<04:27,  9.32it/s][A
 50%|████████████████████████████▏                           | 2512/5001 [00:55<04:40,  8.88it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [00:55<04:34,  9.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.5
 	Training Stability: 24.512
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 103.8
 	Std Reward: 14.323




 55%|██████████████████████████████▊                         | 2754/5001 [01:33<04:55,  7.60it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [01:33<04:54,  7.62it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [01:34<04:50,  7.72it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [01:34<04:42,  7.93it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [01:34<04:45,  7.86it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [01:34<04:37,  8.08it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [01:34<04:30,  8.28it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [01:34<04:21,  8.57it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [01:34<04:23,  8.50it/s][A
 55%|██████████████████████████████▉                         | 2763/5001 [01:34<04:15,  8.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 12.371
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 93.0
 	Std Reward: 16.823




 60%|█████████████████████████████████▋                      | 3003/5001 [02:03<04:09,  8.02it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [02:03<04:18,  7.73it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [02:03<04:16,  7.77it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [02:03<04:33,  7.30it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [02:03<04:44,  7.01it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [02:04<04:48,  6.92it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [02:04<04:59,  6.64it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [02:04<05:05,  6.52it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [02:04<04:48,  6.90it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [02:04<04:32,  7.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 140.553
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 328.7
 	Std Reward: 132.552




 65%|████████████████████████████████████▍                   | 3252/5001 [02:48<08:25,  3.46it/s][A
 65%|████████████████████████████████████▍                   | 3253/5001 [02:48<08:43,  3.34it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [02:49<09:24,  3.09it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [02:49<08:36,  3.38it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [02:50<11:58,  2.43it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [02:50<13:49,  2.10it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [02:51<13:21,  2.18it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [02:51<15:30,  1.87it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [02:52<16:52,  1.72it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [02:53<18:28,  1.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 87.28
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 347.0
 	Std Reward: 159.277




 70%|███████████████████████████████████████▏                | 3502/5001 [03:37<09:04,  2.75it/s][A
 70%|███████████████████████████████████████▏                | 3503/5001 [03:38<08:16,  3.02it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [03:38<08:18,  3.00it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [03:38<08:44,  2.85it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [03:39<09:30,  2.62it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [03:39<09:16,  2.68it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [03:39<08:06,  3.07it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [03:40<06:40,  3.72it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [03:40<05:36,  4.43it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [03:40<06:27,  3.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 167.287
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 293.7
 	Std Reward: 165.257




 75%|██████████████████████████████████████████              | 3752/5001 [04:29<06:22,  3.27it/s][A
 75%|██████████████████████████████████████████              | 3753/5001 [04:29<06:24,  3.24it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [04:30<06:38,  3.13it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [04:30<06:41,  3.10it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [04:30<06:46,  3.06it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [04:31<06:29,  3.20it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [04:31<04:21,  4.74it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [04:31<03:57,  5.22it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [04:31<03:55,  5.26it/s][A
 75%|██████████████████████████████████████████▏             | 3764/5001 [04:32<03:01,  6.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 8.693
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 79.2
 	Std Reward: 13.348




 80%|████████████████████████████████████████████▊           | 4004/5001 [05:09<01:48,  9.16it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [05:09<02:03,  8.05it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [05:10<02:12,  7.52it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [05:10<02:20,  7.10it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [05:10<02:33,  6.48it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [05:10<02:54,  5.70it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [05:10<03:07,  5.28it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [05:11<03:12,  5.15it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [05:11<02:57,  5.57it/s][A
 80%|████████████████████████████████████████████▉           | 4013/5001 [05:11<02:51,  5.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 10.469
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 73.4
 	Std Reward: 11.517




 85%|███████████████████████████████████████████████▌        | 4253/5001 [06:10<01:25,  8.70it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [06:10<01:30,  8.21it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [06:10<01:43,  7.20it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [06:11<02:02,  6.11it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [06:11<02:00,  6.17it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [06:11<01:50,  6.72it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [06:11<01:58,  6.28it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [06:11<02:04,  5.97it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [06:11<01:54,  6.44it/s][A
 85%|███████████████████████████████████████████████▋        | 4263/5001 [06:11<01:34,  7.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 57.235
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 160.7
 	Std Reward: 25.605




 90%|██████████████████████████████████████████████████▍     | 4503/5001 [07:13<01:37,  5.11it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [07:13<01:28,  5.61it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [07:13<01:20,  6.14it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [07:13<01:29,  5.51it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [07:13<01:49,  4.53it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [07:14<02:23,  3.43it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [07:14<02:32,  3.23it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [07:15<02:40,  3.07it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [07:15<02:55,  2.80it/s][A
 90%|██████████████████████████████████████████████████▌     | 4512/5001 [07:16<03:04,  2.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 48.675
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 171.7
 	Std Reward: 24.071




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [08:04<00:48,  5.09it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [08:05<00:47,  5.26it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [08:05<00:49,  5.01it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [08:05<00:50,  4.83it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [08:05<01:01,  3.99it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [08:06<01:08,  3.58it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [08:06<01:12,  3.34it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [08:06<01:15,  3.22it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [08:07<01:10,  3.43it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [08:07<01:06,  3.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 25.221
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 161.5
 	Std Reward: 33.655



 17%|█████████▌                                               | 2/12 [39:32<3:33:33, 1281.31s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 7/5001 [00:00<01:19, 62.54it/s][A
  0%|▏                                                         | 14/5001 [00:00<01:18, 63.33it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.5
 	Training Stability: 1.616
 	AAR: 1.0
 	SES: 0.8
 	Mean Reward: 10.7
 	Std Reward: 1.487




  0%|▏                                                         | 21/5001 [00:00<01:22, 60.45it/s][A
  1%|▎                                                         | 28/5001 [00:00<01:19, 62.34it/s][A
  1%|▍                                                         | 35/5001 [00:00<01:19, 62.30it/s][A
  1%|▍                                                         | 42/5001 [00:00<01:16, 64.57it/s][A
  1%|▌                                                         | 49/5001 [00:00<01:15, 65.34it/s][A
  1%|▋                                                         | 56/5001 [00:00<01:14, 66.13it/s][A
  1%|▋                                                         | 63/5001 [00:00<01:15, 65.26it/s][A
  1%|▊                                                         | 70/5001 [00:01<01:17, 63.61it/s][A
  2%|▉                                                         | 77/5001 [00:01<01:16, 64.72it/s][A
  2%|▉                                                         | 84/5001 [00:01<01:14, 65.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.375
 	Training Stability: 3.743
 	AAR: 1.334
 	SES: 1.0
 	Mean Reward: 14.5
 	Std Reward: 1.803




  5%|███                                                      | 268/5001 [00:04<01:29, 52.66it/s][A
  5%|███                                                      | 274/5001 [00:04<01:28, 53.15it/s][A
  6%|███▏                                                     | 280/5001 [00:05<01:28, 53.39it/s][A
  6%|███▎                                                     | 286/5001 [00:05<01:29, 52.98it/s][A
  6%|███▎                                                     | 292/5001 [00:05<01:28, 52.98it/s][A
  6%|███▍                                                     | 298/5001 [00:05<01:29, 52.54it/s][A
  6%|███▍                                                     | 304/5001 [00:05<01:27, 53.39it/s][A
  6%|███▌                                                     | 310/5001 [00:05<01:28, 53.04it/s][A
  6%|███▌                                                     | 316/5001 [00:05<01:27, 53.66it/s][A
  6%|███▋                                                     | 322/5001 [00:05<01:28, 52.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.258
 	Training Stability: 13.779
 	AAR: 1.939
 	SES: 0
 	Mean Reward: 33.3
 	Std Reward: 10.296



 10%|█████▊                                                   | 511/5001 [00:09<02:00, 37.30it/s][A
 10%|█████▊                                                   | 515/5001 [00:09<02:02, 36.59it/s][A
 10%|█████▉                                                   | 520/5001 [00:09<01:57, 38.16it/s][A
 10%|█████▉                                                   | 524/5001 [00:10<02:01, 36.83it/s][A
 11%|██████                                                   | 528/5001 [00:10<02:01, 36.84it/s][A
 11%|██████                                                   | 532/5001 [00:10<02:04, 35.84it/s][A
 11%|██████                                                   | 536/5001 [00:10<02:03, 36.27it/s][A
 11%|██████▏                                                  | 540/5001 [00:10<02:07, 34.85it/s][A
 11%|██████▏                                                  | 544/5001 [00:10<02:05, 35.51it/s][A
 11%|██████▏                                                  | 548/5001 [00:10<02:12, 33.6

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.286
 	Training Stability: 31.388
 	AAR: 1.745
 	SES: 1.0
 	Mean Reward: 83.1
 	Std Reward: 22.372




 15%|████████▌                                                | 755/5001 [00:23<06:29, 10.89it/s][A
 15%|████████▋                                                | 757/5001 [00:24<06:28, 10.91it/s][A
 15%|████████▋                                                | 759/5001 [00:24<06:32, 10.80it/s][A
 15%|████████▋                                                | 761/5001 [00:24<06:28, 10.92it/s][A
 15%|████████▋                                                | 763/5001 [00:24<06:29, 10.89it/s][A
 15%|████████▋                                                | 765/5001 [00:24<06:26, 10.95it/s][A
 15%|████████▋                                                | 767/5001 [00:24<06:27, 10.92it/s][A
 15%|████████▊                                                | 769/5001 [00:25<06:23, 11.02it/s][A
 15%|████████▊                                                | 771/5001 [00:25<06:19, 11.13it/s][A
 15%|████████▊                                                | 773/5001 [00:25<06:37, 10.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.298
 	Training Stability: 45.407
 	AAR: 1.682
 	SES: 1.0
 	Mean Reward: 97.0
 	Std Reward: 16.279



 20%|███████████▏                                            | 1003/5001 [00:49<08:04,  8.26it/s][A
 20%|███████████▏                                            | 1004/5001 [00:50<08:01,  8.30it/s][A
 20%|███████████▎                                            | 1005/5001 [00:50<08:20,  7.99it/s][A
 20%|███████████▎                                            | 1006/5001 [00:50<08:22,  7.94it/s][A
 20%|███████████▎                                            | 1007/5001 [00:50<08:16,  8.04it/s][A
 20%|███████████▎                                            | 1008/5001 [00:50<08:34,  7.75it/s][A
 20%|███████████▎                                            | 1009/5001 [00:50<08:26,  7.88it/s][A
 20%|███████████▎                                            | 1010/5001 [00:50<07:59,  8.32it/s][A
 20%|███████████▎                                            | 1011/5001 [00:50<08:00,  8.31it/s][A
 20%|███████████▎                                            | 1012/5001 [00:51<08:21,  7.9

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.299
 	Training Stability: 34.419
 	AAR: 1.676
 	SES: 1.0
 	Mean Reward: 112.4
 	Std Reward: 23.576



 25%|██████████████                                          | 1253/5001 [01:20<08:08,  7.67it/s][A
 25%|██████████████                                          | 1254/5001 [01:20<08:09,  7.66it/s][A
 25%|██████████████                                          | 1255/5001 [01:20<08:17,  7.53it/s][A
 25%|██████████████                                          | 1256/5001 [01:20<08:05,  7.71it/s][A
 25%|██████████████                                          | 1257/5001 [01:20<07:40,  8.13it/s][A
 25%|██████████████                                          | 1259/5001 [01:21<07:15,  8.59it/s][A
 25%|██████████████                                          | 1260/5001 [01:21<07:06,  8.78it/s][A
 25%|██████████████                                          | 1261/5001 [01:21<07:17,  8.54it/s][A
 25%|██████████████▏                                         | 1262/5001 [01:21<07:10,  8.68it/s][A
 25%|██████████████▏                                         | 1263/5001 [01:21<07:21,  8.4

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.287
 	Training Stability: 21.666
 	AAR: 1.739
 	SES: 1.0
 	Mean Reward: 22.9
 	Std Reward: 3.885



 30%|████████████████▊                                       | 1504/5001 [01:51<04:07, 14.13it/s][A
 30%|████████████████▊                                       | 1506/5001 [01:51<04:36, 12.62it/s][A
 30%|████████████████▉                                       | 1508/5001 [01:51<04:53, 11.90it/s][A
 30%|████████████████▉                                       | 1510/5001 [01:51<05:36, 10.38it/s][A
 30%|████████████████▉                                       | 1512/5001 [01:51<05:59,  9.71it/s][A
 30%|████████████████▉                                       | 1514/5001 [01:52<05:49,  9.97it/s][A
 30%|████████████████▉                                       | 1516/5001 [01:52<05:42, 10.16it/s][A
 30%|████████████████▉                                       | 1518/5001 [01:52<05:37, 10.32it/s][A
 30%|█████████████████                                       | 1520/5001 [01:52<05:27, 10.61it/s][A
 30%|█████████████████                                       | 1522/5001 [01:52<05:21, 10.8

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.318
 	Training Stability: 161.315
 	AAR: 1.573
 	SES: 1.0
 	Mean Reward: 101.0
 	Std Reward: 65.405



 35%|███████████████████▋                                    | 1753/5001 [02:32<09:05,  5.95it/s][A
 35%|███████████████████▋                                    | 1754/5001 [02:32<08:25,  6.43it/s][A
 35%|███████████████████▋                                    | 1755/5001 [02:32<09:59,  5.41it/s][A
 35%|███████████████████▋                                    | 1756/5001 [02:32<12:05,  4.47it/s][A
 35%|███████████████████▋                                    | 1757/5001 [02:33<12:41,  4.26it/s][A
 35%|███████████████████▋                                    | 1758/5001 [02:33<13:27,  4.02it/s][A
 35%|███████████████████▋                                    | 1759/5001 [02:33<11:58,  4.51it/s][A
 35%|███████████████████▋                                    | 1760/5001 [02:33<10:01,  5.39it/s][A
 35%|███████████████████▋                                    | 1761/5001 [02:33<09:58,  5.41it/s][A
 35%|███████████████████▋                                    | 1762/5001 [02:33<08:38,  6.2

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.306
 	Training Stability: 100.084
 	AAR: 1.636
 	SES: 1.0
 	Mean Reward: 257.9
 	Std Reward: 152.255




 40%|██████████████████████▍                                 | 2004/5001 [03:08<06:56,  7.20it/s][A
 40%|██████████████████████▍                                 | 2005/5001 [03:08<06:33,  7.61it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [03:08<05:52,  8.48it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [03:08<04:56, 10.09it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [03:08<03:47, 13.12it/s][A
 40%|██████████████████████▌                                 | 2014/5001 [03:09<03:48, 13.06it/s][A
 40%|██████████████████████▌                                 | 2016/5001 [03:09<04:03, 12.28it/s][A
 40%|██████████████████████▌                                 | 2018/5001 [03:09<03:41, 13.47it/s][A
 40%|██████████████████████▌                                 | 2020/5001 [03:09<03:29, 14.26it/s][A
 40%|██████████████████████▋                                 | 2022/5001 [03:09<05:13,  9.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.306
 	Training Stability: 146.342
 	AAR: 1.637
 	SES: 1.0
 	Mean Reward: 255.5
 	Std Reward: 126.508




 45%|█████████████████████████▏                              | 2253/5001 [03:39<07:56,  5.76it/s][A
 45%|█████████████████████████▏                              | 2254/5001 [03:39<07:52,  5.81it/s][A
 45%|█████████████████████████▎                              | 2255/5001 [03:40<07:51,  5.83it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [03:40<08:11,  5.59it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [03:40<08:25,  5.43it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [03:40<08:17,  5.52it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [03:40<08:00,  5.71it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [03:40<08:46,  5.21it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [03:41<08:59,  5.08it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [03:41<08:46,  5.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.32
 	Training Stability: 157.562
 	AAR: 1.562
 	SES: 1.0
 	Mean Reward: 149.8
 	Std Reward: 87.201




 50%|████████████████████████████                            | 2503/5001 [04:15<05:34,  7.47it/s][A
 50%|████████████████████████████                            | 2504/5001 [04:15<05:21,  7.78it/s][A
 50%|████████████████████████████                            | 2505/5001 [04:15<05:03,  8.23it/s][A
 50%|████████████████████████████                            | 2506/5001 [04:15<05:01,  8.28it/s][A
 50%|████████████████████████████                            | 2507/5001 [04:16<04:56,  8.40it/s][A
 50%|████████████████████████████                            | 2508/5001 [04:16<04:42,  8.81it/s][A
 50%|████████████████████████████                            | 2510/5001 [04:16<04:31,  9.18it/s][A
 50%|████████████████████████████                            | 2511/5001 [04:16<05:05,  8.16it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [04:16<04:03, 10.20it/s][A
 50%|████████████████████████████▏                           | 2515/5001 [04:16<03:40, 11.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.311
 	Training Stability: 119.276
 	AAR: 1.611
 	SES: 1.0
 	Mean Reward: 152.2
 	Std Reward: 45.481




 55%|██████████████████████████████▊                         | 2752/5001 [04:44<05:52,  6.37it/s][A
 55%|██████████████████████████████▊                         | 2753/5001 [04:44<06:08,  6.10it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [04:44<06:29,  5.76it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [04:44<06:28,  5.79it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [04:44<06:30,  5.75it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [04:45<06:21,  5.88it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [04:45<06:28,  5.78it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [04:45<06:32,  5.72it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [04:45<06:04,  6.14it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [04:45<06:17,  5.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.306
 	Training Stability: 29.667
 	AAR: 1.639
 	SES: 1.0
 	Mean Reward: 139.4
 	Std Reward: 41.338




 60%|█████████████████████████████████▋                      | 3003/5001 [05:15<03:57,  8.41it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [05:15<04:06,  8.09it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [05:15<03:33,  9.32it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [05:16<03:15, 10.17it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [05:16<03:47,  8.74it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [05:16<03:50,  8.65it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [05:16<03:53,  8.53it/s][A
 60%|█████████████████████████████████▋                      | 3013/5001 [05:16<04:10,  7.95it/s][A
 60%|█████████████████████████████████▊                      | 3014/5001 [05:16<04:19,  7.65it/s][A
 60%|█████████████████████████████████▊                      | 3015/5001 [05:17<04:18,  7.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.331
 	Training Stability: 101.999
 	AAR: 1.511
 	SES: 0.941
 	Mean Reward: 240.8
 	Std Reward: 130.846




 65%|████████████████████████████████████▍                   | 3252/5001 [05:52<05:54,  4.93it/s][A
 65%|████████████████████████████████████▍                   | 3253/5001 [05:53<05:58,  4.88it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [05:53<06:05,  4.78it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [05:53<05:28,  5.32it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [05:53<04:50,  6.01it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [05:53<04:21,  6.68it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [05:53<04:42,  6.18it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [05:54<04:45,  6.10it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [05:54<05:04,  5.71it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [05:54<05:24,  5.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.322
 	Training Stability: 38.142
 	AAR: 1.554
 	SES: 1.0
 	Mean Reward: 135.6
 	Std Reward: 27.753




 70%|███████████████████████████████████████▏                | 3503/5001 [06:26<03:34,  6.99it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [06:26<03:34,  6.99it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [06:26<03:31,  7.06it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [06:26<03:22,  7.38it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [06:26<03:15,  7.62it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [06:26<03:14,  7.67it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [06:26<03:13,  7.71it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [06:27<03:26,  7.22it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [06:27<03:27,  7.17it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [06:27<03:29,  7.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.332
 	Training Stability: 12.023
 	AAR: 1.503
 	SES: 1.0
 	Mean Reward: 107.2
 	Std Reward: 43.538




 75%|██████████████████████████████████████████              | 3753/5001 [07:13<03:24,  6.09it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [07:13<03:35,  5.78it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [07:13<03:44,  5.55it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [07:13<03:44,  5.54it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [07:13<03:51,  5.37it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [07:14<03:47,  5.47it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [07:14<03:45,  5.50it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [07:14<03:37,  5.72it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [07:14<03:51,  5.35it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [07:14<03:50,  5.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.343
 	Training Stability: 47.339
 	AAR: 1.458
 	SES: 1.0
 	Mean Reward: 194.1
 	Std Reward: 29.781




 80%|████████████████████████████████████████████▊           | 4002/5001 [08:17<03:54,  4.25it/s][A
 80%|████████████████████████████████████████████▊           | 4003/5001 [08:17<04:10,  3.99it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [08:17<04:19,  3.85it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [08:18<04:35,  3.61it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [08:18<05:10,  3.20it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [08:19<05:52,  2.82it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [08:19<06:03,  2.73it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [08:19<06:18,  2.62it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [08:20<06:29,  2.54it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [08:20<06:16,  2.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.376
 	Training Stability: 104.767
 	AAR: 1.33
 	SES: 1.0
 	Mean Reward: 329.2
 	Std Reward: 114.993




 85%|███████████████████████████████████████████████▌        | 4252/5001 [09:30<03:49,  3.26it/s][A
 85%|███████████████████████████████████████████████▌        | 4253/5001 [09:30<03:43,  3.34it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [09:30<03:41,  3.38it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [09:31<03:44,  3.32it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [09:31<03:46,  3.29it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [09:31<03:43,  3.33it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [09:31<03:40,  3.36it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [09:32<03:45,  3.29it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [09:32<03:36,  3.42it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [09:32<03:30,  3.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.368
 	Training Stability: 118.527
 	AAR: 1.357
 	SES: 1.0
 	Mean Reward: 302.9
 	Std Reward: 143.177




 90%|██████████████████████████████████████████████████▍     | 4502/5001 [10:26<02:01,  4.11it/s][A
 90%|██████████████████████████████████████████████████▍     | 4503/5001 [10:26<01:59,  4.16it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [10:27<02:04,  3.99it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [10:27<02:06,  3.91it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [10:27<02:09,  3.83it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [10:27<02:08,  3.84it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [10:28<02:05,  3.94it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [10:28<02:02,  4.02it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [10:28<01:58,  4.14it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [10:28<01:57,  4.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.378
 	Training Stability: 113.499
 	AAR: 1.325
 	SES: 1.0
 	Mean Reward: 306.4
 	Std Reward: 99.738




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [11:25<01:17,  3.21it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [11:26<01:14,  3.32it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [11:26<01:09,  3.55it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [11:26<01:06,  3.69it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [11:26<01:06,  3.70it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [11:27<01:06,  3.67it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [11:27<01:10,  3.44it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [11:27<01:10,  3.43it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [11:28<01:09,  3.48it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [11:28<01:10,  3.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.37
 	Training Stability: 122.004
 	AAR: 1.349
 	SES: 1.0
 	Mean Reward: 141.0
 	Std Reward: 47.716




 25%|██████████████▎                                          | 3/12 [54:20<2:45:14, 1101.66s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                          | 10/5001 [00:00<00:54, 92.24it/s][A
  0%|▏                                                         | 20/5001 [00:00<00:52, 94.12it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 1.685
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 10.0
 	Std Reward: 2.145




  1%|▎                                                         | 30/5001 [00:00<00:54, 91.95it/s][A
  1%|▍                                                         | 40/5001 [00:00<00:53, 92.44it/s][A
  1%|▌                                                         | 50/5001 [00:00<00:53, 91.73it/s][A
  1%|▋                                                         | 60/5001 [00:00<00:53, 92.03it/s][A
  1%|▊                                                         | 70/5001 [00:00<00:53, 92.69it/s][A
  2%|▉                                                         | 80/5001 [00:00<00:52, 92.93it/s][A
  2%|█                                                         | 90/5001 [00:00<00:52, 93.27it/s][A
  2%|█▏                                                       | 100/5001 [00:01<00:52, 92.63it/s][A
  2%|█▎                                                       | 110/5001 [00:01<00:52, 92.65it/s][A
  2%|█▎                                                       | 120/5001 [00:01<00:53, 91.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.263
 	Training Stability: 1.833
 	AAR: 1.905
 	SES: 0
 	Mean Reward: 14.4
 	Std Reward: 5.731




  5%|███                                                      | 269/5001 [00:03<00:57, 81.83it/s][A
  6%|███▏                                                     | 278/5001 [00:03<00:58, 80.65it/s][A
  6%|███▎                                                     | 287/5001 [00:03<00:58, 80.91it/s][A
  6%|███▎                                                     | 296/5001 [00:03<00:58, 80.95it/s][A
  6%|███▍                                                     | 305/5001 [00:03<00:58, 80.27it/s][A
  6%|███▌                                                     | 314/5001 [00:03<00:59, 78.31it/s][A
  6%|███▋                                                     | 322/5001 [00:03<01:00, 76.85it/s][A
  7%|███▊                                                     | 330/5001 [00:03<01:00, 76.85it/s][A
  7%|███▊                                                     | 338/5001 [00:03<01:01, 75.70it/s][A
  7%|███▉                                                     | 346/5001 [00:04<01:00, 76.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.275
 	Training Stability: 3.727
 	AAR: 1.818
 	SES: 0
 	Mean Reward: 18.0
 	Std Reward: 5.215




 10%|█████▉                                                   | 523/5001 [00:06<01:00, 74.47it/s][A
 11%|██████                                                   | 531/5001 [00:06<00:59, 74.74it/s][A
 11%|██████▏                                                  | 539/5001 [00:06<00:59, 74.54it/s][A
 11%|██████▏                                                  | 547/5001 [00:06<00:59, 74.72it/s][A
 11%|██████▎                                                  | 555/5001 [00:06<01:03, 70.27it/s][A
 11%|██████▍                                                  | 563/5001 [00:07<01:11, 62.19it/s][A
 11%|██████▍                                                  | 570/5001 [00:07<01:11, 62.35it/s][A
 12%|██████▌                                                  | 577/5001 [00:07<01:16, 57.71it/s][A
 12%|██████▋                                                  | 583/5001 [00:07<01:19, 55.50it/s][A
 12%|██████▋                                                  | 589/5001 [00:07<01:40, 44.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.288
 	Training Stability: 2.335
 	AAR: 1.739
 	SES: 0.0
 	Mean Reward: 14.7
 	Std Reward: 6.31




 15%|████████▊                                                | 770/5001 [00:10<00:58, 72.87it/s][A
 16%|████████▊                                                | 778/5001 [00:10<00:56, 74.51it/s][A
 16%|████████▉                                                | 786/5001 [00:10<00:55, 75.81it/s][A
 16%|█████████                                                | 794/5001 [00:10<00:55, 75.68it/s][A
 16%|█████████▏                                               | 802/5001 [00:10<00:54, 76.51it/s][A
 16%|█████████▏                                               | 810/5001 [00:10<00:55, 75.63it/s][A
 16%|█████████▎                                               | 818/5001 [00:10<00:55, 75.65it/s][A
 17%|█████████▍                                               | 826/5001 [00:10<00:56, 73.29it/s][A
 17%|█████████▌                                               | 834/5001 [00:11<00:57, 71.94it/s][A
 17%|█████████▌                                               | 842/5001 [00:11<00:59, 70.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.3
 	Training Stability: 9.728
 	AAR: 1.667
 	SES: 1.0
 	Mean Reward: 39.6
 	Std Reward: 17.727




 20%|███████████▎                                            | 1009/5001 [00:14<01:45, 37.83it/s][A
 20%|███████████▎                                            | 1013/5001 [00:14<01:47, 37.23it/s][A
 20%|███████████▍                                            | 1017/5001 [00:14<01:48, 36.80it/s][A
 20%|███████████▍                                            | 1021/5001 [00:14<01:51, 35.83it/s][A
 20%|███████████▍                                            | 1025/5001 [00:15<01:54, 34.69it/s][A
 21%|███████████▌                                            | 1029/5001 [00:15<01:54, 34.72it/s][A
 21%|███████████▌                                            | 1033/5001 [00:15<01:53, 35.07it/s][A
 21%|███████████▌                                            | 1037/5001 [00:15<01:53, 34.90it/s][A
 21%|███████████▋                                            | 1041/5001 [00:15<01:52, 35.27it/s][A
 21%|███████████▋                                            | 1045/5001 [00:15<01:57, 33.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.313
 	Training Stability: 37.673
 	AAR: 1.6
 	SES: 1.0
 	Mean Reward: 183.2
 	Std Reward: 126.354




 25%|██████████████                                          | 1254/5001 [00:31<05:24, 11.53it/s][A
 25%|██████████████                                          | 1256/5001 [00:31<05:38, 11.08it/s][A
 25%|██████████████                                          | 1258/5001 [00:32<05:30, 11.33it/s][A
 25%|██████████████                                          | 1260/5001 [00:32<05:21, 11.64it/s][A
 25%|██████████████▏                                         | 1262/5001 [00:32<05:35, 11.13it/s][A
 25%|██████████████▏                                         | 1264/5001 [00:32<05:31, 11.26it/s][A
 25%|██████████████▏                                         | 1266/5001 [00:32<05:22, 11.57it/s][A
 25%|██████████████▏                                         | 1268/5001 [00:32<05:21, 11.61it/s][A
 25%|██████████████▏                                         | 1270/5001 [00:33<05:21, 11.59it/s][A
 25%|██████████████▏                                         | 1272/5001 [00:33<05:26, 11.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.325
 	Training Stability: 31.865
 	AAR: 1.538
 	SES: 1.0
 	Mean Reward: 112.3
 	Std Reward: 29.83




 30%|████████████████▊                                       | 1503/5001 [00:54<05:00, 11.64it/s][A
 30%|████████████████▊                                       | 1505/5001 [00:54<05:00, 11.65it/s][A
 30%|████████████████▉                                       | 1507/5001 [00:54<04:59, 11.66it/s][A
 30%|████████████████▉                                       | 1509/5001 [00:54<05:18, 10.98it/s][A
 30%|████████████████▉                                       | 1511/5001 [00:55<05:19, 10.93it/s][A
 30%|████████████████▉                                       | 1513/5001 [00:55<05:19, 10.93it/s][A
 30%|████████████████▉                                       | 1515/5001 [00:55<04:58, 11.69it/s][A
 30%|████████████████▉                                       | 1517/5001 [00:55<04:36, 12.60it/s][A
 30%|█████████████████                                       | 1519/5001 [00:55<04:37, 12.55it/s][A
 30%|█████████████████                                       | 1521/5001 [00:55<04:35, 12.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.338
 	Training Stability: 8.055
 	AAR: 1.481
 	SES: 1.0
 	Mean Reward: 92.2
 	Std Reward: 7.236




 35%|███████████████████▋                                    | 1755/5001 [01:17<05:11, 10.43it/s][A
 35%|███████████████████▋                                    | 1757/5001 [01:17<05:15, 10.29it/s][A
 35%|███████████████████▋                                    | 1759/5001 [01:17<05:11, 10.39it/s][A
 35%|███████████████████▋                                    | 1761/5001 [01:17<05:15, 10.27it/s][A
 35%|███████████████████▋                                    | 1763/5001 [01:17<05:04, 10.62it/s][A
 35%|███████████████████▊                                    | 1765/5001 [01:17<04:47, 11.26it/s][A
 35%|███████████████████▊                                    | 1767/5001 [01:18<04:33, 11.84it/s][A
 35%|███████████████████▊                                    | 1769/5001 [01:18<04:29, 11.99it/s][A
 35%|███████████████████▊                                    | 1771/5001 [01:18<04:14, 12.70it/s][A
 35%|███████████████████▊                                    | 1773/5001 [01:18<04:41, 11.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.35
 	Training Stability: 10.891
 	AAR: 1.428
 	SES: 1.0
 	Mean Reward: 83.5
 	Std Reward: 5.162




 40%|██████████████████████▍                                 | 2003/5001 [01:42<05:52,  8.51it/s][A
 40%|██████████████████████▍                                 | 2004/5001 [01:42<05:37,  8.88it/s][A
 40%|██████████████████████▍                                 | 2005/5001 [01:42<05:39,  8.82it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [01:42<05:31,  9.04it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [01:42<05:17,  9.44it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [01:42<05:14,  9.50it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [01:43<05:16,  9.45it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [01:43<05:25,  9.19it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [01:43<05:34,  8.95it/s][A
 40%|██████████████████████▌                                 | 2013/5001 [01:43<05:31,  9.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.363
 	Training Stability: 30.096
 	AAR: 1.379
 	SES: 1.0
 	Mean Reward: 75.3
 	Std Reward: 16.462




 45%|█████████████████████████▏                              | 2253/5001 [02:09<05:41,  8.04it/s][A
 45%|█████████████████████████▏                              | 2254/5001 [02:09<05:29,  8.33it/s][A
 45%|█████████████████████████▎                              | 2255/5001 [02:09<05:34,  8.20it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [02:09<06:03,  7.55it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [02:09<06:00,  7.61it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [02:10<05:57,  7.67it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [02:10<06:02,  7.56it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [02:10<05:49,  7.83it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [02:10<05:36,  8.14it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [02:10<05:50,  7.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.375
 	Training Stability: 26.548
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 94.3
 	Std Reward: 13.214




 50%|████████████████████████████                            | 2504/5001 [02:32<04:01, 10.36it/s][A
 50%|████████████████████████████                            | 2506/5001 [02:33<04:16,  9.71it/s][A
 50%|████████████████████████████                            | 2507/5001 [02:33<04:27,  9.34it/s][A
 50%|████████████████████████████                            | 2508/5001 [02:33<04:34,  9.07it/s][A
 50%|████████████████████████████                            | 2509/5001 [02:33<04:36,  9.03it/s][A
 50%|████████████████████████████                            | 2510/5001 [02:33<04:37,  8.99it/s][A
 50%|████████████████████████████                            | 2511/5001 [02:33<04:35,  9.03it/s][A
 50%|████████████████████████████▏                           | 2512/5001 [02:33<04:40,  8.88it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [02:33<04:54,  8.45it/s][A
 50%|████████████████████████████▏                           | 2514/5001 [02:33<04:58,  8.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.388
 	Training Stability: 16.339
 	AAR: 1.29
 	SES: 1.0
 	Mean Reward: 76.6
 	Std Reward: 12.151




 55%|██████████████████████████████▊                         | 2756/5001 [02:57<03:28, 10.77it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [02:57<03:24, 10.99it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [02:57<03:20, 11.15it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [02:58<03:19, 11.22it/s][A
 55%|██████████████████████████████▉                         | 2764/5001 [02:58<03:19, 11.19it/s][A
 55%|██████████████████████████████▉                         | 2766/5001 [02:58<03:21, 11.07it/s][A
 55%|██████████████████████████████▉                         | 2768/5001 [02:58<03:24, 10.90it/s][A
 55%|███████████████████████████████                         | 2770/5001 [02:58<03:23, 10.98it/s][A
 55%|███████████████████████████████                         | 2772/5001 [02:59<03:19, 11.15it/s][A
 55%|███████████████████████████████                         | 2774/5001 [02:59<03:17, 11.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.4
 	Training Stability: 13.469
 	AAR: 1.25
 	SES: 1.0
 	Mean Reward: 82.0
 	Std Reward: 21.772




 60%|█████████████████████████████████▋                      | 3004/5001 [03:25<02:39, 12.54it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [03:25<02:35, 12.83it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [03:25<02:30, 13.23it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [03:26<02:24, 13.79it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [03:26<02:15, 14.72it/s][A
 60%|█████████████████████████████████▊                      | 3014/5001 [03:26<02:09, 15.30it/s][A
 60%|█████████████████████████████████▊                      | 3016/5001 [03:26<02:09, 15.35it/s][A
 60%|█████████████████████████████████▊                      | 3018/5001 [03:26<02:05, 15.86it/s][A
 60%|█████████████████████████████████▊                      | 3020/5001 [03:26<02:02, 16.22it/s][A
 60%|█████████████████████████████████▊                      | 3022/5001 [03:26<01:58, 16.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.413
 	Training Stability: 28.11
 	AAR: 1.212
 	SES: 1.0
 	Mean Reward: 79.0
 	Std Reward: 7.887




 65%|████████████████████████████████████▍                   | 3255/5001 [03:45<02:12, 13.14it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [03:45<02:10, 13.34it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [03:45<02:13, 13.07it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [03:45<02:10, 13.33it/s][A
 65%|████████████████████████████████████▌                   | 3263/5001 [03:45<02:11, 13.26it/s][A
 65%|████████████████████████████████████▌                   | 3265/5001 [03:45<02:06, 13.68it/s][A
 65%|████████████████████████████████████▌                   | 3267/5001 [03:45<02:06, 13.67it/s][A
 65%|████████████████████████████████████▌                   | 3269/5001 [03:46<02:05, 13.84it/s][A
 65%|████████████████████████████████████▋                   | 3271/5001 [03:46<02:07, 13.57it/s][A
 65%|████████████████████████████████████▋                   | 3273/5001 [03:46<02:05, 13.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.425
 	Training Stability: 15.88
 	AAR: 1.176
 	SES: 1.0
 	Mean Reward: 92.7
 	Std Reward: 9.296




 70%|███████████████████████████████████████▏                | 3505/5001 [04:04<02:05, 11.92it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [04:04<02:05, 11.90it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [04:04<02:04, 11.98it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [04:04<01:56, 12.77it/s][A
 70%|███████████████████████████████████████▎                | 3513/5001 [04:05<01:58, 12.59it/s][A
 70%|███████████████████████████████████████▎                | 3515/5001 [04:05<01:57, 12.63it/s][A
 70%|███████████████████████████████████████▍                | 3517/5001 [04:05<01:57, 12.64it/s][A
 70%|███████████████████████████████████████▍                | 3519/5001 [04:05<02:00, 12.33it/s][A
 70%|███████████████████████████████████████▍                | 3521/5001 [04:05<02:01, 12.20it/s][A
 70%|███████████████████████████████████████▍                | 3523/5001 [04:05<02:03, 12.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.438
 	Training Stability: 37.377
 	AAR: 1.143
 	SES: 1.0
 	Mean Reward: 84.0
 	Std Reward: 13.107




 75%|██████████████████████████████████████████              | 3755/5001 [04:25<01:56, 10.68it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [04:25<01:54, 10.83it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [04:25<01:54, 10.88it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [04:25<01:51, 11.11it/s][A
 75%|██████████████████████████████████████████▏             | 3763/5001 [04:25<01:49, 11.33it/s][A
 75%|██████████████████████████████████████████▏             | 3765/5001 [04:26<01:48, 11.42it/s][A
 75%|██████████████████████████████████████████▏             | 3767/5001 [04:26<01:46, 11.64it/s][A
 75%|██████████████████████████████████████████▏             | 3769/5001 [04:26<01:44, 11.79it/s][A
 75%|██████████████████████████████████████████▏             | 3771/5001 [04:26<01:39, 12.34it/s][A
 75%|██████████████████████████████████████████▏             | 3773/5001 [04:26<01:38, 12.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.45
 	Training Stability: 31.263
 	AAR: 1.111
 	SES: 1.0
 	Mean Reward: 98.9
 	Std Reward: 20.7




 80%|████████████████████████████████████████████▊           | 4004/5001 [04:46<01:22, 12.10it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [04:46<01:21, 12.19it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [04:46<01:20, 12.30it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [04:46<01:18, 12.64it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [04:47<01:21, 12.20it/s][A
 80%|████████████████████████████████████████████▉           | 4014/5001 [04:47<01:18, 12.52it/s][A
 80%|████████████████████████████████████████████▉           | 4016/5001 [04:47<01:17, 12.78it/s][A
 80%|████████████████████████████████████████████▉           | 4018/5001 [04:47<01:17, 12.71it/s][A
 80%|█████████████████████████████████████████████           | 4020/5001 [04:47<01:16, 12.80it/s][A
 80%|█████████████████████████████████████████████           | 4022/5001 [04:47<01:17, 12.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.463
 	Training Stability: 16.839
 	AAR: 1.081
 	SES: 1.0
 	Mean Reward: 107.4
 	Std Reward: 22.083




 85%|███████████████████████████████████████████████▋        | 4255/5001 [05:08<01:12, 10.34it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [05:08<01:11, 10.43it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [05:08<01:06, 11.16it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [05:08<01:04, 11.43it/s][A
 85%|███████████████████████████████████████████████▋        | 4263/5001 [05:09<01:04, 11.50it/s][A
 85%|███████████████████████████████████████████████▊        | 4265/5001 [05:09<01:05, 11.30it/s][A
 85%|███████████████████████████████████████████████▊        | 4267/5001 [05:09<01:03, 11.55it/s][A
 85%|███████████████████████████████████████████████▊        | 4269/5001 [05:09<01:07, 10.89it/s][A
 85%|███████████████████████████████████████████████▊        | 4271/5001 [05:09<01:07, 10.86it/s][A
 85%|███████████████████████████████████████████████▊        | 4273/5001 [05:09<01:07, 10.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.475
 	Training Stability: 12.202
 	AAR: 1.053
 	SES: 1.0
 	Mean Reward: 105.5
 	Std Reward: 8.382




 90%|██████████████████████████████████████████████████▍     | 4504/5001 [05:32<00:45, 10.92it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [05:32<00:44, 11.09it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [05:32<00:44, 11.07it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [05:32<00:43, 11.25it/s][A
 90%|██████████████████████████████████████████████████▌     | 4512/5001 [05:32<00:43, 11.12it/s][A
 90%|██████████████████████████████████████████████████▌     | 4514/5001 [05:33<00:43, 11.28it/s][A
 90%|██████████████████████████████████████████████████▌     | 4516/5001 [05:33<00:45, 10.77it/s][A
 90%|██████████████████████████████████████████████████▌     | 4518/5001 [05:33<00:45, 10.73it/s][A
 90%|██████████████████████████████████████████████████▌     | 4520/5001 [05:33<00:44, 10.87it/s][A
 90%|██████████████████████████████████████████████████▋     | 4522/5001 [05:33<00:44, 10.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.488
 	Training Stability: 15.559
 	AAR: 1.026
 	SES: 1.0
 	Mean Reward: 122.6
 	Std Reward: 22.809




 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [05:56<00:24, 10.11it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [05:57<00:24,  9.93it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [05:57<00:24,  9.87it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [05:57<00:25,  9.61it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [05:57<00:25,  9.63it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [05:57<00:25,  9.55it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [05:57<00:25,  9.54it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4762/5001 [05:57<00:26,  9.16it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4763/5001 [05:57<00:25,  9.30it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4764/5001 [05:57<00:25,  9.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 151.029
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 426.2
 	Std Reward: 125.005




 33%|██████████████████▋                                     | 4/12 [1:00:52<1:49:32, 821.56s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 8/5001 [00:00<01:03, 78.24it/s][A
  0%|▏                                                         | 17/5001 [00:00<01:01, 80.91it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.375
 	Training Stability: 17.777
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 9.7
 	Std Reward: 1.792




  1%|▎                                                         | 26/5001 [00:00<01:00, 81.93it/s][A
  1%|▍                                                         | 35/5001 [00:00<01:01, 81.28it/s][A
  1%|▌                                                         | 44/5001 [00:00<01:00, 82.01it/s][A
  1%|▌                                                         | 53/5001 [00:00<00:58, 83.99it/s][A
  1%|▋                                                         | 62/5001 [00:00<00:58, 84.15it/s][A
  1%|▊                                                         | 71/5001 [00:00<00:58, 84.88it/s][A
  2%|▉                                                         | 81/5001 [00:00<00:56, 87.31it/s][A
  2%|█                                                         | 90/5001 [00:01<00:56, 86.35it/s][A
  2%|█▏                                                        | 99/5001 [00:01<00:57, 85.22it/s][A
  2%|█▏                                                       | 108/5001 [00:01<00:58, 83.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.375
 	Training Stability: 1.814
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 19.0
 	Std Reward: 23.091




  5%|███                                                      | 274/5001 [00:03<01:02, 75.55it/s][A
  6%|███▏                                                     | 282/5001 [00:03<01:03, 74.04it/s][A
  6%|███▎                                                     | 290/5001 [00:03<01:03, 73.90it/s][A
  6%|███▍                                                     | 298/5001 [00:03<01:03, 73.93it/s][A
  6%|███▍                                                     | 306/5001 [00:04<01:32, 50.63it/s][A
  6%|███▌                                                     | 313/5001 [00:04<01:37, 48.13it/s][A
  6%|███▋                                                     | 319/5001 [00:04<01:43, 45.37it/s][A
  6%|███▋                                                     | 325/5001 [00:04<02:11, 35.44it/s][A
  7%|███▊                                                     | 331/5001 [00:04<01:59, 39.19it/s][A
  7%|███▊                                                     | 338/5001 [00:04<01:47, 43.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.375
 	Training Stability: 4.266
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 15.7
 	Std Reward: 6.388




 10%|█████▉                                                   | 521/5001 [00:08<01:10, 63.65it/s][A
 11%|██████                                                   | 528/5001 [00:08<01:09, 64.27it/s][A
 11%|██████                                                   | 535/5001 [00:08<01:07, 65.74it/s][A
 11%|██████▏                                                  | 542/5001 [00:08<01:07, 65.58it/s][A
 11%|██████▎                                                  | 550/5001 [00:08<01:06, 67.32it/s][A
 11%|██████▎                                                  | 557/5001 [00:08<01:06, 66.86it/s][A
 11%|██████▍                                                  | 564/5001 [00:09<01:06, 66.29it/s][A
 11%|██████▌                                                  | 571/5001 [00:09<01:07, 65.36it/s][A
 12%|██████▌                                                  | 579/5001 [00:09<01:06, 66.85it/s][A
 12%|██████▋                                                  | 586/5001 [00:09<01:06, 66.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.375
 	Training Stability: 4.051
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 19.5
 	Std Reward: 11.5




 15%|████████▋                                                | 766/5001 [00:12<01:04, 65.68it/s][A
 15%|████████▊                                                | 773/5001 [00:12<01:04, 65.14it/s][A
 16%|████████▉                                                | 780/5001 [00:12<01:03, 66.35it/s][A
 16%|████████▉                                                | 787/5001 [00:12<01:04, 65.65it/s][A
 16%|█████████                                                | 794/5001 [00:12<01:03, 66.35it/s][A
 16%|█████████▏                                               | 801/5001 [00:12<01:03, 66.53it/s][A
 16%|█████████▏                                               | 808/5001 [00:12<01:04, 65.07it/s][A
 16%|█████████▎                                               | 815/5001 [00:12<01:05, 63.49it/s][A
 16%|█████████▎                                               | 822/5001 [00:12<01:10, 59.08it/s][A
 17%|█████████▍                                               | 828/5001 [00:13<01:14, 55.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.375
 	Training Stability: 5.866
 	AAR: 1.333
 	SES: 0
 	Mean Reward: 19.3
 	Std Reward: 5.934




 20%|███████████▎                                            | 1011/5001 [00:16<01:30, 44.18it/s][A
 20%|███████████▍                                            | 1016/5001 [00:17<01:32, 43.19it/s][A
 20%|███████████▍                                            | 1021/5001 [00:17<01:31, 43.50it/s][A
 21%|███████████▍                                            | 1026/5001 [00:17<01:31, 43.27it/s][A
 21%|███████████▌                                            | 1031/5001 [00:17<01:32, 42.72it/s][A
 21%|███████████▌                                            | 1036/5001 [00:17<01:32, 42.93it/s][A
 21%|███████████▋                                            | 1041/5001 [00:17<01:32, 42.79it/s][A
 21%|███████████▋                                            | 1046/5001 [00:17<01:32, 42.58it/s][A
 21%|███████████▊                                            | 1051/5001 [00:17<01:32, 42.85it/s][A
 21%|███████████▊                                            | 1056/5001 [00:17<01:30, 43.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.375
 	Training Stability: 17.857
 	AAR: 1.333
 	SES: 0
 	Mean Reward: 29.3
 	Std Reward: 22.253




 25%|██████████████                                          | 1259/5001 [00:26<02:31, 24.77it/s][A
 25%|██████████████▏                                         | 1262/5001 [00:26<02:36, 23.86it/s][A
 25%|██████████████▏                                         | 1265/5001 [00:26<02:39, 23.42it/s][A
 25%|██████████████▏                                         | 1268/5001 [00:26<02:39, 23.38it/s][A
 25%|██████████████▏                                         | 1271/5001 [00:26<02:34, 24.08it/s][A
 25%|██████████████▎                                         | 1274/5001 [00:26<02:30, 24.78it/s][A
 26%|██████████████▎                                         | 1277/5001 [00:26<02:30, 24.73it/s][A
 26%|██████████████▎                                         | 1281/5001 [00:26<02:19, 26.68it/s][A
 26%|██████████████▍                                         | 1284/5001 [00:27<02:22, 26.12it/s][A
 26%|██████████████▍                                         | 1287/5001 [00:27<02:22, 26.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.375
 	Training Stability: 26.002
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 67.9
 	Std Reward: 16.096




 30%|████████████████▊                                       | 1503/5001 [00:48<07:38,  7.63it/s][A
 30%|████████████████▊                                       | 1505/5001 [00:48<07:22,  7.91it/s][A
 30%|████████████████▊                                       | 1506/5001 [00:48<07:36,  7.66it/s][A
 30%|████████████████▉                                       | 1507/5001 [00:48<07:34,  7.69it/s][A
 30%|████████████████▉                                       | 1508/5001 [00:48<08:40,  6.72it/s][A
 30%|████████████████▉                                       | 1509/5001 [00:49<08:57,  6.49it/s][A
 30%|████████████████▉                                       | 1510/5001 [00:49<09:55,  5.86it/s][A
 30%|████████████████▉                                       | 1511/5001 [00:49<11:08,  5.22it/s][A
 30%|████████████████▉                                       | 1512/5001 [00:49<11:49,  4.92it/s][A
 30%|████████████████▉                                       | 1513/5001 [00:49<11:00,  5.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.375
 	Training Stability: 26.111
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 88.3
 	Std Reward: 18.177




 35%|███████████████████▋                                    | 1753/5001 [01:19<06:27,  8.38it/s][A
 35%|███████████████████▋                                    | 1754/5001 [01:20<06:40,  8.11it/s][A
 35%|███████████████████▋                                    | 1755/5001 [01:20<06:56,  7.80it/s][A
 35%|███████████████████▋                                    | 1756/5001 [01:20<06:58,  7.75it/s][A
 35%|███████████████████▋                                    | 1757/5001 [01:20<07:18,  7.40it/s][A
 35%|███████████████████▋                                    | 1758/5001 [01:20<07:40,  7.04it/s][A
 35%|███████████████████▋                                    | 1759/5001 [01:20<07:16,  7.43it/s][A
 35%|███████████████████▋                                    | 1760/5001 [01:20<08:10,  6.61it/s][A
 35%|███████████████████▋                                    | 1761/5001 [01:21<08:35,  6.28it/s][A
 35%|███████████████████▋                                    | 1762/5001 [01:21<08:06,  6.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.375
 	Training Stability: 20.986
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 130.8
 	Std Reward: 48.212



 40%|██████████████████████▍                                 | 2003/5001 [01:50<06:51,  7.28it/s][A
 40%|██████████████████████▍                                 | 2004/5001 [01:50<06:33,  7.61it/s][A
 40%|██████████████████████▍                                 | 2005/5001 [01:50<06:22,  7.82it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [01:50<06:00,  8.31it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [01:50<05:16,  9.45it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [01:50<05:10,  9.63it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [01:51<05:22,  9.27it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [01:51<05:22,  9.26it/s][A
 40%|██████████████████████▌                                 | 2013/5001 [01:51<05:29,  9.07it/s][A
 40%|██████████████████████▌                                 | 2014/5001 [01:51<05:33,  8.9

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.375
 	Training Stability: 15.22
 	AAR: 1.333
 	SES: 0.857
 	Mean Reward: 87.2
 	Std Reward: 8.6




 45%|█████████████████████████▎                              | 2255/5001 [02:19<03:37, 12.64it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [02:19<03:36, 12.66it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [02:19<03:30, 13.02it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [02:19<03:37, 12.61it/s][A
 45%|█████████████████████████▎                              | 2263/5001 [02:19<03:40, 12.44it/s][A
 45%|█████████████████████████▎                              | 2265/5001 [02:19<03:49, 11.90it/s][A
 45%|█████████████████████████▍                              | 2267/5001 [02:20<03:57, 11.49it/s][A
 45%|█████████████████████████▍                              | 2269/5001 [02:20<03:57, 11.52it/s][A
 45%|█████████████████████████▍                              | 2271/5001 [02:20<03:56, 11.54it/s][A
 45%|█████████████████████████▍                              | 2273/5001 [02:20<03:46, 12.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.375
 	Training Stability: 21.07
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 85.9
 	Std Reward: 20.907




 50%|████████████████████████████                            | 2505/5001 [02:40<03:31, 11.80it/s][A
 50%|████████████████████████████                            | 2507/5001 [02:40<03:36, 11.51it/s][A
 50%|████████████████████████████                            | 2509/5001 [02:40<03:37, 11.44it/s][A
 50%|████████████████████████████                            | 2511/5001 [02:40<03:44, 11.11it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [02:40<03:29, 11.90it/s][A
 50%|████████████████████████████▏                           | 2515/5001 [02:40<03:20, 12.41it/s][A
 50%|████████████████████████████▏                           | 2517/5001 [02:41<03:05, 13.37it/s][A
 50%|████████████████████████████▏                           | 2519/5001 [02:41<03:03, 13.55it/s][A
 50%|████████████████████████████▏                           | 2521/5001 [02:41<03:02, 13.56it/s][A
 50%|████████████████████████████▎                           | 2523/5001 [02:41<03:43, 11.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.375
 	Training Stability: 13.758
 	AAR: 1.333
 	SES: 0
 	Mean Reward: 85.0
 	Std Reward: 12.961




 55%|██████████████████████████████▊                         | 2754/5001 [03:17<03:56,  9.52it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [03:17<04:13,  8.84it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [03:18<05:05,  7.35it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [03:18<05:48,  6.44it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [03:18<06:33,  5.69it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [03:18<06:49,  5.47it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [03:18<07:19,  5.10it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [03:19<07:49,  4.77it/s][A
 55%|██████████████████████████████▉                         | 2763/5001 [03:19<08:00,  4.66it/s][A
 55%|██████████████████████████████▉                         | 2764/5001 [03:19<08:45,  4.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 130.331
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 350.4
 	Std Reward: 153.766




 60%|█████████████████████████████████▌                      | 3002/5001 [03:46<07:38,  4.36it/s][A
 60%|█████████████████████████████████▋                      | 3003/5001 [03:46<07:36,  4.38it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [03:46<06:45,  4.92it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [03:46<06:53,  4.82it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [03:46<05:57,  5.59it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [03:46<04:14,  7.84it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [03:47<05:01,  6.60it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [03:47<04:46,  6.96it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [03:47<03:44,  8.86it/s][A
 60%|█████████████████████████████████▊                      | 3014/5001 [03:47<03:19,  9.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 10.24
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 84.9
 	Std Reward: 11.158




 65%|████████████████████████████████████▍                   | 3254/5001 [04:22<03:05,  9.40it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [04:22<03:05,  9.41it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [04:22<02:49, 10.31it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [04:22<02:45, 10.53it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [04:22<02:41, 10.81it/s][A
 65%|████████████████████████████████████▌                   | 3263/5001 [04:23<03:22,  8.60it/s][A
 65%|████████████████████████████████████▌                   | 3264/5001 [04:23<03:57,  7.31it/s][A
 65%|████████████████████████████████████▌                   | 3265/5001 [04:23<04:35,  6.29it/s][A
 65%|████████████████████████████████████▌                   | 3266/5001 [04:23<05:25,  5.34it/s][A
 65%|████████████████████████████████████▌                   | 3267/5001 [04:24<05:44,  5.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 90.55
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 99.2
 	Std Reward: 18.707




 70%|███████████████████████████████████████▏                | 3504/5001 [05:00<03:30,  7.13it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [05:00<03:16,  7.61it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [05:00<03:15,  7.66it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [05:01<03:15,  7.62it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [05:01<04:05,  6.08it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [05:01<04:11,  5.93it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [05:01<04:52,  5.10it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [05:02<05:14,  4.74it/s][A
 70%|███████████████████████████████████████▎                | 3513/5001 [05:02<04:35,  5.41it/s][A
 70%|███████████████████████████████████████▎                | 3514/5001 [05:02<04:15,  5.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 12.166
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 68.6
 	Std Reward: 7.71




 75%|██████████████████████████████████████████              | 3753/5001 [05:35<02:15,  9.20it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [05:35<02:15,  9.18it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [05:35<02:19,  8.92it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [05:35<02:16,  9.11it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [05:36<02:06,  9.86it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [05:36<02:42,  7.66it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [05:36<02:43,  7.58it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [05:36<02:48,  7.36it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [05:36<03:05,  6.68it/s][A
 75%|██████████████████████████████████████████▏             | 3763/5001 [05:37<03:14,  6.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 158.844
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 252.8
 	Std Reward: 123.737




 80%|████████████████████████████████████████████▊           | 4002/5001 [06:23<05:05,  3.27it/s][A
 80%|████████████████████████████████████████████▊           | 4003/5001 [06:23<05:07,  3.25it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [06:24<05:19,  3.12it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [06:24<05:08,  3.23it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [06:24<05:03,  3.28it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [06:24<04:14,  3.91it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [06:24<03:33,  4.65it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [06:25<03:43,  4.43it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [06:25<03:36,  4.58it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [06:25<04:10,  3.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 17.805
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 82.8
 	Std Reward: 15.696



 85%|███████████████████████████████████████████████▌        | 4253/5001 [07:07<01:20,  9.24it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [07:07<01:17,  9.57it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [07:08<01:27,  8.51it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [07:08<01:27,  8.53it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [07:08<01:25,  8.72it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [07:08<01:24,  8.73it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [07:08<01:29,  8.24it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [07:08<01:28,  8.37it/s][A
 85%|███████████████████████████████████████████████▋        | 4262/5001 [07:08<01:28,  8.35it/s][A
 85%|███████████████████████████████████████████████▋        | 4263/5001 [07:08<01:35,  7.7

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 43.893
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 146.9
 	Std Reward: 60.378




 90%|██████████████████████████████████████████████████▍     | 4503/5001 [07:56<01:25,  5.80it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [07:56<01:23,  5.93it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [07:56<01:15,  6.56it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [07:56<01:12,  6.86it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [07:56<01:10,  6.96it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [07:56<01:13,  6.73it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [07:57<01:09,  7.03it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [07:57<01:10,  6.95it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [07:57<01:08,  7.17it/s][A
 90%|██████████████████████████████████████████████████▌     | 4512/5001 [07:57<01:04,  7.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 35.685
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 143.5
 	Std Reward: 27.445




 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [08:31<00:38,  6.48it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [08:31<00:37,  6.52it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [08:31<00:36,  6.78it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [08:31<00:35,  6.98it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [08:31<00:53,  4.57it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [08:32<00:49,  4.94it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [08:32<00:44,  5.42it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [08:32<00:44,  5.40it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [08:32<01:11,  3.37it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4762/5001 [08:33<01:11,  3.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.375
 	Training Stability: 16.739
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 136.4
 	Std Reward: 16.788




 42%|███████████████████████▎                                | 5/12 [1:10:02<1:24:25, 723.64s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 9/5001 [00:00<01:00, 82.70it/s][A
  0%|▏                                                         | 18/5001 [00:00<01:00, 82.03it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 0.64
 	AAR: 2.0
 	SES: 0.333
 	Mean Reward: 8.9
 	Std Reward: 0.539




  1%|▎                                                         | 27/5001 [00:00<00:59, 83.05it/s][A
  1%|▍                                                         | 36/5001 [00:00<00:58, 84.95it/s][A
  1%|▌                                                         | 46/5001 [00:00<00:56, 87.18it/s][A
  1%|▋                                                         | 56/5001 [00:00<00:55, 88.58it/s][A
  1%|▊                                                         | 65/5001 [00:00<00:55, 89.00it/s][A
  1%|▊                                                         | 74/5001 [00:00<00:56, 87.42it/s][A
  2%|▉                                                         | 83/5001 [00:00<00:56, 87.07it/s][A
  2%|█                                                         | 92/5001 [00:01<00:55, 87.73it/s][A
  2%|█▏                                                       | 101/5001 [00:01<00:56, 87.06it/s][A
  2%|█▎                                                       | 111/5001 [00:01<00:54, 89.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.25
 	Training Stability: 1.565
 	AAR: 2.0
 	SES: 0
 	Mean Reward: 9.3
 	Std Reward: 0.781




  5%|███                                                      | 274/5001 [00:02<00:49, 96.28it/s][A
  6%|███▏                                                     | 284/5001 [00:03<00:48, 96.34it/s][A
  6%|███▎                                                     | 294/5001 [00:03<00:48, 97.11it/s][A
  6%|███▍                                                     | 305/5001 [00:03<00:47, 98.60it/s][A
  6%|███▌                                                     | 315/5001 [00:03<00:48, 97.35it/s][A
  6%|███▋                                                     | 325/5001 [00:03<00:48, 96.97it/s][A
  7%|███▊                                                     | 335/5001 [00:03<00:47, 97.44it/s][A
  7%|███▉                                                     | 346/5001 [00:03<00:47, 98.98it/s][A
  7%|████                                                     | 356/5001 [00:03<00:46, 98.95it/s][A
  7%|████▏                                                    | 366/5001 [00:03<00:47, 98.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.25
 	Training Stability: 2.343
 	AAR: 2.0
 	SES: 0
 	Mean Reward: 11.1
 	Std Reward: 4.036




 11%|█████▉                                                   | 526/5001 [00:05<00:50, 89.32it/s][A
 11%|██████                                                   | 535/5001 [00:05<00:50, 89.13it/s][A
 11%|██████▏                                                  | 545/5001 [00:05<00:49, 89.80it/s][A
 11%|██████▎                                                  | 555/5001 [00:05<00:49, 90.48it/s][A
 11%|██████▍                                                  | 565/5001 [00:06<00:48, 91.75it/s][A
 11%|██████▌                                                  | 575/5001 [00:06<00:47, 92.83it/s][A
 12%|██████▋                                                  | 585/5001 [00:06<00:47, 92.73it/s][A
 12%|██████▊                                                  | 595/5001 [00:06<00:46, 94.16it/s][A
 12%|██████▉                                                  | 605/5001 [00:06<00:46, 94.90it/s][A
 12%|███████                                                  | 615/5001 [00:06<00:46, 94.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.25
 	Training Stability: 1.414
 	AAR: 2.0
 	SES: 0
 	Mean Reward: 10.8
 	Std Reward: 3.092




 15%|████████▊                                                | 774/5001 [00:08<00:47, 88.59it/s][A
 16%|████████▉                                                | 784/5001 [00:08<00:47, 89.46it/s][A
 16%|█████████                                                | 794/5001 [00:08<00:45, 91.91it/s][A
 16%|█████████▏                                               | 804/5001 [00:08<00:45, 92.37it/s][A
 16%|█████████▎                                               | 814/5001 [00:08<00:45, 92.56it/s][A
 16%|█████████▍                                               | 824/5001 [00:08<00:45, 92.41it/s][A
 17%|█████████▌                                               | 834/5001 [00:08<00:45, 92.19it/s][A
 17%|█████████▌                                               | 844/5001 [00:09<00:45, 92.08it/s][A
 17%|█████████▋                                               | 854/5001 [00:09<00:46, 89.54it/s][A
 17%|█████████▊                                               | 863/5001 [00:09<00:46, 89.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.25
 	Training Stability: 3.113
 	AAR: 2.0
 	SES: 0
 	Mean Reward: 12.1
 	Std Reward: 2.879




 20%|███████████▍                                            | 1025/5001 [00:11<00:52, 75.12it/s][A
 21%|███████████▌                                            | 1033/5001 [00:11<00:52, 75.95it/s][A
 21%|███████████▋                                            | 1041/5001 [00:11<00:51, 77.02it/s][A
 21%|███████████▋                                            | 1049/5001 [00:11<00:51, 76.31it/s][A
 21%|███████████▊                                            | 1057/5001 [00:11<00:51, 76.32it/s][A
 21%|███████████▉                                            | 1065/5001 [00:11<00:52, 75.60it/s][A
 21%|████████████                                            | 1073/5001 [00:11<00:51, 76.76it/s][A
 22%|████████████                                            | 1082/5001 [00:12<00:49, 78.45it/s][A
 22%|████████████▏                                           | 1090/5001 [00:12<00:51, 76.55it/s][A
 22%|████████████▎                                           | 1098/5001 [00:12<00:51, 75.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.25
 	Training Stability: 4.386
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 17.5
 	Std Reward: 6.83




 25%|██████████████▏                                         | 1270/5001 [00:16<01:03, 58.53it/s][A
 26%|██████████████▎                                         | 1276/5001 [00:16<01:03, 58.75it/s][A
 26%|██████████████▎                                         | 1282/5001 [00:16<01:05, 56.52it/s][A
 26%|██████████████▍                                         | 1288/5001 [00:16<01:07, 55.11it/s][A
 26%|██████████████▍                                         | 1294/5001 [00:16<01:09, 53.61it/s][A
 26%|██████████████▌                                         | 1300/5001 [00:17<01:10, 52.19it/s][A
 26%|██████████████▌                                         | 1306/5001 [00:17<01:11, 51.99it/s][A
 26%|██████████████▋                                         | 1312/5001 [00:17<01:11, 51.58it/s][A
 26%|██████████████▊                                         | 1318/5001 [00:17<01:11, 51.55it/s][A
 26%|██████████████▊                                         | 1324/5001 [00:17<01:10, 51.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.25
 	Training Stability: 4.085
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 19.8
 	Std Reward: 5.6




 30%|████████████████▉                                       | 1514/5001 [00:21<01:08, 50.56it/s][A
 30%|█████████████████                                       | 1520/5001 [00:21<01:08, 50.86it/s][A
 31%|█████████████████                                       | 1526/5001 [00:21<01:08, 50.88it/s][A
 31%|█████████████████▏                                      | 1532/5001 [00:21<01:10, 49.51it/s][A
 31%|█████████████████▏                                      | 1537/5001 [00:21<01:11, 48.38it/s][A
 31%|█████████████████▎                                      | 1542/5001 [00:21<01:10, 48.79it/s][A
 31%|█████████████████▎                                      | 1547/5001 [00:21<01:10, 49.03it/s][A
 31%|█████████████████▍                                      | 1553/5001 [00:21<01:07, 50.74it/s][A
 31%|█████████████████▍                                      | 1559/5001 [00:22<01:07, 50.93it/s][A
 31%|█████████████████▌                                      | 1565/5001 [00:22<01:11, 48.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.333
 	Training Stability: 15.982
 	AAR: 1.5
 	SES: 1.0
 	Mean Reward: 78.2
 	Std Reward: 20.581




 35%|███████████████████▋                                    | 1755/5001 [00:27<03:19, 16.30it/s][A
 35%|███████████████████▋                                    | 1757/5001 [00:27<03:24, 15.83it/s][A
 35%|███████████████████▋                                    | 1759/5001 [00:28<03:19, 16.27it/s][A
 35%|███████████████████▋                                    | 1761/5001 [00:28<03:12, 16.83it/s][A
 35%|███████████████████▋                                    | 1763/5001 [00:28<03:11, 16.94it/s][A
 35%|███████████████████▊                                    | 1765/5001 [00:28<03:12, 16.81it/s][A
 35%|███████████████████▊                                    | 1767/5001 [00:28<03:12, 16.79it/s][A
 35%|███████████████████▊                                    | 1769/5001 [00:28<03:14, 16.59it/s][A
 35%|███████████████████▊                                    | 1771/5001 [00:28<03:13, 16.73it/s][A
 35%|███████████████████▊                                    | 1773/5001 [00:28<03:18, 16.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.417
 	Training Stability: 26.27
 	AAR: 1.2
 	SES: 1.0
 	Mean Reward: 80.4
 	Std Reward: 27.569




 40%|██████████████████████▍                                 | 2003/5001 [00:48<07:47,  6.41it/s][A
 40%|██████████████████████▍                                 | 2004/5001 [00:49<07:36,  6.57it/s][A
 40%|██████████████████████▍                                 | 2005/5001 [00:49<07:08,  6.99it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [00:49<06:58,  7.16it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [00:49<06:36,  7.55it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [00:49<06:27,  7.71it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [00:49<06:11,  8.06it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [00:49<06:04,  8.20it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [00:49<05:56,  8.38it/s][A
 40%|██████████████████████▌                                 | 2013/5001 [00:50<05:20,  9.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.5
 	Training Stability: 29.206
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 84.9
 	Std Reward: 28.763




 45%|█████████████████████████▎                              | 2255/5001 [01:11<03:45, 12.20it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [01:11<03:38, 12.54it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [01:11<03:38, 12.58it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [01:12<03:28, 13.12it/s][A
 45%|█████████████████████████▎                              | 2263/5001 [01:12<03:37, 12.61it/s][A
 45%|█████████████████████████▎                              | 2265/5001 [01:12<03:34, 12.75it/s][A
 45%|█████████████████████████▍                              | 2267/5001 [01:12<03:35, 12.71it/s][A
 45%|█████████████████████████▍                              | 2269/5001 [01:12<03:36, 12.65it/s][A
 45%|█████████████████████████▍                              | 2271/5001 [01:12<03:31, 12.91it/s][A
 45%|█████████████████████████▍                              | 2273/5001 [01:13<03:29, 13.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.5
 	Training Stability: 61.584
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 29.5
 	Std Reward: 9.729




 50%|████████████████████████████                            | 2503/5001 [01:40<05:39,  7.36it/s][A
 50%|████████████████████████████                            | 2504/5001 [01:40<05:30,  7.57it/s][A
 50%|████████████████████████████                            | 2506/5001 [01:40<04:40,  8.89it/s][A
 50%|████████████████████████████                            | 2507/5001 [01:40<04:46,  8.70it/s][A
 50%|████████████████████████████                            | 2508/5001 [01:40<05:02,  8.25it/s][A
 50%|████████████████████████████                            | 2509/5001 [01:41<05:12,  7.99it/s][A
 50%|████████████████████████████                            | 2510/5001 [01:41<05:16,  7.87it/s][A
 50%|████████████████████████████                            | 2511/5001 [01:41<05:13,  7.94it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [01:41<04:17,  9.65it/s][A
 50%|████████████████████████████▏                           | 2515/5001 [01:41<03:54, 10.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.5
 	Training Stability: 22.672
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 66.6
 	Std Reward: 17.368




 55%|██████████████████████████████▊                         | 2753/5001 [02:10<04:26,  8.42it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [02:10<04:24,  8.50it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [02:10<05:18,  7.06it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [02:10<06:23,  5.86it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [02:11<07:49,  4.78it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [02:11<08:35,  4.35it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [02:11<09:04,  4.12it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [02:11<09:16,  4.02it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [02:12<08:49,  4.23it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [02:12<09:34,  3.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 114.556
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 30.5
 	Std Reward: 11.156




 60%|█████████████████████████████████▋                      | 3003/5001 [02:58<06:39,  5.00it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [02:58<08:41,  3.83it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [02:59<09:24,  3.54it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [02:59<10:17,  3.23it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [02:59<10:33,  3.15it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [03:00<08:43,  3.81it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [03:00<07:15,  4.57it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [03:00<08:13,  4.04it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [03:00<07:25,  4.46it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [03:00<06:18,  5.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 112.445
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 205.9
 	Std Reward: 115.945




 65%|████████████████████████████████████▍                   | 3252/5001 [03:44<07:06,  4.10it/s][A
 65%|████████████████████████████████████▍                   | 3253/5001 [03:44<06:28,  4.50it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [03:44<06:44,  4.32it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [03:44<06:35,  4.41it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [03:45<06:50,  4.25it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [03:45<07:02,  4.13it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [03:45<07:04,  4.11it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [03:45<06:37,  4.39it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [03:45<06:12,  4.67it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [03:46<06:12,  4.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 151.326
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 259.0
 	Std Reward: 145.285




 70%|███████████████████████████████████████▏                | 3502/5001 [04:26<04:55,  5.08it/s][A
 70%|███████████████████████████████████████▏                | 3503/5001 [04:27<04:56,  5.05it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [04:27<04:51,  5.13it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [04:27<05:03,  4.93it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [04:27<05:07,  4.86it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [04:27<05:17,  4.71it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [04:28<05:28,  4.54it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [04:28<05:22,  4.63it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [04:28<05:15,  4.73it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [04:28<05:10,  4.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 12.592
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 58.8
 	Std Reward: 6.75




 75%|██████████████████████████████████████████              | 3754/5001 [05:01<02:12,  9.44it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [05:01<02:16,  9.14it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [05:01<02:22,  8.74it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [05:01<02:26,  8.50it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [05:01<02:32,  8.14it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [05:01<02:44,  7.56it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [05:02<02:43,  7.58it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [05:02<02:40,  7.73it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [05:02<02:43,  7.58it/s][A
 75%|██████████████████████████████████████████▏             | 3763/5001 [05:02<02:44,  7.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 101.926
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 255.6
 	Std Reward: 123.24




 80%|████████████████████████████████████████████▊           | 4002/5001 [05:40<03:11,  5.21it/s][A
 80%|████████████████████████████████████████████▊           | 4003/5001 [05:41<03:33,  4.68it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [05:41<03:41,  4.51it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [05:41<03:39,  4.54it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [05:41<03:47,  4.37it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [05:42<03:53,  4.25it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [05:42<03:58,  4.17it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [05:42<04:00,  4.12it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [05:42<03:36,  4.57it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [05:42<03:20,  4.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 40.533
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 105.6
 	Std Reward: 49.518




 85%|███████████████████████████████████████████████▌        | 4253/5001 [06:17<01:39,  7.49it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [06:17<01:38,  7.58it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [06:18<01:42,  7.26it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [06:18<01:45,  7.06it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [06:18<01:56,  6.37it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [06:18<02:11,  5.66it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [06:18<02:09,  5.71it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [06:19<02:25,  5.09it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [06:19<02:25,  5.10it/s][A
 85%|███████████████████████████████████████████████▋        | 4262/5001 [06:19<02:30,  4.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 46.732
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 160.5
 	Std Reward: 37.144




 90%|██████████████████████████████████████████████████▍     | 4503/5001 [06:52<01:15,  6.59it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [06:52<01:14,  6.66it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [06:52<01:14,  6.70it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [06:52<01:18,  6.31it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [06:52<01:16,  6.42it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [06:52<01:13,  6.73it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [06:53<01:13,  6.73it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [06:53<01:13,  6.73it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [06:53<01:12,  6.77it/s][A
 90%|██████████████████████████████████████████████████▌     | 4512/5001 [06:53<01:07,  7.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 146.849
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 340.3
 	Std Reward: 138.018




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [07:34<01:10,  3.52it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [07:34<01:08,  3.64it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [07:35<01:07,  3.68it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [07:35<01:09,  3.52it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [07:35<01:09,  3.50it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [07:35<01:10,  3.48it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [07:36<01:09,  3.49it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [07:36<01:11,  3.38it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [07:36<01:08,  3.50it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [07:37<01:08,  3.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 142.287
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 96.9
 	Std Reward: 17.518




 50%|████████████████████████████                            | 6/12 [1:18:45<1:05:32, 655.48s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 7/5001 [00:00<01:13, 67.50it/s][A
  0%|▏                                                         | 15/5001 [00:00<01:10, 71.02it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 2.865
 	AAR: 2.0
 	SES: 0.909
 	Mean Reward: 10.8
 	Std Reward: 1.99




  0%|▎                                                         | 23/5001 [00:00<01:10, 70.33it/s][A
  1%|▎                                                         | 31/5001 [00:00<01:09, 71.39it/s][A
  1%|▍                                                         | 39/5001 [00:00<01:08, 72.55it/s][A
  1%|▌                                                         | 47/5001 [00:00<01:08, 72.51it/s][A
  1%|▋                                                         | 55/5001 [00:00<01:08, 72.27it/s][A
  1%|▋                                                         | 63/5001 [00:00<01:07, 72.83it/s][A
  1%|▊                                                         | 71/5001 [00:00<01:10, 70.24it/s][A
  2%|▉                                                         | 79/5001 [00:01<01:11, 68.95it/s][A
  2%|█                                                         | 88/5001 [00:01<01:06, 73.56it/s][A
  2%|█                                                         | 96/5001 [00:01<01:08, 71.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.263
 	Training Stability: 4.076
 	AAR: 1.905
 	SES: 0
 	Mean Reward: 17.9
 	Std Reward: 7.368




  5%|███                                                      | 270/5001 [00:04<01:17, 60.74it/s][A
  6%|███▏                                                     | 277/5001 [00:04<01:21, 58.22it/s][A
  6%|███▏                                                     | 283/5001 [00:04<01:21, 57.73it/s][A
  6%|███▎                                                     | 289/5001 [00:04<01:21, 57.76it/s][A
  6%|███▎                                                     | 295/5001 [00:04<01:21, 58.03it/s][A
  6%|███▍                                                     | 302/5001 [00:04<01:18, 59.68it/s][A
  6%|███▌                                                     | 308/5001 [00:04<01:20, 58.40it/s][A
  6%|███▌                                                     | 315/5001 [00:04<01:19, 59.26it/s][A
  6%|███▋                                                     | 321/5001 [00:04<01:18, 59.39it/s][A
  7%|███▋                                                     | 327/5001 [00:05<01:20, 58.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.275
 	Training Stability: 3.015
 	AAR: 1.818
 	SES: 1.0
 	Mean Reward: 16.8
 	Std Reward: 7.782




 10%|█████▊                                                   | 513/5001 [00:08<01:22, 54.48it/s][A
 10%|█████▉                                                   | 519/5001 [00:08<01:22, 54.17it/s][A
 10%|█████▉                                                   | 525/5001 [00:08<01:21, 54.72it/s][A
 11%|██████                                                   | 531/5001 [00:08<01:20, 55.20it/s][A
 11%|██████                                                   | 537/5001 [00:08<01:21, 54.55it/s][A
 11%|██████▏                                                  | 543/5001 [00:08<01:20, 55.39it/s][A
 11%|██████▎                                                  | 549/5001 [00:09<01:19, 55.82it/s][A
 11%|██████▎                                                  | 555/5001 [00:09<01:21, 54.48it/s][A
 11%|██████▍                                                  | 561/5001 [00:09<01:22, 54.11it/s][A
 11%|██████▍                                                  | 567/5001 [00:09<01:24, 52.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.287
 	Training Stability: 33.992
 	AAR: 1.739
 	SES: 1.0
 	Mean Reward: 37.0
 	Std Reward: 27.317




 15%|████████▋                                                | 759/5001 [00:15<03:59, 17.68it/s][A
 15%|████████▋                                                | 762/5001 [00:15<03:45, 18.84it/s][A
 15%|████████▋                                                | 764/5001 [00:15<03:48, 18.51it/s][A
 15%|████████▋                                                | 767/5001 [00:15<03:33, 19.82it/s][A
 15%|████████▊                                                | 770/5001 [00:15<03:33, 19.78it/s][A
 15%|████████▊                                                | 773/5001 [00:15<03:25, 20.59it/s][A
 16%|████████▊                                                | 776/5001 [00:15<03:17, 21.44it/s][A
 16%|████████▉                                                | 779/5001 [00:16<03:16, 21.49it/s][A
 16%|████████▉                                                | 782/5001 [00:16<03:15, 21.57it/s][A
 16%|████████▉                                                | 785/5001 [00:16<03:25, 20.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.3
 	Training Stability: 86.495
 	AAR: 1.667
 	SES: 1.0
 	Mean Reward: 52.8
 	Std Reward: 40.393




 20%|███████████▏                                            | 1003/5001 [00:30<09:25,  7.07it/s][A
 20%|███████████▏                                            | 1004/5001 [00:30<09:19,  7.14it/s][A
 20%|███████████▎                                            | 1005/5001 [00:30<09:28,  7.03it/s][A
 20%|███████████▎                                            | 1006/5001 [00:30<08:48,  7.56it/s][A
 20%|███████████▎                                            | 1007/5001 [00:30<08:27,  7.87it/s][A
 20%|███████████▎                                            | 1008/5001 [00:30<08:15,  8.06it/s][A
 20%|███████████▎                                            | 1009/5001 [00:31<08:04,  8.24it/s][A
 20%|███████████▎                                            | 1010/5001 [00:31<07:42,  8.63it/s][A
 20%|███████████▎                                            | 1011/5001 [00:31<07:24,  8.98it/s][A
 20%|███████████▎                                            | 1013/5001 [00:31<06:39,  9.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.312
 	Training Stability: 117.573
 	AAR: 1.6
 	SES: 1.0
 	Mean Reward: 137.0
 	Std Reward: 85.112




 25%|██████████████                                          | 1253/5001 [01:09<10:48,  5.78it/s][A
 25%|██████████████                                          | 1254/5001 [01:09<09:33,  6.53it/s][A
 25%|██████████████                                          | 1255/5001 [01:09<10:02,  6.22it/s][A
 25%|██████████████                                          | 1256/5001 [01:09<09:28,  6.58it/s][A
 25%|██████████████                                          | 1257/5001 [01:10<09:16,  6.73it/s][A
 25%|██████████████                                          | 1258/5001 [01:10<08:44,  7.13it/s][A
 25%|██████████████                                          | 1259/5001 [01:10<10:00,  6.23it/s][A
 25%|██████████████                                          | 1260/5001 [01:10<11:10,  5.58it/s][A
 25%|██████████████                                          | 1261/5001 [01:10<11:32,  5.40it/s][A
 25%|██████████████▏                                         | 1262/5001 [01:10<10:58,  5.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.325
 	Training Stability: 24.212
 	AAR: 1.538
 	SES: 1.0
 	Mean Reward: 94.5
 	Std Reward: 32.129




 30%|████████████████▊                                       | 1503/5001 [01:51<07:23,  7.88it/s][A
 30%|████████████████▊                                       | 1504/5001 [01:51<07:24,  7.87it/s][A
 30%|████████████████▊                                       | 1506/5001 [01:51<06:34,  8.86it/s][A
 30%|████████████████▉                                       | 1507/5001 [01:51<06:37,  8.79it/s][A
 30%|████████████████▉                                       | 1509/5001 [01:52<06:15,  9.29it/s][A
 30%|████████████████▉                                       | 1510/5001 [01:52<06:36,  8.80it/s][A
 30%|████████████████▉                                       | 1511/5001 [01:52<07:15,  8.01it/s][A
 30%|████████████████▉                                       | 1512/5001 [01:52<07:41,  7.56it/s][A
 30%|████████████████▉                                       | 1513/5001 [01:52<07:38,  7.61it/s][A
 30%|████████████████▉                                       | 1514/5001 [01:52<07:31,  7.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.338
 	Training Stability: 17.693
 	AAR: 1.481
 	SES: 1.0
 	Mean Reward: 122.9
 	Std Reward: 56.733




 35%|███████████████████▋                                    | 1753/5001 [02:22<06:10,  8.77it/s][A
 35%|███████████████████▋                                    | 1755/5001 [02:22<05:40,  9.54it/s][A
 35%|███████████████████▋                                    | 1756/5001 [02:22<05:58,  9.04it/s][A
 35%|███████████████████▋                                    | 1758/5001 [02:22<05:17, 10.23it/s][A
 35%|███████████████████▋                                    | 1760/5001 [02:22<04:45, 11.37it/s][A
 35%|███████████████████▋                                    | 1762/5001 [02:23<05:01, 10.74it/s][A
 35%|███████████████████▊                                    | 1764/5001 [02:23<04:41, 11.50it/s][A
 35%|███████████████████▊                                    | 1766/5001 [02:23<04:33, 11.81it/s][A
 35%|███████████████████▊                                    | 1768/5001 [02:23<04:48, 11.22it/s][A
 35%|███████████████████▊                                    | 1770/5001 [02:23<05:11, 10.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.35
 	Training Stability: 16.511
 	AAR: 1.429
 	SES: 0.833
 	Mean Reward: 63.4
 	Std Reward: 12.159




 40%|██████████████████████▍                                 | 2004/5001 [02:50<04:43, 10.56it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [02:50<06:38,  7.52it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [02:51<08:01,  6.22it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [02:51<08:37,  5.78it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [02:51<09:09,  5.45it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [02:51<09:39,  5.16it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [02:52<10:32,  4.73it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [02:52<10:43,  4.64it/s][A
 40%|██████████████████████▌                                 | 2013/5001 [02:52<10:42,  4.65it/s][A
 40%|██████████████████████▌                                 | 2014/5001 [02:52<11:05,  4.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.362
 	Training Stability: 51.755
 	AAR: 1.379
 	SES: 1.0
 	Mean Reward: 229.0
 	Std Reward: 97.399




 45%|█████████████████████████▏                              | 2253/5001 [03:31<08:05,  5.66it/s][A
 45%|█████████████████████████▏                              | 2254/5001 [03:31<09:21,  4.89it/s][A
 45%|█████████████████████████▎                              | 2255/5001 [03:32<09:39,  4.74it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [03:32<09:52,  4.63it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [03:32<09:42,  4.71it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [03:32<10:13,  4.47it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [03:33<10:06,  4.52it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [03:33<10:26,  4.37it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [03:33<10:57,  4.17it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [03:33<10:59,  4.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.375
 	Training Stability: 38.244
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 60.9
 	Std Reward: 12.919




 50%|████████████████████████████                            | 2504/5001 [04:12<03:42, 11.22it/s][A
 50%|████████████████████████████                            | 2506/5001 [04:12<04:16,  9.74it/s][A
 50%|████████████████████████████                            | 2508/5001 [04:12<05:44,  7.24it/s][A
 50%|████████████████████████████                            | 2509/5001 [04:12<06:18,  6.59it/s][A
 50%|████████████████████████████                            | 2510/5001 [04:13<07:04,  5.86it/s][A
 50%|████████████████████████████                            | 2511/5001 [04:13<07:49,  5.30it/s][A
 50%|████████████████████████████▏                           | 2512/5001 [04:13<08:05,  5.12it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [04:13<08:32,  4.85it/s][A
 50%|████████████████████████████▏                           | 2514/5001 [04:14<08:52,  4.67it/s][A
 50%|████████████████████████████▏                           | 2515/5001 [04:14<09:16,  4.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.388
 	Training Stability: 0.0
 	AAR: 1.29
 	SES: 1.0
 	Mean Reward: 352.8
 	Std Reward: 148.704




 55%|██████████████████████████████▊                         | 2752/5001 [04:59<11:46,  3.18it/s][A
 55%|██████████████████████████████▊                         | 2753/5001 [04:59<12:10,  3.08it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [05:00<12:42,  2.95it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [05:00<12:35,  2.97it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [05:00<12:57,  2.89it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [05:01<12:57,  2.88it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [05:01<13:13,  2.83it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [05:01<13:22,  2.79it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [05:02<13:22,  2.79it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [05:02<13:04,  2.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.4
 	Training Stability: 122.691
 	AAR: 1.25
 	SES: 1.0
 	Mean Reward: 405.4
 	Std Reward: 113.219




 60%|█████████████████████████████████▌                      | 3002/5001 [06:08<10:05,  3.30it/s][A
 60%|█████████████████████████████████▋                      | 3003/5001 [06:09<09:26,  3.53it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [06:09<09:29,  3.50it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [06:09<08:37,  3.86it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [06:09<08:16,  4.01it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [06:10<07:44,  4.29it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [06:10<07:56,  4.18it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [06:10<08:24,  3.95it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [06:10<08:12,  4.04it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [06:11<08:38,  3.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.412
 	Training Stability: 62.526
 	AAR: 1.212
 	SES: 1.0
 	Mean Reward: 132.1
 	Std Reward: 80.549




 65%|████████████████████████████████████▍                   | 3253/5001 [07:25<06:22,  4.57it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [07:26<07:11,  4.05it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [07:26<07:44,  3.76it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [07:26<07:53,  3.69it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [07:27<08:54,  3.27it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [07:27<10:08,  2.87it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [07:28<11:02,  2.63it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [07:28<11:59,  2.42it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [07:29<12:48,  2.26it/s][A
 65%|████████████████████████████████████▌                   | 3262/5001 [07:29<13:09,  2.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.425
 	Training Stability: 60.839
 	AAR: 1.176
 	SES: 1.0
 	Mean Reward: 243.4
 	Std Reward: 59.165




 70%|███████████████████████████████████████▏                | 3503/5001 [09:06<04:55,  5.07it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [09:06<06:41,  3.73it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [09:06<06:58,  3.58it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [09:07<06:54,  3.61it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [09:07<06:08,  4.05it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [09:07<05:11,  4.80it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [09:07<04:22,  5.68it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [09:07<03:26,  7.23it/s][A
 70%|███████████████████████████████████████▎                | 3513/5001 [09:07<02:55,  8.49it/s][A
 70%|███████████████████████████████████████▎                | 3514/5001 [09:07<02:51,  8.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.438
 	Training Stability: 86.157
 	AAR: 1.143
 	SES: 1.0
 	Mean Reward: 90.5
 	Std Reward: 41.616



 75%|██████████████████████████████████████████              | 3752/5001 [10:43<07:16,  2.86it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [10:44<05:37,  3.70it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [10:44<05:24,  3.84it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [10:44<04:41,  4.43it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [10:44<04:11,  4.94it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [10:44<04:15,  4.87it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [10:45<03:14,  6.39it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [10:45<03:15,  6.33it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [10:45<03:26,  5.99it/s][A
 75%|██████████████████████████████████████████▏             | 3763/5001 [10:45<03:41,  5.5

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.45
 	Training Stability: 57.119
 	AAR: 1.111
 	SES: 1.0
 	Mean Reward: 55.7
 	Std Reward: 17.95




 80%|████████████████████████████████████████████▊           | 4004/5001 [12:36<01:50,  9.01it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [12:37<02:05,  7.93it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [12:37<02:01,  8.20it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [12:37<01:47,  9.25it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [12:37<02:02,  8.10it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [12:37<01:55,  8.59it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [12:37<02:17,  7.20it/s][A
 80%|████████████████████████████████████████████▉           | 4013/5001 [12:38<02:34,  6.39it/s][A
 80%|████████████████████████████████████████████▉           | 4014/5001 [12:38<02:29,  6.62it/s][A
 80%|████████████████████████████████████████████▉           | 4015/5001 [12:38<02:32,  6.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.463
 	Training Stability: 135.126
 	AAR: 1.081
 	SES: 0.917
 	Mean Reward: 104.5
 	Std Reward: 18.304




 85%|███████████████████████████████████████████████▌        | 4253/5001 [13:50<03:00,  4.14it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [13:50<03:01,  4.12it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [13:50<02:53,  4.29it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [13:51<03:04,  4.03it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [13:51<03:27,  3.59it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [13:51<04:01,  3.08it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [13:52<04:25,  2.79it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [13:52<04:43,  2.62it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [13:53<04:53,  2.52it/s][A
 85%|███████████████████████████████████████████████▋        | 4262/5001 [13:53<05:02,  2.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.475
 	Training Stability: 112.551
 	AAR: 1.053
 	SES: 1.0
 	Mean Reward: 375.9
 	Std Reward: 169.187




 90%|██████████████████████████████████████████████████▍     | 4502/5001 [15:00<02:06,  3.93it/s][A
 90%|██████████████████████████████████████████████████▍     | 4503/5001 [15:01<02:23,  3.47it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [15:01<02:42,  3.05it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [15:02<02:55,  2.83it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [15:02<03:05,  2.66it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [15:02<03:11,  2.58it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [15:03<03:14,  2.53it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [15:03<03:17,  2.49it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [15:04<03:02,  2.69it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [15:04<02:41,  3.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.487
 	Training Stability: 0.0
 	AAR: 1.026
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [16:15<01:46,  2.33it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [16:15<01:45,  2.34it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [16:15<01:46,  2.32it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [16:16<01:45,  2.33it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [16:16<01:45,  2.33it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [16:17<01:44,  2.33it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [16:17<01:44,  2.33it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [16:18<01:45,  2.29it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [16:18<01:44,  2.30it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [16:19<01:44,  2.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 127.285
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 298.2
 	Std Reward: 72.51




 58%|████████████████████████████████▋                       | 7/12 [1:36:07<1:05:10, 782.00s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 8/5001 [00:00<01:07, 73.53it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 0.458
 	AAR: 2.0
 	SES: 0.667
 	Mean Reward: 9.6
 	Std Reward: 0.49




  0%|▏                                                         | 16/5001 [00:00<01:09, 71.92it/s][A
  0%|▎                                                         | 24/5001 [00:00<01:07, 73.39it/s][A
  1%|▍                                                         | 33/5001 [00:00<01:04, 76.96it/s][A
  1%|▍                                                         | 41/5001 [00:00<01:04, 76.74it/s][A
  1%|▌                                                         | 49/5001 [00:00<01:27, 56.46it/s][A
  1%|▋                                                         | 57/5001 [00:00<01:21, 60.99it/s][A
  1%|▊                                                         | 65/5001 [00:00<01:15, 65.74it/s][A
  1%|▊                                                         | 73/5001 [00:01<01:11, 69.01it/s][A
  2%|▉                                                         | 81/5001 [00:01<01:08, 71.71it/s][A
  2%|█                                                         | 89/5001 [00:01<01:07, 73.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.412
 	Training Stability: 3.926
 	AAR: 1.213
 	SES: 0
 	Mean Reward: 12.2
 	Std Reward: 2.227




  5%|███                                                      | 269/5001 [00:03<01:11, 66.63it/s][A
  6%|███▏                                                     | 277/5001 [00:03<01:09, 68.17it/s][A
  6%|███▏                                                     | 284/5001 [00:03<01:08, 68.42it/s][A
  6%|███▎                                                     | 292/5001 [00:04<01:07, 69.47it/s][A
  6%|███▍                                                     | 299/5001 [00:04<01:07, 69.31it/s][A
  6%|███▍                                                     | 306/5001 [00:04<01:08, 69.03it/s][A
  6%|███▌                                                     | 313/5001 [00:04<01:07, 68.96it/s][A
  6%|███▋                                                     | 321/5001 [00:04<01:06, 70.26it/s][A
  7%|███▋                                                     | 329/5001 [00:04<01:05, 70.92it/s][A
  7%|███▊                                                     | 337/5001 [00:04<01:06, 70.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.432
 	Training Stability: 5.216
 	AAR: 1.156
 	SES: 0
 	Mean Reward: 14.3
 	Std Reward: 3.068




 10%|█████▉                                                   | 520/5001 [00:07<01:15, 59.41it/s][A
 11%|█████▉                                                   | 526/5001 [00:07<01:16, 58.61it/s][A
 11%|██████                                                   | 532/5001 [00:07<01:16, 58.68it/s][A
 11%|██████▏                                                  | 538/5001 [00:07<01:20, 55.30it/s][A
 11%|██████▏                                                  | 544/5001 [00:07<01:20, 55.50it/s][A
 11%|██████▎                                                  | 550/5001 [00:08<01:20, 55.54it/s][A
 11%|██████▎                                                  | 556/5001 [00:08<01:19, 55.83it/s][A
 11%|██████▍                                                  | 562/5001 [00:08<01:18, 56.31it/s][A
 11%|██████▍                                                  | 569/5001 [00:08<01:16, 58.16it/s][A
 11%|██████▌                                                  | 575/5001 [00:08<01:16, 57.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.444
 	Training Stability: 2.385
 	AAR: 1.125
 	SES: 1.0
 	Mean Reward: 14.8
 	Std Reward: 2.857




 15%|████████▋                                                | 764/5001 [00:11<01:17, 54.74it/s][A
 15%|████████▊                                                | 770/5001 [00:11<01:16, 55.50it/s][A
 16%|████████▊                                                | 776/5001 [00:12<01:14, 56.49it/s][A
 16%|████████▉                                                | 782/5001 [00:12<01:13, 57.42it/s][A
 16%|████████▉                                                | 788/5001 [00:12<02:16, 30.94it/s][A
 16%|█████████                                                | 793/5001 [00:12<02:12, 31.79it/s][A
 16%|█████████                                                | 798/5001 [00:12<02:22, 29.45it/s][A
 16%|█████████▏                                               | 803/5001 [00:13<02:07, 32.82it/s][A
 16%|█████████▏                                               | 808/5001 [00:13<01:58, 35.26it/s][A
 16%|█████████▎                                               | 814/5001 [00:13<01:43, 40.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.453
 	Training Stability: 8.935
 	AAR: 1.104
 	SES: 0
 	Mean Reward: 15.2
 	Std Reward: 2.96




 20%|███████████▎                                            | 1015/5001 [00:17<01:30, 43.99it/s][A
 20%|███████████▍                                            | 1020/5001 [00:17<01:32, 42.98it/s][A
 20%|███████████▍                                            | 1025/5001 [00:17<01:36, 41.36it/s][A
 21%|███████████▌                                            | 1030/5001 [00:18<01:35, 41.43it/s][A
 21%|███████████▌                                            | 1035/5001 [00:18<01:36, 41.08it/s][A
 21%|███████████▋                                            | 1040/5001 [00:18<01:34, 41.99it/s][A
 21%|███████████▋                                            | 1045/5001 [00:18<01:33, 42.45it/s][A
 21%|███████████▊                                            | 1050/5001 [00:18<01:33, 42.22it/s][A
 21%|███████████▊                                            | 1055/5001 [00:18<01:33, 42.33it/s][A
 21%|███████████▊                                            | 1060/5001 [00:18<01:32, 42.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.459
 	Training Stability: 6.232
 	AAR: 1.089
 	SES: 1.0
 	Mean Reward: 18.6
 	Std Reward: 6.468




 25%|██████████████                                          | 1260/5001 [00:23<01:41, 36.69it/s][A
 25%|██████████████▏                                         | 1265/5001 [00:23<01:36, 38.58it/s][A
 25%|██████████████▏                                         | 1269/5001 [00:23<01:38, 37.94it/s][A
 25%|██████████████▎                                         | 1273/5001 [00:24<01:39, 37.57it/s][A
 26%|██████████████▎                                         | 1277/5001 [00:24<01:39, 37.26it/s][A
 26%|██████████████▎                                         | 1281/5001 [00:24<01:39, 37.43it/s][A
 26%|██████████████▍                                         | 1285/5001 [00:24<01:38, 37.64it/s][A
 26%|██████████████▍                                         | 1289/5001 [00:24<01:39, 37.39it/s][A
 26%|██████████████▍                                         | 1294/5001 [00:24<01:36, 38.30it/s][A
 26%|██████████████▌                                         | 1298/5001 [00:24<01:36, 38.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.465
 	Training Stability: 8.922
 	AAR: 1.076
 	SES: 1.0
 	Mean Reward: 28.3
 	Std Reward: 8.911




 30%|████████████████▉                                       | 1509/5001 [00:30<01:54, 30.58it/s][A
 30%|████████████████▉                                       | 1513/5001 [00:30<01:51, 31.41it/s][A
 30%|████████████████▉                                       | 1517/5001 [00:30<01:53, 30.78it/s][A
 30%|█████████████████                                       | 1521/5001 [00:37<31:52,  1.82it/s][A
 30%|█████████████████                                       | 1524/5001 [00:38<25:15,  2.29it/s][A
 31%|█████████████████                                       | 1526/5001 [00:38<21:03,  2.75it/s][A
 31%|█████████████████                                       | 1529/5001 [00:38<15:35,  3.71it/s][A
 31%|█████████████████▏                                      | 1532/5001 [00:38<11:43,  4.93it/s][A
 31%|█████████████████▏                                      | 1535/5001 [00:38<09:20,  6.18it/s][A
 31%|█████████████████▏                                      | 1538/5001 [00:38<07:11,  8.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.469
 	Training Stability: 49.528
 	AAR: 1.066
 	SES: 1.0
 	Mean Reward: 102.4
 	Std Reward: 25.248




 35%|███████████████████▋                                    | 1753/5001 [00:54<09:50,  5.50it/s][A
 35%|███████████████████▋                                    | 1754/5001 [00:54<09:08,  5.92it/s][A
 35%|███████████████████▋                                    | 1755/5001 [00:54<08:08,  6.65it/s][A
 35%|███████████████████▋                                    | 1756/5001 [00:54<07:49,  6.91it/s][A
 35%|███████████████████▋                                    | 1757/5001 [00:54<07:28,  7.24it/s][A
 35%|███████████████████▋                                    | 1758/5001 [00:54<07:05,  7.61it/s][A
 35%|███████████████████▋                                    | 1759/5001 [00:54<07:03,  7.65it/s][A
 35%|███████████████████▋                                    | 1760/5001 [00:55<07:09,  7.54it/s][A
 35%|███████████████████▋                                    | 1761/5001 [00:55<07:09,  7.55it/s][A
 35%|███████████████████▋                                    | 1762/5001 [00:55<07:03,  7.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.473
 	Training Stability: 16.583
 	AAR: 1.057
 	SES: 0.833
 	Mean Reward: 97.8
 	Std Reward: 13.037




 40%|██████████████████████▍                                 | 2003/5001 [01:30<07:14,  6.91it/s][A
 40%|██████████████████████▍                                 | 2004/5001 [01:31<07:37,  6.55it/s][A
 40%|██████████████████████▍                                 | 2005/5001 [01:31<07:22,  6.77it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [01:31<07:09,  6.97it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [01:31<07:06,  7.01it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [01:31<06:50,  7.28it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [01:31<06:46,  7.36it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [01:31<06:45,  7.38it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [01:32<06:42,  7.43it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [01:32<06:41,  7.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.477
 	Training Stability: 116.392
 	AAR: 1.049
 	SES: 1.0
 	Mean Reward: 338.0
 	Std Reward: 136.417




 45%|█████████████████████████▏                              | 2252/5001 [02:11<14:24,  3.18it/s][A
 45%|█████████████████████████▏                              | 2253/5001 [02:11<15:13,  3.01it/s][A
 45%|█████████████████████████▏                              | 2254/5001 [02:12<16:28,  2.78it/s][A
 45%|█████████████████████████▎                              | 2255/5001 [02:12<16:04,  2.85it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [02:13<17:34,  2.60it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [02:13<16:21,  2.80it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [02:13<15:56,  2.87it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [02:14<15:21,  2.97it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [02:14<15:02,  3.04it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [02:14<14:59,  3.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.48
 	Training Stability: 62.039
 	AAR: 1.042
 	SES: 1.0
 	Mean Reward: 215.6
 	Std Reward: 109.339




 50%|████████████████████████████                            | 2502/5001 [02:56<07:47,  5.34it/s][A
 50%|████████████████████████████                            | 2503/5001 [02:56<07:58,  5.22it/s][A
 50%|████████████████████████████                            | 2504/5001 [02:56<07:49,  5.31it/s][A
 50%|████████████████████████████                            | 2505/5001 [02:56<07:33,  5.50it/s][A
 50%|████████████████████████████                            | 2506/5001 [02:56<07:35,  5.47it/s][A
 50%|████████████████████████████                            | 2507/5001 [02:57<07:32,  5.51it/s][A
 50%|████████████████████████████                            | 2508/5001 [02:57<07:44,  5.37it/s][A
 50%|████████████████████████████                            | 2509/5001 [02:57<07:43,  5.37it/s][A
 50%|████████████████████████████                            | 2510/5001 [02:57<07:24,  5.61it/s][A
 50%|████████████████████████████                            | 2511/5001 [02:57<07:57,  5.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.482
 	Training Stability: 157.478
 	AAR: 1.036
 	SES: 1.0
 	Mean Reward: 270.0
 	Std Reward: 143.349




 55%|██████████████████████████████▊                         | 2752/5001 [03:32<08:53,  4.21it/s][A
 55%|██████████████████████████████▊                         | 2753/5001 [03:32<09:25,  3.98it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [03:33<09:50,  3.80it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [03:33<09:52,  3.79it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [03:33<09:37,  3.89it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [03:33<09:27,  3.96it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [03:34<09:06,  4.11it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [03:34<09:09,  4.08it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [03:34<08:11,  4.56it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [03:34<07:05,  5.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.485
 	Training Stability: 98.694
 	AAR: 1.031
 	SES: 1.0
 	Mean Reward: 256.7
 	Std Reward: 140.342




 60%|█████████████████████████████████▋                      | 3003/5001 [04:15<04:48,  6.94it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [04:15<04:26,  7.49it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [04:15<03:51,  8.61it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [04:15<04:57,  6.69it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [04:16<06:03,  5.49it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [04:16<07:23,  4.49it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [04:16<07:57,  4.17it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [04:17<08:44,  3.80it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [04:17<09:06,  3.64it/s][A
 60%|█████████████████████████████████▋                      | 3013/5001 [04:17<09:29,  3.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.487
 	Training Stability: 53.672
 	AAR: 1.026
 	SES: 1.0
 	Mean Reward: 260.0
 	Std Reward: 196.715




 65%|████████████████████████████████████▍                   | 3252/5001 [04:54<05:39,  5.16it/s][A
 65%|████████████████████████████████████▍                   | 3253/5001 [04:54<04:59,  5.83it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [04:54<04:27,  6.53it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [04:54<04:03,  7.16it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [04:54<03:47,  7.66it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [04:54<03:33,  8.18it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [04:54<03:22,  8.60it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [04:55<03:21,  8.63it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [04:55<03:45,  7.72it/s][A
 65%|████████████████████████████████████▌                   | 3262/5001 [04:55<04:34,  6.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.49
 	Training Stability: 132.063
 	AAR: 1.021
 	SES: 1.0
 	Mean Reward: 346.6
 	Std Reward: 132.728




 70%|███████████████████████████████████████▏                | 3502/5001 [05:36<07:24,  3.37it/s][A
 70%|███████████████████████████████████████▏                | 3503/5001 [05:36<06:35,  3.78it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [05:36<06:00,  4.15it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [05:36<06:18,  3.96it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [05:37<06:46,  3.68it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [05:37<07:02,  3.54it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [05:37<06:00,  4.14it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [05:37<05:20,  4.65it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [05:37<05:05,  4.89it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [05:38<03:47,  6.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.492
 	Training Stability: 112.605
 	AAR: 1.017
 	SES: 1.0
 	Mean Reward: 299.7
 	Std Reward: 141.918




 75%|██████████████████████████████████████████              | 3752/5001 [06:24<05:51,  3.55it/s][A
 75%|██████████████████████████████████████████              | 3753/5001 [06:24<06:13,  3.34it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [06:24<06:05,  3.41it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [06:25<06:08,  3.38it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [06:25<05:56,  3.49it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [06:25<05:28,  3.78it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [06:25<05:04,  4.08it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [06:25<04:40,  4.42it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [06:26<04:56,  4.19it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [06:26<04:59,  4.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.493
 	Training Stability: 99.541
 	AAR: 1.013
 	SES: 1.0
 	Mean Reward: 357.9
 	Std Reward: 122.781



 80%|████████████████████████████████████████████▊           | 4003/5001 [07:02<02:45,  6.03it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [07:02<03:04,  5.40it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [07:03<04:01,  4.13it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [07:03<04:29,  3.69it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [07:03<04:35,  3.61it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [07:04<04:43,  3.50it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [07:04<04:50,  3.41it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [07:04<05:03,  3.27it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [07:05<05:29,  3.00it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [07:05<05:13,  3.1

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.495
 	Training Stability: 95.652
 	AAR: 1.01
 	SES: 1.0
 	Mean Reward: 221.2
 	Std Reward: 104.661




 85%|███████████████████████████████████████████████▌        | 4252/5001 [07:57<03:21,  3.72it/s][A
 85%|███████████████████████████████████████████████▌        | 4253/5001 [07:57<03:22,  3.70it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [07:58<03:28,  3.58it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [07:58<03:15,  3.82it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [07:58<02:50,  4.37it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [07:58<03:25,  3.62it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [07:59<03:14,  3.83it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [07:59<02:39,  4.65it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [07:59<02:20,  5.28it/s][A
 85%|███████████████████████████████████████████████▋        | 4262/5001 [07:59<01:57,  6.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.497
 	Training Stability: 147.957
 	AAR: 1.006
 	SES: 1.0
 	Mean Reward: 285.6
 	Std Reward: 112.302




 90%|██████████████████████████████████████████████████▍     | 4502/5001 [09:06<02:28,  3.35it/s][A
 90%|██████████████████████████████████████████████████▍     | 4503/5001 [09:06<02:36,  3.17it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [09:07<02:43,  3.03it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [09:07<02:48,  2.94it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [09:07<02:52,  2.88it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [09:08<02:47,  2.94it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [09:08<02:40,  3.07it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [09:08<02:42,  3.02it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [09:09<02:51,  2.86it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [09:09<02:43,  3.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.499
 	Training Stability: 72.6
 	AAR: 1.003
 	SES: 1.0
 	Mean Reward: 423.8
 	Std Reward: 133.998




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [10:43<01:57,  2.12it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [10:44<02:05,  1.97it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [10:44<02:01,  2.04it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [10:45<01:50,  2.22it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [10:45<01:24,  2.90it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [10:45<01:24,  2.88it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [10:46<01:19,  3.07it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [10:46<01:29,  2.70it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [10:47<01:35,  2.53it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [10:47<01:40,  2.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 7.2
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 483.8
 	Std Reward: 48.6




 67%|██████████████████████████████████████▋                   | 8/12 [1:48:35<51:24, 771.05s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 8/5001 [00:00<01:07, 73.58it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.252
 	Training Stability: 0.98
 	AAR: 1.987
 	SES: 0.8
 	Mean Reward: 9.7
 	Std Reward: 0.64




  0%|▏                                                         | 16/5001 [00:00<01:09, 71.77it/s][A
  0%|▎                                                         | 24/5001 [00:00<01:17, 64.07it/s][A
  1%|▍                                                         | 33/5001 [00:00<01:10, 70.48it/s][A
  1%|▍                                                         | 41/5001 [00:00<01:10, 70.86it/s][A
  1%|▌                                                         | 49/5001 [00:00<01:10, 70.20it/s][A
  1%|▋                                                         | 58/5001 [00:00<01:06, 74.40it/s][A
  1%|▊                                                         | 66/5001 [00:00<01:04, 75.97it/s][A
  1%|▊                                                         | 74/5001 [00:01<01:05, 74.85it/s][A
  2%|▉                                                         | 82/5001 [00:01<01:04, 76.19it/s][A
  2%|█                                                         | 91/5001 [00:01<01:02, 78.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.253
 	Training Stability: 0.748
 	AAR: 1.978
 	SES: 0
 	Mean Reward: 9.3
 	Std Reward: 0.64




  6%|███▏                                                     | 276/5001 [00:03<00:58, 81.16it/s][A
  6%|███▏                                                     | 285/5001 [00:03<00:57, 81.94it/s][A
  6%|███▎                                                     | 294/5001 [00:03<00:56, 83.38it/s][A
  6%|███▍                                                     | 303/5001 [00:03<00:59, 78.49it/s][A
  6%|███▌                                                     | 311/5001 [00:04<01:01, 76.76it/s][A
  6%|███▋                                                     | 319/5001 [00:04<01:02, 74.33it/s][A
  7%|███▋                                                     | 327/5001 [00:04<01:04, 72.89it/s][A
  7%|███▊                                                     | 335/5001 [00:04<01:06, 70.68it/s][A
  7%|███▉                                                     | 343/5001 [00:04<01:06, 69.72it/s][A
  7%|███▉                                                     | 350/5001 [00:04<01:09, 66.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.254
 	Training Stability: 3.441
 	AAR: 1.965
 	SES: 0
 	Mean Reward: 12.6
 	Std Reward: 4.521




 10%|█████▊                                                   | 513/5001 [00:07<01:16, 58.91it/s][A
 10%|█████▉                                                   | 519/5001 [00:07<01:16, 58.68it/s][A
 10%|█████▉                                                   | 525/5001 [00:07<01:15, 58.96it/s][A
 11%|██████                                                   | 532/5001 [00:07<01:12, 61.80it/s][A
 11%|██████▏                                                  | 539/5001 [00:07<01:18, 57.13it/s][A
 11%|██████▏                                                  | 545/5001 [00:07<01:19, 56.16it/s][A
 11%|██████▎                                                  | 551/5001 [00:08<01:18, 56.63it/s][A
 11%|██████▎                                                  | 558/5001 [00:08<01:15, 58.81it/s][A
 11%|██████▍                                                  | 565/5001 [00:08<01:13, 60.17it/s][A
 11%|██████▌                                                  | 572/5001 [00:08<01:12, 61.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.257
 	Training Stability: 2.238
 	AAR: 1.943
 	SES: 0
 	Mean Reward: 14.4
 	Std Reward: 6.515




 15%|████████▋                                                | 766/5001 [00:11<01:14, 56.66it/s][A
 15%|████████▊                                                | 773/5001 [00:11<01:12, 58.16it/s][A
 16%|████████▉                                                | 780/5001 [00:12<01:10, 59.65it/s][A
 16%|████████▉                                                | 787/5001 [00:12<01:08, 61.47it/s][A
 16%|█████████                                                | 794/5001 [00:12<01:06, 62.97it/s][A
 16%|█████████▏                                               | 801/5001 [00:12<01:06, 62.91it/s][A
 16%|█████████▏                                               | 808/5001 [00:12<01:07, 62.17it/s][A
 16%|█████████▎                                               | 815/5001 [00:12<01:08, 61.15it/s][A
 16%|█████████▎                                               | 822/5001 [00:12<01:07, 61.55it/s][A
 17%|█████████▍                                               | 829/5001 [00:12<01:07, 61.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.262
 	Training Stability: 3.256
 	AAR: 1.909
 	SES: 0
 	Mean Reward: 35.7
 	Std Reward: 29.264




 20%|███████████▎                                            | 1009/5001 [00:17<02:02, 32.59it/s][A
 20%|███████████▎                                            | 1013/5001 [00:17<02:02, 32.46it/s][A
 20%|███████████▍                                            | 1017/5001 [00:17<01:56, 34.25it/s][A
 20%|███████████▍                                            | 1021/5001 [00:17<01:54, 34.78it/s][A
 20%|███████████▍                                            | 1025/5001 [00:17<01:53, 35.14it/s][A
 21%|███████████▌                                            | 1029/5001 [00:17<01:53, 35.06it/s][A
 21%|███████████▌                                            | 1033/5001 [00:18<01:49, 36.24it/s][A
 21%|███████████▌                                            | 1037/5001 [00:18<01:46, 37.23it/s][A
 21%|███████████▋                                            | 1041/5001 [00:18<01:46, 37.31it/s][A
 21%|███████████▋                                            | 1045/5001 [00:18<01:50, 35.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.269
 	Training Stability: 20.828
 	AAR: 1.859
 	SES: 1.0
 	Mean Reward: 72.6
 	Std Reward: 24.229




 25%|██████████████                                          | 1255/5001 [00:26<03:23, 18.37it/s][A
 25%|██████████████                                          | 1257/5001 [00:26<03:21, 18.62it/s][A
 25%|██████████████                                          | 1259/5001 [00:26<03:24, 18.32it/s][A
 25%|██████████████                                          | 1261/5001 [00:26<03:24, 18.31it/s][A
 25%|██████████████▏                                         | 1263/5001 [00:26<03:33, 17.48it/s][A
 25%|██████████████▏                                         | 1265/5001 [00:26<03:29, 17.85it/s][A
 25%|██████████████▏                                         | 1267/5001 [00:26<03:31, 17.65it/s][A
 25%|██████████████▏                                         | 1269/5001 [00:26<03:38, 17.06it/s][A
 25%|██████████████▏                                         | 1271/5001 [00:26<03:31, 17.61it/s][A
 25%|██████████████▎                                         | 1273/5001 [00:27<03:32, 17.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.28
 	Training Stability: 56.024
 	AAR: 1.787
 	SES: 1.0
 	Mean Reward: 113.7
 	Std Reward: 58.361




 30%|████████████████▊                                       | 1503/5001 [00:45<07:01,  8.30it/s][A
 30%|████████████████▊                                       | 1504/5001 [00:46<07:21,  7.91it/s][A
 30%|████████████████▊                                       | 1505/5001 [00:46<07:27,  7.81it/s][A
 30%|████████████████▊                                       | 1506/5001 [00:46<07:49,  7.44it/s][A
 30%|████████████████▉                                       | 1507/5001 [00:46<07:44,  7.51it/s][A
 30%|████████████████▉                                       | 1508/5001 [00:46<07:30,  7.76it/s][A
 30%|████████████████▉                                       | 1509/5001 [00:46<07:39,  7.60it/s][A
 30%|████████████████▉                                       | 1510/5001 [00:46<07:44,  7.52it/s][A
 30%|████████████████▉                                       | 1511/5001 [00:47<07:57,  7.31it/s][A
 30%|████████████████▉                                       | 1512/5001 [00:47<08:33,  6.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.296
 	Training Stability: 12.27
 	AAR: 1.691
 	SES: 1.0
 	Mean Reward: 67.4
 	Std Reward: 14.582




 35%|███████████████████▋                                    | 1753/5001 [01:12<06:42,  8.08it/s][A
 35%|███████████████████▋                                    | 1754/5001 [01:13<06:49,  7.93it/s][A
 35%|███████████████████▋                                    | 1755/5001 [01:13<06:47,  7.97it/s][A
 35%|███████████████████▋                                    | 1756/5001 [01:13<06:44,  8.02it/s][A
 35%|███████████████████▋                                    | 1757/5001 [01:13<06:49,  7.91it/s][A
 35%|███████████████████▋                                    | 1758/5001 [01:13<06:59,  7.73it/s][A
 35%|███████████████████▋                                    | 1759/5001 [01:13<06:45,  8.00it/s][A
 35%|███████████████████▋                                    | 1760/5001 [01:13<06:56,  7.79it/s][A
 35%|███████████████████▋                                    | 1761/5001 [01:13<07:06,  7.59it/s][A
 35%|███████████████████▋                                    | 1762/5001 [01:14<06:52,  7.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.317
 	Training Stability: 34.482
 	AAR: 1.576
 	SES: 1.0
 	Mean Reward: 85.0
 	Std Reward: 19.483




 40%|██████████████████████▍                                 | 2005/5001 [01:34<04:16, 11.67it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [01:34<04:08, 12.07it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [01:35<04:02, 12.32it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [01:35<03:53, 12.82it/s][A
 40%|██████████████████████▌                                 | 2013/5001 [01:35<03:51, 12.90it/s][A
 40%|██████████████████████▌                                 | 2015/5001 [01:35<03:45, 13.24it/s][A
 40%|██████████████████████▌                                 | 2017/5001 [01:35<03:46, 13.16it/s][A
 40%|██████████████████████▌                                 | 2019/5001 [01:35<03:54, 12.73it/s][A
 40%|██████████████████████▋                                 | 2021/5001 [01:36<03:47, 13.10it/s][A
 40%|██████████████████████▋                                 | 2023/5001 [01:36<03:55, 12.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.344
 	Training Stability: 20.017
 	AAR: 1.452
 	SES: 1.0
 	Mean Reward: 75.4
 	Std Reward: 22.874




 45%|█████████████████████████▏                              | 2254/5001 [01:55<03:45, 12.16it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [01:56<03:47, 12.06it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [01:56<03:56, 11.62it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [01:56<04:00, 11.40it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [01:56<04:03, 11.24it/s][A
 45%|█████████████████████████▎                              | 2264/5001 [01:56<04:06, 11.12it/s][A
 45%|█████████████████████████▎                              | 2266/5001 [01:57<04:06, 11.10it/s][A
 45%|█████████████████████████▍                              | 2268/5001 [01:57<04:09, 10.94it/s][A
 45%|█████████████████████████▍                              | 2270/5001 [01:57<04:12, 10.81it/s][A
 45%|█████████████████████████▍                              | 2272/5001 [01:57<04:15, 10.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.375
 	Training Stability: 23.491
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 98.3
 	Std Reward: 9.634




 50%|████████████████████████████                            | 2505/5001 [02:17<03:43, 11.19it/s][A
 50%|████████████████████████████                            | 2507/5001 [02:17<03:46, 10.99it/s][A
 50%|████████████████████████████                            | 2509/5001 [02:17<04:07, 10.08it/s][A
 50%|████████████████████████████                            | 2511/5001 [02:17<04:06, 10.12it/s][A
 50%|████████████████████████████▏                           | 2513/5001 [02:18<04:05, 10.15it/s][A
 50%|████████████████████████████▏                           | 2515/5001 [02:18<04:03, 10.21it/s][A
 50%|████████████████████████████▏                           | 2517/5001 [02:18<03:59, 10.38it/s][A
 50%|████████████████████████████▏                           | 2519/5001 [02:18<03:56, 10.51it/s][A
 50%|████████████████████████████▏                           | 2521/5001 [02:18<03:56, 10.50it/s][A
 50%|████████████████████████████▎                           | 2523/5001 [02:19<03:56, 10.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.406
 	Training Stability: 14.462
 	AAR: 1.233
 	SES: 1.0
 	Mean Reward: 100.4
 	Std Reward: 29.557




 55%|██████████████████████████████▊                         | 2753/5001 [02:38<03:53,  9.63it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [02:38<03:53,  9.64it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [02:38<03:57,  9.47it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [02:38<04:06,  9.12it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [02:38<04:05,  9.14it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [02:38<04:05,  9.15it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [02:38<04:00,  9.31it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [02:38<03:59,  9.34it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [02:38<04:07,  9.05it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [02:39<04:02,  9.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.433
 	Training Stability: 12.592
 	AAR: 1.155
 	SES: 1.0
 	Mean Reward: 98.6
 	Std Reward: 24.707




 60%|█████████████████████████████████▋                      | 3003/5001 [03:08<04:07,  8.08it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [03:08<04:18,  7.72it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [03:08<04:24,  7.56it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [03:08<05:23,  6.16it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [03:08<05:06,  6.51it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [03:08<04:58,  6.69it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [03:08<04:43,  7.04it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [03:09<04:52,  6.81it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [03:09<04:34,  7.26it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [03:09<04:37,  7.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.454
 	Training Stability: 27.174
 	AAR: 1.1
 	SES: 1.0
 	Mean Reward: 79.4
 	Std Reward: 17.013




 65%|████████████████████████████████████▍                   | 3253/5001 [03:41<03:25,  8.51it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [03:41<03:31,  8.25it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [03:41<03:32,  8.22it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [03:42<03:32,  8.19it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [03:42<03:32,  8.19it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [03:42<03:26,  8.42it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [03:42<03:21,  8.63it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [03:42<03:14,  8.97it/s][A
 65%|████████████████████████████████████▌                   | 3262/5001 [03:42<03:11,  9.09it/s][A
 65%|████████████████████████████████████▌                   | 3263/5001 [03:42<03:14,  8.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.47
 	Training Stability: 23.45
 	AAR: 1.063
 	SES: 1.0
 	Mean Reward: 92.3
 	Std Reward: 15.925



 70%|███████████████████████████████████████▏                | 3503/5001 [04:10<03:02,  8.23it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [04:10<03:00,  8.29it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [04:10<03:06,  8.04it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [04:10<03:05,  8.04it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [04:10<03:02,  8.18it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [04:10<02:59,  8.33it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [04:11<03:04,  8.10it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [04:11<03:01,  8.22it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [04:11<03:02,  8.17it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [04:11<03:03,  8.1

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.481
 	Training Stability: 23.92
 	AAR: 1.039
 	SES: 1.0
 	Mean Reward: 95.1
 	Std Reward: 11.211




 75%|██████████████████████████████████████████              | 3754/5001 [04:42<02:55,  7.11it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [04:43<02:30,  8.25it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [04:43<02:16,  9.09it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [04:43<02:12,  9.38it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [04:43<02:11,  9.40it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [04:43<02:11,  9.40it/s][A
 75%|██████████████████████████████████████████▏             | 3763/5001 [04:43<02:11,  9.40it/s][A
 75%|██████████████████████████████████████████▏             | 3765/5001 [04:44<02:05,  9.87it/s][A
 75%|██████████████████████████████████████████▏             | 3766/5001 [04:44<02:08,  9.60it/s][A
 75%|██████████████████████████████████████████▏             | 3767/5001 [04:44<02:12,  9.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.488
 	Training Stability: 12.893
 	AAR: 1.024
 	SES: 1.0
 	Mean Reward: 97.4
 	Std Reward: 23.308




 80%|████████████████████████████████████████████▊           | 4003/5001 [05:07<01:56,  8.54it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [05:07<01:57,  8.51it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [05:08<01:59,  8.33it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [05:08<01:58,  8.41it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [05:08<02:00,  8.24it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [05:08<02:02,  8.13it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [05:08<02:00,  8.25it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [05:08<01:55,  8.56it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [05:08<01:58,  8.39it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [05:08<01:57,  8.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.493
 	Training Stability: 16.552
 	AAR: 1.015
 	SES: 1.0
 	Mean Reward: 110.6
 	Std Reward: 14.165




 85%|███████████████████████████████████████████████▋        | 4254/5001 [05:36<01:19,  9.39it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [05:37<01:20,  9.26it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [05:37<01:28,  8.44it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [05:37<01:31,  8.16it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [05:37<01:32,  8.03it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [05:37<01:30,  8.17it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [05:37<01:31,  8.11it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [05:37<01:31,  8.06it/s][A
 85%|███████████████████████████████████████████████▋        | 4262/5001 [05:37<01:32,  7.98it/s][A
 85%|███████████████████████████████████████████████▋        | 4263/5001 [05:38<01:32,  7.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.496
 	Training Stability: 15.835
 	AAR: 1.009
 	SES: 1.0
 	Mean Reward: 121.2
 	Std Reward: 15.581




 90%|██████████████████████████████████████████████████▍     | 4503/5001 [06:04<00:59,  8.44it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [06:04<01:00,  8.28it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [06:04<01:00,  8.24it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [06:04<00:59,  8.34it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [06:05<00:59,  8.33it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [06:05<00:57,  8.52it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [06:05<00:58,  8.37it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [06:05<00:59,  8.30it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [06:05<00:57,  8.46it/s][A
 90%|██████████████████████████████████████████████████▌     | 4512/5001 [06:05<01:03,  7.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.497
 	Training Stability: 18.284
 	AAR: 1.006
 	SES: 1.0
 	Mean Reward: 115.9
 	Std Reward: 21.178




 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [06:31<00:28,  8.66it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [06:32<00:28,  8.71it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [06:32<00:27,  9.00it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [06:32<00:26,  9.09it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [06:32<00:26,  9.13it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [06:32<00:26,  9.18it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [06:32<00:26,  9.00it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [06:32<00:26,  9.25it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [06:32<00:26,  9.22it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4762/5001 [06:32<00:26,  8.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.498
 	Training Stability: 13.069
 	AAR: 1.003
 	SES: 1.0
 	Mean Reward: 129.6
 	Std Reward: 17.165



 75%|███████████████████████████████████████████▌              | 9/12 [1:55:35<33:03, 661.30s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 8/5001 [00:00<01:05, 75.68it/s][A
  0%|▏                                                         | 17/5001 [00:00<01:02, 79.88it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 1.744
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 11.9
 	Std Reward: 2.022




  0%|▎                                                         | 25/5001 [00:00<01:04, 77.39it/s][A
  1%|▍                                                         | 34/5001 [00:00<01:01, 80.86it/s][A
  1%|▍                                                         | 43/5001 [00:00<01:00, 81.89it/s][A
  1%|▌                                                         | 52/5001 [00:00<01:00, 82.47it/s][A
  1%|▋                                                         | 61/5001 [00:00<00:58, 84.53it/s][A
  1%|▊                                                         | 70/5001 [00:00<00:58, 84.10it/s][A
  2%|▉                                                         | 79/5001 [00:00<00:58, 84.27it/s][A
  2%|█                                                         | 88/5001 [00:01<01:00, 81.78it/s][A
  2%|█                                                         | 97/5001 [00:01<01:00, 81.29it/s][A
  2%|█▏                                                       | 106/5001 [00:01<01:01, 79.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.288
 	Training Stability: 4.6
 	AAR: 1.737
 	SES: 1.0
 	Mean Reward: 14.6
 	Std Reward: 4.821




  5%|███                                                      | 265/5001 [00:03<01:17, 61.21it/s][A
  5%|███                                                      | 272/5001 [00:03<01:16, 61.51it/s][A
  6%|███▏                                                     | 279/5001 [00:03<01:14, 63.39it/s][A
  6%|███▎                                                     | 286/5001 [00:03<01:16, 61.74it/s][A
  6%|███▎                                                     | 293/5001 [00:04<01:18, 59.60it/s][A
  6%|███▍                                                     | 300/5001 [00:04<01:17, 60.75it/s][A
  6%|███▍                                                     | 307/5001 [00:04<01:17, 60.53it/s][A
  6%|███▌                                                     | 314/5001 [00:04<01:18, 60.00it/s][A
  6%|███▋                                                     | 321/5001 [00:04<01:17, 60.35it/s][A
  7%|███▋                                                     | 328/5001 [00:04<01:16, 61.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.326
 	Training Stability: 3.072
 	AAR: 1.535
 	SES: 0
 	Mean Reward: 18.6
 	Std Reward: 7.473




 10%|█████▉                                                   | 516/5001 [00:07<01:18, 56.89it/s][A
 10%|█████▉                                                   | 522/5001 [00:07<01:17, 57.72it/s][A
 11%|██████                                                   | 528/5001 [00:08<01:18, 57.13it/s][A
 11%|██████                                                   | 535/5001 [00:08<01:16, 58.33it/s][A
 11%|██████▏                                                  | 541/5001 [00:08<01:15, 58.76it/s][A
 11%|██████▏                                                  | 547/5001 [00:08<01:15, 58.61it/s][A
 11%|██████▎                                                  | 553/5001 [00:08<01:15, 58.55it/s][A
 11%|██████▎                                                  | 559/5001 [00:08<01:17, 57.16it/s][A
 11%|██████▍                                                  | 565/5001 [00:08<01:17, 57.01it/s][A
 11%|██████▌                                                  | 572/5001 [00:08<01:15, 58.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.364
 	Training Stability: 2.119
 	AAR: 1.375
 	SES: 0
 	Mean Reward: 14.1
 	Std Reward: 5.924




 15%|████████▊                                                | 768/5001 [00:12<01:23, 50.68it/s][A
 15%|████████▊                                                | 774/5001 [00:12<01:24, 49.75it/s][A
 16%|████████▉                                                | 780/5001 [00:12<01:23, 50.25it/s][A
 16%|████████▉                                                | 786/5001 [00:12<01:22, 51.37it/s][A
 16%|█████████                                                | 792/5001 [00:12<01:20, 52.30it/s][A
 16%|█████████                                                | 798/5001 [00:13<01:20, 52.34it/s][A
 16%|█████████▏                                               | 804/5001 [00:13<01:19, 52.70it/s][A
 16%|█████████▏                                               | 810/5001 [00:13<01:18, 53.38it/s][A
 16%|█████████▎                                               | 816/5001 [00:13<01:17, 54.11it/s][A
 16%|█████████▎                                               | 822/5001 [00:13<01:16, 54.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.402
 	Training Stability: 10.298
 	AAR: 1.245
 	SES: 0
 	Mean Reward: 22.2
 	Std Reward: 11.098




 20%|███████████▎                                            | 1014/5001 [00:16<01:11, 55.66it/s][A
 20%|███████████▍                                            | 1020/5001 [00:17<01:13, 54.39it/s][A
 21%|███████████▍                                            | 1026/5001 [00:17<01:13, 54.41it/s][A
 21%|███████████▌                                            | 1032/5001 [00:17<01:16, 52.05it/s][A
 21%|███████████▌                                            | 1038/5001 [00:17<01:16, 51.71it/s][A
 21%|███████████▋                                            | 1044/5001 [00:17<01:15, 52.22it/s][A
 21%|███████████▊                                            | 1050/5001 [00:17<01:15, 52.00it/s][A
 21%|███████████▊                                            | 1056/5001 [00:17<01:19, 49.62it/s][A
 21%|███████████▉                                            | 1061/5001 [00:17<01:19, 49.43it/s][A
 21%|███████████▉                                            | 1066/5001 [00:17<01:21, 48.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.439
 	Training Stability: 5.54
 	AAR: 1.138
 	SES: 0.0
 	Mean Reward: 20.9
 	Std Reward: 4.23




 25%|██████████████                                          | 1260/5001 [00:22<01:43, 36.01it/s][A
 25%|██████████████▏                                         | 1264/5001 [00:22<01:42, 36.39it/s][A
 25%|██████████████▏                                         | 1268/5001 [00:22<01:42, 36.28it/s][A
 25%|██████████████▏                                         | 1272/5001 [00:23<01:43, 35.91it/s][A
 26%|██████████████▎                                         | 1276/5001 [00:23<01:41, 36.78it/s][A
 26%|██████████████▎                                         | 1280/5001 [00:23<01:40, 36.95it/s][A
 26%|██████████████▍                                         | 1284/5001 [00:23<01:40, 37.03it/s][A
 26%|██████████████▍                                         | 1288/5001 [00:23<01:40, 36.95it/s][A
 26%|██████████████▍                                         | 1292/5001 [00:23<01:41, 36.57it/s][A
 26%|██████████████▌                                         | 1296/5001 [00:23<01:43, 35.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.477
 	Training Stability: 7.13
 	AAR: 1.048
 	SES: 0
 	Mean Reward: 24.6
 	Std Reward: 3.382




 30%|████████████████▉                                       | 1508/5001 [00:30<01:48, 32.13it/s][A
 30%|████████████████▉                                       | 1512/5001 [00:30<01:46, 32.61it/s][A
 30%|████████████████▉                                       | 1516/5001 [00:30<01:45, 33.16it/s][A
 30%|█████████████████                                       | 1520/5001 [00:30<01:46, 32.64it/s][A
 30%|█████████████████                                       | 1524/5001 [00:30<01:44, 33.40it/s][A
 31%|█████████████████                                       | 1528/5001 [00:30<01:42, 33.75it/s][A
 31%|█████████████████▏                                      | 1532/5001 [00:30<01:44, 33.06it/s][A
 31%|█████████████████▏                                      | 1536/5001 [00:30<01:44, 33.14it/s][A
 31%|█████████████████▏                                      | 1540/5001 [00:31<01:44, 33.06it/s][A
 31%|█████████████████▎                                      | 1544/5001 [00:31<01:44, 33.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.25
 	Training Stability: 24.005
 	AAR: 1.998
 	SES: 1.0
 	Mean Reward: 81.1
 	Std Reward: 16.232




 35%|███████████████████▋                                    | 1755/5001 [00:40<04:11, 12.91it/s][A
 35%|███████████████████▋                                    | 1757/5001 [00:40<04:07, 13.11it/s][A
 35%|███████████████████▋                                    | 1759/5001 [00:41<04:08, 13.06it/s][A
 35%|███████████████████▋                                    | 1761/5001 [00:41<04:10, 12.92it/s][A
 35%|███████████████████▋                                    | 1763/5001 [00:41<04:03, 13.31it/s][A
 35%|███████████████████▊                                    | 1765/5001 [00:41<03:54, 13.79it/s][A
 35%|███████████████████▊                                    | 1767/5001 [00:41<03:49, 14.08it/s][A
 35%|███████████████████▊                                    | 1769/5001 [00:41<03:54, 13.76it/s][A
 35%|███████████████████▊                                    | 1771/5001 [00:41<03:52, 13.86it/s][A
 35%|███████████████████▊                                    | 1773/5001 [00:42<03:52, 13.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.253
 	Training Stability: 13.77
 	AAR: 1.978
 	SES: 1.0
 	Mean Reward: 57.7
 	Std Reward: 23.333




 40%|██████████████████████▍                                 | 2005/5001 [01:00<03:36, 13.82it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [01:00<03:42, 13.45it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [01:01<03:42, 13.44it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [01:01<03:36, 13.81it/s][A
 40%|██████████████████████▌                                 | 2013/5001 [01:01<03:35, 13.87it/s][A
 40%|██████████████████████▌                                 | 2015/5001 [01:01<03:34, 13.94it/s][A
 40%|██████████████████████▌                                 | 2017/5001 [01:01<03:37, 13.73it/s][A
 40%|██████████████████████▌                                 | 2019/5001 [01:01<03:32, 14.02it/s][A
 40%|██████████████████████▋                                 | 2021/5001 [01:01<03:31, 14.09it/s][A
 40%|██████████████████████▋                                 | 2023/5001 [01:02<03:32, 13.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.258
 	Training Stability: 5.873
 	AAR: 1.938
 	SES: 1.0
 	Mean Reward: 85.3
 	Std Reward: 14.765




 45%|█████████████████████████▏                              | 2253/5001 [01:20<05:18,  8.62it/s][A
 45%|█████████████████████████▏                              | 2254/5001 [01:20<05:29,  8.34it/s][A
 45%|█████████████████████████▎                              | 2255/5001 [01:20<05:38,  8.12it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [01:20<05:47,  7.89it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [01:20<05:55,  7.71it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [01:21<06:01,  7.59it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [01:21<05:57,  7.67it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [01:21<06:08,  7.45it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [01:21<06:07,  7.46it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [01:21<06:00,  7.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.266
 	Training Stability: 8.312
 	AAR: 1.879
 	SES: 1.0
 	Mean Reward: 65.4
 	Std Reward: 16.157




 50%|████████████████████████████                            | 2504/5001 [01:44<03:14, 12.85it/s][A
 50%|████████████████████████████                            | 2506/5001 [01:44<03:14, 12.81it/s][A
 50%|████████████████████████████                            | 2508/5001 [01:44<03:01, 13.73it/s][A
 50%|████████████████████████████                            | 2510/5001 [01:44<03:06, 13.39it/s][A
 50%|████████████████████████████▏                           | 2512/5001 [01:45<03:36, 11.51it/s][A
 50%|████████████████████████████▏                           | 2514/5001 [01:45<04:00, 10.34it/s][A
 50%|████████████████████████████▏                           | 2516/5001 [01:45<04:23,  9.42it/s][A
 50%|████████████████████████████▏                           | 2518/5001 [01:45<04:34,  9.06it/s][A
 50%|████████████████████████████▏                           | 2519/5001 [01:45<04:44,  8.71it/s][A
 50%|████████████████████████████▏                           | 2520/5001 [01:46<04:50,  8.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.277
 	Training Stability: 15.134
 	AAR: 1.805
 	SES: 1.0
 	Mean Reward: 105.6
 	Std Reward: 37.569




 55%|██████████████████████████████▊                         | 2752/5001 [02:33<04:57,  7.55it/s][A
 55%|██████████████████████████████▊                         | 2753/5001 [02:34<05:49,  6.42it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [02:34<06:17,  5.95it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [02:34<07:16,  5.14it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [02:34<07:52,  4.75it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [02:35<07:58,  4.69it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [02:35<08:05,  4.62it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [02:35<08:03,  4.64it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [02:35<06:51,  5.44it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [02:35<06:18,  5.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.291
 	Training Stability: 104.778
 	AAR: 1.721
 	SES: 1.0
 	Mean Reward: 93.5
 	Std Reward: 14.719




 60%|█████████████████████████████████▋                      | 3003/5001 [03:15<04:27,  7.46it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [03:15<05:20,  6.24it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [03:15<05:55,  5.62it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [03:15<06:13,  5.35it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [03:16<06:37,  5.01it/s][A
 60%|█████████████████████████████████▋                      | 3008/5001 [03:16<06:58,  4.76it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [03:16<06:48,  4.87it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [03:16<06:47,  4.88it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [03:16<06:45,  4.90it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [03:17<06:49,  4.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.307
 	Training Stability: 43.507
 	AAR: 1.629
 	SES: 1.0
 	Mean Reward: 162.5
 	Std Reward: 39.485




 65%|████████████████████████████████████▍                   | 3253/5001 [03:53<03:40,  7.91it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [03:53<03:12,  9.06it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [03:53<03:09,  9.20it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [03:54<02:57,  9.79it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [03:54<02:59,  9.71it/s][A
 65%|████████████████████████████████████▌                   | 3262/5001 [03:54<02:38, 10.94it/s][A
 65%|████████████████████████████████████▌                   | 3264/5001 [03:54<02:47, 10.38it/s][A
 65%|████████████████████████████████████▌                   | 3266/5001 [03:54<02:57,  9.75it/s][A
 65%|████████████████████████████████████▌                   | 3267/5001 [03:54<02:59,  9.65it/s][A
 65%|████████████████████████████████████▌                   | 3268/5001 [03:55<03:01,  9.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.326
 	Training Stability: 60.648
 	AAR: 1.533
 	SES: 1.0
 	Mean Reward: 150.0
 	Std Reward: 23.87




 70%|███████████████████████████████████████▏                | 3503/5001 [04:23<03:55,  6.35it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [04:23<04:01,  6.21it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [04:23<03:53,  6.42it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [04:24<03:59,  6.25it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [04:24<03:54,  6.37it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [04:24<04:01,  6.18it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [04:24<03:53,  6.40it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [04:24<03:52,  6.42it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [04:24<03:58,  6.25it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [04:24<03:42,  6.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.348
 	Training Stability: 105.14
 	AAR: 1.436
 	SES: 1.0
 	Mean Reward: 244.3
 	Std Reward: 85.978




 75%|██████████████████████████████████████████              | 3752/5001 [04:54<03:42,  5.60it/s][A
 75%|██████████████████████████████████████████              | 3753/5001 [04:54<03:50,  5.42it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [04:54<03:49,  5.43it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [04:55<04:02,  5.13it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [04:55<04:01,  5.16it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [04:55<04:10,  4.97it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [04:55<04:14,  4.88it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [04:55<04:19,  4.79it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [04:56<04:19,  4.77it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [04:56<04:28,  4.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.373
 	Training Stability: 40.201
 	AAR: 1.34
 	SES: 1.0
 	Mean Reward: 115.7
 	Std Reward: 11.109




 80%|████████████████████████████████████████████▊           | 4004/5001 [05:34<01:57,  8.47it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [05:34<01:39,  9.98it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [05:34<01:44,  9.52it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [05:34<01:56,  8.56it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [05:34<01:59,  8.33it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [05:34<02:02,  8.07it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [05:34<02:05,  7.92it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [05:35<02:06,  7.85it/s][A
 80%|████████████████████████████████████████████▉           | 4013/5001 [05:35<02:08,  7.68it/s][A
 80%|████████████████████████████████████████████▉           | 4014/5001 [05:35<02:10,  7.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.401
 	Training Stability: 79.513
 	AAR: 1.248
 	SES: 1.0
 	Mean Reward: 74.7
 	Std Reward: 13.499




 85%|███████████████████████████████████████████████▌        | 4253/5001 [06:12<01:53,  6.61it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [06:13<01:56,  6.40it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [06:13<01:54,  6.53it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [06:13<01:45,  7.03it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [06:13<01:47,  6.91it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [06:13<01:45,  7.07it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [06:13<01:36,  7.66it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [06:13<01:38,  7.53it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [06:14<01:37,  7.59it/s][A
 85%|███████████████████████████████████████████████▋        | 4262/5001 [06:14<01:30,  8.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.431
 	Training Stability: 85.958
 	AAR: 1.16
 	SES: 1.0
 	Mean Reward: 65.7
 	Std Reward: 20.722




 90%|██████████████████████████████████████████████████▍     | 4503/5001 [07:04<01:50,  4.52it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [07:04<01:32,  5.37it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [07:04<01:22,  6.01it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [07:04<01:17,  6.36it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [07:04<01:20,  6.13it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [07:05<01:27,  5.65it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [07:05<01:24,  5.80it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [07:05<01:20,  6.13it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [07:05<01:11,  6.82it/s][A
 90%|██████████████████████████████████████████████████▌     | 4512/5001 [07:05<01:17,  6.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.464
 	Training Stability: 49.952
 	AAR: 1.077
 	SES: 1.0
 	Mean Reward: 70.4
 	Std Reward: 12.816




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [07:46<00:43,  5.71it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [07:46<00:43,  5.67it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [07:47<00:48,  5.12it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [07:47<00:49,  5.01it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [07:47<00:47,  5.15it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [07:47<00:48,  5.07it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [07:47<00:45,  5.31it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [07:48<00:45,  5.28it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [07:48<00:46,  5.17it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [07:48<00:49,  4.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 104.652
 	AAR: 1.0
 	SES: 0.933
 	Mean Reward: 220.6
 	Std Reward: 114.741




 83%|███████████████████████████████████████████████▌         | 10/12 [2:04:17<20:36, 618.30s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 7/5001 [00:00<01:12, 68.88it/s][A
  0%|▏                                                         | 14/5001 [00:00<01:16, 65.27it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.25
 	Training Stability: 0.872
 	AAR: 2.0
 	SES: 0.778
 	Mean Reward: 9.6
 	Std Reward: 0.49




  0%|▏                                                         | 21/5001 [00:00<01:22, 60.31it/s][A
  1%|▎                                                         | 28/5001 [00:00<01:30, 54.66it/s][A
  1%|▍                                                         | 35/5001 [00:00<01:26, 57.58it/s][A
  1%|▍                                                         | 41/5001 [00:00<01:25, 57.71it/s][A
  1%|▌                                                         | 47/5001 [00:00<01:25, 57.63it/s][A
  1%|▋                                                         | 54/5001 [00:00<01:23, 59.38it/s][A
  1%|▋                                                         | 61/5001 [00:01<01:20, 61.43it/s][A
  1%|▊                                                         | 68/5001 [00:01<01:19, 62.35it/s][A
  1%|▊                                                         | 75/5001 [00:01<01:16, 64.38it/s][A
  2%|▉                                                         | 82/5001 [00:01<01:16, 64.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.251
 	Training Stability: 3.28
 	AAR: 1.995
 	SES: 0
 	Mean Reward: 13.7
 	Std Reward: 7.015




  5%|███                                                      | 264/5001 [00:05<02:35, 30.49it/s][A
  5%|███                                                      | 270/5001 [00:05<02:10, 36.12it/s][A
  6%|███▏                                                     | 276/5001 [00:05<01:56, 40.40it/s][A
  6%|███▏                                                     | 282/5001 [00:05<01:47, 43.74it/s][A
  6%|███▎                                                     | 287/5001 [00:05<01:46, 44.36it/s][A
  6%|███▎                                                     | 292/5001 [00:05<01:44, 45.19it/s][A
  6%|███▍                                                     | 297/5001 [00:05<01:45, 44.75it/s][A
  6%|███▍                                                     | 302/5001 [00:05<01:44, 44.96it/s][A
  6%|███▌                                                     | 308/5001 [00:05<01:40, 46.68it/s][A
  6%|███▌                                                     | 314/5001 [00:06<01:34, 49.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.253
 	Training Stability: 3.523
 	AAR: 1.98
 	SES: 1.0
 	Mean Reward: 14.2
 	Std Reward: 6.4




 10%|█████▊                                                   | 515/5001 [00:09<01:28, 50.81it/s][A
 10%|█████▉                                                   | 521/5001 [00:10<01:26, 51.83it/s][A
 11%|██████                                                   | 528/5001 [00:10<01:20, 55.25it/s][A
 11%|██████                                                   | 534/5001 [00:10<01:21, 54.92it/s][A
 11%|██████▏                                                  | 540/5001 [00:10<01:19, 55.87it/s][A
 11%|██████▏                                                  | 546/5001 [00:10<01:19, 56.03it/s][A
 11%|██████▎                                                  | 552/5001 [00:10<01:20, 55.01it/s][A
 11%|██████▎                                                  | 558/5001 [00:10<01:24, 52.75it/s][A
 11%|██████▍                                                  | 564/5001 [00:10<01:23, 53.37it/s][A
 11%|██████▍                                                  | 570/5001 [00:10<01:24, 52.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.256
 	Training Stability: 10.251
 	AAR: 1.956
 	SES: 0.5
 	Mean Reward: 20.3
 	Std Reward: 8.498




 15%|████████▋                                                | 761/5001 [00:15<02:04, 34.13it/s][A
 15%|████████▋                                                | 765/5001 [00:15<02:19, 30.37it/s][A
 15%|████████▊                                                | 769/5001 [00:15<02:31, 27.90it/s][A
 15%|████████▊                                                | 772/5001 [00:15<02:35, 27.15it/s][A
 15%|████████▊                                                | 775/5001 [00:15<02:40, 26.34it/s][A
 16%|████████▊                                                | 778/5001 [00:16<02:46, 25.40it/s][A
 16%|████████▉                                                | 781/5001 [00:16<02:51, 24.66it/s][A
 16%|████████▉                                                | 784/5001 [00:16<02:51, 24.55it/s][A
 16%|████████▉                                                | 787/5001 [00:16<02:45, 25.44it/s][A
 16%|█████████                                                | 790/5001 [00:16<02:53, 24.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.26
 	Training Stability: 24.71
 	AAR: 1.923
 	SES: 1.0
 	Mean Reward: 128.3
 	Std Reward: 73.801



 20%|███████████▏                                            | 1003/5001 [00:36<07:45,  8.59it/s][A
 20%|███████████▎                                            | 1005/5001 [00:36<07:18,  9.12it/s][A
 20%|███████████▎                                            | 1006/5001 [00:36<07:45,  8.58it/s][A
 20%|███████████▎                                            | 1007/5001 [00:36<07:41,  8.65it/s][A
 20%|███████████▎                                            | 1008/5001 [00:36<08:02,  8.27it/s][A
 20%|███████████▎                                            | 1009/5001 [00:36<08:12,  8.10it/s][A
 20%|███████████▎                                            | 1010/5001 [00:37<08:57,  7.43it/s][A
 20%|███████████▎                                            | 1011/5001 [00:37<09:35,  6.93it/s][A
 20%|███████████▎                                            | 1012/5001 [00:37<11:30,  5.78it/s][A
 20%|███████████▎                                            | 1013/5001 [00:37<11:18,  5.8

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.266
 	Training Stability: 23.606
 	AAR: 1.882
 	SES: 1.0
 	Mean Reward: 100.7
 	Std Reward: 24.803



 25%|██████████████                                          | 1253/5001 [01:16<07:34,  8.24it/s][A
 25%|██████████████                                          | 1254/5001 [01:16<07:22,  8.47it/s][A
 25%|██████████████                                          | 1255/5001 [01:16<07:22,  8.47it/s][A
 25%|██████████████                                          | 1256/5001 [01:16<07:26,  8.38it/s][A
 25%|██████████████                                          | 1257/5001 [01:16<07:25,  8.40it/s][A
 25%|██████████████                                          | 1258/5001 [01:16<07:21,  8.47it/s][A
 25%|██████████████                                          | 1259/5001 [01:16<07:12,  8.65it/s][A
 25%|██████████████                                          | 1260/5001 [01:16<07:09,  8.71it/s][A
 25%|██████████████                                          | 1261/5001 [01:17<07:15,  8.59it/s][A
 25%|██████████████▏                                         | 1262/5001 [01:17<07:22,  8.4

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.273
 	Training Stability: 43.537
 	AAR: 1.835
 	SES: 1.0
 	Mean Reward: 109.3
 	Std Reward: 16.347




 30%|████████████████▊                                       | 1504/5001 [01:38<05:21, 10.88it/s][A
 30%|████████████████▊                                       | 1506/5001 [01:38<05:30, 10.58it/s][A
 30%|████████████████▉                                       | 1508/5001 [01:38<05:32, 10.51it/s][A
 30%|████████████████▉                                       | 1510/5001 [01:38<06:02,  9.64it/s][A
 30%|████████████████▉                                       | 1511/5001 [01:38<06:18,  9.21it/s][A
 30%|████████████████▉                                       | 1512/5001 [01:39<06:19,  9.20it/s][A
 30%|████████████████▉                                       | 1513/5001 [01:39<06:30,  8.93it/s][A
 30%|████████████████▉                                       | 1514/5001 [01:39<06:22,  9.13it/s][A
 30%|████████████████▉                                       | 1515/5001 [01:39<07:01,  8.27it/s][A
 30%|████████████████▉                                       | 1516/5001 [01:39<07:12,  8.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.281
 	Training Stability: 40.974
 	AAR: 1.782
 	SES: 1.0
 	Mean Reward: 75.2
 	Std Reward: 14.365




 35%|███████████████████▋                                    | 1754/5001 [02:02<04:50, 11.18it/s][A
 35%|███████████████████▋                                    | 1756/5001 [02:02<04:50, 11.15it/s][A
 35%|███████████████████▋                                    | 1758/5001 [02:02<04:44, 11.40it/s][A
 35%|███████████████████▋                                    | 1760/5001 [02:03<04:37, 11.68it/s][A
 35%|███████████████████▋                                    | 1762/5001 [02:03<04:42, 11.45it/s][A
 35%|███████████████████▊                                    | 1764/5001 [02:03<04:35, 11.75it/s][A
 35%|███████████████████▊                                    | 1766/5001 [02:03<04:28, 12.04it/s][A
 35%|███████████████████▊                                    | 1768/5001 [02:03<04:24, 12.21it/s][A
 35%|███████████████████▊                                    | 1770/5001 [02:03<04:07, 13.08it/s][A
 35%|███████████████████▊                                    | 1772/5001 [02:03<03:54, 13.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.29
 	Training Stability: 27.553
 	AAR: 1.724
 	SES: 1.0
 	Mean Reward: 71.7
 	Std Reward: 12.506




 40%|██████████████████████▍                                 | 2004/5001 [02:23<04:06, 12.14it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [02:23<04:00, 12.46it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [02:23<03:52, 12.85it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [02:23<03:48, 13.11it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [02:23<03:54, 12.73it/s][A
 40%|██████████████████████▌                                 | 2014/5001 [02:23<04:04, 12.20it/s][A
 40%|██████████████████████▌                                 | 2016/5001 [02:23<03:58, 12.52it/s][A
 40%|██████████████████████▌                                 | 2018/5001 [02:24<04:03, 12.23it/s][A
 40%|██████████████████████▌                                 | 2020/5001 [02:24<04:09, 11.96it/s][A
 40%|██████████████████████▋                                 | 2022/5001 [02:24<04:03, 12.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.301
 	Training Stability: 13.641
 	AAR: 1.663
 	SES: 0.8
 	Mean Reward: 92.4
 	Std Reward: 14.616




 45%|█████████████████████████▏                              | 2254/5001 [02:45<04:37,  9.89it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [02:45<04:26, 10.31it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [02:46<04:24, 10.39it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [02:46<04:16, 10.67it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [02:46<04:14, 10.75it/s][A
 45%|█████████████████████████▎                              | 2264/5001 [02:46<04:09, 10.96it/s][A
 45%|█████████████████████████▎                              | 2266/5001 [02:46<04:09, 10.97it/s][A
 45%|█████████████████████████▍                              | 2268/5001 [02:46<04:09, 10.94it/s][A
 45%|█████████████████████████▍                              | 2270/5001 [02:47<04:20, 10.49it/s][A
 45%|█████████████████████████▍                              | 2272/5001 [02:47<04:58,  9.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.312
 	Training Stability: 35.324
 	AAR: 1.6
 	SES: 1.0
 	Mean Reward: 91.2
 	Std Reward: 29.407




 50%|████████████████████████████                            | 2503/5001 [03:10<04:56,  8.43it/s][A
 50%|████████████████████████████                            | 2504/5001 [03:10<05:09,  8.06it/s][A
 50%|████████████████████████████                            | 2505/5001 [03:10<05:29,  7.57it/s][A
 50%|████████████████████████████                            | 2506/5001 [03:10<05:28,  7.59it/s][A
 50%|████████████████████████████                            | 2507/5001 [03:10<05:12,  7.98it/s][A
 50%|████████████████████████████                            | 2508/5001 [03:10<05:09,  8.05it/s][A
 50%|████████████████████████████                            | 2509/5001 [03:10<04:55,  8.42it/s][A
 50%|████████████████████████████                            | 2510/5001 [03:11<05:46,  7.20it/s][A
 50%|████████████████████████████                            | 2511/5001 [03:11<05:59,  6.92it/s][A
 50%|████████████████████████████▏                           | 2512/5001 [03:11<07:17,  5.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.326
 	Training Stability: 146.185
 	AAR: 1.536
 	SES: 1.0
 	Mean Reward: 263.4
 	Std Reward: 178.361




 55%|██████████████████████████████▊                         | 2753/5001 [03:39<07:39,  4.89it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [03:39<05:23,  6.95it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [03:39<04:23,  8.50it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [03:39<04:23,  8.52it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [03:39<04:23,  8.51it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [03:40<04:14,  8.81it/s][A
 55%|██████████████████████████████▉                         | 2762/5001 [03:40<03:59,  9.35it/s][A
 55%|██████████████████████████████▉                         | 2763/5001 [03:40<04:25,  8.43it/s][A
 55%|██████████████████████████████▉                         | 2765/5001 [03:40<03:54,  9.52it/s][A
 55%|██████████████████████████████▉                         | 2766/5001 [03:40<04:00,  9.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.34
 	Training Stability: 116.928
 	AAR: 1.471
 	SES: 1.0
 	Mean Reward: 152.7
 	Std Reward: 100.484




 60%|█████████████████████████████████▋                      | 3004/5001 [04:17<04:04,  8.18it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [04:18<04:35,  7.24it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [04:18<04:28,  7.42it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [04:18<04:15,  7.82it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [04:18<03:40,  9.02it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [04:18<03:40,  9.03it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [04:18<03:31,  9.43it/s][A
 60%|█████████████████████████████████▋                      | 3013/5001 [04:18<03:38,  9.11it/s][A
 60%|█████████████████████████████████▊                      | 3014/5001 [04:19<03:33,  9.31it/s][A
 60%|█████████████████████████████████▊                      | 3015/5001 [04:19<03:36,  9.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.356
 	Training Stability: 148.919
 	AAR: 1.406
 	SES: 1.0
 	Mean Reward: 251.5
 	Std Reward: 156.543




 65%|████████████████████████████████████▍                   | 3252/5001 [05:09<10:58,  2.66it/s][A
 65%|████████████████████████████████████▍                   | 3253/5001 [05:10<11:26,  2.55it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [05:10<11:01,  2.64it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [05:11<10:32,  2.76it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [05:11<09:38,  3.02it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [05:11<07:48,  3.72it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [05:11<07:23,  3.93it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [05:11<07:11,  4.03it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [05:12<07:23,  3.92it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [05:12<07:25,  3.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.372
 	Training Stability: 181.569
 	AAR: 1.342
 	SES: 1.0
 	Mean Reward: 353.0
 	Std Reward: 157.656




 70%|███████████████████████████████████████▏                | 3502/5001 [06:08<09:24,  2.65it/s][A
 70%|███████████████████████████████████████▏                | 3503/5001 [06:09<09:26,  2.65it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [06:09<08:54,  2.80it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [06:09<07:27,  3.34it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [06:10<07:44,  3.22it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [06:10<07:37,  3.27it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [06:10<08:13,  3.03it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [06:10<07:55,  3.13it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [06:11<08:00,  3.11it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [06:11<08:22,  2.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.391
 	Training Stability: 137.911
 	AAR: 1.28
 	SES: 1.0
 	Mean Reward: 194.2
 	Std Reward: 74.405




 75%|██████████████████████████████████████████              | 3752/5001 [07:08<06:04,  3.43it/s][A
 75%|██████████████████████████████████████████              | 3753/5001 [07:09<05:50,  3.56it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [07:09<05:48,  3.58it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [07:09<05:59,  3.46it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [07:09<06:09,  3.37it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [07:10<05:51,  3.54it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [07:10<05:48,  3.57it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [07:10<06:14,  3.32it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [07:11<06:21,  3.25it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [07:11<06:43,  3.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.41
 	Training Stability: 60.48
 	AAR: 1.22
 	SES: 1.0
 	Mean Reward: 354.2
 	Std Reward: 128.208




 80%|████████████████████████████████████████████▊           | 4003/5001 [08:19<04:27,  3.73it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [08:20<04:03,  4.09it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [08:20<03:34,  4.65it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [08:20<03:11,  5.18it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [08:20<02:56,  5.64it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [08:20<03:46,  4.39it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [08:21<03:53,  4.25it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [08:21<03:47,  4.35it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [08:21<03:40,  4.48it/s][A
 80%|████████████████████████████████████████████▉           | 4012/5001 [08:21<03:30,  4.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.431
 	Training Stability: 138.418
 	AAR: 1.161
 	SES: 1.0
 	Mean Reward: 246.1
 	Std Reward: 75.464




 85%|███████████████████████████████████████████████▌        | 4252/5001 [09:23<05:04,  2.46it/s][A
 85%|███████████████████████████████████████████████▌        | 4253/5001 [09:24<05:21,  2.33it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [09:24<05:21,  2.32it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [09:25<05:41,  2.18it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [09:25<05:37,  2.20it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [09:25<05:29,  2.25it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [09:26<05:44,  2.16it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [09:26<05:32,  2.23it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [09:27<05:46,  2.14it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [09:27<05:46,  2.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.453
 	Training Stability: 97.962
 	AAR: 1.105
 	SES: 1.0
 	Mean Reward: 247.0
 	Std Reward: 99.243




 90%|██████████████████████████████████████████████████▍     | 4502/5001 [10:40<03:14,  2.56it/s][A
 90%|██████████████████████████████████████████████████▍     | 4503/5001 [10:41<03:08,  2.65it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [10:41<02:37,  3.16it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [10:41<02:17,  3.60it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [10:41<02:01,  4.08it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [10:41<01:49,  4.50it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [10:42<01:48,  4.55it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [10:42<01:43,  4.77it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [10:42<01:38,  4.97it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [10:42<01:29,  5.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.476
 	Training Stability: 7.829
 	AAR: 1.051
 	SES: 1.0
 	Mean Reward: 116.6
 	Std Reward: 99.396



 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [11:44<00:33,  7.35it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [11:45<00:35,  6.89it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [11:45<00:35,  7.02it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [11:45<00:34,  7.06it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [11:45<00:34,  7.15it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [11:45<00:34,  7.11it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [11:45<00:37,  6.53it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [11:46<00:48,  4.94it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [11:46<00:57,  4.20it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4762/5001 [11:46<00:58,  4.0

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.5
 	Training Stability: 136.136
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 234.1
 	Std Reward: 121.394




 92%|████████████████████████████████████████████████████▎    | 11/12 [2:16:56<11:01, 661.49s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|                                                           | 5/5001 [00:00<01:47, 46.55it/s][A
  0%|                                                          | 10/5001 [00:00<01:44, 47.83it/s][A

Evaluation 0 (Epsilon=0.0999):
	Training Pole Length: 0.5
 	Training Stability: 2.119
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 11.5
 	Std Reward: 3.471




  0%|▏                                                         | 15/5001 [00:00<01:43, 48.31it/s][A
  0%|▏                                                         | 21/5001 [00:00<01:35, 51.88it/s][A
  1%|▎                                                         | 27/5001 [00:00<01:31, 54.65it/s][A
  1%|▍                                                         | 33/5001 [00:00<01:31, 54.52it/s][A
  1%|▍                                                         | 40/5001 [00:00<01:27, 56.47it/s][A
  1%|▌                                                         | 46/5001 [00:00<01:27, 56.88it/s][A
  1%|▌                                                         | 52/5001 [00:00<01:27, 56.86it/s][A
  1%|▋                                                         | 58/5001 [00:01<01:26, 57.32it/s][A
  1%|▋                                                         | 64/5001 [00:01<01:25, 57.43it/s][A
  1%|▊                                                         | 70/5001 [00:01<01:25, 57.

Evaluation 250 (Epsilon=0.0778):
	Training Pole Length: 0.487
 	Training Stability: 28.499
 	AAR: 1.026
 	SES: 1.0
 	Mean Reward: 54.6
 	Std Reward: 31.155




  5%|██▉                                                      | 255/5001 [00:08<05:58, 13.24it/s][A
  5%|██▉                                                      | 257/5001 [00:08<05:49, 13.57it/s][A
  5%|██▉                                                      | 259/5001 [00:08<05:59, 13.19it/s][A
  5%|██▉                                                      | 261/5001 [00:08<05:41, 13.87it/s][A
  5%|██▉                                                      | 263/5001 [00:08<06:01, 13.10it/s][A
  5%|███                                                      | 265/5001 [00:08<05:48, 13.61it/s][A
  5%|███                                                      | 267/5001 [00:09<06:01, 13.11it/s][A
  5%|███                                                      | 269/5001 [00:09<05:54, 13.35it/s][A
  5%|███                                                      | 271/5001 [00:09<05:39, 13.92it/s][A
  5%|███                                                      | 274/5001 [00:09<04:47, 16.

Evaluation 500 (Epsilon=0.06059):
	Training Pole Length: 0.475
 	Training Stability: 19.719
 	AAR: 1.053
 	SES: 1.0
 	Mean Reward: 45.8
 	Std Reward: 27.607




 10%|█████▋                                                   | 504/5001 [00:25<04:49, 15.53it/s][A
 10%|█████▊                                                   | 506/5001 [00:25<04:47, 15.63it/s][A
 10%|█████▊                                                   | 508/5001 [00:25<05:19, 14.04it/s][A
 10%|█████▊                                                   | 510/5001 [00:26<05:11, 14.43it/s][A
 10%|█████▊                                                   | 512/5001 [00:26<05:16, 14.19it/s][A
 10%|█████▊                                                   | 514/5001 [00:26<06:00, 12.45it/s][A
 10%|█████▉                                                   | 516/5001 [00:26<05:55, 12.62it/s][A
 10%|█████▉                                                   | 518/5001 [00:26<05:36, 13.33it/s][A
 10%|█████▉                                                   | 520/5001 [00:26<05:22, 13.89it/s][A
 10%|█████▉                                                   | 522/5001 [00:26<05:26, 13.

Evaluation 750 (Epsilon=0.04719):
	Training Pole Length: 0.462
 	Training Stability: 14.458
 	AAR: 1.081
 	SES: 1.0
 	Mean Reward: 55.5
 	Std Reward: 19.335




 15%|████████▌                                                | 754/5001 [00:52<08:08,  8.69it/s][A
 15%|████████▌                                                | 755/5001 [00:52<08:06,  8.73it/s][A
 15%|████████▌                                                | 756/5001 [00:52<08:06,  8.72it/s][A
 15%|████████▋                                                | 757/5001 [00:52<08:13,  8.59it/s][A
 15%|████████▋                                                | 758/5001 [00:52<08:29,  8.32it/s][A
 15%|████████▋                                                | 759/5001 [00:52<08:06,  8.72it/s][A
 15%|████████▋                                                | 760/5001 [00:52<08:17,  8.52it/s][A
 15%|████████▋                                                | 762/5001 [00:53<07:55,  8.91it/s][A
 15%|████████▋                                                | 763/5001 [00:53<08:07,  8.70it/s][A
 15%|████████▋                                                | 764/5001 [00:53<08:06,  8.

Evaluation 1000 (Epsilon=0.03675):
	Training Pole Length: 0.45
 	Training Stability: 27.778
 	AAR: 1.111
 	SES: 1.0
 	Mean Reward: 95.5
 	Std Reward: 23.72




 20%|███████████▏                                            | 1003/5001 [01:25<09:17,  7.17it/s][A
 20%|███████████▏                                            | 1004/5001 [01:26<10:03,  6.62it/s][A
 20%|███████████▎                                            | 1005/5001 [01:26<12:19,  5.40it/s][A
 20%|███████████▎                                            | 1006/5001 [01:26<14:36,  4.56it/s][A
 20%|███████████▎                                            | 1007/5001 [01:26<15:02,  4.42it/s][A
 20%|███████████▎                                            | 1008/5001 [01:27<14:36,  4.55it/s][A
 20%|███████████▎                                            | 1009/5001 [01:27<13:44,  4.84it/s][A
 20%|███████████▎                                            | 1010/5001 [01:27<13:10,  5.05it/s][A
 20%|███████████▎                                            | 1011/5001 [01:27<12:04,  5.51it/s][A
 20%|███████████▎                                            | 1012/5001 [01:27<11:26,  5.

Evaluation 1250 (Epsilon=0.02862):
	Training Pole Length: 0.437
 	Training Stability: 23.824
 	AAR: 1.143
 	SES: 0.75
 	Mean Reward: 155.0
 	Std Reward: 89.203




 25%|██████████████                                          | 1253/5001 [01:57<08:46,  7.12it/s][A
 25%|██████████████                                          | 1254/5001 [01:57<09:45,  6.40it/s][A
 25%|██████████████                                          | 1255/5001 [01:57<09:23,  6.65it/s][A
 25%|██████████████                                          | 1256/5001 [01:58<08:45,  7.12it/s][A
 25%|██████████████                                          | 1257/5001 [01:58<08:18,  7.51it/s][A
 25%|██████████████                                          | 1258/5001 [01:58<07:57,  7.83it/s][A
 25%|██████████████                                          | 1259/5001 [01:58<08:29,  7.35it/s][A
 25%|██████████████                                          | 1261/5001 [01:58<07:04,  8.82it/s][A
 25%|██████████████▏                                         | 1263/5001 [01:58<06:29,  9.60it/s][A
 25%|██████████████▏                                         | 1264/5001 [01:58<06:32,  9.

Evaluation 1500 (Epsilon=0.02229):
	Training Pole Length: 0.425
 	Training Stability: 18.177
 	AAR: 1.177
 	SES: 1.0
 	Mean Reward: 85.2
 	Std Reward: 12.197




 30%|████████████████▊                                       | 1503/5001 [02:27<07:38,  7.64it/s][A
 30%|████████████████▊                                       | 1504/5001 [02:27<07:23,  7.88it/s][A
 30%|████████████████▊                                       | 1505/5001 [02:27<07:24,  7.87it/s][A
 30%|████████████████▊                                       | 1506/5001 [02:28<07:19,  7.96it/s][A
 30%|████████████████▉                                       | 1507/5001 [02:28<07:00,  8.30it/s][A
 30%|████████████████▉                                       | 1509/5001 [02:28<06:38,  8.77it/s][A
 30%|████████████████▉                                       | 1510/5001 [02:28<06:43,  8.65it/s][A
 30%|████████████████▉                                       | 1511/5001 [02:28<07:11,  8.09it/s][A
 30%|████████████████▉                                       | 1512/5001 [02:28<07:08,  8.14it/s][A
 30%|████████████████▉                                       | 1513/5001 [02:28<06:52,  8.

Evaluation 1750 (Epsilon=0.01736):
	Training Pole Length: 0.412
 	Training Stability: 12.931
 	AAR: 1.212
 	SES: 1.0
 	Mean Reward: 96.4
 	Std Reward: 14.834




 35%|███████████████████▋                                    | 1753/5001 [02:57<06:35,  8.21it/s][A
 35%|███████████████████▋                                    | 1754/5001 [02:57<06:28,  8.35it/s][A
 35%|███████████████████▋                                    | 1755/5001 [02:57<06:49,  7.94it/s][A
 35%|███████████████████▋                                    | 1756/5001 [02:57<06:33,  8.25it/s][A
 35%|███████████████████▋                                    | 1757/5001 [02:58<06:32,  8.27it/s][A
 35%|███████████████████▋                                    | 1758/5001 [02:58<06:56,  7.79it/s][A
 35%|███████████████████▋                                    | 1759/5001 [02:58<07:26,  7.27it/s][A
 35%|███████████████████▋                                    | 1760/5001 [02:58<06:56,  7.79it/s][A
 35%|███████████████████▋                                    | 1761/5001 [02:58<06:38,  8.13it/s][A
 35%|███████████████████▋                                    | 1762/5001 [02:58<06:24,  8.

Evaluation 2000 (Epsilon=0.01352):
	Training Pole Length: 0.4
 	Training Stability: 28.427
 	AAR: 1.25
 	SES: 1.0
 	Mean Reward: 106.2
 	Std Reward: 18.53




 40%|██████████████████████▍                                 | 2003/5001 [03:30<06:21,  7.86it/s][A
 40%|██████████████████████▍                                 | 2004/5001 [03:30<06:39,  7.51it/s][A
 40%|██████████████████████▍                                 | 2005/5001 [03:31<06:41,  7.46it/s][A
 40%|██████████████████████▍                                 | 2006/5001 [03:31<06:33,  7.61it/s][A
 40%|██████████████████████▍                                 | 2007/5001 [03:31<06:32,  7.64it/s][A
 40%|██████████████████████▍                                 | 2008/5001 [03:31<06:29,  7.69it/s][A
 40%|██████████████████████▍                                 | 2009/5001 [03:31<07:13,  6.90it/s][A
 40%|██████████████████████▌                                 | 2010/5001 [03:31<07:29,  6.66it/s][A
 40%|██████████████████████▌                                 | 2011/5001 [03:31<07:10,  6.94it/s][A
 40%|██████████████████████▌                                 | 2012/5001 [03:32<06:33,  7.

Evaluation 2250 (Epsilon=0.01053):
	Training Pole Length: 0.387
 	Training Stability: 30.654
 	AAR: 1.29
 	SES: 1.0
 	Mean Reward: 152.2
 	Std Reward: 13.415




 45%|█████████████████████████▏                              | 2253/5001 [04:06<07:40,  5.96it/s][A
 45%|█████████████████████████▏                              | 2254/5001 [04:06<07:57,  5.76it/s][A
 45%|█████████████████████████▎                              | 2255/5001 [04:06<07:40,  5.97it/s][A
 45%|█████████████████████████▎                              | 2256/5001 [04:06<07:17,  6.28it/s][A
 45%|█████████████████████████▎                              | 2257/5001 [04:06<07:20,  6.22it/s][A
 45%|█████████████████████████▎                              | 2258/5001 [04:07<07:12,  6.34it/s][A
 45%|█████████████████████████▎                              | 2259/5001 [04:07<07:02,  6.49it/s][A
 45%|█████████████████████████▎                              | 2260/5001 [04:07<06:56,  6.58it/s][A
 45%|█████████████████████████▎                              | 2261/5001 [04:07<07:01,  6.49it/s][A
 45%|█████████████████████████▎                              | 2262/5001 [04:07<07:09,  6.

Evaluation 2500 (Epsilon=0.0082):
	Training Pole Length: 0.375
 	Training Stability: 21.252
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 151.3
 	Std Reward: 21.265




 50%|████████████████████████████                            | 2503/5001 [04:43<07:18,  5.70it/s][A
 50%|████████████████████████████                            | 2504/5001 [04:43<06:58,  5.97it/s][A
 50%|████████████████████████████                            | 2505/5001 [04:44<06:53,  6.04it/s][A
 50%|████████████████████████████                            | 2506/5001 [04:44<06:43,  6.19it/s][A
 50%|████████████████████████████                            | 2507/5001 [04:44<06:29,  6.41it/s][A
 50%|████████████████████████████                            | 2508/5001 [04:44<06:38,  6.26it/s][A
 50%|████████████████████████████                            | 2509/5001 [04:44<06:31,  6.36it/s][A
 50%|████████████████████████████                            | 2510/5001 [04:44<06:23,  6.49it/s][A
 50%|████████████████████████████                            | 2511/5001 [04:44<06:22,  6.51it/s][A
 50%|████████████████████████████▏                           | 2512/5001 [04:45<06:28,  6.

Evaluation 2750 (Epsilon=0.00639):
	Training Pole Length: 0.362
 	Training Stability: 65.105
 	AAR: 1.379
 	SES: 1.0
 	Mean Reward: 153.8
 	Std Reward: 18.787




 55%|██████████████████████████████▊                         | 2752/5001 [05:30<07:16,  5.15it/s][A
 55%|██████████████████████████████▊                         | 2753/5001 [05:30<07:36,  4.93it/s][A
 55%|██████████████████████████████▊                         | 2754/5001 [05:30<06:46,  5.52it/s][A
 55%|██████████████████████████████▊                         | 2755/5001 [05:30<06:59,  5.35it/s][A
 55%|██████████████████████████████▊                         | 2756/5001 [05:31<07:29,  4.99it/s][A
 55%|██████████████████████████████▊                         | 2757/5001 [05:31<07:17,  5.13it/s][A
 55%|██████████████████████████████▉                         | 2758/5001 [05:31<07:25,  5.04it/s][A
 55%|██████████████████████████████▉                         | 2759/5001 [05:31<06:55,  5.39it/s][A
 55%|██████████████████████████████▉                         | 2760/5001 [05:32<07:57,  4.70it/s][A
 55%|██████████████████████████████▉                         | 2761/5001 [05:32<07:44,  4.

Evaluation 3000 (Epsilon=0.005):
	Training Pole Length: 0.35
 	Training Stability: 84.201
 	AAR: 1.429
 	SES: 1.0
 	Mean Reward: 193.9
 	Std Reward: 78.536




 60%|█████████████████████████████████▌                      | 3002/5001 [06:20<08:42,  3.83it/s][A
 60%|█████████████████████████████████▋                      | 3003/5001 [06:20<08:49,  3.77it/s][A
 60%|█████████████████████████████████▋                      | 3004/5001 [06:21<09:15,  3.60it/s][A
 60%|█████████████████████████████████▋                      | 3005/5001 [06:21<08:32,  3.89it/s][A
 60%|█████████████████████████████████▋                      | 3006/5001 [06:21<07:43,  4.30it/s][A
 60%|█████████████████████████████████▋                      | 3007/5001 [06:21<07:15,  4.58it/s][A
 60%|█████████████████████████████████▋                      | 3009/5001 [06:21<05:04,  6.55it/s][A
 60%|█████████████████████████████████▋                      | 3010/5001 [06:22<04:54,  6.77it/s][A
 60%|█████████████████████████████████▋                      | 3011/5001 [06:22<05:17,  6.27it/s][A
 60%|█████████████████████████████████▋                      | 3012/5001 [06:22<04:55,  6.

Evaluation 3250 (Epsilon=0.005):
	Training Pole Length: 0.337
 	Training Stability: 29.897
 	AAR: 1.482
 	SES: 1.0
 	Mean Reward: 153.9
 	Std Reward: 39.055




 65%|████████████████████████████████████▍                   | 3253/5001 [07:10<06:39,  4.38it/s][A
 65%|████████████████████████████████████▍                   | 3254/5001 [07:10<06:20,  4.59it/s][A
 65%|████████████████████████████████████▍                   | 3255/5001 [07:11<05:57,  4.89it/s][A
 65%|████████████████████████████████████▍                   | 3256/5001 [07:11<05:52,  4.95it/s][A
 65%|████████████████████████████████████▍                   | 3257/5001 [07:11<05:36,  5.18it/s][A
 65%|████████████████████████████████████▍                   | 3258/5001 [07:11<05:37,  5.17it/s][A
 65%|████████████████████████████████████▍                   | 3259/5001 [07:11<06:00,  4.83it/s][A
 65%|████████████████████████████████████▌                   | 3260/5001 [07:12<06:00,  4.83it/s][A
 65%|████████████████████████████████████▌                   | 3261/5001 [07:12<05:19,  5.45it/s][A
 65%|████████████████████████████████████▌                   | 3262/5001 [07:12<04:54,  5.

Evaluation 3500 (Epsilon=0.005):
	Training Pole Length: 0.325
 	Training Stability: 44.196
 	AAR: 1.539
 	SES: 1.0
 	Mean Reward: 91.7
 	Std Reward: 27.914




 70%|███████████████████████████████████████▏                | 3503/5001 [07:57<04:36,  5.41it/s][A
 70%|███████████████████████████████████████▏                | 3504/5001 [07:57<04:54,  5.08it/s][A
 70%|███████████████████████████████████████▏                | 3505/5001 [07:58<05:52,  4.25it/s][A
 70%|███████████████████████████████████████▎                | 3506/5001 [07:58<05:27,  4.57it/s][A
 70%|███████████████████████████████████████▎                | 3507/5001 [07:58<04:41,  5.31it/s][A
 70%|███████████████████████████████████████▎                | 3508/5001 [07:58<05:15,  4.73it/s][A
 70%|███████████████████████████████████████▎                | 3509/5001 [07:58<05:37,  4.43it/s][A
 70%|███████████████████████████████████████▎                | 3510/5001 [07:59<05:58,  4.16it/s][A
 70%|███████████████████████████████████████▎                | 3511/5001 [07:59<06:18,  3.94it/s][A
 70%|███████████████████████████████████████▎                | 3512/5001 [07:59<06:41,  3.

Evaluation 3750 (Epsilon=0.005):
	Training Pole Length: 0.312
 	Training Stability: 44.998
 	AAR: 1.6
 	SES: 1.0
 	Mean Reward: 175.5
 	Std Reward: 46.851




 75%|██████████████████████████████████████████              | 3753/5001 [08:41<03:43,  5.59it/s][A
 75%|██████████████████████████████████████████              | 3754/5001 [08:41<03:41,  5.64it/s][A
 75%|██████████████████████████████████████████              | 3755/5001 [08:42<03:36,  5.75it/s][A
 75%|██████████████████████████████████████████              | 3756/5001 [08:42<03:34,  5.81it/s][A
 75%|██████████████████████████████████████████              | 3757/5001 [08:42<03:30,  5.91it/s][A
 75%|██████████████████████████████████████████              | 3758/5001 [08:42<03:29,  5.94it/s][A
 75%|██████████████████████████████████████████              | 3759/5001 [08:42<03:29,  5.93it/s][A
 75%|██████████████████████████████████████████              | 3760/5001 [08:42<03:27,  5.97it/s][A
 75%|██████████████████████████████████████████              | 3761/5001 [08:42<03:24,  6.08it/s][A
 75%|██████████████████████████████████████████▏             | 3762/5001 [08:43<03:24,  6.

Evaluation 4000 (Epsilon=0.005):
	Training Pole Length: 0.3
 	Training Stability: 142.013
 	AAR: 1.667
 	SES: 1.0
 	Mean Reward: 241.8
 	Std Reward: 69.247




 80%|████████████████████████████████████████████▊           | 4002/5001 [09:36<03:29,  4.77it/s][A
 80%|████████████████████████████████████████████▊           | 4003/5001 [09:36<03:37,  4.59it/s][A
 80%|████████████████████████████████████████████▊           | 4004/5001 [09:36<03:29,  4.75it/s][A
 80%|████████████████████████████████████████████▊           | 4005/5001 [09:36<03:34,  4.64it/s][A
 80%|████████████████████████████████████████████▊           | 4006/5001 [09:37<03:29,  4.74it/s][A
 80%|████████████████████████████████████████████▊           | 4007/5001 [09:37<03:31,  4.71it/s][A
 80%|████████████████████████████████████████████▉           | 4008/5001 [09:37<03:35,  4.61it/s][A
 80%|████████████████████████████████████████████▉           | 4009/5001 [09:37<03:25,  4.82it/s][A
 80%|████████████████████████████████████████████▉           | 4010/5001 [09:37<03:27,  4.78it/s][A
 80%|████████████████████████████████████████████▉           | 4011/5001 [09:38<03:21,  4.

Evaluation 4250 (Epsilon=0.005):
	Training Pole Length: 0.287
 	Training Stability: 141.365
 	AAR: 1.739
 	SES: 1.0
 	Mean Reward: 400.2
 	Std Reward: 105.54




 85%|███████████████████████████████████████████████▌        | 4252/5001 [10:48<03:43,  3.34it/s][A
 85%|███████████████████████████████████████████████▌        | 4253/5001 [10:49<03:40,  3.40it/s][A
 85%|███████████████████████████████████████████████▋        | 4254/5001 [10:49<03:35,  3.47it/s][A
 85%|███████████████████████████████████████████████▋        | 4255/5001 [10:49<03:39,  3.39it/s][A
 85%|███████████████████████████████████████████████▋        | 4256/5001 [10:50<03:49,  3.24it/s][A
 85%|███████████████████████████████████████████████▋        | 4257/5001 [10:50<03:43,  3.33it/s][A
 85%|███████████████████████████████████████████████▋        | 4258/5001 [10:50<03:33,  3.47it/s][A
 85%|███████████████████████████████████████████████▋        | 4259/5001 [10:50<03:28,  3.56it/s][A
 85%|███████████████████████████████████████████████▋        | 4260/5001 [10:51<03:34,  3.46it/s][A
 85%|███████████████████████████████████████████████▋        | 4261/5001 [10:51<03:47,  3.

Evaluation 4500 (Epsilon=0.005):
	Training Pole Length: 0.275
 	Training Stability: 147.756
 	AAR: 1.818
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 90%|██████████████████████████████████████████████████▍     | 4502/5001 [12:04<02:40,  3.11it/s][A
 90%|██████████████████████████████████████████████████▍     | 4503/5001 [12:04<02:23,  3.47it/s][A
 90%|██████████████████████████████████████████████████▍     | 4504/5001 [12:04<02:06,  3.92it/s][A
 90%|██████████████████████████████████████████████████▍     | 4505/5001 [12:04<02:18,  3.58it/s][A
 90%|██████████████████████████████████████████████████▍     | 4506/5001 [12:04<01:57,  4.21it/s][A
 90%|██████████████████████████████████████████████████▍     | 4507/5001 [12:05<02:00,  4.10it/s][A
 90%|██████████████████████████████████████████████████▍     | 4508/5001 [12:05<02:02,  4.02it/s][A
 90%|██████████████████████████████████████████████████▍     | 4509/5001 [12:05<02:09,  3.80it/s][A
 90%|██████████████████████████████████████████████████▌     | 4510/5001 [12:06<02:17,  3.57it/s][A
 90%|██████████████████████████████████████████████████▌     | 4511/5001 [12:06<02:23,  3.

Evaluation 4750 (Epsilon=0.005):
	Training Pole Length: 0.262
 	Training Stability: 90.65
 	AAR: 1.905
 	SES: 1.0
 	Mean Reward: 284.1
 	Std Reward: 80.903




 95%|█████████████████████████████████████████████████████▏  | 4752/5001 [13:20<01:29,  2.80it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4753/5001 [13:20<01:25,  2.89it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4754/5001 [13:20<01:21,  3.02it/s][A
 95%|█████████████████████████████████████████████████████▏  | 4755/5001 [13:21<01:20,  3.05it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4756/5001 [13:21<01:16,  3.22it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4757/5001 [13:21<01:17,  3.16it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4758/5001 [13:21<01:19,  3.07it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4759/5001 [13:22<01:22,  2.93it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4760/5001 [13:22<01:20,  2.98it/s][A
 95%|█████████████████████████████████████████████████████▎  | 4761/5001 [13:23<01:25,  2.

Evaluation 5000 (Epsilon=0.005):
	Training Pole Length: 0.25
 	Training Stability: 93.879
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 181.6
 	Std Reward: 42.46




100%|█████████████████████████████████████████████████████████| 12/12 [2:31:49<00:00, 759.09s/it]


In [6]:
q_learning_df.to_csv(DATASETS_DIR / 'q-learning.csv', index=False)

### DQN

#### Curriculum parameter: pole length 

In [7]:
from environments.cart_pole.rl_methods.dqn import DQNAgent

dqn_agent = functools.partial(experiments.get_agent, agent_name='dqn')

agents = [
    dqn_agent(curriculum_name='baseline'),
    dqn_agent(curriculum_name='transfer-learning'),
    dqn_agent(curriculum_name='teacher-learning'),
    dqn_agent(curriculum_name='one-pass'),
    dqn_agent(curriculum_name='root-p'),
    dqn_agent(curriculum_name='hard'),
    dqn_agent(curriculum_name='linear'),
    dqn_agent(curriculum_name='logarithmic'),
    dqn_agent(curriculum_name='logistic'),
    dqn_agent(curriculum_name='mixture'),
    dqn_agent(curriculum_name='polynomial'),
    dqn_agent(curriculum_name='anti-curriculum')
]

for agent in tqdm(agents):
    curriculum = experiments.get_curriculum(agent)
    cart_pole.train_evaluate(agent, curriculum)

dqn_df = data_frame_from_agents(agents)

  0%|                                                                     | 0/12 [00:00<?, ?it/s]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<01:24,  2.37it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.5
 	Training Stability: 14.36
 	AAR: 1.0
 	SES: 0.963
 	Mean Reward: 25.9
 	Std Reward: 13.427




  1%|▌                                                           | 2/201 [00:00<01:09,  2.87it/s][A
  1%|▉                                                           | 3/201 [00:00<01:02,  3.15it/s][A
  2%|█▏                                                          | 4/201 [00:01<00:55,  3.55it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:54,  3.57it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:54,  3.57it/s][A
  3%|██                                                          | 7/201 [00:02<00:59,  3.27it/s][A
  4%|██▍                                                         | 8/201 [00:02<01:05,  2.95it/s][A
  4%|██▋                                                         | 9/201 [00:02<01:09,  2.77it/s][A
  5%|██▉                                                        | 10/201 [00:03<01:04,  2.97it/s][A
  5%|███▏                                                       | 11/201 [00:03<01:20,  2.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.5
 	Training Stability: 28.429
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 111.5
 	Std Reward: 13.01




 13%|███████▉                                                   | 27/201 [00:34<07:48,  2.69s/it][A
 14%|████████▏                                                  | 28/201 [00:37<07:21,  2.55s/it][A
 14%|████████▌                                                  | 29/201 [00:38<06:39,  2.32s/it][A
 15%|████████▊                                                  | 30/201 [00:40<06:15,  2.20s/it][A
 15%|█████████                                                  | 31/201 [00:42<05:46,  2.04s/it][A
 16%|█████████▍                                                 | 32/201 [00:44<05:54,  2.10s/it][A
 16%|█████████▋                                                 | 33/201 [00:46<05:36,  2.00s/it][A
 17%|█████████▉                                                 | 34/201 [00:48<05:39,  2.03s/it][A
 17%|██████████▎                                                | 35/201 [00:51<06:09,  2.22s/it][A
 18%|██████████▌                                                | 36/201 [00:53<06:14,  2.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.5
 	Training Stability: 11.935
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 154.9
 	Std Reward: 14.3




 26%|███████████████▎                                           | 52/201 [01:28<05:18,  2.14s/it][A
 26%|███████████████▌                                           | 53/201 [01:30<05:07,  2.08s/it][A
 27%|███████████████▊                                           | 54/201 [01:32<05:11,  2.12s/it][A
 27%|████████████████▏                                          | 55/201 [01:34<05:06,  2.10s/it][A
 28%|████████████████▍                                          | 56/201 [01:36<04:54,  2.03s/it][A
 28%|████████████████▋                                          | 57/201 [01:38<04:44,  1.98s/it][A
 29%|█████████████████                                          | 58/201 [01:39<04:37,  1.94s/it][A
 29%|█████████████████▎                                         | 59/201 [01:42<04:47,  2.03s/it][A
 30%|█████████████████▌                                         | 60/201 [01:44<04:57,  2.11s/it][A
 30%|█████████████████▉                                         | 61/201 [01:46<04:56,  2.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.5
 	Training Stability: 120.815
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 196.4
 	Std Reward: 44.585




 38%|██████████████████████▌                                    | 77/201 [02:34<06:18,  3.05s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:36<05:36,  2.74s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:38<05:35,  2.75s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:41<05:27,  2.71s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:44<05:43,  2.86s/it][A
 41%|████████████████████████                                   | 82/201 [02:47<05:31,  2.79s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:50<05:30,  2.80s/it][A
 42%|████████████████████████▋                                  | 84/201 [02:53<05:39,  2.90s/it][A
 42%|████████████████████████▉                                  | 85/201 [02:55<04:57,  2.57s/it][A
 43%|█████████████████████████▏                                 | 86/201 [02:56<04:32,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.5
 	Training Stability: 91.041
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 153.5
 	Std Reward: 4.884




 51%|█████████████████████████████▍                            | 102/201 [03:39<05:09,  3.12s/it][A
 51%|█████████████████████████████▋                            | 103/201 [03:42<05:04,  3.11s/it][A
 52%|██████████████████████████████                            | 104/201 [03:50<07:00,  4.33s/it][A
 52%|████████████████████████████▏                         | 105/201 [30:48<13:01:41, 488.56s/it][A
 53%|█████████████████████████████                          | 106/201 [30:56<9:05:06, 344.28s/it][A
 53%|█████████████████████████████▎                         | 107/201 [31:12<6:25:06, 245.81s/it][A
 54%|█████████████████████████████▌                         | 108/201 [31:28<4:34:27, 177.06s/it][A
 54%|█████████████████████████████▊                         | 109/201 [38:06<6:13:07, 243.34s/it][A
 55%|██████████████████████████████                         | 110/201 [38:19<4:24:11, 174.19s/it][A
 55%|██████████████████████████████▎                        | 111/201 [38:32<3:08:44, 125.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.5
 	Training Stability: 15.598
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 394.4
 	Std Reward: 136.225




 63%|████████████████████████████████████▋                     | 127/201 [41:07<03:36,  2.93s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [41:11<03:44,  3.08s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [41:15<04:08,  3.45s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [41:18<03:58,  3.36s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [41:21<03:52,  3.33s/it][A
 66%|██████████████████████████████████████                    | 132/201 [41:26<04:15,  3.71s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [41:32<05:00,  4.43s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [41:38<05:18,  4.75s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [41:41<04:50,  4.41s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [41:44<04:20,  4.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.5
 	Training Stability: 48.489
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 390.1
 	Std Reward: 9.093




 76%|███████████████████████████████████████████▊              | 152/201 [42:55<04:57,  6.08s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [43:01<05:00,  6.26s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [43:09<05:12,  6.65s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [43:17<05:23,  7.03s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [43:25<05:34,  7.44s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [43:36<06:15,  8.54s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [43:44<06:02,  8.43s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [43:53<06:01,  8.60s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [44:00<05:24,  7.92s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [44:05<04:41,  7.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.5
 	Training Stability: 134.183
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 131.3
 	Std Reward: 6.914




 88%|███████████████████████████████████████████████████       | 177/201 [45:18<01:32,  3.87s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [45:20<01:14,  3.25s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [45:22<01:03,  2.87s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [45:23<00:51,  2.46s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [45:26<00:50,  2.54s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [45:29<00:51,  2.72s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [45:35<01:04,  3.60s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [45:38<00:57,  3.36s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [45:42<01:00,  3.79s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [45:48<01:03,  4.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 18.732
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 147.0
 	Std Reward: 8.099




  8%|████▊                                                    | 1/12 [46:37<8:32:47, 2797.05s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  1%|▌                                                           | 2/201 [00:00<00:24,  8.13it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 3.578
 	AAR: 2.0
 	SES: 0.913
 	Mean Reward: 9.1
 	Std Reward: 0.7




  1%|▉                                                           | 3/201 [00:00<00:29,  6.68it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:30,  6.52it/s][A
  2%|█▍                                                          | 5/201 [00:00<00:29,  6.65it/s][A
  3%|█▊                                                          | 6/201 [00:00<00:29,  6.71it/s][A
  3%|██                                                          | 7/201 [00:01<00:29,  6.56it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:29,  6.49it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:29,  6.59it/s][A
  5%|██▉                                                        | 10/201 [00:01<00:31,  6.02it/s][A
  5%|███▏                                                       | 11/201 [00:01<00:30,  6.22it/s][A
  6%|███▌                                                       | 12/201 [00:01<00:30,  6.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.313
 	Training Stability: 11.698
 	AAR: 1.597
 	SES: 1.0
 	Mean Reward: 62.8
 	Std Reward: 6.983




 13%|███████▉                                                   | 27/201 [00:09<02:40,  1.08it/s][A
 14%|████████▏                                                  | 28/201 [00:10<02:45,  1.05it/s][A
 14%|████████▌                                                  | 29/201 [00:11<02:56,  1.03s/it][A
 15%|████████▊                                                  | 30/201 [00:12<03:09,  1.11s/it][A
 15%|█████████                                                  | 31/201 [00:13<03:03,  1.08s/it][A
 16%|█████████▍                                                 | 32/201 [00:15<03:01,  1.07s/it][A
 16%|█████████▋                                                 | 33/201 [00:16<02:57,  1.06s/it][A
 17%|█████████▉                                                 | 34/201 [00:17<03:05,  1.11s/it][A
 17%|██████████▎                                                | 35/201 [00:18<03:26,  1.24s/it][A
 18%|██████████▌                                                | 36/201 [00:20<03:24,  1.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.376
 	Training Stability: 15.05
 	AAR: 1.329
 	SES: 1.0
 	Mean Reward: 106.3
 	Std Reward: 7.253




 26%|███████████████▎                                           | 52/201 [00:46<04:22,  1.76s/it][A
 26%|███████████████▌                                           | 53/201 [00:47<04:20,  1.76s/it][A
 27%|███████████████▊                                           | 54/201 [00:49<04:30,  1.84s/it][A
 27%|████████████████▏                                          | 55/201 [00:51<04:26,  1.82s/it][A
 28%|████████████████▍                                          | 56/201 [00:53<04:27,  1.84s/it][A
 28%|████████████████▋                                          | 57/201 [00:55<04:35,  1.91s/it][A
 29%|█████████████████                                          | 58/201 [00:57<04:36,  1.93s/it][A
 29%|█████████████████▎                                         | 59/201 [00:59<04:39,  1.97s/it][A
 30%|█████████████████▌                                         | 60/201 [01:01<04:41,  1.99s/it][A
 30%|█████████████████▉                                         | 61/201 [01:03<04:43,  2.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.439
 	Training Stability: 28.765
 	AAR: 1.138
 	SES: 1.0
 	Mean Reward: 142.3
 	Std Reward: 12.223




 38%|██████████████████████▌                                    | 77/201 [01:40<05:04,  2.46s/it][A
 39%|██████████████████████▉                                    | 78/201 [01:42<04:54,  2.40s/it][A
 39%|███████████████████████▏                                   | 79/201 [01:44<05:00,  2.46s/it][A
 40%|███████████████████████▍                                   | 80/201 [01:47<05:08,  2.55s/it][A
 40%|███████████████████████▊                                   | 81/201 [01:49<04:52,  2.44s/it][A
 41%|████████████████████████                                   | 82/201 [01:52<04:44,  2.39s/it][A
 41%|████████████████████████▎                                  | 83/201 [01:54<04:46,  2.43s/it][A
 42%|████████████████████████▋                                  | 84/201 [01:56<04:38,  2.38s/it][A
 42%|████████████████████████▉                                  | 85/201 [01:59<04:27,  2.30s/it][A
 43%|█████████████████████████▏                                 | 86/201 [02:01<04:17,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.5
 	Training Stability: 16.329
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 114.6
 	Std Reward: 4.521




 51%|███████████████████████████▍                          | 102/201 [23:51<10:36:30, 385.76s/it][A
 51%|████████████████████████████▏                          | 103/201 [23:53<7:22:16, 270.78s/it][A
 52%|████████████████████████████▍                          | 104/201 [23:55<5:07:29, 190.20s/it][A
 52%|████████████████████████████▋                          | 105/201 [23:57<3:33:46, 133.61s/it][A
 53%|█████████████████████████████▌                          | 106/201 [23:59<2:28:52, 94.03s/it][A
 53%|█████████████████████████████▊                          | 107/201 [24:00<1:43:40, 66.17s/it][A
 54%|██████████████████████████████                          | 108/201 [24:01<1:12:18, 46.65s/it][A
 54%|███████████████████████████████▍                          | 109/201 [24:02<50:46, 33.11s/it][A
 55%|███████████████████████████████▋                          | 110/201 [24:03<35:28, 23.39s/it][A
 55%|████████████████████████████████                          | 111/201 [24:04<25:09, 16.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.5
 	Training Stability: 14.575
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 127.9
 	Std Reward: 6.978




 63%|████████████████████████████████████▋                     | 127/201 [24:34<02:36,  2.11s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [24:37<02:36,  2.15s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [24:39<02:35,  2.16s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [24:41<02:31,  2.13s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [24:43<02:29,  2.13s/it][A
 66%|██████████████████████████████████████                    | 132/201 [24:45<02:24,  2.10s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [24:47<02:24,  2.13s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [24:49<02:22,  2.13s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [24:52<02:21,  2.15s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [24:54<02:18,  2.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.5
 	Training Stability: 11.491
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 149.7
 	Std Reward: 8.615




 76%|███████████████████████████████████████████▊              | 152/201 [25:31<01:55,  2.36s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [25:33<01:57,  2.46s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [25:36<02:03,  2.64s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [25:39<02:03,  2.69s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [25:42<02:00,  2.67s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [25:45<02:05,  2.86s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [25:49<02:15,  3.16s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [25:53<02:16,  3.25s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [25:55<02:04,  3.03s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [25:57<01:51,  2.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.5
 	Training Stability: 30.733
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 156.0
 	Std Reward: 8.877




 88%|███████████████████████████████████████████████████       | 177/201 [26:53<01:30,  3.78s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [26:55<01:17,  3.38s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [26:58<01:08,  3.11s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [27:01<01:03,  3.01s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [27:04<01:04,  3.22s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [27:10<01:13,  3.86s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [27:15<01:15,  4.17s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [27:18<01:05,  3.88s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [27:21<00:56,  3.50s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [27:23<00:46,  3.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 40.415
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 136.4
 	Std Reward: 11.723




 17%|█████████▏                                             | 2/12 [1:14:40<5:56:57, 2141.74s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:35,  5.62it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.488
 	Training Stability: 5.481
 	AAR: 1.003
 	SES: 0.947
 	Mean Reward: 9.0
 	Std Reward: 0.775




  1%|▌                                                           | 2/201 [00:00<00:41,  4.83it/s][A
  1%|▉                                                           | 3/201 [00:00<00:43,  4.58it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:44,  4.47it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:43,  4.54it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:40,  4.84it/s][A
  3%|██                                                          | 7/201 [00:01<00:39,  4.97it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:37,  5.20it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:36,  5.26it/s][A
  5%|██▉                                                        | 10/201 [00:01<00:33,  5.71it/s][A
  5%|███▏                                                       | 11/201 [00:02<00:33,  5.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.254
 	Training Stability: 0.64
 	AAR: 1.979
 	SES: 0.667
 	Mean Reward: 12.4
 	Std Reward: 8.212




 14%|████████▏                                                  | 28/201 [00:04<00:24,  7.01it/s][A
 14%|████████▌                                                  | 29/201 [00:04<00:24,  6.92it/s][A
 15%|████████▊                                                  | 30/201 [00:04<00:30,  5.57it/s][A
 15%|█████████                                                  | 31/201 [00:05<00:41,  4.05it/s][A
 16%|█████████▍                                                 | 32/201 [00:06<01:03,  2.65it/s][A
 16%|█████████▋                                                 | 33/201 [00:06<01:25,  1.96it/s][A
 17%|█████████▉                                                 | 34/201 [00:08<02:04,  1.34it/s][A
 17%|██████████▎                                                | 35/201 [00:10<03:35,  1.30s/it][A
 18%|██████████▌                                                | 36/201 [00:12<04:14,  1.54s/it][A
 18%|██████████▊                                                | 37/201 [00:15<04:46,  1.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.33
 	Training Stability: 14.314
 	AAR: 1.551
 	SES: 1.0
 	Mean Reward: 174.0
 	Std Reward: 16.456




 26%|███████████████▎                                           | 52/201 [00:49<05:45,  2.32s/it][A
 26%|███████████████▌                                           | 53/201 [00:52<06:39,  2.70s/it][A
 27%|███████████████▊                                           | 54/201 [00:56<07:18,  2.98s/it][A
 27%|████████████████▏                                          | 55/201 [00:58<06:56,  2.85s/it][A
 28%|████████████████▍                                          | 56/201 [01:01<06:38,  2.75s/it][A
 28%|████████████████▋                                          | 57/201 [01:03<06:22,  2.66s/it][A
 29%|█████████████████                                          | 58/201 [01:05<05:58,  2.51s/it][A
 29%|█████████████████▎                                         | 59/201 [01:08<05:45,  2.43s/it][A
 30%|█████████████████▌                                         | 60/201 [01:10<05:37,  2.39s/it][A
 30%|█████████████████▉                                         | 61/201 [01:14<06:46,  2.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.39
 	Training Stability: 34.153
 	AAR: 1.247
 	SES: 1.0
 	Mean Reward: 253.4
 	Std Reward: 17.013




 38%|██████████████████████▌                                    | 77/201 [02:21<09:47,  4.74s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:26<09:35,  4.68s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:30<09:28,  4.66s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:35<09:23,  4.66s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:39<08:41,  4.35s/it][A
 41%|████████████████████████                                   | 82/201 [02:44<09:07,  4.60s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:49<09:05,  4.62s/it][A
 42%|████████████████████████▋                                  | 84/201 [02:53<08:48,  4.52s/it][A
 42%|████████████████████████▉                                  | 85/201 [02:57<08:32,  4.42s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:01<08:18,  4.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.383
 	Training Stability: 124.16
 	AAR: 1.331
 	SES: 1.0
 	Mean Reward: 188.7
 	Std Reward: 16.787




 51%|█████████████████████████████▍                            | 102/201 [03:56<06:49,  4.13s/it][A
 51%|█████████████████████████████▋                            | 103/201 [03:59<06:25,  3.93s/it][A
 52%|██████████████████████████████                            | 104/201 [04:03<06:04,  3.76s/it][A
 52%|██████████████████████████████▎                           | 105/201 [04:06<05:35,  3.49s/it][A
 53%|██████████████████████████████▌                           | 106/201 [04:08<05:03,  3.19s/it][A
 53%|██████████████████████████████▉                           | 107/201 [04:11<04:38,  2.96s/it][A
 54%|███████████████████████████████▏                          | 108/201 [04:13<04:13,  2.72s/it][A
 54%|███████████████████████████████▍                          | 109/201 [04:15<03:56,  2.57s/it][A
 55%|███████████████████████████████▋                          | 110/201 [04:17<03:53,  2.56s/it][A
 55%|████████████████████████████████                          | 111/201 [04:19<03:33,  2.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.312
 	Training Stability: 88.408
 	AAR: 1.664
 	SES: 1.0
 	Mean Reward: 144.1
 	Std Reward: 8.179




 63%|████████████████████████████████████▋                     | 127/201 [04:56<03:41,  2.99s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [04:58<03:25,  2.81s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [05:01<03:28,  2.90s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [05:04<03:25,  2.90s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [05:07<03:33,  3.04s/it][A
 66%|██████████████████████████████████████                    | 132/201 [05:13<04:23,  3.82s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [05:19<05:11,  4.59s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [05:28<06:17,  5.63s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [05:32<05:52,  5.34s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [05:36<05:23,  4.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.396
 	Training Stability: 25.941
 	AAR: 1.228
 	SES: 1.0
 	Mean Reward: 41.3
 	Std Reward: 24.282




 76%|███████████████████████████████████████████▊              | 152/201 [06:56<02:02,  2.49s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [06:57<01:38,  2.05s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [06:59<01:30,  1.92s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [07:02<01:45,  2.28s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [07:04<01:37,  2.17s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [07:06<01:41,  2.31s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [07:14<02:44,  3.82s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [07:22<03:36,  5.16s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [07:31<04:12,  6.15s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [07:39<04:34,  6.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.401
 	Training Stability: 110.292
 	AAR: 1.268
 	SES: 1.0
 	Mean Reward: 498.6
 	Std Reward: 3.583




 88%|███████████████████████████████████████████████████       | 177/201 [09:09<02:15,  5.66s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [09:11<01:46,  4.64s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [09:15<01:34,  4.28s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [09:18<01:24,  4.02s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [09:23<01:23,  4.17s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [09:30<01:35,  5.01s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [09:37<01:41,  5.64s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [09:44<01:44,  6.12s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [09:51<01:44,  6.51s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [09:59<01:43,  6.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.341
 	Training Stability: 73.96
 	AAR: 1.441
 	SES: 1.0
 	Mean Reward: 35.4
 	Std Reward: 6.484




 25%|█████████████▊                                         | 3/12 [1:25:42<3:39:54, 1466.07s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:22,  8.87it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 5.765
 	AAR: 2.0
 	SES: 0.926
 	Mean Reward: 11.3
 	Std Reward: 1.418




  1%|▌                                                           | 2/201 [00:00<00:34,  5.81it/s][A
  1%|▉                                                           | 3/201 [00:00<00:35,  5.60it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:37,  5.27it/s][A
  2%|█▍                                                          | 5/201 [00:00<00:35,  5.59it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:37,  5.17it/s][A
  3%|██                                                          | 7/201 [00:01<00:35,  5.48it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:33,  5.75it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:31,  6.02it/s][A
  5%|██▉                                                        | 10/201 [00:01<00:31,  6.15it/s][A
  5%|███▏                                                       | 11/201 [00:01<00:30,  6.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.281
 	Training Stability: 9.17
 	AAR: 1.777
 	SES: 1.0
 	Mean Reward: 44.6
 	Std Reward: 1.685




 13%|███████▉                                                   | 27/201 [00:07<02:01,  1.43it/s][A
 14%|████████▏                                                  | 28/201 [00:08<02:16,  1.26it/s][A
 14%|████████▌                                                  | 29/201 [00:10<02:48,  1.02it/s][A
 15%|████████▊                                                  | 30/201 [00:11<02:45,  1.03it/s][A
 15%|█████████                                                  | 31/201 [00:12<03:01,  1.07s/it][A
 16%|█████████▍                                                 | 32/201 [00:14<03:49,  1.36s/it][A
 16%|█████████▋                                                 | 33/201 [00:16<04:30,  1.61s/it][A
 17%|█████████▉                                                 | 34/201 [00:18<04:25,  1.59s/it][A
 17%|██████████▎                                                | 35/201 [00:19<04:11,  1.52s/it][A
 18%|██████████▌                                                | 36/201 [00:21<04:18,  1.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.313
 	Training Stability: 25.105
 	AAR: 1.598
 	SES: 1.0
 	Mean Reward: 190.1
 	Std Reward: 21.403




 26%|███████████████▎                                           | 52/201 [01:04<06:54,  2.78s/it][A
 26%|███████████████▌                                           | 53/201 [01:06<06:34,  2.67s/it][A
 27%|███████████████▊                                           | 54/201 [01:09<06:49,  2.79s/it][A
 27%|████████████████▏                                          | 55/201 [01:13<07:39,  3.15s/it][A
 28%|████████████████▍                                          | 56/201 [01:17<08:25,  3.49s/it][A
 28%|████████████████▋                                          | 57/201 [01:21<08:35,  3.58s/it][A
 29%|█████████████████                                          | 58/201 [01:25<08:33,  3.59s/it][A
 29%|█████████████████▎                                         | 59/201 [01:28<08:16,  3.50s/it][A
 30%|█████████████████▌                                         | 60/201 [01:32<08:11,  3.49s/it][A
 30%|█████████████████▉                                         | 61/201 [01:36<08:40,  3.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.344
 	Training Stability: 45.697
 	AAR: 1.453
 	SES: 1.0
 	Mean Reward: 223.1
 	Std Reward: 16.245




 38%|██████████████████████▌                                    | 77/201 [02:37<07:57,  3.85s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:41<07:48,  3.81s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:45<08:06,  3.99s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:50<08:21,  4.15s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:54<08:05,  4.05s/it][A
 41%|████████████████████████                                   | 82/201 [02:58<07:57,  4.01s/it][A
 41%|████████████████████████▎                                  | 83/201 [03:02<07:58,  4.06s/it][A
 42%|████████████████████████▋                                  | 84/201 [03:05<07:36,  3.90s/it][A
 42%|████████████████████████▉                                  | 85/201 [03:09<07:22,  3.81s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:14<07:54,  4.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.376
 	Training Stability: 28.776
 	AAR: 1.331
 	SES: 1.0
 	Mean Reward: 149.9
 	Std Reward: 3.59




 51%|█████████████████████████████▍                            | 102/201 [04:28<05:55,  3.59s/it][A
 51%|█████████████████████████████▋                            | 103/201 [04:31<05:54,  3.61s/it][A
 52%|██████████████████████████████                            | 104/201 [04:36<06:27,  3.99s/it][A
 52%|██████████████████████████████▎                           | 105/201 [04:39<06:02,  3.78s/it][A
 53%|██████████████████████████████▌                           | 106/201 [04:44<06:21,  4.02s/it][A
 53%|██████████████████████████████▉                           | 107/201 [04:50<07:00,  4.47s/it][A
 54%|███████████████████████████████▏                          | 108/201 [04:53<06:12,  4.01s/it][A
 54%|███████████████████████████████▍                          | 109/201 [04:56<05:46,  3.77s/it][A
 55%|███████████████████████████████▋                          | 110/201 [05:02<06:48,  4.49s/it][A
 55%|████████████████████████████████                          | 111/201 [05:09<07:45,  5.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.407
 	Training Stability: 25.2
 	AAR: 1.228
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 63%|████████████████████████████████████▋                     | 127/201 [06:55<08:41,  7.05s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [07:02<08:22,  6.88s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [07:06<07:12,  6.01s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [07:10<06:33,  5.55s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [07:13<05:22,  4.61s/it][A
 66%|██████████████████████████████████████                    | 132/201 [07:15<04:22,  3.81s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [07:18<04:03,  3.57s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [07:24<04:55,  4.41s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [07:26<04:04,  3.70s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [07:31<04:20,  4.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.438
 	Training Stability: 123.717
 	AAR: 1.14
 	SES: 1.0
 	Mean Reward: 152.9
 	Std Reward: 3.807




 76%|███████████████████████████████████████████▊              | 152/201 [08:41<04:23,  5.39s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [08:48<04:36,  5.77s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [08:55<04:42,  6.02s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [09:03<05:04,  6.61s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [09:10<05:04,  6.77s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [09:15<04:35,  6.25s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [09:17<03:40,  5.14s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [09:23<03:35,  5.14s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [09:30<04:03,  5.94s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [09:38<04:17,  6.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.47
 	Training Stability: 67.233
 	AAR: 1.064
 	SES: 1.0
 	Mean Reward: 93.8
 	Std Reward: 23.125




 88%|███████████████████████████████████████████████████       | 177/201 [11:16<01:46,  4.44s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [11:18<01:25,  3.72s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [11:22<01:24,  3.84s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [11:27<01:26,  4.11s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [11:34<01:42,  5.14s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [11:43<01:54,  6.05s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [11:50<01:55,  6.43s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [11:58<01:55,  6.81s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [12:05<01:50,  6.88s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [12:12<01:46,  7.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 19.742
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 229.5
 	Std Reward: 11.766




 33%|██████████████████▎                                    | 4/12 [1:39:32<2:42:01, 1215.16s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:49,  4.03it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.375
 	Training Stability: 8.452
 	AAR: 1.333
 	SES: 0.954
 	Mean Reward: 13.2
 	Std Reward: 1.077




  1%|▌                                                           | 2/201 [00:00<00:49,  4.06it/s][A
  1%|▉                                                           | 3/201 [00:00<00:42,  4.64it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:38,  5.05it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:38,  5.14it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:37,  5.14it/s][A
  3%|██                                                          | 7/201 [00:01<00:39,  4.91it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:38,  5.06it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:42,  4.55it/s][A
  5%|██▉                                                        | 10/201 [00:02<00:51,  3.72it/s][A
  5%|███▏                                                       | 11/201 [00:02<00:55,  3.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.375
 	Training Stability: 7.516
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 94.4
 	Std Reward: 5.122




 13%|███████▉                                                   | 27/201 [00:27<04:33,  1.57s/it][A
 14%|████████▏                                                  | 28/201 [00:28<04:45,  1.65s/it][A
 14%|████████▌                                                  | 29/201 [00:30<04:46,  1.67s/it][A
 15%|████████▊                                                  | 30/201 [00:32<04:56,  1.73s/it][A
 15%|█████████                                                  | 31/201 [00:34<05:08,  1.82s/it][A
 16%|█████████▍                                                 | 32/201 [00:36<05:13,  1.86s/it][A
 16%|█████████▋                                                 | 33/201 [00:38<05:17,  1.89s/it][A
 17%|█████████▉                                                 | 34/201 [00:40<05:21,  1.92s/it][A
 17%|██████████▎                                                | 35/201 [00:42<05:23,  1.95s/it][A
 18%|██████████▌                                                | 36/201 [00:44<05:26,  1.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.375
 	Training Stability: 8.718
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 161.1
 	Std Reward: 10.858




 26%|███████████████▎                                           | 52/201 [01:22<05:59,  2.42s/it][A
 26%|███████████████▌                                           | 53/201 [01:24<06:00,  2.43s/it][A
 27%|███████████████▊                                           | 54/201 [01:27<06:01,  2.46s/it][A
 27%|████████████████▏                                          | 55/201 [01:29<05:56,  2.44s/it][A
 28%|████████████████▍                                          | 56/201 [01:32<05:59,  2.48s/it][A
 28%|████████████████▋                                          | 57/201 [01:34<06:01,  2.51s/it][A
 29%|█████████████████                                          | 58/201 [01:37<05:49,  2.44s/it][A
 29%|█████████████████▎                                         | 59/201 [01:39<05:38,  2.38s/it][A
 30%|█████████████████▌                                         | 60/201 [01:41<05:25,  2.31s/it][A
 30%|█████████████████▉                                         | 61/201 [01:43<05:18,  2.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.375
 	Training Stability: 22.635
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 134.6
 	Std Reward: 6.375




 38%|██████████████████████▌                                    | 77/201 [02:21<04:48,  2.33s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:23<04:31,  2.21s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:26<04:39,  2.29s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:29<05:16,  2.61s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:33<05:54,  2.95s/it][A
 41%|████████████████████████                                   | 82/201 [02:35<05:38,  2.85s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:38<05:41,  2.89s/it][A
 42%|████████████████████████▋                                  | 84/201 [02:43<06:36,  3.39s/it][A
 42%|████████████████████████▉                                  | 85/201 [02:46<06:15,  3.24s/it][A
 43%|█████████████████████████▏                                 | 86/201 [02:51<07:30,  3.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.375
 	Training Stability: 41.09
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 200.1
 	Std Reward: 11.202




 51%|█████████████████████████████▍                            | 102/201 [04:06<06:36,  4.01s/it][A
 51%|█████████████████████████████▋                            | 103/201 [04:10<06:31,  3.99s/it][A
 52%|██████████████████████████████                            | 104/201 [04:12<05:42,  3.53s/it][A
 52%|██████████████████████████████▎                           | 105/201 [04:15<05:07,  3.20s/it][A
 53%|██████████████████████████████▌                           | 106/201 [04:17<04:46,  3.02s/it][A
 53%|██████████████████████████████▉                           | 107/201 [04:20<04:25,  2.82s/it][A
 54%|███████████████████████████████▏                          | 108/201 [04:22<04:07,  2.66s/it][A
 54%|███████████████████████████████▍                          | 109/201 [04:26<04:35,  2.99s/it][A
 55%|███████████████████████████████▋                          | 110/201 [04:30<05:07,  3.38s/it][A
 55%|████████████████████████████████                          | 111/201 [04:37<06:48,  4.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.375
 	Training Stability: 44.49
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 9.9
 	Std Reward: 1.136




 63%|████████████████████████████████████▋                     | 127/201 [05:28<03:11,  2.58s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [05:31<03:11,  2.63s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [05:33<02:59,  2.49s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [05:35<02:51,  2.42s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [05:39<03:06,  2.66s/it][A
 66%|██████████████████████████████████████                    | 132/201 [05:45<04:22,  3.81s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [05:53<05:32,  4.89s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [06:01<06:35,  5.90s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [06:08<06:52,  6.25s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [06:16<07:23,  6.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.375
 	Training Stability: 0.0
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 76%|███████████████████████████████████████████▊              | 152/201 [08:18<06:34,  8.05s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [08:24<05:53,  7.36s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [08:27<04:44,  6.06s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [08:34<04:45,  6.20s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [08:41<04:59,  6.64s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [08:50<05:15,  7.18s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [08:55<04:37,  6.46s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [08:57<03:38,  5.20s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [08:59<02:51,  4.19s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [09:00<02:17,  3.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.375
 	Training Stability: 7.846
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 122.2
 	Std Reward: 2.786




 88%|███████████████████████████████████████████████████       | 177/201 [10:34<01:42,  4.26s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [10:36<01:22,  3.60s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [10:38<01:09,  3.15s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [10:41<01:05,  3.10s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [10:43<00:57,  2.86s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [10:45<00:50,  2.63s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [10:47<00:41,  2.33s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [10:48<00:33,  1.99s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [10:49<00:26,  1.66s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [10:50<00:22,  1.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.375
 	Training Stability: 6.03
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 123.1
 	Std Reward: 5.924




 42%|██████████████████████▉                                | 5/12 [1:51:16<2:00:15, 1030.77s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:25,  7.80it/s][A
  1%|▌                                                           | 2/201 [00:00<00:28,  6.87it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 9.192
 	AAR: 2.0
 	SES: 0.929
 	Mean Reward: 11.7
 	Std Reward: 4.451




  1%|▉                                                           | 3/201 [00:00<00:31,  6.20it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:33,  5.93it/s][A
  2%|█▍                                                          | 5/201 [00:00<00:33,  5.85it/s][A
  3%|█▊                                                          | 6/201 [00:00<00:32,  6.04it/s][A
  3%|██                                                          | 7/201 [00:01<00:32,  5.97it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:33,  5.79it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:34,  5.62it/s][A
  5%|██▉                                                        | 10/201 [00:01<00:39,  4.89it/s][A
  5%|███▏                                                       | 11/201 [00:01<00:34,  5.44it/s][A
  6%|███▌                                                       | 12/201 [00:02<00:34,  5.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.25
 	Training Stability: 4.026
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 12.7
 	Std Reward: 1.418




 13%|███████▉                                                   | 27/201 [00:05<00:50,  3.43it/s][A
 14%|████████▏                                                  | 28/201 [00:06<01:16,  2.26it/s][A
 14%|████████▌                                                  | 29/201 [00:07<01:47,  1.59it/s][A
 15%|████████▊                                                  | 30/201 [00:08<02:40,  1.07it/s][A
 15%|█████████                                                  | 31/201 [00:10<03:25,  1.21s/it][A
 16%|█████████▍                                                 | 32/201 [00:12<04:14,  1.51s/it][A
 16%|█████████▋                                                 | 33/201 [00:16<05:32,  1.98s/it][A
 17%|█████████▉                                                 | 34/201 [00:19<06:43,  2.42s/it][A
 17%|██████████▎                                                | 35/201 [00:22<07:21,  2.66s/it][A
 18%|██████████▌                                                | 36/201 [00:25<07:23,  2.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.25
 	Training Stability: 19.642
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 157.9
 	Std Reward: 6.172




 26%|███████████████▎                                           | 52/201 [01:06<06:04,  2.45s/it][A
 26%|███████████████▌                                           | 53/201 [01:08<05:39,  2.29s/it][A
 27%|███████████████▊                                           | 54/201 [01:10<05:16,  2.15s/it][A
 27%|████████████████▏                                          | 55/201 [01:12<05:08,  2.12s/it][A
 28%|████████████████▍                                          | 56/201 [01:14<05:02,  2.09s/it][A
 28%|████████████████▋                                          | 57/201 [01:17<05:17,  2.21s/it][A
 29%|█████████████████                                          | 58/201 [01:19<05:24,  2.27s/it][A
 29%|█████████████████▎                                         | 59/201 [01:21<05:19,  2.25s/it][A
 30%|█████████████████▌                                         | 60/201 [01:23<05:13,  2.23s/it][A
 30%|█████████████████▉                                         | 61/201 [01:25<05:01,  2.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.417
 	Training Stability: 7.001
 	AAR: 1.2
 	SES: 1.0
 	Mean Reward: 211.1
 	Std Reward: 15.083




 38%|██████████████████████▌                                    | 77/201 [02:02<04:51,  2.35s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:04<04:38,  2.27s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:06<04:24,  2.17s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:08<04:12,  2.09s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:10<04:09,  2.08s/it][A
 41%|████████████████████████                                   | 82/201 [02:12<04:17,  2.16s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:14<04:12,  2.14s/it][A
 42%|████████████████████████▋                                  | 84/201 [02:17<04:21,  2.23s/it][A
 42%|████████████████████████▉                                  | 85/201 [02:19<04:36,  2.38s/it][A
 43%|█████████████████████████▏                                 | 86/201 [02:22<04:44,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.5
 	Training Stability: 5.292
 	AAR: 1.0
 	SES: 0.909
 	Mean Reward: 165.7
 	Std Reward: 10.316




 51%|█████████████████████████████▍                            | 102/201 [02:59<03:14,  1.97s/it][A
 51%|█████████████████████████████▋                            | 103/201 [03:01<03:09,  1.94s/it][A
 52%|██████████████████████████████                            | 104/201 [03:03<03:08,  1.95s/it][A
 52%|██████████████████████████████▎                           | 105/201 [03:05<03:07,  1.95s/it][A
 53%|██████████████████████████████▌                           | 106/201 [03:08<03:15,  2.06s/it][A
 53%|██████████████████████████████▉                           | 107/201 [03:10<03:39,  2.33s/it][A
 54%|███████████████████████████████▏                          | 108/201 [03:13<03:36,  2.33s/it][A
 54%|███████████████████████████████▍                          | 109/201 [03:15<03:19,  2.17s/it][A
 55%|███████████████████████████████▋                          | 110/201 [03:16<03:09,  2.08s/it][A
 55%|████████████████████████████████                          | 111/201 [03:18<02:58,  1.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.5
 	Training Stability: 46.429
 	AAR: 1.0
 	SES: 0.952
 	Mean Reward: 142.6
 	Std Reward: 26.564




 63%|████████████████████████████████████▋                     | 127/201 [03:54<02:43,  2.21s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [03:54<02:09,  1.78s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [03:56<01:57,  1.64s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [03:58<02:01,  1.71s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [03:59<01:58,  1.69s/it][A
 66%|██████████████████████████████████████                    | 132/201 [04:01<02:02,  1.77s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [04:03<02:03,  1.81s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [04:05<02:11,  1.96s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [04:08<02:20,  2.13s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [04:10<02:27,  2.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.5
 	Training Stability: 31.114
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 180.7
 	Std Reward: 13.372




 76%|███████████████████████████████████████████▊              | 152/201 [04:51<02:21,  2.89s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [04:53<02:08,  2.68s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [04:57<02:21,  3.02s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [05:00<02:21,  3.07s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [05:03<02:17,  3.06s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [05:08<02:36,  3.56s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [05:14<03:02,  4.26s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [05:17<02:43,  3.90s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [05:19<02:19,  3.41s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [05:21<02:03,  3.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.5
 	Training Stability: 36.93
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 212.2
 	Std Reward: 12.75




 88%|███████████████████████████████████████████████████       | 177/201 [06:16<01:34,  3.94s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [06:19<01:24,  3.68s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [06:22<01:14,  3.39s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [06:26<01:13,  3.48s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [06:29<01:10,  3.55s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [06:35<01:18,  4.15s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [06:39<01:13,  4.09s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [06:44<01:12,  4.28s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [06:49<01:12,  4.54s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [06:54<01:11,  4.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 57.266
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 402.5
 	Std Reward: 45.233




 50%|████████████████████████████                            | 6/12 [1:59:22<1:24:32, 845.48s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:24,  8.01it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 5.896
 	AAR: 2.0
 	SES: 0.931
 	Mean Reward: 18.9
 	Std Reward: 2.427




  1%|▌                                                           | 2/201 [00:00<00:38,  5.22it/s][A
  1%|▉                                                           | 3/201 [00:00<00:36,  5.39it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:33,  5.87it/s][A
  2%|█▍                                                          | 5/201 [00:00<00:33,  5.81it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:34,  5.60it/s][A
  3%|██                                                          | 7/201 [00:01<00:32,  5.99it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:31,  6.09it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:29,  6.43it/s][A
  5%|██▉                                                        | 10/201 [00:01<00:29,  6.45it/s][A
  5%|███▏                                                       | 11/201 [00:01<00:28,  6.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.281
 	Training Stability: 3.894
 	AAR: 1.778
 	SES: 1.0
 	Mean Reward: 10.3
 	Std Reward: 1.1




 13%|███████▉                                                   | 27/201 [00:04<00:42,  4.07it/s][A
 14%|████████▏                                                  | 28/201 [00:05<00:54,  3.17it/s][A
 14%|████████▌                                                  | 29/201 [00:06<01:29,  1.92it/s][A
 15%|████████▊                                                  | 30/201 [00:07<02:24,  1.18it/s][A
 15%|█████████                                                  | 31/201 [00:10<03:38,  1.29s/it][A
 16%|█████████▍                                                 | 32/201 [00:13<04:57,  1.76s/it][A
 16%|█████████▋                                                 | 33/201 [00:15<05:13,  1.87s/it][A
 17%|█████████▉                                                 | 34/201 [00:17<05:43,  2.06s/it][A
 17%|██████████▎                                                | 35/201 [00:19<05:50,  2.11s/it][A
 18%|██████████▌                                                | 36/201 [00:23<06:37,  2.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.312
 	Training Stability: 72.358
 	AAR: 1.6
 	SES: 0.955
 	Mean Reward: 229.8
 	Std Reward: 15.394




 26%|███████████████▎                                           | 52/201 [01:12<09:05,  3.66s/it][A
 26%|███████████████▌                                           | 53/201 [01:15<08:48,  3.57s/it][A
 27%|███████████████▊                                           | 54/201 [01:18<08:23,  3.43s/it][A
 27%|████████████████▏                                          | 55/201 [01:24<10:01,  4.12s/it][A
 28%|████████████████▍                                          | 56/201 [01:29<10:57,  4.53s/it][A
 28%|████████████████▋                                          | 57/201 [01:36<12:39,  5.27s/it][A
 29%|█████████████████                                          | 58/201 [01:44<14:14,  5.98s/it][A
 29%|█████████████████▎                                         | 59/201 [01:50<14:03,  5.94s/it][A
 30%|█████████████████▌                                         | 60/201 [01:54<12:35,  5.36s/it][A
 30%|█████████████████▉                                         | 61/201 [01:58<11:23,  4.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.344
 	Training Stability: 9.726
 	AAR: 1.455
 	SES: 1.0
 	Mean Reward: 247.7
 	Std Reward: 17.95




 38%|██████████████████████▌                                    | 77/201 [03:10<07:59,  3.87s/it][A
 39%|██████████████████████▉                                    | 78/201 [03:13<07:24,  3.61s/it][A
 39%|███████████████████████▏                                   | 79/201 [03:16<06:55,  3.40s/it][A
 40%|███████████████████████▍                                   | 80/201 [03:19<06:34,  3.26s/it][A
 40%|███████████████████████▊                                   | 81/201 [03:22<06:19,  3.16s/it][A
 41%|████████████████████████                                   | 82/201 [03:24<06:08,  3.09s/it][A
 41%|████████████████████████▎                                  | 83/201 [03:27<05:49,  2.96s/it][A
 42%|████████████████████████▋                                  | 84/201 [03:30<05:30,  2.82s/it][A
 42%|████████████████████████▉                                  | 85/201 [03:32<05:09,  2.67s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:33<04:26,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.375
 	Training Stability: 35.653
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 146.3
 	Std Reward: 9.056




 51%|█████████████████████████████▍                            | 102/201 [04:39<06:25,  3.89s/it][A
 51%|█████████████████████████████▋                            | 103/201 [04:43<06:44,  4.13s/it][A
 52%|██████████████████████████████                            | 104/201 [04:49<07:24,  4.58s/it][A
 52%|██████████████████████████████▎                           | 105/201 [04:55<08:06,  5.07s/it][A
 53%|██████████████████████████████▌                           | 106/201 [05:01<08:29,  5.36s/it][A
 53%|██████████████████████████████▉                           | 107/201 [05:07<08:36,  5.49s/it][A
 54%|███████████████████████████████▏                          | 108/201 [05:15<09:37,  6.21s/it][A
 54%|███████████████████████████████▍                          | 109/201 [05:19<08:40,  5.66s/it][A
 55%|███████████████████████████████▋                          | 110/201 [05:26<09:15,  6.10s/it][A
 55%|████████████████████████████████                          | 111/201 [05:34<09:42,  6.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.406
 	Training Stability: 149.75
 	AAR: 1.231
 	SES: 1.0
 	Mean Reward: 132.9
 	Std Reward: 5.108




 63%|████████████████████████████████████▋                     | 127/201 [07:12<06:09,  4.99s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [07:18<06:33,  5.40s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [07:24<06:46,  5.65s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [07:30<06:39,  5.63s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [07:34<06:02,  5.18s/it][A
 66%|██████████████████████████████████████                    | 132/201 [07:37<05:17,  4.61s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [07:38<04:04,  3.60s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [07:40<03:23,  3.03s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [07:42<03:01,  2.75s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [07:45<03:00,  2.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.438
 	Training Stability: 60.084
 	AAR: 1.143
 	SES: 1.0
 	Mean Reward: 357.0
 	Std Reward: 67.411




 76%|███████████████████████████████████████████▊              | 152/201 [09:27<04:00,  4.90s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [09:29<03:14,  4.06s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [09:34<03:22,  4.32s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [09:39<03:35,  4.69s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [09:47<04:17,  5.73s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [09:55<04:45,  6.48s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [10:03<04:52,  6.81s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [10:10<04:51,  6.94s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [10:17<04:43,  6.92s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [10:23<04:27,  6.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.469
 	Training Stability: 8.372
 	AAR: 1.067
 	SES: 1.0
 	Mean Reward: 258.2
 	Std Reward: 121.718




 88%|███████████████████████████████████████████████████       | 177/201 [11:48<01:05,  2.72s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [11:50<01:00,  2.62s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [11:53<00:57,  2.61s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [11:55<00:55,  2.64s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [11:58<00:50,  2.54s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [12:00<00:47,  2.52s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [12:03<00:47,  2.62s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [12:06<00:47,  2.81s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [12:10<00:51,  3.24s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [12:19<01:11,  4.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 51.76
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 369.3
 	Std Reward: 12.689




 58%|████████████████████████████████▋                       | 7/12 [2:13:02<1:09:45, 837.17s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:30,  6.62it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 10.545
 	AAR: 2.0
 	SES: 0.939
 	Mean Reward: 9.2
 	Std Reward: 0.872




  1%|▌                                                           | 2/201 [00:00<00:43,  4.54it/s][A
  1%|▉                                                           | 3/201 [00:00<00:52,  3.77it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:48,  4.08it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:42,  4.65it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:40,  4.86it/s][A
  3%|██                                                          | 7/201 [00:01<00:37,  5.13it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:36,  5.28it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:37,  5.06it/s][A
  5%|██▉                                                        | 10/201 [00:02<00:37,  5.08it/s][A
  5%|███▏                                                       | 11/201 [00:02<00:38,  4.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.404
 	Training Stability: 35.177
 	AAR: 1.238
 	SES: 1.0
 	Mean Reward: 113.3
 	Std Reward: 11.79




 13%|███████▉                                                   | 27/201 [00:15<04:43,  1.63s/it][A
 14%|████████▏                                                  | 28/201 [00:17<05:20,  1.85s/it][A
 14%|████████▌                                                  | 29/201 [00:20<06:29,  2.27s/it][A
 15%|████████▊                                                  | 30/201 [00:23<06:35,  2.32s/it][A
 15%|█████████                                                  | 31/201 [00:25<06:22,  2.25s/it][A
 16%|█████████▍                                                 | 32/201 [00:26<05:55,  2.10s/it][A
 16%|█████████▋                                                 | 33/201 [00:28<05:22,  1.92s/it][A
 17%|█████████▉                                                 | 34/201 [00:30<05:16,  1.90s/it][A
 17%|██████████▎                                                | 35/201 [00:31<05:00,  1.81s/it][A
 18%|██████████▌                                                | 36/201 [00:33<04:51,  1.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.436
 	Training Stability: 111.275
 	AAR: 1.148
 	SES: 1.0
 	Mean Reward: 169.8
 	Std Reward: 6.258




 26%|███████████████▎                                           | 52/201 [01:23<10:37,  4.28s/it][A
 26%|███████████████▌                                           | 53/201 [01:31<13:23,  5.43s/it][A
 27%|███████████████▊                                           | 54/201 [01:35<12:20,  5.04s/it][A
 27%|████████████████▏                                          | 55/201 [01:38<10:41,  4.39s/it][A
 28%|████████████████▍                                          | 56/201 [01:41<09:24,  3.89s/it][A
 28%|████████████████▋                                          | 57/201 [01:44<08:31,  3.55s/it][A
 29%|█████████████████                                          | 58/201 [01:47<08:34,  3.60s/it][A
 29%|█████████████████▎                                         | 59/201 [01:53<10:04,  4.26s/it][A
 30%|█████████████████▌                                         | 60/201 [01:58<10:22,  4.41s/it][A
 30%|█████████████████▉                                         | 61/201 [02:01<09:10,  3.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.454
 	Training Stability: 59.537
 	AAR: 1.1
 	SES: 1.0
 	Mean Reward: 42.8
 	Std Reward: 12.937




 38%|██████████████████████▌                                    | 77/201 [02:35<04:12,  2.04s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:37<04:04,  1.99s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:38<03:29,  1.72s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:40<03:23,  1.68s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:44<04:37,  2.31s/it][A
 41%|████████████████████████                                   | 82/201 [02:47<05:01,  2.54s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:54<07:34,  3.85s/it][A
 42%|████████████████████████▋                                  | 84/201 [03:00<08:50,  4.53s/it][A
 42%|████████████████████████▉                                  | 85/201 [03:04<08:55,  4.62s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:10<09:23,  4.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.468
 	Training Stability: 56.889
 	AAR: 1.069
 	SES: 1.0
 	Mean Reward: 81.3
 	Std Reward: 21.781




 51%|█████████████████████████████▍                            | 102/201 [04:02<05:05,  3.08s/it][A
 51%|█████████████████████████████▋                            | 103/201 [04:07<06:02,  3.70s/it][A
 52%|██████████████████████████████                            | 104/201 [04:13<07:00,  4.33s/it][A
 52%|██████████████████████████████▎                           | 105/201 [04:18<07:18,  4.57s/it][A
 53%|██████████████████████████████▌                           | 106/201 [04:21<06:34,  4.15s/it][A
 53%|██████████████████████████████▉                           | 107/201 [04:27<07:03,  4.51s/it][A
 54%|███████████████████████████████▏                          | 108/201 [04:29<05:58,  3.85s/it][A
 54%|███████████████████████████████▍                          | 109/201 [04:31<05:15,  3.43s/it][A
 55%|███████████████████████████████▋                          | 110/201 [04:34<04:36,  3.04s/it][A
 55%|████████████████████████████████                          | 111/201 [04:37<04:55,  3.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.478
 	Training Stability: 0.0
 	AAR: 1.046
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 63%|████████████████████████████████████▋                     | 127/201 [06:03<07:43,  6.27s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [06:08<07:09,  5.89s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [06:16<08:00,  6.68s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [06:25<08:28,  7.16s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [06:32<08:23,  7.19s/it][A
 66%|██████████████████████████████████████                    | 132/201 [06:38<08:04,  7.02s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [06:44<07:32,  6.65s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [06:50<07:16,  6.52s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [06:57<07:04,  6.43s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [07:02<06:28,  5.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.487
 	Training Stability: 126.58
 	AAR: 1.027
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 76%|███████████████████████████████████████████▊              | 152/201 [07:58<04:37,  5.66s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [08:06<05:05,  6.36s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [08:13<05:14,  6.69s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [08:22<05:32,  7.23s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [08:28<05:12,  6.93s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [08:36<05:19,  7.26s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [08:44<05:26,  7.60s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [08:54<05:47,  8.28s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [09:03<05:46,  8.46s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [09:09<05:15,  7.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.494
 	Training Stability: 56.517
 	AAR: 1.012
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|███████████████████████████████████████████████████       | 177/201 [10:09<02:08,  5.35s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [10:17<02:16,  5.92s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [10:25<02:24,  6.58s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [10:33<02:28,  7.05s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [10:41<02:29,  7.49s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [10:49<02:24,  7.59s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [10:57<02:15,  7.54s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [11:05<02:11,  7.76s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [11:13<02:05,  7.87s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [11:19<01:50,  7.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 148.495
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 21.3
 	Std Reward: 4.776




 67%|██████████████████████████████████████▋                   | 8/12 [2:25:15<53:36, 804.15s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)


Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.252
 	Training Stability: 2.166
 	AAR: 1.986
 	SES: 0.897
 	Mean Reward: 9.3
 	Std Reward: 0.64




  1%|▌                                                           | 2/201 [00:00<00:33,  5.87it/s][A
  1%|▉                                                           | 3/201 [00:00<00:36,  5.47it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:40,  4.86it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:41,  4.73it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:44,  4.37it/s][A
  3%|██                                                          | 7/201 [00:01<00:44,  4.34it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:52,  3.70it/s][A
  4%|██▋                                                         | 9/201 [00:02<00:49,  3.88it/s][A
  5%|██▉                                                        | 10/201 [00:02<00:51,  3.74it/s][A
  5%|███▏                                                       | 11/201 [00:02<00:51,  3.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.256
 	Training Stability: 38.267
 	AAR: 1.955
 	SES: 1.0
 	Mean Reward: 157.6
 	Std Reward: 12.508




 13%|███████▉                                                   | 27/201 [00:35<07:37,  2.63s/it][A
 14%|████████▏                                                  | 28/201 [00:39<08:35,  2.98s/it][A
 14%|████████▌                                                  | 29/201 [00:42<08:23,  2.93s/it][A
 15%|████████▊                                                  | 30/201 [00:44<08:13,  2.89s/it][A
 15%|█████████                                                  | 31/201 [00:47<08:18,  2.93s/it][A
 16%|█████████▍                                                 | 32/201 [00:51<09:01,  3.20s/it][A
 16%|█████████▋                                                 | 33/201 [00:53<08:01,  2.86s/it][A
 17%|█████████▉                                                 | 34/201 [00:56<07:28,  2.68s/it][A
 17%|██████████▎                                                | 35/201 [00:59<07:57,  2.88s/it][A
 18%|██████████▌                                                | 36/201 [01:02<08:05,  2.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.269
 	Training Stability: 77.394
 	AAR: 1.859
 	SES: 1.0
 	Mean Reward: 189.6
 	Std Reward: 6.119




 26%|███████████████▎                                           | 52/201 [02:01<08:42,  3.51s/it][A
 26%|███████████████▌                                           | 53/201 [02:06<10:02,  4.07s/it][A
 27%|███████████████▊                                           | 54/201 [02:11<10:19,  4.21s/it][A
 27%|████████████████▏                                          | 55/201 [02:15<09:59,  4.11s/it][A
 28%|████████████████▍                                          | 56/201 [02:19<09:54,  4.10s/it][A
 28%|████████████████▋                                          | 57/201 [02:23<09:44,  4.06s/it][A
 29%|█████████████████                                          | 58/201 [02:27<09:59,  4.19s/it][A
 29%|█████████████████▎                                         | 59/201 [02:31<09:18,  3.93s/it][A
 30%|█████████████████▌                                         | 60/201 [02:35<09:35,  4.08s/it][A
 30%|█████████████████▉                                         | 61/201 [02:39<09:27,  4.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.306
 	Training Stability: 30.862
 	AAR: 1.636
 	SES: 1.0
 	Mean Reward: 193.5
 	Std Reward: 17.27




 38%|██████████████████████▌                                    | 77/201 [03:28<05:07,  2.48s/it][A
 39%|██████████████████████▉                                    | 78/201 [03:31<05:38,  2.75s/it][A
 39%|███████████████████████▏                                   | 79/201 [03:35<06:03,  2.98s/it][A
 40%|███████████████████████▍                                   | 80/201 [03:37<05:43,  2.84s/it][A
 40%|███████████████████████▊                                   | 81/201 [03:40<05:20,  2.67s/it][A
 41%|████████████████████████                                   | 82/201 [03:43<05:46,  2.91s/it][A
 41%|████████████████████████▎                                  | 83/201 [03:45<05:10,  2.63s/it][A
 42%|████████████████████████▋                                  | 84/201 [03:46<04:26,  2.28s/it][A
 42%|████████████████████████▉                                  | 85/201 [03:48<04:09,  2.15s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:51<04:13,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.375
 	Training Stability: 96.965
 	AAR: 1.333
 	SES: 1.0
 	Mean Reward: 316.1
 	Std Reward: 21.501




 51%|█████████████████████████████▍                            | 102/201 [04:55<08:13,  4.98s/it][A
 51%|█████████████████████████████▋                            | 103/201 [04:59<07:49,  4.79s/it][A
 52%|██████████████████████████████                            | 104/201 [05:04<07:52,  4.87s/it][A
 52%|██████████████████████████████▎                           | 105/201 [05:09<07:54,  4.95s/it][A
 53%|██████████████████████████████▌                           | 106/201 [05:15<08:06,  5.12s/it][A
 53%|██████████████████████████████▉                           | 107/201 [05:20<08:11,  5.23s/it][A
 54%|███████████████████████████████▏                          | 108/201 [05:27<08:33,  5.52s/it][A
 54%|███████████████████████████████▍                          | 109/201 [05:34<09:07,  5.95s/it][A
 55%|███████████████████████████████▋                          | 110/201 [05:35<07:05,  4.68s/it][A
 55%|████████████████████████████████                          | 111/201 [05:42<08:00,  5.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.444
 	Training Stability: 158.806
 	AAR: 1.125
 	SES: 0.958
 	Mean Reward: 123.6
 	Std Reward: 5.426




 63%|████████████████████████████████████▋                     | 127/201 [07:35<06:22,  5.16s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [07:40<05:55,  4.87s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [07:46<06:28,  5.40s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [07:52<06:23,  5.41s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [07:57<06:18,  5.41s/it][A
 66%|██████████████████████████████████████                    | 132/201 [08:01<05:52,  5.10s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [08:07<06:04,  5.36s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [08:14<06:32,  5.85s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [08:19<06:02,  5.50s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [08:23<05:23,  4.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.481
 	Training Stability: 0.0
 	AAR: 1.039
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 76%|███████████████████████████████████████████▊              | 152/201 [09:22<04:18,  5.27s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [09:24<03:31,  4.41s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [09:27<03:05,  3.95s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [09:33<03:33,  4.65s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [09:38<03:34,  4.78s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [09:46<04:11,  5.72s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [09:54<04:26,  6.21s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [10:02<04:43,  6.75s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [10:10<04:53,  7.15s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [10:16<04:35,  6.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.494
 	Training Stability: 129.652
 	AAR: 1.012
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|███████████████████████████████████████████████████       | 177/201 [11:35<01:23,  3.50s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [11:42<01:44,  4.54s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [11:51<02:09,  5.89s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [11:58<02:14,  6.41s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [12:07<02:23,  7.17s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [12:15<02:22,  7.48s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [12:21<02:02,  6.83s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [12:24<01:36,  5.67s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [12:26<01:15,  4.75s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [12:29<01:02,  4.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.498
 	Training Stability: 102.921
 	AAR: 1.003
 	SES: 1.0
 	Mean Reward: 253.9
 	Std Reward: 11.545




 75%|███████████████████████████████████████████▌              | 9/12 [2:38:41<40:14, 804.71s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  1%|▌                                                           | 2/201 [00:00<00:26,  7.50it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 5.89
 	AAR: 2.0
 	SES: 0.926
 	Mean Reward: 9.5
 	Std Reward: 0.922




  1%|▉                                                           | 3/201 [00:00<00:38,  5.12it/s][A
  2%|█▏                                                          | 4/201 [00:00<00:36,  5.34it/s][A
  2%|█▍                                                          | 5/201 [00:00<00:33,  5.80it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:31,  6.18it/s][A
  3%|██                                                          | 7/201 [00:01<00:29,  6.55it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:29,  6.56it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:30,  6.32it/s][A
  5%|██▉                                                        | 10/201 [00:01<00:31,  6.10it/s][A
  5%|███▏                                                       | 11/201 [00:01<00:33,  5.61it/s][A
  6%|███▌                                                       | 12/201 [00:02<00:36,  5.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.345
 	Training Stability: 6.739
 	AAR: 1.451
 	SES: 1.0
 	Mean Reward: 60.9
 	Std Reward: 4.784




 13%|███████▉                                                   | 27/201 [00:21<04:23,  1.51s/it][A
 14%|████████▏                                                  | 28/201 [00:22<04:19,  1.50s/it][A
 14%|████████▌                                                  | 29/201 [00:24<04:20,  1.51s/it][A
 15%|████████▊                                                  | 30/201 [00:25<04:29,  1.57s/it][A
 15%|█████████                                                  | 31/201 [00:27<04:33,  1.61s/it][A
 16%|█████████▍                                                 | 32/201 [00:29<04:43,  1.67s/it][A
 16%|█████████▋                                                 | 33/201 [00:31<05:28,  1.95s/it][A
 17%|█████████▉                                                 | 34/201 [00:34<05:54,  2.12s/it][A
 17%|██████████▎                                                | 35/201 [00:36<05:51,  2.11s/it][A
 18%|██████████▌                                                | 36/201 [00:38<05:44,  2.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.439
 	Training Stability: 23.024
 	AAR: 1.138
 	SES: 1.0
 	Mean Reward: 232.1
 	Std Reward: 24.542




 26%|███████████████▎                                           | 52/201 [01:49<14:32,  5.86s/it][A
 26%|███████████████▌                                           | 53/201 [01:56<15:26,  6.26s/it][A
 27%|███████████████▊                                           | 54/201 [02:03<16:14,  6.63s/it][A
 27%|████████████████▏                                          | 55/201 [02:10<16:26,  6.76s/it][A
 28%|████████████████▍                                          | 56/201 [02:14<14:08,  5.85s/it][A
 28%|████████████████▋                                          | 57/201 [02:18<12:31,  5.22s/it][A
 29%|█████████████████                                          | 58/201 [02:23<12:20,  5.18s/it][A
 29%|█████████████████▎                                         | 59/201 [02:27<11:38,  4.92s/it][A
 30%|█████████████████▌                                         | 60/201 [02:31<11:01,  4.69s/it][A
 30%|█████████████████▉                                         | 61/201 [02:35<09:50,  4.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.251
 	Training Stability: 12.562
 	AAR: 1.991
 	SES: 1.0
 	Mean Reward: 109.6
 	Std Reward: 2.538




 38%|██████████████████████▌                                    | 77/201 [03:13<03:17,  1.59s/it][A
 39%|██████████████████████▉                                    | 78/201 [03:15<03:05,  1.51s/it][A
 39%|███████████████████████▏                                   | 79/201 [03:16<03:01,  1.49s/it][A
 40%|███████████████████████▍                                   | 80/201 [03:19<03:39,  1.82s/it][A
 40%|███████████████████████▊                                   | 81/201 [03:22<04:14,  2.12s/it][A
 41%|████████████████████████                                   | 82/201 [03:25<05:05,  2.57s/it][A
 41%|████████████████████████▎                                  | 83/201 [03:28<05:16,  2.68s/it][A
 42%|████████████████████████▋                                  | 84/201 [03:31<05:04,  2.60s/it][A
 42%|████████████████████████▉                                  | 85/201 [03:33<04:45,  2.46s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:35<04:32,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.266
 	Training Stability: 53.068
 	AAR: 1.879
 	SES: 1.0
 	Mean Reward: 291.7
 	Std Reward: 6.664




 51%|█████████████████████████████▍                            | 102/201 [04:18<04:58,  3.01s/it][A
 51%|█████████████████████████████▋                            | 103/201 [04:20<04:25,  2.71s/it][A
 52%|██████████████████████████████                            | 104/201 [04:23<04:12,  2.60s/it][A
 52%|██████████████████████████████▎                           | 105/201 [04:26<04:37,  2.89s/it][A
 53%|██████████████████████████████▌                           | 106/201 [04:29<04:39,  2.94s/it][A
 53%|██████████████████████████████▉                           | 107/201 [04:32<04:26,  2.83s/it][A
 54%|███████████████████████████████▏                          | 108/201 [04:34<04:03,  2.61s/it][A
 54%|███████████████████████████████▍                          | 109/201 [04:37<03:58,  2.60s/it][A
 55%|███████████████████████████████▋                          | 110/201 [04:39<03:38,  2.40s/it][A
 55%|████████████████████████████████                          | 111/201 [04:41<03:29,  2.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.298
 	Training Stability: 24.17
 	AAR: 1.675
 	SES: 1.0
 	Mean Reward: 52.0
 	Std Reward: 5.865




 63%|████████████████████████████████████▋                     | 127/201 [05:13<01:49,  1.48s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [05:16<02:05,  1.72s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [05:19<02:47,  2.33s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [05:22<02:51,  2.42s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [05:24<02:47,  2.39s/it][A
 66%|██████████████████████████████████████                    | 132/201 [05:28<03:14,  2.83s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [05:33<03:54,  3.46s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [05:41<05:20,  4.79s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [05:49<06:17,  5.72s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [05:56<06:34,  6.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.348
 	Training Stability: 53.237
 	AAR: 1.436
 	SES: 0.917
 	Mean Reward: 500.0
 	Std Reward: 0.0




 76%|███████████████████████████████████████████▊              | 152/201 [07:12<02:37,  3.22s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [07:15<02:35,  3.25s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [07:21<03:05,  3.95s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [07:28<03:38,  4.75s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [07:36<04:16,  5.70s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [07:43<04:36,  6.28s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [07:50<04:38,  6.47s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [07:57<04:35,  6.56s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [08:05<04:42,  6.90s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [08:10<04:22,  6.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.415
 	Training Stability: 42.05
 	AAR: 1.204
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|███████████████████████████████████████████████████       | 177/201 [09:28<02:29,  6.22s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [09:35<02:34,  6.73s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [09:43<02:36,  7.10s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [09:51<02:34,  7.36s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [09:59<02:30,  7.54s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [10:07<02:25,  7.63s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [10:15<02:19,  7.74s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [10:23<02:13,  7.83s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [10:31<02:05,  7.84s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [10:39<01:58,  7.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 12.563
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 249.4
 	Std Reward: 12.11




 83%|███████████████████████████████████████████████▌         | 10/12 [2:50:29<25:49, 774.81s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:58,  3.41it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.25
 	Training Stability: 8.649
 	AAR: 2.0
 	SES: 0.926
 	Mean Reward: 157.7
 	Std Reward: 19.298




  1%|▌                                                           | 2/201 [00:00<01:05,  3.03it/s][A
  1%|▉                                                           | 3/201 [00:00<01:06,  3.00it/s][A
  2%|█▏                                                          | 4/201 [00:01<01:04,  3.08it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:55,  3.51it/s][A
  3%|█▊                                                          | 6/201 [00:02<01:09,  2.80it/s][A
  3%|██                                                          | 7/201 [00:02<00:57,  3.35it/s][A
  4%|██▍                                                         | 8/201 [00:02<00:49,  3.86it/s][A
  4%|██▋                                                         | 9/201 [00:02<00:46,  4.16it/s][A
  5%|██▉                                                        | 10/201 [00:02<00:41,  4.65it/s][A
  5%|███▏                                                       | 11/201 [00:03<00:51,  3.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.254
 	Training Stability: 8.268
 	AAR: 1.969
 	SES: 1.0
 	Mean Reward: 90.9
 	Std Reward: 3.419




 13%|███████▉                                                   | 27/201 [00:22<04:04,  1.40s/it][A
 14%|████████▏                                                  | 28/201 [00:23<04:10,  1.45s/it][A
 14%|████████▌                                                  | 29/201 [00:25<04:23,  1.53s/it][A
 15%|████████▊                                                  | 30/201 [00:26<04:20,  1.53s/it][A
 15%|█████████                                                  | 31/201 [00:28<04:24,  1.56s/it][A
 16%|█████████▍                                                 | 32/201 [00:30<04:43,  1.68s/it][A
 16%|█████████▋                                                 | 33/201 [00:33<05:41,  2.03s/it][A
 17%|█████████▉                                                 | 34/201 [00:35<06:00,  2.16s/it][A
 17%|██████████▎                                                | 35/201 [00:39<06:57,  2.52s/it][A
 18%|██████████▌                                                | 36/201 [00:42<07:19,  2.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.266
 	Training Stability: 10.443
 	AAR: 1.882
 	SES: 1.0
 	Mean Reward: 137.9
 	Std Reward: 4.592




 26%|███████████████▎                                           | 52/201 [01:36<07:29,  3.02s/it][A
 26%|███████████████▌                                           | 53/201 [01:38<07:24,  3.00s/it][A
 27%|███████████████▊                                           | 54/201 [01:41<07:10,  2.93s/it][A
 27%|████████████████▏                                          | 55/201 [01:44<07:11,  2.95s/it][A
 28%|████████████████▍                                          | 56/201 [01:47<07:02,  2.91s/it][A
 28%|████████████████▋                                          | 57/201 [01:50<07:02,  2.93s/it][A
 29%|█████████████████                                          | 58/201 [01:54<07:48,  3.28s/it][A
 29%|█████████████████▎                                         | 59/201 [01:58<08:07,  3.43s/it][A
 30%|█████████████████▌                                         | 60/201 [02:00<07:22,  3.14s/it][A
 30%|█████████████████▉                                         | 61/201 [02:03<07:00,  3.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.285
 	Training Stability: 20.257
 	AAR: 1.753
 	SES: 1.0
 	Mean Reward: 73.6
 	Std Reward: 5.817




 38%|██████████████████████▌                                    | 77/201 [02:46<03:18,  1.60s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:48<03:12,  1.56s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:50<03:24,  1.67s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:52<03:34,  1.77s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:54<03:49,  1.92s/it][A
 41%|████████████████████████                                   | 82/201 [02:56<04:07,  2.08s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:58<04:06,  2.09s/it][A
 42%|████████████████████████▋                                  | 84/201 [03:00<04:03,  2.08s/it][A
 42%|████████████████████████▉                                  | 85/201 [03:03<04:05,  2.11s/it][A
 43%|█████████████████████████▏                                 | 86/201 [03:05<03:57,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.312
 	Training Stability: 44.529
 	AAR: 1.6
 	SES: 1.0
 	Mean Reward: 85.3
 	Std Reward: 27.342




 51%|█████████████████████████████▍                            | 102/201 [03:41<03:13,  1.95s/it][A
 51%|█████████████████████████████▋                            | 103/201 [03:42<03:00,  1.85s/it][A
 52%|██████████████████████████████                            | 104/201 [03:44<02:47,  1.73s/it][A
 52%|██████████████████████████████▎                           | 105/201 [03:46<02:50,  1.77s/it][A
 53%|██████████████████████████████▌                           | 106/201 [03:48<02:52,  1.82s/it][A
 53%|██████████████████████████████▉                           | 107/201 [03:49<02:53,  1.85s/it][A
 54%|███████████████████████████████▏                          | 108/201 [03:52<02:59,  1.93s/it][A
 54%|███████████████████████████████▍                          | 109/201 [03:54<03:07,  2.04s/it][A
 55%|███████████████████████████████▋                          | 110/201 [03:56<03:15,  2.15s/it][A
 55%|████████████████████████████████                          | 111/201 [04:00<04:07,  2.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.348
 	Training Stability: 12.797
 	AAR: 1.438
 	SES: 1.0
 	Mean Reward: 104.1
 	Std Reward: 4.571




 63%|████████████████████████████████████▋                     | 127/201 [04:26<02:03,  1.67s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [04:28<02:10,  1.79s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [04:33<03:10,  2.64s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [04:40<04:56,  4.17s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [04:49<06:22,  5.47s/it][A
 66%|██████████████████████████████████████                    | 132/201 [04:54<05:59,  5.21s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [04:59<05:52,  5.19s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [05:06<06:32,  5.86s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [05:14<06:58,  6.34s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [05:21<07:16,  6.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.391
 	Training Stability: 20.786
 	AAR: 1.28
 	SES: 1.0
 	Mean Reward: 40.2
 	Std Reward: 12.352




 76%|███████████████████████████████████████████▊              | 152/201 [06:16<01:08,  1.40s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [06:17<00:58,  1.22s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [06:17<00:50,  1.07s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [06:19<00:53,  1.16s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [06:20<01:00,  1.34s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [06:22<01:06,  1.51s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [06:24<01:11,  1.66s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [06:26<01:07,  1.60s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [06:28<01:19,  1.94s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [06:31<01:26,  2.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.441
 	Training Stability: 80.1
 	AAR: 1.133
 	SES: 1.0
 	Mean Reward: 500.0
 	Std Reward: 0.0




 88%|███████████████████████████████████████████████████       | 177/201 [07:59<02:58,  7.43s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [08:06<02:53,  7.54s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [08:15<02:51,  7.80s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [08:23<02:44,  7.85s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [08:27<02:13,  6.68s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [08:29<01:43,  5.46s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [08:31<01:20,  4.47s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [08:32<00:58,  3.42s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [08:35<00:49,  3.09s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [08:37<00:43,  2.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.5
 	Training Stability: 31.394
 	AAR: 1.0
 	SES: 1.0
 	Mean Reward: 143.0
 	Std Reward: 4.837




 92%|████████████████████████████████████████████████████▎    | 11/12 [3:00:04<11:53, 713.57s/it]
  if not isinstance(terminated, (bool, np.bool8)):
  self.measurements = pd.concat([self.measurements, pd.DataFrame([measurement])], ignore_index=True)

  0%|▎                                                           | 1/201 [00:00<00:40,  4.94it/s][A

Evaluation 0 (Epsilon=0.99004):
	Training Pole Length: 0.5
 	Training Stability: 10.3
 	AAR: 1.0
 	SES: 0.949
 	Mean Reward: 17.6
 	Std Reward: 1.685




  1%|▌                                                           | 2/201 [00:00<01:05,  3.02it/s][A
  1%|▉                                                           | 3/201 [00:00<00:55,  3.60it/s][A
  2%|█▏                                                          | 4/201 [00:01<00:47,  4.17it/s][A
  2%|█▍                                                          | 5/201 [00:01<00:45,  4.34it/s][A
  3%|█▊                                                          | 6/201 [00:01<00:42,  4.62it/s][A
  3%|██                                                          | 7/201 [00:01<00:41,  4.69it/s][A
  4%|██▍                                                         | 8/201 [00:01<00:39,  4.91it/s][A
  4%|██▋                                                         | 9/201 [00:01<00:36,  5.21it/s][A
  5%|██▉                                                        | 10/201 [00:02<00:38,  4.91it/s][A
  5%|███▏                                                       | 11/201 [00:02<00:36,  5.

Evaluation 25 (Epsilon=0.77095):
	Training Pole Length: 0.469
 	Training Stability: 0.7
 	AAR: 1.067
 	SES: 1.0
 	Mean Reward: 9.8
 	Std Reward: 0.6




 14%|████████▏                                                  | 28/201 [00:05<00:29,  5.95it/s][A
 14%|████████▌                                                  | 29/201 [00:05<00:28,  6.02it/s][A
 15%|████████▊                                                  | 30/201 [00:05<00:30,  5.53it/s][A
 15%|█████████                                                  | 31/201 [00:05<00:35,  4.80it/s][A
 16%|█████████▍                                                 | 32/201 [00:06<00:34,  4.95it/s][A
 16%|█████████▋                                                 | 33/201 [00:06<00:50,  3.35it/s][A
 17%|█████████▉                                                 | 34/201 [00:07<01:42,  1.62it/s][A
 17%|██████████▎                                                | 35/201 [00:09<02:27,  1.12it/s][A
 18%|██████████▌                                                | 36/201 [00:11<03:09,  1.15s/it][A
 18%|██████████▊                                                | 37/201 [00:13<03:52,  1.

Evaluation 50 (Epsilon=0.60034):
	Training Pole Length: 0.437
 	Training Stability: 34.229
 	AAR: 1.144
 	SES: 1.0
 	Mean Reward: 176.5
 	Std Reward: 19.038




 26%|███████████████▎                                           | 52/201 [00:53<08:14,  3.32s/it][A
 26%|███████████████▌                                           | 53/201 [00:56<07:52,  3.19s/it][A
 27%|███████████████▊                                           | 54/201 [00:59<07:17,  2.98s/it][A
 27%|████████████████▏                                          | 55/201 [01:01<06:43,  2.77s/it][A
 28%|████████████████▍                                          | 56/201 [01:03<06:17,  2.60s/it][A
 28%|████████████████▋                                          | 57/201 [01:05<05:58,  2.49s/it][A
 29%|█████████████████                                          | 58/201 [01:08<05:47,  2.43s/it][A
 29%|█████████████████▎                                         | 59/201 [01:10<05:45,  2.43s/it][A
 30%|█████████████████▌                                         | 60/201 [01:13<06:04,  2.59s/it][A
 30%|█████████████████▉                                         | 61/201 [01:16<06:12,  2.

Evaluation 75 (Epsilon=0.46749):
	Training Pole Length: 0.406
 	Training Stability: 32.066
 	AAR: 1.232
 	SES: 1.0
 	Mean Reward: 180.3
 	Std Reward: 7.417




 38%|██████████████████████▌                                    | 77/201 [02:03<06:00,  2.91s/it][A
 39%|██████████████████████▉                                    | 78/201 [02:06<05:51,  2.86s/it][A
 39%|███████████████████████▏                                   | 79/201 [02:09<05:47,  2.85s/it][A
 40%|███████████████████████▍                                   | 80/201 [02:11<05:23,  2.68s/it][A
 40%|███████████████████████▊                                   | 81/201 [02:13<05:09,  2.58s/it][A
 41%|████████████████████████                                   | 82/201 [02:16<04:57,  2.50s/it][A
 41%|████████████████████████▎                                  | 83/201 [02:18<05:01,  2.55s/it][A
 42%|████████████████████████▋                                  | 84/201 [02:21<04:52,  2.50s/it][A
 42%|████████████████████████▉                                  | 85/201 [02:23<04:38,  2.40s/it][A
 43%|█████████████████████████▏                                 | 86/201 [02:25<04:33,  2.

Evaluation 100 (Epsilon=0.36403):
	Training Pole Length: 0.374
 	Training Stability: 17.05
 	AAR: 1.336
 	SES: 1.0
 	Mean Reward: 171.3
 	Std Reward: 37.76




 51%|█████████████████████████████▍                            | 102/201 [03:15<04:13,  2.56s/it][A
 51%|█████████████████████████████▋                            | 103/201 [03:17<04:11,  2.57s/it][A
 52%|██████████████████████████████                            | 104/201 [03:21<04:49,  2.99s/it][A
 52%|██████████████████████████████▎                           | 105/201 [03:25<05:11,  3.24s/it][A
 53%|██████████████████████████████▌                           | 106/201 [03:28<04:54,  3.10s/it][A
 53%|██████████████████████████████▉                           | 107/201 [03:30<04:25,  2.82s/it][A
 54%|███████████████████████████████▏                          | 108/201 [03:32<03:59,  2.57s/it][A
 54%|███████████████████████████████▍                          | 109/201 [03:34<03:45,  2.45s/it][A
 55%|███████████████████████████████▋                          | 110/201 [03:36<03:42,  2.44s/it][A
 55%|████████████████████████████████                          | 111/201 [03:39<03:51,  2.

Evaluation 125 (Epsilon=0.28348):
	Training Pole Length: 0.343
 	Training Stability: 13.4
 	AAR: 1.458
 	SES: 1.0
 	Mean Reward: 172.8
 	Std Reward: 19.02




 63%|████████████████████████████████████▋                     | 127/201 [04:25<03:19,  2.69s/it][A
 64%|████████████████████████████████████▉                     | 128/201 [04:28<03:20,  2.75s/it][A
 64%|█████████████████████████████████████▏                    | 129/201 [04:31<03:26,  2.86s/it][A
 65%|█████████████████████████████████████▌                    | 130/201 [04:34<03:21,  2.84s/it][A
 65%|█████████████████████████████████████▊                    | 131/201 [04:36<03:17,  2.83s/it][A
 66%|██████████████████████████████████████                    | 132/201 [04:40<03:41,  3.21s/it][A
 66%|██████████████████████████████████████▍                   | 133/201 [04:47<04:48,  4.25s/it][A
 67%|██████████████████████████████████████▋                   | 134/201 [04:55<05:59,  5.37s/it][A
 67%|██████████████████████████████████████▉                   | 135/201 [05:03<06:49,  6.21s/it][A
 68%|███████████████████████████████████████▏                  | 136/201 [05:11<07:14,  6.

Evaluation 150 (Epsilon=0.22074):
	Training Pole Length: 0.312
 	Training Stability: 94.39
 	AAR: 1.605
 	SES: 1.0
 	Mean Reward: 185.1
 	Std Reward: 6.804




 76%|███████████████████████████████████████████▊              | 152/201 [06:24<02:38,  3.23s/it][A
 76%|████████████████████████████████████████████▏             | 153/201 [06:31<03:30,  4.38s/it][A
 77%|████████████████████████████████████████████▍             | 154/201 [06:37<03:54,  4.98s/it][A
 77%|████████████████████████████████████████████▋             | 155/201 [06:44<04:16,  5.58s/it][A
 78%|█████████████████████████████████████████████             | 156/201 [06:49<03:59,  5.32s/it][A
 78%|█████████████████████████████████████████████▎            | 157/201 [06:55<04:06,  5.60s/it][A
 79%|█████████████████████████████████████████████▌            | 158/201 [07:01<03:58,  5.55s/it][A
 79%|█████████████████████████████████████████████▉            | 159/201 [07:07<04:03,  5.79s/it][A
 80%|██████████████████████████████████████████████▏           | 160/201 [07:11<03:40,  5.38s/it][A
 80%|██████████████████████████████████████████████▍           | 161/201 [07:13<02:53,  4.

Evaluation 175 (Epsilon=0.17189):
	Training Pole Length: 0.28
 	Training Stability: 26.295
 	AAR: 1.785
 	SES: 1.0
 	Mean Reward: 190.6
 	Std Reward: 18.068




 88%|███████████████████████████████████████████████████       | 177/201 [08:01<01:09,  2.88s/it][A
 89%|███████████████████████████████████████████████████▎      | 178/201 [08:05<01:14,  3.25s/it][A
 89%|███████████████████████████████████████████████████▋      | 179/201 [08:07<01:05,  2.98s/it][A
 90%|███████████████████████████████████████████████████▉      | 180/201 [08:13<01:19,  3.77s/it][A
 90%|████████████████████████████████████████████████████▏     | 181/201 [08:16<01:12,  3.61s/it][A
 91%|████████████████████████████████████████████████████▌     | 182/201 [08:18<01:00,  3.19s/it][A
 91%|████████████████████████████████████████████████████▊     | 183/201 [08:20<00:51,  2.85s/it][A
 92%|█████████████████████████████████████████████████████     | 184/201 [08:24<00:54,  3.18s/it][A
 92%|█████████████████████████████████████████████████████▍    | 185/201 [08:29<00:59,  3.75s/it][A
 93%|█████████████████████████████████████████████████████▋    | 186/201 [08:37<01:13,  4.

Evaluation 200 (Epsilon=0.13385):
	Training Pole Length: 0.25
 	Training Stability: 17.003
 	AAR: 2.0
 	SES: 1.0
 	Mean Reward: 78.4
 	Std Reward: 4.821




100%|█████████████████████████████████████████████████████████| 12/12 [3:09:17<00:00, 946.44s/it]


In [8]:
dqn_df.to_csv(DATASETS_DIR / 'dqn.csv', index=False)