# **Introduction**

This notebook is for performing hyperparameter sweeps on the algorithms that have been designed thus far.

# **Import Packages**

This section imports the necessary packages.

In [1]:
# Import these packages:
import gymnasium as gym
import numpy as np
from tqdm import tqdm 
import matplotlib.pyplot as plt

import json
import os
import itertools
from frozen_lake_classes import GLIE_MC_Agent, SARSA_0_Agent, SARSA_L_Agent, Q_Agent

# **Environment Definition**

This section defines the relevant objects and functions to perform the hyperparameter sweep.

### **Sweep Parameters**

In [2]:
# set the model to evaluate:
# model_types = ["GLIE_MC", "SARSA_0", "SARSA_L", "Q_LEARN"]
model_types = ["Q_LEARN"]

for model_type in model_types:

    # set the environment:
    env = gym.make("FrozenLake-v1", is_slippery = True, render_mode = 'rgb_array')
    train_length = int(1e6)

    # must first define the grid of values to be examined:
    grid = {
        "gamma" : [0.90, 0.95, 0.99],
        "epsilon_decay" : [0.5/train_length, 0.75/train_length, 2/train_length],
    }

    # append λ if the model uses a λ method:
    if not model_type == "GLIE_MC":
        grid["alpha"] = [0.05, 0.1, 0.25, 0.5]
        if model_type == "SARSA_L":
            grid["lamb"] = [0.8, 0.9, 0.95]

    # get cartesian product of all combinations:
    keys, values = zip(*grid.items())
    combos = [dict(zip(keys, v)) for v in itertools.product(*values)]

    # initialize results:
    results = []

    # output directory:
    out_dir = f"sweep_results/{model_type}"
    os.makedirs(out_dir, exist_ok = True)

    for params in combos:
        # create a filename and path:
        fname = "_".join(f"{k}{v}" for k,v in params.items()) + ".json"
        path = os.path.join(out_dir, fname)

        # need to make a model with those params:
        match model_type:
            case "GLIE_MC":
                agent = GLIE_MC_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
            case "SARSA_0":
                agent = SARSA_0_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
            case "SARSA_L":
                agent = SARSA_L_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
            case "Q_LEARN":
                agent = Q_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
        
        # train the model:
        q = agent.GPI(num_episodes = train_length)

        # evaluate:
        success = agent.success_rate(num_episodes = 10000)
        avg_return = agent.average_return(num_episodes = 10000)
        avg_length = agent.average_length(num_episodes = 10000)

        # metrics dict:
        metrics = {"success_rate" : success, "avg_return" : avg_return, "avg_length" : avg_length}

        # store results:
        result = {
            "params" : params,
            "metrics" : metrics
        }

        results.append(result)

        # dump results:
        with open(path, "w") as f:
            json.dump(result, f, indent = 2)

Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:20<00:00, 7101.28it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5724.50it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5734.69it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5683.08it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:20<00:00, 7116.30it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 7749.51it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 7845.59it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 7893.14it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:16<00:00, 7340.18it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 24310.78it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 23949.52it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 25465.29it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:10<00:00, 7637.48it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6707.49it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6704.36it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6664.38it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:49<00:00, 5915.49it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5504.14it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5607.55it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5699.09it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:40<00:00, 6225.67it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5687.57it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5525.37it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5696.52it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:33<00:00, 6502.93it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 17188.45it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 18074.51it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 18259.81it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:24<00:00, 6937.82it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6655.60it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6611.28it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6634.47it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [04:45<00:00, 3507.92it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 7246.26it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 7346.88it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 7228.75it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [04:21<00:00, 3829.67it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 10001.76it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 9746.23it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 9924.95it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [04:01<00:00, 4134.05it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 10835.40it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 11093.11it/s][0m
100%|[38;2;51;255;0m██████████████████████████████████████████████████████[0m| 10000/10000 [00:00<00:00, 10926.41it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [03:43<00:00, 4469.65it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5889.90it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5924.67it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5803.34it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:25<00:00, 6873.37it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5634.86it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5642.21it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5407.47it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:26<00:00, 6846.38it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5279.26it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5361.88it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5422.59it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:22<00:00, 7015.62it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5575.65it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5578.85it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5696.37it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:16<00:00, 7313.53it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6565.27it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6575.41it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6429.75it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:57<00:00, 5628.66it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5353.67it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5352.25it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5367.92it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:56<00:00, 5650.42it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6729.82it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6648.68it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6501.19it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:43<00:00, 6127.53it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 8010.22it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 8232.57it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 8162.18it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:32<00:00, 6552.94it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5682.36it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5907.73it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5753.43it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [05:19<00:00, 3126.48it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5285.30it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5252.64it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5336.63it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [05:15<00:00, 3168.57it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5352.89it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5343.56it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5110.06it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [04:48<00:00, 3460.41it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5405.87it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5443.67it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5410.69it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [04:25<00:00, 3761.70it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5332.69it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5351.49it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5398.08it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:30<00:00, 6635.45it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5119.62it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5016.78it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5018.14it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:30<00:00, 6664.23it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5048.20it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5039.45it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5139.25it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:27<00:00, 6783.43it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6366.36it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6308.46it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 6384.52it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:27<00:00, 6792.97it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 3631.37it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 3571.49it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 3574.90it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [03:07<00:00, 5324.74it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5231.28it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5085.69it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5115.61it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [03:04<00:00, 5430.05it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 4948.40it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 4894.99it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5038.62it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [03:00<00:00, 5534.49it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 3678.46it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 3613.82it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 3550.71it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [02:52<00:00, 5811.14it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5441.14it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5256.62it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5229.22it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [05:55<00:00, 2814.79it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5139.78it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5239.76it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5082.20it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [05:54<00:00, 2820.35it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 4999.20it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5038.67it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:02<00:00, 4986.15it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [05:45<00:00, 2893.87it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5127.68it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5124.53it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5042.75it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m███████████████████████████████████████████████████[0m| 1000000/1000000 [05:15<00:00, 3167.22it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5082.16it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5019.85it/s][0m
100%|[38;2;51;255;0m███████████████████████████████████████████████████████[0m| 10000/10000 [00:01<00:00, 5110.61it/s][0m
