# **Introduction**

This notebook is for performing hyperparameter sweeps on the algorithms that have been designed thus far.

# **Import Packages**

This section imports the necessary packages.

In [2]:
# Import these packages:
import gymnasium as gym
import numpy as np
from tqdm import tqdm 
import matplotlib.pyplot as plt

import json
import os
import itertools
from frozen_lake_classes import GLIE_MC_Agent, SARSA_0_Agent, SARSA_L_Agent

# **Environment Definition**

This section defines the relevant objects and functions to perform the hyperparameter sweep.

### **Sweep Parameters**

In [4]:
# set the model to evaluate:
# model_types = ["GLIE_MC", "SARSA_0", "SARSA_L"]
model_types = ["SARSA_L"]

for model_type in model_types:

    # set the environment:
    env = gym.make("FrozenLake-v1", is_slippery = True, render_mode = 'rgb_array')
    train_length = 500000

    # must first define the grid of values to be examined:
    grid = {
        "gamma" : [0.90, 0.99],
        "epsilon_decay" : [0.5/train_length, 0.75/train_length, 2/train_length],
    }

    # append λ if the model uses a λ method:
    if not model_type == "GLIE_MC":
        grid["alpha"] = [0.05, 0.1]
        if model_type == "SARSA_L":
            grid["lamb"] = [0.8, 0.9, 0.95]

    # get cartesian product of all combinations:
    keys, values = zip(*grid.items())
    combos = [dict(zip(keys, v)) for v in itertools.product(*values)]

    # initialize results:
    results = []

    # output directory:
    out_dir = f"sweep_results/{model_type}"
    os.makedirs(out_dir, exist_ok = True)

    for params in combos:
        # create a filename and path:
        fname = "_".join(f"{k}{v}" for k,v in params.items()) + ".json"
        path = os.path.join(out_dir, fname)

        # need to make a model with those params:
        match model_type:
            case "GLIE_MC":
                agent = GLIE_MC_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
            case "SARSA_0":
                agent = SARSA_0_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
            case "SARSA_L":
                agent = SARSA_L_Agent(env, **params, es = False, rs = False, initial_epsilon = 1.0, final_epsilon = 0.1)
        
        # train the model:
        q = agent.GPI(num_episodes = train_length)

        # evaluate:
        success = agent.success_rate(num_episodes = 1000)
        avg_return = agent.average_return(num_episodes = 1000)
        avg_length = agent.average_length(num_episodes = 1000)

        # metrics dict:
        metrics = {"success_rate" : success, "avg_return" : avg_return, "avg_length" : avg_length}

        # store results:
        result = {
            "params" : params,
            "metrics" : metrics
        }

        results.append(result)

        # dump results:
        with open(path, "w") as f:
            json.dump(result, f, indent = 2)

Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:44<00:00, 3038.30it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 18905.78it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 17086.13it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 20173.56it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:42<00:00, 3081.29it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 20348.55it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 23074.66it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24211.64it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:39<00:00, 3125.87it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13284.38it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 12105.26it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 10109.92it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:43<00:00, 3065.24it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 29271.23it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 41807.58it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 23995.84it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:39<00:00, 3139.86it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 7727.08it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 6552.93it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 6979.47it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:38<00:00, 3159.65it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 5344.97it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 5525.95it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 5514.82it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:57<00:00, 2821.37it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11107.62it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 10420.94it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13046.41it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:51<00:00, 2922.62it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13980.50it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 9980.38it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11988.62it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:44<00:00, 3033.42it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 14091.44it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11456.34it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 12960.46it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:54<00:00, 2869.63it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11900.73it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13505.62it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 9847.56it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:46<00:00, 2999.52it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 17807.49it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21848.41it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 17567.99it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:44<00:00, 3038.67it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 15109.76it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 15809.13it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 16939.02it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [04:18<00:00, 1934.55it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 14760.36it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 17024.89it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 14850.04it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:33<00:00, 2345.61it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21931.12it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 20781.16it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21545.71it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:15<00:00, 2561.50it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 27746.71it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 26991.24it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 26640.31it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:50<00:00, 2166.41it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13185.99it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13468.75it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13181.14it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:21<00:00, 2481.45it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21588.74it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21916.79it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21324.76it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:04<00:00, 2708.20it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 54214.49it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 34185.36it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 33813.58it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:51<00:00, 2910.05it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 31446.98it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 29941.56it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 30622.51it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:46<00:00, 3004.83it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21860.25it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 25529.72it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24480.85it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:41<00:00, 3100.04it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 31249.70it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 36792.14it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 26745.46it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:51<00:00, 2922.59it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 12747.06it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 10895.17it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 12019.92it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:48<00:00, 2968.47it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24354.76it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 25077.75it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 23195.89it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:41<00:00, 3095.94it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 25678.36it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 25947.14it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 22898.42it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:17<00:00, 2535.64it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 10900.75it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 10912.27it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11121.14it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:59<00:00, 2785.47it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 27576.51it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 33822.58it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 35104.07it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:48<00:00, 2967.55it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 22001.98it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 27913.83it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 19666.36it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:05<00:00, 2691.30it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21891.05it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 20160.17it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 20583.22it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:53<00:00, 2876.91it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24295.65it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21877.01it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24634.70it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [02:47<00:00, 2987.00it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 12140.05it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11113.77it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 12470.24it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [05:57<00:00, 1400.46it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 6952.79it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 7409.00it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 7779.29it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [04:40<00:00, 1781.07it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24734.07it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 26443.47it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 24590.65it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:40<00:00, 2272.10it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 18668.48it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 19739.94it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 19783.89it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [05:00<00:00, 1664.79it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13262.33it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 11907.75it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 13467.15it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:52<00:00, 2150.06it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 6542.95it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 6873.71it/s][0m
100%|[38;2;51;255;0m█████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 6579.02it/s][0m


Action Space is: Discrete(4)
Observation Space is: Discrete(16)



100%|[38;2;51;255;0m█████████████████████████████████████████████████████[0m| 500000/500000 [03:07<00:00, 2672.02it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 21903.51it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 14163.77it/s][0m
100%|[38;2;51;255;0m████████████████████████████████████████████████████████[0m| 1000/1000 [00:00<00:00, 17329.97it/s][0m
