# Biliotecas

In [None]:
# Instala os pacotes necessários:
# - gymnasium[toy-text]: inclui ambientes simples como FrozenLake, Taxi, etc.
# - imageio[ffmpeg]: permite salvar vídeos e GIFs (formato .mp4 ou .gif)
!pip install gymnasium[toy-text] imageio[ffmpeg]

In [None]:
# Importa as bibliotecas principais
import gymnasium as gym               # Biblioteca de simulações de ambientes para RL
import imageio                        # Usada para salvar a sequência de frames como GIF
from IPython.display import Image     # Para exibir a imagem (GIF) diretamente no notebook
import numpy as np                    # Importa o pacote NumPy, amplamente utilizado para manipulação de arrays e operações numéricas vetoriais
from typing import Dict, Tuple, List  # Importa ferramentas de tipagem estática do Python
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Implementação do SARSA

In [None]:
def sarsa(
    env,
    episodes: int,
    alpha: float,
    gamma: float,
    epsilon: float
) -> Tuple[np.ndarray, List[int], List[float], Dict[int, np.ndarray]]:

  # Implementacao aqui

    return q_table, episodio_len, episodio_return, politica

# Visualização

In [None]:
def plotar_metricas(episodio_len: list[int], episodio_return: list[float], janela: int = 100) -> None:
# Código aqui

In [None]:
def gerar_gif_epsilon_greedy_politica(
    politica: Dict[int, np.ndarray],
    env,
    path_gif: str,
    n_episodios: int = 5
) -> str:
    frames = []
    n_actions = len(next(iter(politica.values())))

    for ep in range(n_episodios):
        state, _ = env.reset()
        for _ in range(100):
            action = np.random.choice(n_actions, p=politica[state])
            state, reward, terminated, truncated, _ = env.step(action)
            frames.append(env.render())
            if terminated or truncated:
                break

    env.close()
    imageio.mimsave(path_gif, frames, format="GIF", fps=2)
    return path_gif

# Simulação

In [None]:
# Configura o ambiente
map_name = '8x8'
render_mode = 'rgb_array'  # retorna imagens do ambiente como arrays de pixels
is_slippery = False  # torna o ambiente determinístico ou estocástico
env = gym.make("FrozenLake-v1", map_name=map_name, render_mode=render_mode, is_slippery=is_slippery)

In [None]:
# Hiper-parâmetros principais
EPISODIOS = 1000  # @param {type:"integer"}
ALPHA     = 0.1      # @param {type:"number"}  # comprimento máximo da sequência (+1 p/ token deslocado)
GAMMA     = 0.9     # @param {type:"number"}
EPSILON   = 1.0     # @param {type:"number"}

# Sarsa
q_table, ep_len, ep_ret, politica_eps = sarsa(
    env,
    episodes=EPISODIOS,
    alpha=ALPHA,
    gamma=GAMMA,
    epsilon=EPSILON
)

In [None]:
plotar_metricas(episodio_len, episodio_return)

In [None]:
# Recria ambiente para renderizar
env_vis = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False, render_mode="rgb_array")

# Gera o GIF
gif_path = "politica_epsilon_gulosa.gif"
gerar_gif_epsilon_greedy_politica(politica_eps, env_vis, gif_path, n_episodios=5)


# Exibe o GIF diretamente no notebook
Image(filename=gif_path)

# Tarefa:

1. Implemente o algoritmo Sarsa
2. Considere os 4 hiperparametros (EPISODIOS, ALPHA, GAMMA, EPSILON). Varie um dos hiperparametros (ex.: EPISODIOS) e fixe os demais (ex.: ALPHA, GAMMA, EPSILON). Repita o procedimento para cada um dos hiperparametros. Reporte suas observações.
3. Plote a duração do episódio por episódio e também a recompensa total por episodio.