# Importacoes e instalacoes

In [None]:
!pip install "stable-baselines3[extra]>=2.0.0a4"

In [2]:
import gymnasium as gym
import numpy as np
import torch as th
import matplotlib.pyplot as plt

from stable_baselines3 import DQN
from stable_baselines3.common.evaluation import evaluate_policy

# Inicialização do ambiente:

In [3]:
env = gym.make("MountainCar-v0", render_mode="rgb_array") #criacao do ambiente usando a biblioteca Gym

Salvando os logs:

In [4]:
tensorboard_log = "mountaincar/"

# Configurando o modelo com SB3



In [5]:
# The learning agent and hyperparameters
dqn_model = DQN(
    "MlpPolicy",                # Política utilizada pelo agente, uma rede MLP (Multi-Layer Perceptron)
    env,                        # O ambiente no qual o agente vai operar
    verbose=1,                  # Nível de verbosidade (1 para exibir mensagens de treinamento)
    train_freq=16,              # Frequência com que o agente realiza o treinamento (a cada 16 passos)
    gradient_steps=8,           # Número de passos de gradiente realizados após cada atualização de rede
    gamma=0.99,                 # Fator de desconto (gamma), que determina a importância de recompensas futuras
    exploration_fraction=0.2,   # Fração do treinamento durante a qual a exploração é realizada
    exploration_final_eps=0.07, # Valor final de epsilon após a fase de exploração (para a política epsilon-greedy)
    target_update_interval=600, # Intervalo de atualização da rede alvo (em passos de tempo)
    learning_starts=1000,       # Número de passos antes do início do aprendizado (pré-treinamento)
    buffer_size=10000,          # Tamanho do buffer de replay (memória de experiência)
    batch_size=128,             # Tamanho do lote (batch) para treinamento da rede neural
    learning_rate=4e-3,         # Taxa de aprendizado (learning rate) da rede neural
    policy_kwargs=dict(net_arch=[256, 256]),  # Arquitetura da rede (duas camadas densas de 256 neurônios cada)
    tensorboard_log=tensorboard_log,          # Diretório para armazenar logs do TensorBoard
    seed=2,                     # Semente para geração de números aleatórios (para reprodutibilidade)
)

Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.


# Avaliação da política: 

A função evaluate_policy avalia o desempenho do modelo DQN treinado. 

In [6]:
mean_reward, std_reward = evaluate_policy(
    dqn_model,               # O modelo DQN que foi treinado e será avaliado
    dqn_model.get_env(),     # O ambiente no qual o modelo será avaliado, obtido a partir do modelo treinado
    deterministic=True,      # Se verdadeiro, o agente usará ações determinísticas (sem explorar) durante a avaliação
    n_eval_episodes=20,      # Número de episódios de avaliação para calcular a média e o desvio padrão da recompensa
)

#Resultado: A função evaluate_policy retorna a recompensa média (mean_reward) 
#e o desvio padrão da recompensa (std_reward) após a avaliação do agente em 20 episódios.

print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")


    

mean_reward:-200.00 +/- 0.00


In [17]:
# Optional: Monitor training in tensorboard
%load_ext tensorboard
%tensorboard --logdir $tensorboard_log

# Treinamento do agente DQN por 120.000 passos de tempo,

é carregado na saida as informações de progresso sendo exibidas a cada 10 passos. 
Permite visualizar se o agente está melhorando ao longo do tempo e ajusta o treinamento conforme necessário.

In [7]:
dqn_model.learn(int(1.2e5), log_interval=10) # int(1.2e5) Converte o valor 1.2e5 (120.000) para um número inteiro

Logging to mountaincar/DQN_3
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 200      |
|    ep_rew_mean      | -200     |
|    exploration_rate | 0.922    |
| time/               |          |
|    episodes         | 10       |
|    fps              | 3592     |
|    time_elapsed     | 0        |
|    total_timesteps  | 2000     |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 1.97e-05 |
|    n_updates        | 496      |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 200      |
|    ep_rew_mean      | -200     |
|    exploration_rate | 0.845    |
| time/               |          |
|    episodes         | 20       |
|    fps              | 2784     |
|    time_elapsed     | 1        |
|    total_timesteps  | 4000     |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 9.

----------------------------------
| rollout/            |          |
|    ep_len_mean      | 196      |
|    ep_rew_mean      | -196     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 170      |
|    fps              | 2080     |
|    time_elapsed     | 16       |
|    total_timesteps  | 33642    |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.0348   |
|    n_updates        | 16320    |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 194      |
|    ep_rew_mean      | -194     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 180      |
|    fps              | 2072     |
|    time_elapsed     | 17       |
|    total_timesteps  | 35385    |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.00303  |
|    n_updates      

----------------------------------
| rollout/            |          |
|    ep_len_mean      | 169      |
|    ep_rew_mean      | -169     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 330      |
|    fps              | 1991     |
|    time_elapsed     | 30       |
|    total_timesteps  | 61663    |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.0541   |
|    n_updates        | 30328    |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 168      |
|    ep_rew_mean      | -168     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 340      |
|    fps              | 1988     |
|    time_elapsed     | 31       |
|    total_timesteps  | 63340    |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.0567   |
|    n_updates      

----------------------------------
| rollout/            |          |
|    ep_len_mean      | 134      |
|    ep_rew_mean      | -134     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 490      |
|    fps              | 1983     |
|    time_elapsed     | 42       |
|    total_timesteps  | 83733    |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.143    |
|    n_updates        | 41368    |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 136      |
|    ep_rew_mean      | -136     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 500      |
|    fps              | 1981     |
|    time_elapsed     | 43       |
|    total_timesteps  | 85289    |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.243    |
|    n_updates      

----------------------------------
| rollout/            |          |
|    ep_len_mean      | 131      |
|    ep_rew_mean      | -131     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 650      |
|    fps              | 1975     |
|    time_elapsed     | 53       |
|    total_timesteps  | 104706   |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.266    |
|    n_updates        | 51856    |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 131      |
|    ep_rew_mean      | -131     |
|    exploration_rate | 0.07     |
| time/               |          |
|    episodes         | 660      |
|    fps              | 1975     |
|    time_elapsed     | 53       |
|    total_timesteps  | 106006   |
| train/              |          |
|    learning_rate    | 0.004    |
|    loss             | 0.277    |
|    n_updates      

<stable_baselines3.dqn.dqn.DQN at 0x159907490>

In [8]:
mean_reward, std_reward = evaluate_policy(dqn_model, dqn_model.get_env(), deterministic=True, n_eval_episodes=20)

print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")

mean_reward:-98.55 +/- 9.04


# Gravar o video do Mountain Car

In [9]:
import base64  # Módulo para codificação e decodificação de dados em base64
from pathlib import Path  # Módulo para manipulação de caminhos de arquivos e diretórios

from IPython import display as ipythondisplay  # Módulo para exibir elementos no Jupyter Notebook

# Função para exibir vídeos no Jupyter Notebook
def show_videos(video_path="", prefix=""):
    """
    Função retirada de https://github.com/eleurent/highway-env

    :param video_path: (str) Caminho para a pasta contendo os vídeos
    :param prefix: (str) Filtra os vídeos, exibindo apenas aqueles que começam com este prefixo
    """
    html = []  # Lista para armazenar o HTML que será gerado para exibir os vídeos
    for mp4 in Path(video_path).glob("{}*.mp4".format(prefix)):  # Itera sobre todos os arquivos .mp4 no diretório especificado que começam com o prefixo
        video_b64 = base64.b64encode(mp4.read_bytes())  # Lê o conteúdo do arquivo de vídeo e o codifica em base64
        html.append(
            """<video alt="{}" autoplay
                    loop controls style="height: 400px;">
                    <source src="data:video/mp4;base64,{}" type="video/mp4" />
                </video>""".format(
                mp4, video_b64.decode("ascii")  # Gera o HTML para exibir o vídeo, usando o conteúdo codificado em base64
            )
        )
    ipythondisplay.display(ipythondisplay.HTML(data="<br>".join(html)))  # Exibe o HTML gerado no Jupyter Notebook


In [10]:
# Importação da classe VecVideoRecorder e DummyVecEnv do pacote stable_baselines3
from stable_baselines3.common.vec_env import VecVideoRecorder, DummyVecEnv

# Função para gravar um vídeo do ambiente enquanto o agente treinado interage com ele
def record_video(
    env_id,                     # ID do ambiente (string) que será gravado
    model,                      # Modelo de RL treinado
    video_length=500,           # Duração do vídeo em número de passos no ambiente
    prefix="",                  # Prefixo para o nome do arquivo de vídeo
    video_folder="videos/",     # Pasta onde os vídeos serão armazenados
):

    # Cria um ambiente de avaliação usando DummyVecEnv, necessário para usar VecVideoRecorder
    eval_env = DummyVecEnv([lambda: gym.make(env_id, render_mode="rgb_array")])
    
    # Inicia o gravador de vídeo no passo 0 e grava 500 passos
    eval_env = VecVideoRecorder(
        eval_env,
        video_folder=video_folder,                    # Pasta onde os vídeos serão armazenados
        record_video_trigger=lambda step: step == 0,  # Grava o vídeo a partir do passo 0
        video_length=video_length,                    # Duração do vídeo em passos
        name_prefix=prefix,                           # Prefixo para o nome do arquivo de vídeo
    )

    # Reinicia o ambiente e obtém a observação inicial
    obs = eval_env.reset()
    for _ in range(video_length):
        # Prediz a próxima ação usando o modelo treinado, sem ser determinístico
        action, _ = model.predict(obs, deterministic=False)
        # Toma a ação no ambiente
        obs, _, _, _ = eval_env.step(action)

    # Fecha o gravador de vídeo
    eval_env.close()


# Visualizando o agente treinado

In [11]:
!pip install ffmpeg #Instala o pacote ffmpeg, necessário para manipulação de vídeo



In [16]:
# Grava um vídeo da interação do agente DQN com o ambiente "MountainCar-v0"
record_video("MountainCar-v0", dqn_model, video_length=500, prefix="dqn-mountaincar")

In [18]:
show_videos("videos", prefix="dqn") # carregando o video final

# Biblioteca para baixar o notebook como Latex

In [1]:
!pip install pandoc

Collecting pandoc
  Downloading pandoc-2.3.tar.gz (33 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting plumbum
  Downloading plumbum-1.8.3-py3-none-any.whl (127 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.6/127.6 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Building wheels for collected packages: pandoc
  Building wheel for pandoc (setup.py) ... [?25ldone
[?25h  Created wheel for pandoc: filename=pandoc-2.3-py3-none-any.whl size=33262 sha256=d3c0a22aa845af0f3d162b3765e14268b3f819dc082ee29dba98b82c749bb88d
  Stored in directory: /Users/bruna/Library/Caches/pip/wheels/69/e6/a1/1daa96d919c9e09a71473649b717b8da286f3f8d7719d1cfc5
Successfully built pandoc
Installing collected packages: plumbum, pandoc
Successfully installed pandoc-2.3 plumbum-1.8.3
