## Neste notebook, voc√™ codificar√° do zero seu primeiro agente de Reinforcement Learning jogando FrozenLake ‚ùÑÔ∏è usando Q-Learning


Adaptado HuggingFace

<img src="https://www.gymlibrary.dev/_images/frozen_lake.gif" alt="Environments"/>

###üéÆ Environments:

>

- [FrozenLake-v1](https://www.gymlibrary.dev/environments/toy_text/frozen_lake/)


###üìö RL-Library:

- Python and NumPy
- [Gym](https://www.gymlibrary.dev/)

## Pequena revis√£o de Q-Learning

- O *Q-Learning* **√© o algoritmo RL que**

   - Treina *Q-Function*, uma **fun√ß√£o a√ß√£o-valor (action-value function)** que cont√©m, como mem√≥ria interna, uma *Q-table* **que cont√©m todos os valores do par estado-a√ß√£o.**

   - Dado um estado e uma a√ß√£o, nossa Q-Function **pesquisar√° em sua Q-table o valor correspondente.**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-function-2.jpg" alt="Q function"  width="100%"/>

- Quando o treinamento √© conclu√≠do,**temos uma Fun√ß√£o-Q ideal, portanto, uma Tabela-Q ideal.**

- E se **tivermos uma fun√ß√£o Q √≥tima**,
ter uma pol√≠tica ideal, pois **sabemos para cada estado qual √© a melhor a√ß√£o a ser tomada.**

Mas, no come√ßo, nossa **Q-Table √© in√∫til, pois fornece um valor arbitr√°rio para cada par estado-a√ß√£o (na maioria das vezes, inicializamos a Q-Table com valores 0)**. Mas, conforme vamos explorando o ambiente e atualizando nosso Q-Table, ele nos dar√° aproxima√ß√µes cada vez melhores

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/q-learning.jpeg" alt="q-learning.jpeg" width="100%"/>

This is the Q-Learning pseudocode:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>


# Let's code our first Reinforcement Learning algorithm üöÄ

In [1]:
import gymnasium as gym

# O modo 'human' abre uma janela nativa no Windows
env = gym.make("CartPole-v1", render_mode="human")
env.reset()

(array([ 0.02533983,  0.04777611,  0.00611492, -0.00021378], dtype=float32),
 {})

In [34]:
import numpy as np
import gymnasium as gym
import random
import os
import tqdm
import imageio

import pickle as pickle
# from tqdm.notebook import tqdm
from tqdm import tqdm

In [3]:
env = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False)

In [4]:
print("_____OBSERVATION SPACE_____ \n")
print("Observation Space", env.observation_space)
print("Sample observation", env.observation_space.sample()) # Get a random observation

_____OBSERVATION SPACE_____ 

Observation Space Discrete(16)
Sample observation 2


In [10]:
print("\n _____ACTION SPACE_____ \n")
print("Action Space Shape", env.action_space.n)
print("Action Space Sample", env.action_space.sample()) # Take a random action


 _____ACTION SPACE_____ 

Action Space Shape 4
Action Space Sample 3


In [11]:
state_space = env.observation_space.n
print("There are ", state_space, " possible states")

action_space = env.action_space.n
print("There are ", action_space, " possible actions")

There are  16  possible states
There are  4  possible actions


In [12]:
# Vamos criar nossa Qtable de tamanho (state_space, action_space) e inicializar cada valor em 0 usando np.zeros
def initialize_q_table(state_space, action_space):
  Qtable = np.zeros((state_space, action_space))
  return Qtable

In [22]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

Qtable_frozenlake

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

## Defina a pol√≠tica gananciosa ü§ñ
Lembre-se de que temos duas pol√≠ticas, pois o Q-Learning √© um algoritmo **off-policy**. Isso significa que estamos usando uma **pol√≠tica diferente para atuar e atualizar a fun√ß√£o de valor**.

- Pol√≠tica Epsilon-gananciosa (pol√≠tica de atua√ß√£o)
- Greedy-policy (pol√≠tica de atualiza√ß√£o)

A pol√≠tica gananciosa tamb√©m ser√° a pol√≠tica final que teremos quando o agente Q-learning for treinado. A pol√≠tica gulosa √© usada para selecionar uma a√ß√£o da tabela Q.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-4.jpg" alt="Q-Learning" width="100%"/>


In [15]:
def greedy_policy(Qtable, state):
  # Exploitation
  action = np.argmax(Qtable[state][:])

  return action

def epsilon_greedy_policy(Qtable, state, epsilon):
  # Gera aleatoriamente um n√∫mero entre 0 e 1
  random_int = random.uniform(0,1)
  # if random_int > maior que epsilon --> exploitation
  if random_int > epsilon:
     # Execute a a√ß√£o com o maior valor dado um estado
     # np.argmax pode ser √∫til aqui
    action = greedy_policy(Qtable, state)
  # else --> exploration
  else:
    action = env.action_space.sample()

  return action

## Definindo os hiperpar√¢metros ‚öôÔ∏è
Os hiperpar√¢metros relacionados √† explora√ß√£o s√£o alguns dos mais importantes.

- Precisamos garantir que nosso agente **explore o espa√ßo de estados** o suficiente para aprender uma boa aproxima√ß√£o de valor. Para fazer isso, precisamos ter decaimento progressivo do epsilon.
- Se voc√™ diminuir o epsilon muito r√°pido (decay_rate muito alto), **voc√™ corre o risco de que seu agente fique preso**, j√° que seu agente n√£o explorou o espa√ßo de estado o suficiente e, portanto, n√£o pode resolver o problema.

In [21]:
# Par√¢metros de treinamento
n_training_episodes = 10000 # Total de epis√≥dios de treinamento
learning_rate = 0.7 # Taxa de aprendizado

# Par√¢metros de avalia√ß√£o
n_eval_episodes = 100 # N√∫mero total de epis√≥dios de teste

# Par√¢metros do ambiente
env_id = "FrozenLake-v1" # Nome do ambiente
max_steps = 99 # Max passos por epis√≥dio
gamma = 0.95 # Taxa de desconto
eval_seed = [] # A semente de avalia√ß√£o do ambiente

# Par√¢metros de explora√ß√£o
max_epsilon = 1.0 # Probabilidade de explora√ß√£o no in√≠cio
min_epsilon = 0.05 # Probabilidade m√≠nima de explora√ß√£o
decay_rate = 0.0005 # Taxa de decaimento exponencial para prob de explora√ß√£o

## Rotina de Treinamento

O loop de treinamento √© assim:
```
Por epis√≥dio no total de epis√≥dios de treino:

Reduza o epsilon (j√° que precisamos cada vez menos de explora√ß√£o)
Redefinir o ambiente

   Para passo em passos de tempo m√°ximo:
     Escolha a a√ß√£o At usar a pol√≠tica gananciosa do epsilon
     Tome a a√ß√£o (a) e observe o(s) estado(s) resultante(s) e a recompensa (r)
     Atualize o valor Q Q(s,a) usando a equa√ß√£o de Bellman Q(s,a) + lr [R(s,a) + gama * max Q(s',a') - Q(s,a)]
     Se terminar, termine o epis√≥dio
     Nosso pr√≥ximo estado √© o novo estado
```

In [26]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # Reduzir epsilon (exploration vs exploitation)
    epsilon = min_epsilon + (max_epsilon - min_epsilon) * np.exp(-decay_rate * episode)

    # 1. AJUSTE AQUI: O reset no Gymnasium retorna 'state' e 'info'
    state, info = env.reset()

    # repete para cada passo dentro do epis√≥dio
    for step in range(max_steps):
      # Escolha a a√ß√£o usando a epsilon greedy policy
      action = epsilon_greedy_policy(Qtable, state, epsilon)

      # 2. Executa a a√ß√£o no ambiente (j√° estava certo com 5 vari√°veis)
      new_state, reward, terminated, truncated, info = env.step(action)

      # 3. AJUSTE AQUI: Atualiza a vari√°vel 'done' combinando terminated e truncated
      done = terminated or truncated

      # Update Q(s,a) := Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
      # (Garantindo que learning_rate e gamma estejam definidos globalmente no seu notebook)
      Qtable[state][action] = Qtable[state][action] + learning_rate * (reward + gamma * np.max(Qtable[new_state]) - Qtable[state][action])

      # Verifica se o epis√≥dio acabou (caiu no buraco, pegou o frisbee ou estourou o limite de tempo)
      if done:
        break

      # Atualiza o estado atual para o pr√≥ximo passo
      state = new_state

  return Qtable

## Treinando o agente Q-Learning üèÉ

In [27]:
Qtable_frozenlake = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_frozenlake)


  0%|          | 0/10000 [00:00<?, ?it/s][A
  9%|‚ñä         | 871/10000 [00:00<00:01, 8696.41it/s][A
 18%|‚ñà‚ñä        | 1838/10000 [00:00<00:00, 9267.99it/s][A
 29%|‚ñà‚ñà‚ñâ       | 2925/10000 [00:00<00:00, 9997.64it/s][A
 40%|‚ñà‚ñà‚ñà‚ñà      | 4041/10000 [00:00<00:00, 10443.25it/s][A
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 5227/10000 [00:00<00:00, 10887.02it/s][A
 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 6316/10000 [00:00<00:00, 10886.06it/s][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 7405/10000 [00:00<00:00, 10610.77it/s][A
 86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8575/10000 [00:00<00:00, 10933.24it/s][A
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:00<00:00, 10256.99it/s][A


In [28]:
Qtable_frozenlake

array([[0.73509189, 0.77378094, 0.77378094, 0.73509189],
       [0.73509189, 0.        , 0.81450625, 0.77378094],
       [0.77378094, 0.857375  , 0.77378094, 0.81450625],
       [0.81450625, 0.        , 0.77378094, 0.77378094],
       [0.77378094, 0.81450625, 0.        , 0.73509189],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.        , 0.81450625],
       [0.        , 0.        , 0.        , 0.        ],
       [0.81450625, 0.        , 0.857375  , 0.77378094],
       [0.81450625, 0.9025    , 0.9025    , 0.        ],
       [0.857375  , 0.95      , 0.        , 0.857375  ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.95      , 0.857375  ],
       [0.9025    , 0.95      , 1.        , 0.9025    ],
       [0.        , 0.        , 0.        , 0.        ]])

## Avalia√ß√£o do M√©todo üìù

- Definimos o m√©todo de avalia√ß√£o que vamos usar para testar nosso agente Q-Learning.

In [31]:
def evaluate_agent(env, max_steps, n_eval_episodes, Q, seed):
  """
   Avalie o agente para epis√≥dios ``n_eval_episodes`` e retorne recompensa m√©dia e desvio padr√£o de recompensa.
   :param env: O ambiente de avalia√ß√£o
   :param n_eval_episodes: N√∫mero de epis√≥dios para avaliar o agente
   :param Q: A tabela Q
   :param seed: A matriz de sementes de avalia√ß√£o (para taxi-v3)
   """
  episode_rewards = []
  for episode in tqdm(range(n_eval_episodes)):
    # 1. AJUSTE AQUI: Desempacotar 'state' e 'info' do reset, com ou sem seed
    if seed:
      state, info = env.reset(seed=seed[episode])
    else:
      state, info = env.reset()

    step = 0
    done = False
    total_rewards_ep = 0

    for step in range(max_steps):
      # Tome a a√ß√£o (√≠ndice) que tem a recompensa futura m√°xima esperada dado aquele estado
      action = greedy_policy(Q, state)

      # 2. AJUSTE AQUI: Receber as 5 vari√°veis do Gymnasium
      new_state, reward, terminated, truncated, info = env.step(action)

      # 3. AJUSTE AQUI: Atualizar o status de 'done'
      done = terminated or truncated

      total_rewards_ep += reward

      if done:
        break

      state = new_state

    episode_rewards.append(total_rewards_ep)

  mean_reward = np.mean(episode_rewards)
  std_reward = np.std(episode_rewards)

  return mean_reward, std_reward

## Avaliando nosso agente Q-Learning üìà

- Normalmente, voc√™ deve ter uma recompensa m√©dia de 1,0
- O **ambiente √© relativamente f√°cil** j√° que o espa√ßo de estados √© muito pequeno (16). O que voc√™ pode tentar fazer √© [substitu√≠-lo pela vers√£o escorregadia](https://www.gymlibrary.dev/environments/toy_text/frozen_lake/), que introduz estocasticidade, tornando o ambiente mais complexo.

In [32]:
# Evaluate our Agent
mean_reward, std_reward = evaluate_agent(env, max_steps, n_eval_episodes, Qtable_frozenlake, eval_seed)
print(f"Mean_reward={mean_reward:.2f} +/- {std_reward:.2f}")


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 100/100 [00:00<00:00, 29595.71it/s]

Mean_reward=1.00 +/- 0.00





In [39]:
def record_video(env, Qtable, out_directory, fps=1):
  """
   Gerar um v√≠deo de replay do agente
   :param env: O ambiente criado com render_mode='rgb_array'
   :param Qtable: Qtable do nosso agente
   :param out_directory: Caminho para salvar o v√≠deo (ex: 'replay.mp4')
   :param fps: quantos quadros por segundo (com taxi-v3 e frozenlake-v1 usamos 1)
   """
  images = []
  done = False

  # 1. AJUSTE: Desempacotar state e info no reset
  state, info = env.reset(seed=random.randint(0,500))

  # 2. AJUSTE: O Gymnasium moderno n√£o usa mais mode='' aqui.
  img = env.render()
  images.append(img)

  while not done:
    # Tome a a√ß√£o (√≠ndice) que tem a recompensa futura m√°xima esperada dado aquele estado
    action = np.argmax(Qtable[state][:])

    # 3. AJUSTE: Receber as 5 vari√°veis do step
    state, reward, terminated, truncated, info = env.step(action)
    done = terminated or truncated

    img = env.render()
    images.append(img)

  # Salvar o v√≠deo
  imageio.mimsave(out_directory, [np.array(img) for i, img in enumerate(images)], fps=fps)

In [40]:
# 1. Crie um NOVO ambiente com o render_mode="rgb_array"
# (Aten√ß√£o: ajuste o map_name e is_slippery para ficarem iguais ao do seu treino)
env_video = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False, render_mode="rgb_array")

# 2. Defina o nome do arquivo
video_path = "replay.mp4"

# 3. Grave o v√≠deo passando o novo ambiente (env_video)
# Dica: Use fps=1. Valores quebrados como 0.5 podem dar erro em alguns geradores de v√≠deo do Windows.
record_video(env_video, Qtable_frozenlake, video_path, fps=1)

# 4. Feche o ambiente ap√≥s gravar para liberar a mem√≥ria
env_video.close()

print("V√≠deo gravado com sucesso!")

V√≠deo gravado com sucesso!
