<a href="https://colab.research.google.com/github/jsansao/AprendizadoReforco/blob/main/Licao1_RL_Q_Learning_FrozenLake.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ü§ñ Aprendizado por Refor√ßo: Q-Learning com FrozenLake

Este √© um notebook para demonstrar o **Q-Learning Tabular**, um dos algoritmos fundamentais de Aprendizado por Refor√ßo.

Vamos treinar um agente para navegar no ambiente "FrozenLake" (Lago Congelado) da biblioteca `Gymnasium` (a sucessora do `Gym`).

**O Objetivo:**
O agente come√ßa no estado 'S' (Start) e precisa chegar ao estado 'G' (Goal/Frisbee), evitando os 'H' (Holes/Buracos).

```
S F F F
F H F H
F F F H
H F F G
```

* **S**: Start (In√≠cio)
* **F**: Frozen (Congelado - seguro)
* **H**: Hole (Buraco - fim de jogo)
* **G**: Goal (Objetivo - vit√≥ria)


## Etapa 1: Instalar e Importar as Bibliotecas

Precisamos de:
* `gymnasium`: Para o ambiente (o jogo).
* `numpy`: Para criar e gerenciar nossa Q-Table.
* `random`: Para a explora√ß√£o.

In [None]:
!pip install gymnasium



In [None]:
import gymnasium as gym
import numpy as np
import random
import time

## Etapa 2: Configurar o Ambiente

Vamos carregar o ambiente. Usaremos `is_slippery=False` para tornar o problema determin√≠stico por enquanto (se voc√™ mandar ir para 'direita', ele vai para 'direita'). Isso torna o aprendizado mais f√°cil de visualizar.

O modo `render_mode='ansi'` nos permite imprimir o jogo no console.

In [None]:
env = gym.make('FrozenLake-v1', is_slippery=False, render_mode='ansi')

# Resetar o ambiente para o estado inicial
estado_inicial, info = env.reset()

# Mostrar o estado inicial
print("---- O Ambiente Inicial ----")
print(env.render())

# Espa√ßos de A√ß√£o e Estado
num_estados = env.observation_space.n
num_acoes = env.action_space.n

print(f"N√∫mero de estados: {num_estados}")
print(f"N√∫mero de a√ß√µes: {num_acoes}")
print("A√ß√µes: 0=Esquerda, 1=Baixo, 2=Direita, 3=Cima")

---- O Ambiente Inicial ----

[41mS[0mFFF
FHFH
FFFH
HFFG

N√∫mero de estados: 16
N√∫mero de a√ß√µes: 4
A√ß√µes: 0=Esquerda, 1=Baixo, 2=Direita, 3=Cima


## Etapa 3: Inicializar a Q-Table

Aqui est√° o "c√©rebro" do nosso agente. √â uma tabela (matriz) com `(n√∫mero de estados) x (n√∫mero de a√ß√µes)`.

Vamos inicializar todos os valores Q(s, a) como zero.

In [None]:
q_table = np.zeros((num_estados, num_acoes))

print("---- Q-Table Inicial (Tudo Zero) ----")
print(q_table)

---- Q-Table Inicial (Tudo Zero) ----
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


## Etapa 4: Definir os Hiperpar√¢metros

Estes s√£o os "knobs" que ajustamos para o treinamento:

In [None]:
# Taxa de aprendizado (Alpha)
# Qu√£o r√°pido o agente aprende com novas informa√ß√µes.
alpha = 0.1

# Fator de desconto (Gamma)
# O qu√£o importantes s√£o as recompensas futuras (0 = s√≥ importa o agora, 1 = futuro √© t√£o bom quanto).
gamma = 0.99

# Taxa de explora√ß√£o (Epsilon)
# Chance de o agente tomar uma a√ß√£o aleat√≥ria (explorar) vs. a melhor a√ß√£o que ele conhece (explorar).
epsilon_inicial = 1.0       # Come√ßa 100% aleat√≥rio
epsilon_min = 0.01          # M√≠nimo de 1% aleat√≥rio
taxa_decaimento_epsilon = 0.001 # Taxa que o epsilon diminui
epsilon = epsilon_inicial

# N√∫mero total de epis√≥dios (jogos) que vamos jogar para treinar
num_episodios = 20000

## Etapa 5: O Loop de Treinamento (Q-Learning)

Aqui est√° o cora√ß√£o do algoritmo, que segue a **Equa√ß√£o de Bellman**:

`Q(s, a) = Q(s, a) + Œ± * [R + Œ≥ * max(Q(s', a')) - Q(s, a)]`

Em portugu√™s:
`Novo_Valor_Q = Valor_Antigo + Taxa_Aprendizado * [Recompensa + Desconto * Valor_M√°ximo_Futuro - Valor_Antigo]`

In [None]:
print("Iniciando o treinamento...")

for episodio in range(num_episodios):
    # 1. Resetar o ambiente para um novo jogo
    estado, info = env.reset()
    terminado = False
    truncado = False

    while not terminado and not truncado:
        # 2. Decidir A√ß√£o (Explora√ß√£o vs. Explota√ß√£o)
        if random.uniform(0, 1) < epsilon:
            acao = env.action_space.sample()  # A√ß√£o aleat√≥ria (Explora√ß√£o)
        else:
            acao = np.argmax(q_table[estado, :]) # Melhor a√ß√£o conhecida (Explota√ß√£o)

        # 3. Tomar a A√ß√£o e observar o resultado
        novo_estado, recompensa, terminado, truncado, info = env.step(acao)

        # 4. Atualizar a Q-Table (Equa√ß√£o de Bellman)
        valor_antigo = q_table[estado, acao]
        valor_max_futuro = np.max(q_table[novo_estado, :])

        # A f√≥rmula principal do Q-Learning
        novo_valor_q = valor_antigo + alpha * (recompensa + gamma * valor_max_futuro - valor_antigo)

        q_table[estado, acao] = novo_valor_q

        # 5. Atualizar o estado
        estado = novo_estado

    # Atualizar o Epsilon (Decaimento Exponencial)
    # O agente explora menos √† medida que aprende mais
    epsilon = epsilon_min + (epsilon_inicial - epsilon_min) * np.exp(-taxa_decaimento_epsilon * episodio)

    if (episodio + 1) % 5000 == 0:
        print(f"Epis√≥dio {episodio + 1}/{num_episodios} conclu√≠do. Epsilon: {epsilon:.4f}")

print("Treinamento Conclu√≠do!")

Iniciando o treinamento...
Epis√≥dio 5000/20000 conclu√≠do. Epsilon: 0.0167
Epis√≥dio 10000/20000 conclu√≠do. Epsilon: 0.0100
Epis√≥dio 15000/20000 conclu√≠do. Epsilon: 0.0100
Epis√≥dio 20000/20000 conclu√≠do. Epsilon: 0.0100
Treinamento Conclu√≠do!


## Etapa 6: Ver a Q-Table Treinada

Vamos ver o que o agente aprendeu. Cada linha √© um estado (0-15), e cada coluna uma a√ß√£o (E, B, D, C).

Os valores mais altos indicam a a√ß√£o "preferida" do agente em cada estado.

In [None]:
print("---- Q-Table Final ----")
print(q_table)

---- Q-Table Final ----
[[0.94148015 0.95099005 0.93206535 0.94148015]
 [0.94148015 0.         0.79365997 0.86000295]
 [0.90193369 0.12759019 0.15175136 0.2207541 ]
 [0.44413131 0.         0.00396355 0.03690548]
 [0.95099005 0.96059601 0.         0.94148015]
 [0.         0.         0.         0.        ]
 [0.         0.88202222 0.         0.25169222]
 [0.         0.         0.         0.        ]
 [0.96059601 0.         0.970299   0.95099005]
 [0.960596   0.9801     0.9801     0.        ]
 [0.94687332 0.99       0.         0.67598215]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.         0.98009999 0.99       0.97029898]
 [0.98009999 0.98999997 1.         0.9801    ]
 [0.         0.         0.         0.        ]]


## Etapa 7: Avaliar o Agente Treinado

Agora, vamos desligar a explora√ß√£o (`epsilon = 0`) e ver como o agente se sai em 10 jogos.

In [None]:
num_jogos_teste = 10
vitorias = 0
frames = [] # Para armazenar os frames da anima√ß√£o

print("Iniciando testes com o agente treinado...")

for jogo in range(num_jogos_teste):
    estado, info = env.reset()
    terminado = False
    truncado = False
    passos = 0
    print(f"--- Jogo de Teste {jogo + 1} ---")

    while not terminado and not truncado:
        # Sempre escolher a MELHOR a√ß√£o (sem explora√ß√£o)
        acao = np.argmax(q_table[estado, :])

        novo_estado, recompensa, terminado, truncado, info = env.step(acao)

        # Renderizar e salvar o frame
        frame = env.render()
        print(frame)
        print(f"Passo: {passos+1}, A√ß√£o: {acao}")
        time.sleep(0.2) # Pausa para podermos assistir

        estado = novo_estado
        passos += 1

        if recompensa == 1.0:
            print("Vit√≥ria! üèÜ")
            vitorias += 1
        elif terminado:
            print("Caiu no buraco... üï≥Ô∏è")

print(f"\nTaxa de vit√≥ria em {num_jogos_teste} jogos: {vitorias / num_jogos_teste * 100}%")
env.close()

Iniciando testes com o agente treinado...
--- Jogo de Teste 1 ---
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG

Passo: 1, A√ß√£o: 1
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG

Passo: 2, A√ß√£o: 1
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG

Passo: 3, A√ß√£o: 2
  (Down)
SFFF
FHFH
FFFH
H[41mF[0mFG

Passo: 4, A√ß√£o: 1
  (Right)
SFFF
FHFH
FFFH
HF[41mF[0mG

Passo: 5, A√ß√£o: 2
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m

Passo: 6, A√ß√£o: 2
Vit√≥ria! üèÜ
--- Jogo de Teste 2 ---
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG

Passo: 1, A√ß√£o: 1
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG

Passo: 2, A√ß√£o: 1
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG

Passo: 3, A√ß√£o: 2
  (Down)
SFFF
FHFH
FFFH
H[41mF[0mFG

Passo: 4, A√ß√£o: 1
  (Right)
SFFF
FHFH
FFFH
HF[41mF[0mG

Passo: 5, A√ß√£o: 2
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m

Passo: 6, A√ß√£o: 2
Vit√≥ria! üèÜ
--- Jogo de Teste 3 ---
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG

Passo: 1, A√ß√£o: 1
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG

Passo: 2, A√ß√£o: 1
  (Right)
SFFF
FHFH
F[4

## Pr√≥ximos Passos (Desafios)

1.  **Tente com `is_slippery=True`:** No modo "escorregadio", o agente tem ~33% de chance de ir para uma dire√ß√£o diferente da que ele escolheu. Isso torna o problema muito mais dif√≠cil e realista. Ser√° que o Q-Learning ainda funciona?

2.  **Ajuste os Hiperpar√¢metros:** Tente mudar `alpha`, `gamma` e a `taxa_decaimento_epsilon`. Como isso afeta a velocidade e a qualidade do treinamento?

3.  **Problemas Maiores:** O Q-Learning Tabular funciona bem para 16 estados. Mas e se tiv√©ssemos 16 *milh√µes* de estados (como no Atari)? A tabela fica grande demais.

√â a√≠ que entra o **Deep Q-Network (DQN)** que vimos na aula: substitu√≠mos a *tabela* por uma *Rede Neural*.