# Exemplo de Aprendizado por Reforço com Q-Learning

## O que é **Aprendizado por Reforço**?
O agente (como um robô ou programa) aprende a tomar decisões através de **tentativa e erro**, recebendo **recompensas** ou **penalidades**.

## Exemplo: Labirinto Simples
Vamos criar um labirinto 4x4 onde o agente deve sair da posição (0,0) e chegar ao destino (3,3).

### Passos do Código:
1. Definir o labirinto e as recompensas.
2. Implementar o algoritmo Q-Learning.
3. Treinar o agente e visualizar a política aprendida.


In [None]:
# Importar bibliotecas
import numpy as np

# Configurações do labirinto
n_linhas = 4
n_colunas = 4
destino = (3, 3)

# Tabela Q (inicializada com zeros)
Q = np.zeros((n_linhas, n_colunas, 4))  # 4 ações: cima, baixo, esquerda, direita

# Parâmetros do Q-Learning
alpha = 0.1  # Taxa de aprendizado
gamma = 0.9  # Fator de desconto
episodios = 1000

# Simulação
for _ in range(episodios):
    estado = (0, 0)  # Estado inicial
    while estado != destino:
        acao = np.random.randint(0, 4)  # Escolha aleatória (exploração)
        prox_linha, prox_coluna = estado
        
        if acao == 0: prox_linha -= 1  # Cima
        elif acao == 1: prox_linha += 1  # Baixo
        elif acao == 2: prox_coluna -= 1  # Esquerda
        else: prox_coluna += 1  # Direita
        
        # Limitar movimentos dentro do labirinto
        prox_linha = max(0, min(prox_linha, n_linhas - 1))
        prox_coluna = max(0, min(prox_coluna, n_colunas - 1))
        
        # Recompensa: +10 se chegar ao destino, -1 caso contrário
        recompensa = 10 if (prox_linha, prox_coluna) == destino else -1
        
        # Atualizar tabela Q
        Q[estado][acao] += alpha * (recompensa + gamma * np.max(Q[prox_linha, prox_coluna]) - Q[estado][acao])
        estado = (prox_linha, prox_coluna)

# Política ótima (melhor ação por estado)
politica = np.argmax(Q, axis=2)
print("Política aprendida (0=Cima, 1=Baixo, 2=Esquerda, 3=Direita):")
print(politica)
