
# Capítulo 8 — Introdução ao Aprendizado por Reforço (Q-Learning tabular)

**Curso:** CECIERJ – IA e ML para Soluções Práticas  
**Objetivo:** entender conceitos de **agente, ambiente, estados, ações, recompensas** e implementar um exemplo prático simples de **Q-Learning tabular**.

---
## Conceitos básicos
- **Agente**: quem aprende e toma decisões.  
- **Ambiente**: onde o agente interage.  
- **Estado (s)**: representação da situação atual.  
- **Ações (a)**: escolhas possíveis do agente.  
- **Recompensa (r)**: feedback recebido após ação.  
- **Política (π)**: estratégia do agente (qual ação escolher).  
- **Q-Learning**: algoritmo que aprende a função de valor de ação (Q(s,a)).



## Nosso ambiente didático
- Linha de 0 até `N-1` (grid 1D).  
- Estado inicial = 0.  
- Objetivo = alcançar o estado final (N-1).  
- Ações: esquerda (0) ou direita (1).  
- Recompensa: +1 ao chegar no final, -0.01 a cada passo.  


In [None]:

import random

N = 10   # número de estados
terminal = N-1
actions = [0,1]  # 0 = esquerda, 1 = direita

def step(s, a):
    if a == 1:  # direita
        s2 = min(s+1, terminal)
    else:       # esquerda
        s2 = max(s-1, 0)
    r = 1.0 if s2 == terminal else -0.01
    done = (s2 == terminal)
    return s2, r, done

# Teste rápido do ambiente
print(step(0,1))  # do estado 0, ação direita


In [None]:

import numpy as np

Q = np.zeros((N, len(actions)))

alpha, gamma, eps = 0.1, 0.95, 0.1
episodes = 500

for ep in range(episodes):
    s, done = 0, False
    while not done:
        if random.random() < eps:
            a = random.choice(actions)
        else:
            a = np.argmax(Q[s])
        s2, r, done = step(s, a)
        Q[s,a] += alpha * (r + gamma*np.max(Q[s2]) - Q[s,a])
        s = s2

print("Q-table aprendida (primeiros estados):")
print(Q[:5])


In [None]:

s, path = 0, [0]
while s != terminal and len(path) < 50:
    a = np.argmax(Q[s])
    s, _, _ = step(s, a)
    path.append(s)
print("Caminho aprendido:", path)


In [None]:

import joblib
save_path = "/mnt/data/modelo_cap8_qtable.joblib"
joblib.dump(Q, save_path)
print("Q-table salva em:", save_path)



---
## Conclusões
- O agente aprendeu a **ir para a direita** até alcançar o objetivo (estado final).  
- Q-Learning ajusta valores Q(s,a) iterativamente com base em experiências.  
- Conceitos mostrados aqui são base para problemas reais (ex.: jogos, logística, robótica).  
- Em aplicações reais, estados/ações são muito maiores → usamos **aproximação por redes neurais (Deep RL)**.
