# ü§ñ Demonstra√ß√£o Avan√ßada de Agentes com Gymnasium (Padr√£o OpenAI)

Este notebook atende √† solicita√ß√£o de usar uma biblioteca de agentes mais sofisticada e f√°cil de usar, padr√£o na ind√∫stria de IA. Usaremos a **Gymnasium**, a sucessora da famosa biblioteca `Gym` da OpenAI.

**O que faremos de diferente:**
1.  **Criaremos nosso pr√≥prio Ambiente:** Modelaremos o "Mundo do Aspirador de P√≥" como um ambiente customizado na Gymnasium. Isso √© fundamental para aplicar IA a problemas novos.
2.  **Implementaremos os Agentes:** Mostraremos como cada tipo de agente (Simples de Reflexo, Baseado em Modelo e de Aprendizado) interage com este ambiente padronizado.

Isso conecta a teoria dos slides diretamente com a pr√°tica moderna de Aprendizado por Refor√ßo (RL).

## ‚öôÔ∏è 1. Prepara√ß√£o: Instala√ß√£o das Bibliotecas

Precisamos da `gymnasium` para criar o ambiente e da `numpy` para nos ajudar com a tabela do agente de aprendizado.

In [None]:
!pip install gymnasium numpy

## üß± 2. Construindo o Ambiente do Aspirador de P√≥

Para que um agente possa interagir, primeiro precisamos definir as 'regras do jogo'. Um ambiente na Gymnasium precisa ter:

- **Espa√ßo de A√ß√µes (`action_space`):** Quais a√ß√µes o agente pode tomar?
  - `0`: Ir para a Esquerda
  - `1`: Ir para a Direita
  - `2`: Aspirar
- **Espa√ßo de Observa√ß√µes (`observation_space`):** O que o agente pode 'ver' do ambiente?
  - Vamos definir os estados poss√≠veis: `(Localiza√ß√£o, Status de A, Status de B)`
- **Fun√ß√£o `reset()`:** Reinicia o ambiente para um estado inicial.
- **Fun√ß√£o `step(action)`:** Executa uma a√ß√£o, atualiza o ambiente e retorna a nova observa√ß√£o, a recompensa, e se o epis√≥dio terminou.

In [None]:
import gymnasium as gym
from gymnasium import spaces
import numpy as np
import random

class VacuumCleanerEnv(gym.Env):
    """Ambiente customizado do Aspirador de P√≥ seguindo a interface da Gymnasium."""
    
    def __init__(self):
        super(VacuumCleanerEnv, self).__init__()
        
        # Definir o espa√ßo de a√ß√µes: 0: Esquerda, 1: Direita, 2: Aspirar
        self.action_space = spaces.Discrete(3)
        
        # Definir o espa√ßo de observa√ß√£o: [localiza√ß√£o (0=A, 1=B), status_A (0=Limpo, 1=Sujo), status_B]
        self.observation_space = spaces.MultiDiscrete([2, 2, 2])
        
        self.state = None

    def reset(self, seed=None, options=None):
        super().reset(seed=seed)
        # Estado inicial aleat√≥rio para melhor treinamento
        self.state = self.observation_space.sample()
        return np.array(self.state), {}

    def step(self, action):
        location, status_A, status_B = self.state
        reward = -1  # Custo de -1 para cada a√ß√£o (incentiva a efici√™ncia)
        
        if action == 0: # Ir para a Esquerda
            self.state[0] = 0 # Vai para A
        elif action == 1: # Ir para a Direita
            self.state[0] = 1 # Vai para B
        elif action == 2: # Aspirar
            if location == 0 and status_A == 1: # Se est√° em A e A est√° sujo
                self.state[1] = 0 # Limpa A
                reward = 10 # Recompensa grande por limpar
            elif location == 1 and status_B == 1: # Se est√° em B e B est√° sujo
                self.state[2] = 0 # Limpa B
                reward = 10 # Recompensa grande por limpar
            else:
                reward = -5 # Penalidade por tentar aspirar um local limpo
        
        # O epis√≥dio termina quando ambos os locais est√£o limpos
        terminated = (self.state[1] == 0 and self.state[2] == 0)
        
        return np.array(self.state), reward, terminated, False, {}

    def render(self, mode='human'):
        print("Estado atual:",self.state)
        location, status_A, status_B = self.state
        sala_a = "(A, Sujo)" if status_A == 1 else "(A, Limpo)"
        sala_b = "(B, Sujo)" if status_B == 1 else "(B, Limpo)"
        
        if location == 0:
            print(f"[*] {sala_a}  |  {sala_b}")
        else:
            print(f"  {sala_a}  |  [*] {sala_b}")

# Testando se o ambiente funciona
env = VacuumCleanerEnv()


---

## üß† 3. Agente Simples de Reflexo

Este agente √© uma pol√≠tica "hard-coded". Ele n√£o aprende e n√£o tem mem√≥ria. Ele simplesmente mapeia uma observa√ß√£o (`state`) para uma a√ß√£o, seguindo regras fixas.

In [None]:
def simple_reflex_policy(observation):
    """Define a pol√≠tica de um agente simples de reflexo."""
    location, status_A, status_B = observation
    
    # Se o local atual est√° sujo, aspire
    if location == 0 and status_A == 1:
        return 2 # Aspirar
    if location == 1 and status_B == 1:
        return 2 # Aspirar
    
    # Se o local atual est√° limpo, mova-se
    if location == 0:
        return 1 # Ir para a Direita
    else:
        return 0 # Ir para a Esquerda

# Executando o agente simples
print("Executando Agente Simples de Reflexo:")
observation, info = env.reset()
terminated = False
total_reward = 0

while not terminated:
    env.render()
    action = simple_reflex_policy(observation)
    observation, reward, terminated, _, _ = env.step(action)
    total_reward += reward
    print(f"A√ß√£o Tomada: {['Esquerda', 'Direita', 'Aspirar'][action]} | Recompensa: {reward}")

print("\nTarefa conclu√≠da!")
env.render()
print(f"Recompensa Total: {total_reward}")

---

## üìù 4. Agente de Reflexo Baseado em Modelo

Este agente √© um pouco mais inteligente. Ele constr√≥i um **modelo interno** do mundo para evitar a√ß√µes desnecess√°rias. Por exemplo, se ele j√° sabe que a sala A est√° limpa, ele n√£o precisa ir at√© l√° para verificar novamente.

In [None]:
class ModelBasedAgent:
    def __init__(self):
        # O modelo armazena o que o agente sabe sobre o mundo
        # None = Desconhecido, 0 = Limpo, 1 = Sujo
        self.model = {'A': None, 'B': None}
    
    def choose_action(self, observation):
        location, status_A, status_B = observation
        
        # Atualiza o modelo com a percep√ß√£o atual
        self.model['A'] = status_A
        self.model['B'] = status_B
        
        print(f"Modelo interno do agente: {self.model}")
        
        # Se o local atual est√° sujo, aspire
        if location == 0 and status_A == 1:
            return 2 # Aspirar
        if location == 1 and status_B == 1:
            return 2 # Aspirar
            
        # Se o local atual est√° limpo, verifique o modelo para decidir para onde ir
        if location == 0: # Estou em A, que est√° limpo
            if self.model['B'] != 0: # Se n√£o sei que B est√° limpo, vou para l√°
                return 1 # Direita
        else: # Estou em B, que est√° limpo
            if self.model['A'] != 0: # Se n√£o sei que A est√° limpo, vou para l√°
                return 0 # Esquerda
        
        # Se ambos os locais s√£o conhecidos como limpos, a tarefa terminou (o loop principal vai parar)
        return random.choice([0,1]) # A√ß√£o padr√£o se n√£o h√° mais o que fazer

# Executando o agente baseado em modelo
print("Executando Agente Baseado em Modelo:")
agent = ModelBasedAgent()
observation, info = env.reset()
terminated = False

while not terminated:
    env.render()
    action = agent.choose_action(observation)
    observation, reward, terminated, _, _ = env.step(action)
    print(f"A√ß√£o Tomada: {['Esquerda', 'Direita', 'Aspirar'][action]}")
    
print("\nTarefa conclu√≠da!")
env.render()

---

## üéì 5. Agente Baseado em Aprendizado (Q-Learning)

Este √© o agente mais avan√ßado. Ele n√£o tem nenhuma regra pr√©-definida. Ele **aprende** a melhor pol√≠tica de a√ß√µes por tentativa e erro, usando as recompensas do ambiente. Usaremos o algoritmo Q-Learning, conforme a f√≥rmula do slide 49. 

$$Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)]$$

O estado `s` aqui ser√° um n√∫mero √∫nico para cada uma das 8 combina√ß√µes de observa√ß√£o `(loc, stat_A, stat_B)`.

In [None]:
# Hiperpar√¢metros para o treinamento
num_episodes = 10
learning_rate = 0.1 # Alpha
discount_factor = 0.99 # Gamma
epsilon = 1.0 # Probabilidade de explora√ß√£o (come√ßa alta)
min_epsilon = 0.05
epsilon_decay_rate = 0.9995

# A tabela Q ter√° uma linha para cada estado e uma coluna para cada a√ß√£o.
# Como nosso espa√ßo de observa√ß√£o √© [2, 2, 2], temos 2*2*2 = 8 estados poss√≠veis.
q_table = np.zeros((env.observation_space.nvec.prod(), env.action_space.n))

def observation_to_state(obs):
    """Converte um array de observa√ß√£o [l, sA, sB] em um √∫nico inteiro."""
    return obs[0] * 4 + obs[1] * 2 + obs[2]

print("Iniciando o treinamento do Agente Q-Learning...")

# Loop de treinamento
for episode in range(num_episodes):
    observation, info = env.reset()
    state = observation_to_state(observation)
    terminated = False

    while not terminated:
        # Explora√ß√£o vs. Explota√ß√£o (Epsilon-greedy)
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample() # A√ß√£o aleat√≥ria (explorar)
        else:
            action = np.argmax(q_table[state]) # Melhor a√ß√£o conhecida (explorar)
        
        new_observation, reward, terminated, _, _ = env.step(action)
        new_state = observation_to_state(new_observation)
        
        # Atualiza√ß√£o da Tabela Q
        old_value = q_table[state, action]
        next_max = np.max(q_table[new_state])
        
        new_value = (1 - learning_rate) * old_value + learning_rate * (reward + discount_factor * next_max)
        q_table[state, action] = new_value
        
        state = new_state
    
    # Reduzir epsilon para diminuir a explora√ß√£o ao longo do tempo
    if epsilon > min_epsilon:
        epsilon *= epsilon_decay_rate

print("Treinamento Conclu√≠do!")
print(f"Epsilon final: {epsilon:.3f}")

### Avaliando o Agente Treinado

Agora, vamos desativar a explora√ß√£o (`epsilon = 0`) e ver o agente usar a pol√≠tica que aprendeu para resolver o problema de forma √≥tima.

In [None]:
print("\nExecutando o Agente Q-Learning treinado (modo de avalia√ß√£o):")
observation, info = env.reset()
terminated = False
total_reward = 0

while not terminated:
    env.render()
    state = observation_to_state(observation)
    action = np.argmax(q_table[state]) # Sempre escolhe a melhor a√ß√£o
    observation, reward, terminated, _, _ = env.step(action)
    total_reward += reward
    print(f"A√ß√£o Tomada: {['Esquerda', 'Direita', 'Aspirar'][action]} | Recompensa: {reward}")

print("\nTarefa conclu√≠da de forma √≥tima!")
env.render()
print(f"Recompensa Total: {total_reward}")

## ‚úÖ Conclus√£o

Neste notebook, usamos a biblioteca `Gymnasium`, padr√£o da ind√∫stria, para explorar os conceitos da aula:

1.  **Agente Simples de Reflexo:** Uma pol√≠tica fixa e reativa, f√°cil de implementar, mas ineficiente.
2.  **Agente Baseado em Modelo:** Melhora a efici√™ncia ao manter um estado interno, mas ainda depende de l√≥gica pr√©-programada.
3.  **Agente de Aprendizado (Q-Learning):** O mais poderoso. N√£o precisa de regras; ele **aprende a pol√≠tica √≥tima** interagindo com o ambiente, tornando-se capaz de resolver problemas complexos de forma aut√¥noma.

Ferramentas como a Gymnasium s√£o a base para treinar agentes em tarefas muito mais complexas, desde jogos como Xadrez e Go at√© controle de rob√¥s e ve√≠culos aut√¥nomos. 