## 🎯 Desenvolvimento do Agente DQN para Alocação de Ativos

Este notebook implementa a Etapa 6 do projeto de Reinforcement Learning, dedicada à construção prática de um agente baseado no algoritmo Deep Q-Network (DQN), aplicado à alocação dinâmica de uma carteira com três ativos: VALE3, PETR4 e BRFS3.

O agente será treinado em um ambiente simulado (`PortfolioEnv`), configurado com base nos dados históricos processados previamente. A arquitetura será baseada em PyTorch com suporte a CUDA, validando os aprendizados teóricos sobre a função Q, replay buffer e políticas $\epsilon$-greedy.

Etapas implementadas neste notebook:

1. Verificação do ambiente e suporte à GPU;
2. Definição da rede neural DQN;
3. Construção do ambiente simulado `PortfolioEnv`;
4. Configuração do buffer de experiência e parâmetros de treinamento;
5. Execução do treinamento inicial do agente;
6. Análise dos resultados preliminares.


In [16]:
# Bibliotecas principais para RL e Data Science
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
import random
from collections import deque
import matplotlib.pyplot as plt
import seaborn as sns

# Verifica se a GPU está disponível
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(f"✅ Dispositivo ativo: {device}")
print(f"CUDA disponível? {torch.cuda.is_available()}")


✅ Dispositivo ativo: cuda
CUDA disponível? True


## 🧠 Arquitetura da Rede Neural DQN

A rede neural utilizada neste projeto segue uma arquitetura simples e eficiente, adequada ao tamanho do vetor de estado calculado com base em indicadores técnicos e variáveis da carteira.

A rede recebe como entrada o vetor de estado do ambiente simulado (`PortfolioEnv`) e retorna os valores Q estimados para cada ação possível. A estrutura adotada é composta por:

- Camada de entrada: dimensão igual ao tamanho total do vetor de estado;
- Camada oculta 1: 128 neurônios com ativação ReLU;
- Camada oculta 2: 64 neurônios com ativação ReLU;
- Camada de saída: 9 neurônios, correspondentes às ações discretas possíveis (comprar, vender ou manter) para cada um dos três ativos.

A saída da rede representa o valor esperado de recompensa (Q-value) para cada ação, dada a configuração atual do ambiente.


In [17]:
class DQN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, 128),
            nn.ReLU(),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Linear(64, output_dim)
        )

    def forward(self, x):
        return self.net(x)


## 🌍 Ambiente Simulado: `PortfolioEnv`

O ambiente `PortfolioEnv` simula o comportamento de um mercado financeiro com três ativos (VALE3, PETR4, BRFS3), considerando variáveis de estado, posições mantidas pelo agente e saldo de caixa disponível.

A interface segue o padrão `gym.Env`, com os principais métodos:

- `reset()`: reinicializa o ambiente para o primeiro dia útil, zera posições e caixa, e retorna o primeiro estado observável;
- `step(action_vector)`: executa as ações sobre os ativos, atualiza posições, saldo e calcula a recompensa;
- `render()`: imprime informações do estado atual da carteira — útil para fins de depuração e visualização em tempo real durante o treinamento;
- Atributos internos controlam a linha temporal, recompensas acumuladas e histórico da carteira.

As ações são vetores discretos com tamanho igual ao número de ativos. Para cada ativo, a ação pode ser:

- `0`: manter posição;
- `1`: comprar uma unidade (caso haja saldo);
- `2`: vender uma unidade (caso haja posição).

A recompensa é definida com base na variação do valor total da carteira entre `t` e `t+1`, incluindo caixa e valor de mercado das posições. Custos de transação podem ser incorporados como penalidade.


In [18]:
import gym
from gym import spaces
import numpy as np

class PortfolioEnv(gym.Env):
    def __init__(self, df, initial_cash=1.0):
        super(PortfolioEnv, self).__init__()

        # DataFrame com os dados de mercado históricos (já preparados externamente)
        self.df = df.reset_index(drop=True)

        self.n_assets = 3  # Número de ativos: VALE3, PETR4, BRFS3
        self.initial_cash = initial_cash  # Valor inicial em caixa

        # Espaço de ações: vetor com 3 entradas (uma por ativo), onde:
        # 0 = manter, 1 = comprar, 2 = vender
        self.action_space = spaces.MultiDiscrete([3] * self.n_assets)

        # Inicializações
        self.current_step = 0           # Índice temporal do ambiente
        self.cash = self.initial_cash   # Saldo disponível
        self.positions = [0] * self.n_assets  # Quantidade de cada ativo na carteira
        self.history = []               # Histórico de recompensas ou estados, se desejado

    def reset(self):
        """Reinicia o ambiente para o primeiro dia útil da simulação"""
        self.current_step = 0
        self.cash = self.initial_cash
        self.positions = [0] * self.n_assets
        self.history.clear()
        return self._get_state()

    def step(self, action):
        """
        Aplica ações sobre os ativos e avança para o próximo dia.
        A lógica detalhada será implementada posteriormente.
        """
        next_state = self._get_state()
        reward = 0.0
        done = self.current_step >= len(self.df) - 2  # -2 para garantir que t+1 exista
        info = {}
        self.current_step += 1
        return next_state, reward, done, info

    def _get_state(self):
        """Retorna o vetor de estado do dia atual, combinando dados de mercado com portfólio"""
        market_data = self.df.iloc[self.current_step].values
        return np.concatenate([market_data, self.positions, [self.cash]])

    def render(self, mode='human'):
        """
        Exibe o estado atual do ambiente (modo 'human' é um padrão da API gym).
        Pode ser ignorado se rodando em scripts automatizados.
        """
        print(f"Step: {self.current_step} | Caixa: {self.cash:.2f} | Posições: {self.positions}")


## 🔁 Lógica de Transição do Ambiente: Implementação do Método `step()`

O método `step()` é o coração do ambiente `PortfolioEnv`. Ele define como o agente interage com o mercado e como essa interação afeta o estado da carteira. A implementação segue estas etapas:

1. **Registro do valor da carteira antes das ações**  
   Calcula o valor da carteira no tempo `t`, somando o caixa disponível e o valor de mercado das posições atuais com os preços do dia corrente.

2. **Execução das ações de compra, venda ou manutenção**  
   Para cada ativo:
   - `1` (compra): se houver saldo suficiente, reduz o caixa e incrementa a posição;
   - `2` (venda): se houver posição, reduz a quantidade do ativo e adiciona o valor ao caixa;
   - `0` (manter): nenhuma alteração.

   Cada operação de compra ou venda acarreta um **custo de transação fixo**, deduzido do caixa disponível. Isso reflete taxas de corretagem, spread e custos operacionais — incentivando o agente a evitar operações excessivas.

3. **Cálculo da recompensa**  
   Após as ações, avança para o próximo dia (`t+1`) e calcula o novo valor da carteira.  
   A recompensa é definida como a **variação percentual do valor da carteira** entre `t` e `t+1`.  
   Se o episódio estiver no último dia útil (`t+1` não existir), a recompensa é zero.

4. **Atualização do passo temporal e retorno dos resultados**  
   - `next_state`: novo vetor de observação;
   - `reward`: feedback para o agente;
   - `done`: sinaliza fim do episódio;
   - `info`: dicionário com dados complementares como o valor atual da carteira.

Este método transforma a simulação em um ambiente dinâmico realista, no qual o agente precisa aprender a alocar recursos de forma estratégica e econômica, ponderando retorno e custo de transação.


In [19]:
def step(self, action):
    """
    Aplica o vetor de ações fornecido (um por ativo), atualiza as posições e o caixa,
    avança o tempo e calcula a recompensa como a variação percentual da carteira líquida.
    """

    # Definição do custo fixo por transação (compra ou venda)
    transaction_cost = 0.001  # 0.1% do valor da operação

    # Preços atuais dos ativos (tempo t)
    current_prices = self.df.iloc[self.current_step].values

    # Valor da carteira antes das ações
    portfolio_value_before = self.cash + sum([
        self.positions[i] * current_prices[i]
        for i in range(self.n_assets)
    ])

    # Aplicação das ações
    for i in range(self.n_assets):
        price = current_prices[i]
        if action[i] == 1:  # Comprar
            total_cost = price * (1 + transaction_cost)
            if self.cash >= total_cost:
                self.positions[i] += 1
                self.cash -= total_cost


## ✅ Finalização do Ambiente Simulado `PortfolioEnv`

Com a implementação completa do método `step()`, o ambiente `PortfolioEnv` está agora totalmente funcional e pronto para ser utilizado no treinamento do agente de Reinforcement Learning.

Esse ambiente representa, com realismo e controle, um cenário simplificado de mercado no qual o agente:

- Observa indicadores técnicos e seu próprio portfólio (estado);
- Decide diariamente se deve comprar, vender ou manter posição (ação);
- Recebe uma recompensa baseada na evolução da carteira (retorno financeiro ajustado por custo de transação).

A inclusão de **custos fixos por operação** torna o desafio mais alinhado com o mundo real, penalizando estratégias com excesso de transações e incentivando decisões eficientes.

Além disso, o ambiente já é compatível com algoritmos baseados em `gym`, podendo ser diretamente integrado ao loop de treinamento do DQN, Replay Buffer e política de exploração ε-greedy.

A partir deste ponto, seguimos para a configuração da estrutura de aprendizado propriamente dita, que inclui:

1. Buffer de experiências (Replay Buffer);
2. Política de exploração baseada em ε-greedy;
3. Loop de treinamento com atualização da rede Q e rede alvo.

Com isso, encerramos a Etapa 6.3 — *Definição do Ambiente de Simulação*.


## 🧱 Replay Buffer: Armazenamento de Experiências para Aprendizado

O **Replay Buffer** (ou memória de experiência) é um componente essencial do algoritmo DQN. Ele armazena tuplas de experiência no formato:

(state, action, reward, next_state, done)


Essas experiências representam interações passadas do agente com o ambiente e são usadas para treinar a rede DQN de forma mais estável e eficiente.

### 🎯 Objetivos do Replay Buffer

- **Descorrelacionar as amostras**: ao usar amostras aleatórias em vez de sequenciais, evitamos instabilidades que ocorrem por dados altamente correlacionados.
- **Reutilizar experiências antigas**: mesmo ações passadas que foram ruins (ou boas) podem ser úteis para o aprendizado atual.
- **Suporte ao aprendizado offline**: a rede aprende a partir do histórico, não apenas da última interação.

### ⚙️ Estrutura

O buffer será implementado como uma estrutura de dados circular (FIFO), com capacidade máxima definida (ex: 100.000 interações). Quando o limite é atingido, os dados mais antigos são descartados automaticamente.

A classe `ReplayBuffer` terá os seguintes métodos principais:

- `add(state, action, reward, next_state, done)`: armazena uma nova experiência;
- `sample(batch_size)`: retorna um conjunto aleatório de experiências para treino;
- `__len__()`: retorna o número atual de elementos armazenados.

Essa abordagem permite treinar a rede em mini-batches a partir de interações variadas, melhorando a generalização da política aprendida.



In [20]:
import random
from collections import deque
import numpy as np
import torch

class ReplayBuffer:
    def __init__(self, capacity, device="cpu"):
        """
        Inicializa o buffer de experiência.
        - capacity: número máximo de experiências armazenadas.
        - device: 'cpu' ou 'cuda' para onde os tensores serão enviados.
        """
        self.capacity = capacity
        self.memory = deque(maxlen=capacity)  # estrutura circular FIFO
        self.device = device

    def add(self, state, action, reward, next_state, done):
        """
        Armazena uma nova experiência no buffer.
        """
        self.memory.append((state, action, reward, next_state, done))

    def sample(self, batch_size):
        """
        Retorna um mini-batch aleatório de experiências do buffer.
        Os dados já são convertidos para tensores do PyTorch.
        """
        batch = random.sample(self.memory, batch_size)
        states, actions, rewards, next_states, dones = zip(*batch)

        # Conversão para tensores PyTorch
        states = torch.tensor(np.array(states), dtype=torch.float32).to(self.device)
        actions = torch.tensor(actions, dtype=torch.int64).to(self.device)
        rewards = torch.tensor(rewards, dtype=torch.float32).to(self.device)
        next_states = torch.tensor(np.array(next_states), dtype=torch.float32).to(self.device)
        dones = torch.tensor(dones, dtype=torch.float32).to(self.device)

        return states, actions, rewards, next_states, dones

    def __len__(self):
        """
        Retorna o número atual de experiências armazenadas.
        """
        return len(self.memory)


## 🎲 Política de Exploração ε-Greedy (com Explotação)

Durante o treinamento do agente de Reinforcement Learning, é importante encontrar um equilíbrio entre:

- **Exploração** (explore): testar ações novas que podem levar a descobertas inesperadas;
- **Explotação** (exploit): executar ações que já parecem gerar boas recompensas, com base na política aprendida até o momento.

A estratégia **ε-greedy** regula esse equilíbrio com uma regra simples:

1. Em cada passo de decisão, o agente **gera um número aleatório entre 0 e 1**;
2. Se esse número for **menor que ε (epsilon)**, o agente escolhe uma **ação aleatória** (exploração);
3. Caso contrário, ele escolhe a **melhor ação segundo a rede Q atual** (explotação da política aprendida).

### 🔄 Decaimento de ε

Para permitir aprendizado eficiente:

- Iniciamos com `ε = 1.0` (exploração máxima);
- Reduzimos gradualmente até um valor mínimo como `ε = 0.05`;
- Isso garante **ampla exploração no início** e **explotação estável ao final**.

Essa política evita que o agente se prenda prematuramente a ações subótimas e promove um aprendizado adaptativo ao ambiente.

Implementaremos uma função `select_action()` que aplica a regra ε-greedy com suporte a CUDA, retornando vetores de ação compatíveis com o ambiente `PortfolioEnv`.


In [21]:
import numpy as np
import torch

def select_action(state, q_network, epsilon, n_assets=3):
    """
    Seleciona uma ação baseada na política ε-greedy.
    - Com probabilidade ε: retorna ações aleatórias (exploração);
    - Com probabilidade 1 - ε: retorna ações com maior valor Q estimado (explotação).

    Parâmetros:
        state (ndarray ou tensor): vetor de estado atual
        q_network (nn.Module): rede Q treinada
        epsilon (float): taxa de exploração
        n_assets (int): número de ativos (default: 3)

    Retorno:
        vetor de ações discretas (1 por ativo): [0, 2, 1], por exemplo
    """
    if np.random.rand() < epsilon:
        # Exploração: ação aleatória para cada ativo
        return np.random.randint(0, 3, size=n_assets)

    # Explotação: ação ótima via rede Q
    state_tensor = torch.tensor(state, dtype=torch.float32).unsqueeze(0).to(q_network.net[0].weight.device)
    with torch.no_grad():
        q_values = q_network(state_tensor).cpu().numpy().squeeze()

    # A rede retorna um vetor Q de tamanho 9 (3 ações x 3 ativos)
    # Transformamos isso em uma ação por ativo: pega o maior Q por ativo
    return np.argmax(q_values.reshape(n_assets, 3), axis=1)


## 🔁 Loop de Treinamento do Agente DQN

Com todos os componentes implementados (ambiente `PortfolioEnv`, redes DQN, `ReplayBuffer` e política ε-greedy), estruturamos agora o ciclo de treinamento do agente com foco em alocação de portfólio.

Este loop é responsável por **coletar experiências, treinar a rede Q e atualizar a política do agente** ao longo do tempo.

### 🧠 Estrutura Geral

1. **Inicialização do ambiente e redes**:
   - O agente começa com uma carteira vazia e R$ 100.000,00 em caixa;
   - A rede Q (ativa) e a rede Q-alvo (congelada) são inicializadas com pesos iguais.

2. **A cada passo de tempo**:
   - Seleciona uma ação com política ε-greedy (balanceando exploração e explotação);
   - Executa a ação e observa a recompensa, próximo estado e sinal de término (`done`);
   - Armazena a experiência no `ReplayBuffer`;
   - Quando o buffer contém experiências suficientes, inicia o processo de aprendizado:
     - Amostra um mini-batch aleatório;
     - Calcula o Q-alvo com a rede congelada;
     - Calcula o Q-predito com a rede atual;
     - Minimiza o erro entre eles com otimizador (loss MSE);
   - A cada N passos, atualiza os pesos da rede-alvo.

---

### ⚙️ Hiperparâmetros Definidos

As seguintes escolhas foram feitas com base em práticas recomendadas e em testes preliminares com dados financeiros:

| Parâmetro                   | Valor       | Justificativa |
|----------------------------|-------------|----------------|
| `learning_rate`            | `1e-4`      | Estável em ambientes de baixa dimensionalidade |
| `gamma` (fator de desconto)| `0.99`      | Valor alto preserva recompensas futuras |
| `batch_size`               | `64`        | Compromisso entre performance e ruído |
| `replay_buffer_size`       | `100_000`   | Permite diversidade de experiências |
| `target_update_freq`       | `500` steps | Frequência moderada para evitar oscilação |
| `epsilon_start`            | `1.0`       | Começa com máxima exploração |
| `epsilon_min`              | `0.05`      | Mantém um mínimo de exploração no fim |
| `epsilon_decay`            | `0.995`     | Decaimento gradual a cada episódio |

---

### 🧪 Critério de Parada: Estabilidade de Desempenho

Em vez de treinar por um número fixo de episódios, o agente será treinado até atingir **estabilidade em pelo menos duas das seguintes métricas**, avaliadas em janelas móveis:

- **Sharpe Ratio**: retorno ajustado pelo risco (ideal acima de 1.0);
- **Lucro Médio**: lucro acumulado médio por episódio (positivo e crescente);
- **Hit Ratio**: porcentagem de acertos táticos nas decisões (ideal acima de 55%).

O treinamento será encerrado quando:
- As três métricas estiverem **em faixa aceitável e estável** (com variação padrão pequena) por pelo menos **10 episódios consecutivos**;
- Ou quando um **limite máximo de episódios for alcançado** (ex: 300), evitando overfitting ou sobrecarga.

---

Essa abordagem permite interromper o treinamento **com base em desempenho real**, promovendo equilíbrio entre eficiência de capital, risco e precisão de decisão — características fundamentais em aplicações financeiras reais.


In [23]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from collections import deque

# Hiperparâmetros
learning_rate = 1e-4
gamma = 0.99
batch_size = 64
buffer_capacity = 100_000
target_update_freq = 500

epsilon = 1.0
epsilon_min = 0.05
epsilon_decay = 0.995

max_episodes = 300
min_buffer_size = 1000

# Inicialização
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
q_net = DQN(input_dim=env.reset().shape[0], output_dim=9).to(device)
q_target = DQN(input_dim=env.reset().shape[0], output_dim=9).to(device)
q_target.load_state_dict(q_net.state_dict())

optimizer = optim.Adam(q_net.parameters(), lr=learning_rate)
loss_fn = nn.MSELoss()
buffer = ReplayBuffer(capacity=buffer_capacity, device=device)

# Métricas para monitoramento
reward_history = []
sharpe_window = deque(maxlen=10)
hit_window = deque(maxlen=10)

step_count = 0

for episode in range(max_episodes):
    state = env.reset()
    done = False
    total_reward = 0
    rewards = []

    while not done:
        action = select_action(state, q_net, epsilon)
        next_state, reward, done, info = env.step(action)
        buffer.add(state, action, reward, next_state, done)

        state = next_state
        total_reward += reward
        rewards.append(reward)
        step_count += 1

        if len(buffer) > min_buffer_size:
            states, actions, rewards_b, next_states, dones = buffer.sample(batch_size)

            # Predição atual
            q_values = q_net(states)
            actions_flat = actions.view(-1, 1)
            q_pred = q_values.gather(1, actions_flat).squeeze()

            # Alvo
            with torch.no_grad():
                q_next = q_target(next_states).max(1)[0]
                q_target_vals = rewards_b + (1 - dones) * gamma * q_next

            loss = loss_fn(q_pred, q_target_vals)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            # Atualiza rede alvo
            if step_count % target_update_freq == 0:
                q_target.load_state_dict(q_net.state_dict())

    # Atualização de ε
    epsilon = max(epsilon * epsilon_decay, epsilon_min)

    # Métricas
    reward_history.append(total_reward)
    sharpe_ratio = np.mean(rewards) / (np.std(rewards) + 1e-6)
    hit_ratio = np.mean([r > 0 for r in rewards])

    sharpe_window.append(sharpe_ratio)
    hit_window.append(hit_ratio)

    print(f"Ep {episode+1} | Recompensa: {total_reward:.3f} | Sharpe: {sharpe_ratio:.2f} | Hit: {hit_ratio:.2%} | Eps: {epsilon:.3f}")

    # Critério de parada com estabilidade
    if len(sharpe_window) == 10:
        sharpe_ok = np.mean(sharpe_window) > 1.0 and np.std(sharpe_window) < 0.3
        hit_ok = np.mean(hit_window) > 0.55 and np.std(hit_window) < 0.1
        lucro_ok = np.mean(reward_history[-10:]) > 0
        if sharpe_ok and hit_ok and lucro_ok:
            print("🏁 Critério de estabilidade atingido — encerrando o treinamento.")
            break
# Gráfico de recompensas
plt.figure(figsize=(12, 6))
plt.plot(reward_history, label='Recompensa Total')
plt.title('Recompensa Total por Episódio')
plt.xlabel('Episódio')
plt.ylabel('Recompensa')
plt.legend()
plt.grid()     

NameError: name 'env' is not defined

In [None]:
# Instancia o ambiente e imprime o shape do vetor de estado
env = PortfolioEnv()
sample_state = env.reset()
print("Dimensão do vetor de estado:", sample_state.shape)


TypeError: PortfolioEnv.__init__() missing 1 required positional argument: 'df'