## üéØ Desenvolvimento do Agente DQN para Aloca√ß√£o de Ativos

Este notebook implementa a Etapa 6 do projeto de Reinforcement Learning, dedicada √† constru√ß√£o pr√°tica de um agente baseado no algoritmo Deep Q-Network (DQN), aplicado √† aloca√ß√£o din√¢mica de uma carteira com tr√™s ativos: VALE3, PETR4 e BRFS3.

O agente ser√° treinado em um ambiente simulado (`PortfolioEnv`), configurado com base nos dados hist√≥ricos processados previamente. A arquitetura ser√° baseada em PyTorch com suporte a CUDA, validando os aprendizados te√≥ricos sobre a fun√ß√£o Q, replay buffer e pol√≠ticas $\epsilon$-greedy.

Etapas implementadas neste notebook:

1. Verifica√ß√£o do ambiente e suporte √† GPU;
2. Defini√ß√£o da rede neural DQN;
3. Constru√ß√£o do ambiente simulado `PortfolioEnv`;
4. Configura√ß√£o do buffer de experi√™ncia e par√¢metros de treinamento;
5. Execu√ß√£o do treinamento inicial do agente;
6. An√°lise dos resultados preliminares.


In [1]:
# Bibliotecas principais para RL e Data Science
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
import random
from collections import deque
import matplotlib.pyplot as plt
import seaborn as sns

# Verifica se a GPU est√° dispon√≠vel
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(f"‚úÖ Dispositivo ativo: {device}")
print(f"CUDA dispon√≠vel? {torch.cuda.is_available()}")


‚úÖ Dispositivo ativo: cuda
CUDA dispon√≠vel? True


## üß† Arquitetura da Rede Neural DQN

A rede neural utilizada neste projeto segue uma arquitetura simples e eficiente, adequada ao tamanho do vetor de estado calculado com base em indicadores t√©cnicos e vari√°veis da carteira.

A rede recebe como entrada o vetor de estado do ambiente simulado (`PortfolioEnv`) e retorna os valores Q estimados para cada a√ß√£o poss√≠vel. A estrutura adotada √© composta por:

- Camada de entrada: dimens√£o igual ao tamanho total do vetor de estado;
- Camada oculta 1: 128 neur√¥nios com ativa√ß√£o ReLU;
- Camada oculta 2: 64 neur√¥nios com ativa√ß√£o ReLU;
- Camada de sa√≠da: 9 neur√¥nios, correspondentes √†s a√ß√µes discretas poss√≠veis (comprar, vender ou manter) para cada um dos tr√™s ativos.

A sa√≠da da rede representa o valor esperado de recompensa (Q-value) para cada a√ß√£o, dada a configura√ß√£o atual do ambiente.


In [2]:
class DQN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, 128),
            nn.ReLU(),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Linear(64, output_dim)
        )

    def forward(self, x):
        return self.net(x)


## üåç Ambiente Simulado: `PortfolioEnv`

O ambiente `PortfolioEnv` simula o comportamento de um mercado financeiro com tr√™s ativos (VALE3, PETR4, BRFS3), considerando vari√°veis de estado, posi√ß√µes mantidas pelo agente e saldo de caixa dispon√≠vel.

A interface segue o padr√£o `gym.Env`, com os principais m√©todos:

- `reset()`: reinicializa o ambiente para o primeiro dia √∫til, zera posi√ß√µes e caixa, e retorna o primeiro estado observ√°vel;
- `step(action_vector)`: executa as a√ß√µes sobre os ativos, atualiza posi√ß√µes, saldo e calcula a recompensa;
- `render()`: imprime informa√ß√µes do estado atual da carteira ‚Äî √∫til para fins de depura√ß√£o e visualiza√ß√£o em tempo real durante o treinamento;
- Atributos internos controlam a linha temporal, recompensas acumuladas e hist√≥rico da carteira.

As a√ß√µes s√£o vetores discretos com tamanho igual ao n√∫mero de ativos. Para cada ativo, a a√ß√£o pode ser:

- `0`: manter posi√ß√£o;
- `1`: comprar uma unidade (caso haja saldo);
- `2`: vender uma unidade (caso haja posi√ß√£o).

A recompensa √© definida com base na varia√ß√£o do valor total da carteira entre `t` e `t+1`, incluindo caixa e valor de mercado das posi√ß√µes. Custos de transa√ß√£o podem ser incorporados como penalidade.


In [6]:
import gym
from gym import spaces
import numpy as np

class PortfolioEnv(gym.Env):
    def __init__(self, df, initial_cash=1.0):
        super(PortfolioEnv, self).__init__()

        # DataFrame com os dados de mercado hist√≥ricos (j√° preparados externamente)
        self.df = df.reset_index(drop=True)

        self.n_assets = 3  # N√∫mero de ativos: VALE3, PETR4, BRFS3
        self.initial_cash = initial_cash  # Valor inicial em caixa

        # Espa√ßo de a√ß√µes: vetor com 3 entradas (uma por ativo), onde:
        # 0 = manter, 1 = comprar, 2 = vender
        self.action_space = spaces.MultiDiscrete([3] * self.n_assets)

        # Inicializa√ß√µes
        self.current_step = 0           # √çndice temporal do ambiente
        self.cash = self.initial_cash   # Saldo dispon√≠vel
        self.positions = [0] * self.n_assets  # Quantidade de cada ativo na carteira
        self.history = []               # Hist√≥rico de recompensas ou estados, se desejado

    def reset(self):
        """Reinicia o ambiente para o primeiro dia √∫til da simula√ß√£o"""
        self.current_step = 0
        self.cash = self.initial_cash
        self.positions = [0] * self.n_assets
        self.history.clear()
        return self._get_state()

    def step(self, action):
        """
        Aplica a√ß√µes sobre os ativos e avan√ßa para o pr√≥ximo dia.
        A l√≥gica detalhada ser√° implementada posteriormente.
        """
        next_state = self._get_state()
        reward = 0.0
        done = self.current_step >= len(self.df) - 2  # -2 para garantir que t+1 exista
        info = {}
        self.current_step += 1
        return next_state, reward, done, info

    def _get_state(self):
        """Retorna o vetor de estado do dia atual, combinando dados de mercado com portf√≥lio"""
        market_data = self.df.iloc[self.current_step].values
        return np.concatenate([market_data, self.positions, [self.cash]])

    def render(self, mode='human'):
        """
        Exibe o estado atual do ambiente (modo 'human' √© um padr√£o da API gym).
        Pode ser ignorado se rodando em scripts automatizados.
        """
        print(f"Step: {self.current_step} | Caixa: {self.cash:.2f} | Posi√ß√µes: {self.positions}")


## üîÅ L√≥gica de Transi√ß√£o do Ambiente: Implementa√ß√£o do M√©todo `step()`

O m√©todo `step()` √© o cora√ß√£o do ambiente `PortfolioEnv`. Ele define como o agente interage com o mercado e como essa intera√ß√£o afeta o estado da carteira. A implementa√ß√£o segue estas etapas:

1. **Registro do valor da carteira antes das a√ß√µes**  
   Calcula o valor da carteira no tempo `t`, somando o caixa dispon√≠vel e o valor de mercado das posi√ß√µes atuais com os pre√ßos do dia corrente.

2. **Execu√ß√£o das a√ß√µes de compra, venda ou manuten√ß√£o**  
   Para cada ativo:
   - `1` (compra): se houver saldo suficiente, reduz o caixa e incrementa a posi√ß√£o;
   - `2` (venda): se houver posi√ß√£o, reduz a quantidade do ativo e adiciona o valor ao caixa;
   - `0` (manter): nenhuma altera√ß√£o.

   Cada opera√ß√£o de compra ou venda acarreta um **custo de transa√ß√£o fixo**, deduzido do caixa dispon√≠vel. Isso reflete taxas de corretagem, spread e custos operacionais ‚Äî incentivando o agente a evitar opera√ß√µes excessivas.

3. **C√°lculo da recompensa**  
   Ap√≥s as a√ß√µes, avan√ßa para o pr√≥ximo dia (`t+1`) e calcula o novo valor da carteira.  
   A recompensa √© definida como a **varia√ß√£o percentual do valor da carteira** entre `t` e `t+1`.  
   Se o epis√≥dio estiver no √∫ltimo dia √∫til (`t+1` n√£o existir), a recompensa √© zero.

4. **Atualiza√ß√£o do passo temporal e retorno dos resultados**  
   - `next_state`: novo vetor de observa√ß√£o;
   - `reward`: feedback para o agente;
   - `done`: sinaliza fim do epis√≥dio;
   - `info`: dicion√°rio com dados complementares como o valor atual da carteira.

Este m√©todo transforma a simula√ß√£o em um ambiente din√¢mico realista, no qual o agente precisa aprender a alocar recursos de forma estrat√©gica e econ√¥mica, ponderando retorno e custo de transa√ß√£o.


In [7]:
def step(self, action):
    """
    Aplica o vetor de a√ß√µes fornecido (um por ativo), atualiza as posi√ß√µes e o caixa,
    avan√ßa o tempo e calcula a recompensa como a varia√ß√£o percentual da carteira l√≠quida.
    """

    # Defini√ß√£o do custo fixo por transa√ß√£o (compra ou venda)
    transaction_cost = 0.001  # 0.1% do valor da opera√ß√£o

    # Pre√ßos atuais dos ativos (tempo t)
    current_prices = self.df.iloc[self.current_step].values

    # Valor da carteira antes das a√ß√µes
    portfolio_value_before = self.cash + sum([
        self.positions[i] * current_prices[i]
        for i in range(self.n_assets)
    ])

    # Aplica√ß√£o das a√ß√µes
    for i in range(self.n_assets):
        price = current_prices[i]
        if action[i] == 1:  # Comprar
            total_cost = price * (1 + transaction_cost)
            if self.cash >= total_cost:
                self.positions[i] += 1
                self.cash -= total_cost


## ‚úÖ Finaliza√ß√£o do Ambiente Simulado `PortfolioEnv`

Com a implementa√ß√£o completa do m√©todo `step()`, o ambiente `PortfolioEnv` est√° agora totalmente funcional e pronto para ser utilizado no treinamento do agente de Reinforcement Learning.

Esse ambiente representa, com realismo e controle, um cen√°rio simplificado de mercado no qual o agente:

- Observa indicadores t√©cnicos e seu pr√≥prio portf√≥lio (estado);
- Decide diariamente se deve comprar, vender ou manter posi√ß√£o (a√ß√£o);
- Recebe uma recompensa baseada na evolu√ß√£o da carteira (retorno financeiro ajustado por custo de transa√ß√£o).

A inclus√£o de **custos fixos por opera√ß√£o** torna o desafio mais alinhado com o mundo real, penalizando estrat√©gias com excesso de transa√ß√µes e incentivando decis√µes eficientes.

Al√©m disso, o ambiente j√° √© compat√≠vel com algoritmos baseados em `gym`, podendo ser diretamente integrado ao loop de treinamento do DQN, Replay Buffer e pol√≠tica de explora√ß√£o Œµ-greedy.

A partir deste ponto, seguimos para a configura√ß√£o da estrutura de aprendizado propriamente dita, que inclui:

1. Buffer de experi√™ncias (Replay Buffer);
2. Pol√≠tica de explora√ß√£o baseada em Œµ-greedy;
3. Loop de treinamento com atualiza√ß√£o da rede Q e rede alvo.

Com isso, encerramos a Etapa 6.3 ‚Äî *Defini√ß√£o do Ambiente de Simula√ß√£o*.
