## üéØ Desenvolvimento do Agente DQN para Aloca√ß√£o de Ativos

Este notebook implementa a Etapa 6 do projeto de Reinforcement Learning, dedicada √† constru√ß√£o pr√°tica de um agente baseado no algoritmo Deep Q-Network (DQN), aplicado √† aloca√ß√£o din√¢mica de uma carteira com tr√™s ativos: VALE3, PETR4 e BRFS3.

O agente ser√° treinado em um ambiente simulado (`PortfolioEnv`), configurado com base nos dados hist√≥ricos processados previamente. A arquitetura ser√° baseada em PyTorch com suporte a CUDA, validando os aprendizados te√≥ricos sobre a fun√ß√£o Q, replay buffer e pol√≠ticas $\epsilon$-greedy.

Etapas implementadas neste notebook:

1. Verifica√ß√£o do ambiente e suporte √† GPU;
2. Defini√ß√£o da rede neural DQN;
3. Constru√ß√£o do ambiente simulado `PortfolioEnv`;
4. Configura√ß√£o do buffer de experi√™ncia e par√¢metros de treinamento;
5. Execu√ß√£o do treinamento inicial do agente;
6. An√°lise dos resultados preliminares.


In [16]:
# Bibliotecas principais para RL e Data Science
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
import random
from collections import deque
import matplotlib.pyplot as plt
import seaborn as sns

# Verifica se a GPU est√° dispon√≠vel
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(f"‚úÖ Dispositivo ativo: {device}")
print(f"CUDA dispon√≠vel? {torch.cuda.is_available()}")


‚úÖ Dispositivo ativo: cuda
CUDA dispon√≠vel? True


## üß† Arquitetura da Rede Neural DQN

A rede neural utilizada neste projeto segue uma arquitetura simples e eficiente, adequada ao tamanho do vetor de estado calculado com base em indicadores t√©cnicos e vari√°veis da carteira.

A rede recebe como entrada o vetor de estado do ambiente simulado (`PortfolioEnv`) e retorna os valores Q estimados para cada a√ß√£o poss√≠vel. A estrutura adotada √© composta por:

- Camada de entrada: dimens√£o igual ao tamanho total do vetor de estado;
- Camada oculta 1: 128 neur√¥nios com ativa√ß√£o ReLU;
- Camada oculta 2: 64 neur√¥nios com ativa√ß√£o ReLU;
- Camada de sa√≠da: 9 neur√¥nios, correspondentes √†s a√ß√µes discretas poss√≠veis (comprar, vender ou manter) para cada um dos tr√™s ativos.

A sa√≠da da rede representa o valor esperado de recompensa (Q-value) para cada a√ß√£o, dada a configura√ß√£o atual do ambiente.


In [17]:
class DQN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, 128),
            nn.ReLU(),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Linear(64, output_dim)
        )

    def forward(self, x):
        return self.net(x)


## üåç Ambiente Simulado: `PortfolioEnv`

O ambiente `PortfolioEnv` simula o comportamento de um mercado financeiro com tr√™s ativos (VALE3, PETR4, BRFS3), considerando vari√°veis de estado, posi√ß√µes mantidas pelo agente e saldo de caixa dispon√≠vel.

A interface segue o padr√£o `gym.Env`, com os principais m√©todos:

- `reset()`: reinicializa o ambiente para o primeiro dia √∫til, zera posi√ß√µes e caixa, e retorna o primeiro estado observ√°vel;
- `step(action_vector)`: executa as a√ß√µes sobre os ativos, atualiza posi√ß√µes, saldo e calcula a recompensa;
- `render()`: imprime informa√ß√µes do estado atual da carteira ‚Äî √∫til para fins de depura√ß√£o e visualiza√ß√£o em tempo real durante o treinamento;
- Atributos internos controlam a linha temporal, recompensas acumuladas e hist√≥rico da carteira.

As a√ß√µes s√£o vetores discretos com tamanho igual ao n√∫mero de ativos. Para cada ativo, a a√ß√£o pode ser:

- `0`: manter posi√ß√£o;
- `1`: comprar uma unidade (caso haja saldo);
- `2`: vender uma unidade (caso haja posi√ß√£o).

A recompensa √© definida com base na varia√ß√£o do valor total da carteira entre `t` e `t+1`, incluindo caixa e valor de mercado das posi√ß√µes. Custos de transa√ß√£o podem ser incorporados como penalidade.


In [18]:
import gym
from gym import spaces
import numpy as np

class PortfolioEnv(gym.Env):
    def __init__(self, df, initial_cash=1.0):
        super(PortfolioEnv, self).__init__()

        # DataFrame com os dados de mercado hist√≥ricos (j√° preparados externamente)
        self.df = df.reset_index(drop=True)

        self.n_assets = 3  # N√∫mero de ativos: VALE3, PETR4, BRFS3
        self.initial_cash = initial_cash  # Valor inicial em caixa

        # Espa√ßo de a√ß√µes: vetor com 3 entradas (uma por ativo), onde:
        # 0 = manter, 1 = comprar, 2 = vender
        self.action_space = spaces.MultiDiscrete([3] * self.n_assets)

        # Inicializa√ß√µes
        self.current_step = 0           # √çndice temporal do ambiente
        self.cash = self.initial_cash   # Saldo dispon√≠vel
        self.positions = [0] * self.n_assets  # Quantidade de cada ativo na carteira
        self.history = []               # Hist√≥rico de recompensas ou estados, se desejado

    def reset(self):
        """Reinicia o ambiente para o primeiro dia √∫til da simula√ß√£o"""
        self.current_step = 0
        self.cash = self.initial_cash
        self.positions = [0] * self.n_assets
        self.history.clear()
        return self._get_state()

    def step(self, action):
        """
        Aplica a√ß√µes sobre os ativos e avan√ßa para o pr√≥ximo dia.
        A l√≥gica detalhada ser√° implementada posteriormente.
        """
        next_state = self._get_state()
        reward = 0.0
        done = self.current_step >= len(self.df) - 2  # -2 para garantir que t+1 exista
        info = {}
        self.current_step += 1
        return next_state, reward, done, info

    def _get_state(self):
        """Retorna o vetor de estado do dia atual, combinando dados de mercado com portf√≥lio"""
        market_data = self.df.iloc[self.current_step].values
        return np.concatenate([market_data, self.positions, [self.cash]])

    def render(self, mode='human'):
        """
        Exibe o estado atual do ambiente (modo 'human' √© um padr√£o da API gym).
        Pode ser ignorado se rodando em scripts automatizados.
        """
        print(f"Step: {self.current_step} | Caixa: {self.cash:.2f} | Posi√ß√µes: {self.positions}")


## üîÅ L√≥gica de Transi√ß√£o do Ambiente: Implementa√ß√£o do M√©todo `step()`

O m√©todo `step()` √© o cora√ß√£o do ambiente `PortfolioEnv`. Ele define como o agente interage com o mercado e como essa intera√ß√£o afeta o estado da carteira. A implementa√ß√£o segue estas etapas:

1. **Registro do valor da carteira antes das a√ß√µes**  
   Calcula o valor da carteira no tempo `t`, somando o caixa dispon√≠vel e o valor de mercado das posi√ß√µes atuais com os pre√ßos do dia corrente.

2. **Execu√ß√£o das a√ß√µes de compra, venda ou manuten√ß√£o**  
   Para cada ativo:
   - `1` (compra): se houver saldo suficiente, reduz o caixa e incrementa a posi√ß√£o;
   - `2` (venda): se houver posi√ß√£o, reduz a quantidade do ativo e adiciona o valor ao caixa;
   - `0` (manter): nenhuma altera√ß√£o.

   Cada opera√ß√£o de compra ou venda acarreta um **custo de transa√ß√£o fixo**, deduzido do caixa dispon√≠vel. Isso reflete taxas de corretagem, spread e custos operacionais ‚Äî incentivando o agente a evitar opera√ß√µes excessivas.

3. **C√°lculo da recompensa**  
   Ap√≥s as a√ß√µes, avan√ßa para o pr√≥ximo dia (`t+1`) e calcula o novo valor da carteira.  
   A recompensa √© definida como a **varia√ß√£o percentual do valor da carteira** entre `t` e `t+1`.  
   Se o epis√≥dio estiver no √∫ltimo dia √∫til (`t+1` n√£o existir), a recompensa √© zero.

4. **Atualiza√ß√£o do passo temporal e retorno dos resultados**  
   - `next_state`: novo vetor de observa√ß√£o;
   - `reward`: feedback para o agente;
   - `done`: sinaliza fim do epis√≥dio;
   - `info`: dicion√°rio com dados complementares como o valor atual da carteira.

Este m√©todo transforma a simula√ß√£o em um ambiente din√¢mico realista, no qual o agente precisa aprender a alocar recursos de forma estrat√©gica e econ√¥mica, ponderando retorno e custo de transa√ß√£o.


In [19]:
def step(self, action):
    """
    Aplica o vetor de a√ß√µes fornecido (um por ativo), atualiza as posi√ß√µes e o caixa,
    avan√ßa o tempo e calcula a recompensa como a varia√ß√£o percentual da carteira l√≠quida.
    """

    # Defini√ß√£o do custo fixo por transa√ß√£o (compra ou venda)
    transaction_cost = 0.001  # 0.1% do valor da opera√ß√£o

    # Pre√ßos atuais dos ativos (tempo t)
    current_prices = self.df.iloc[self.current_step].values

    # Valor da carteira antes das a√ß√µes
    portfolio_value_before = self.cash + sum([
        self.positions[i] * current_prices[i]
        for i in range(self.n_assets)
    ])

    # Aplica√ß√£o das a√ß√µes
    for i in range(self.n_assets):
        price = current_prices[i]
        if action[i] == 1:  # Comprar
            total_cost = price * (1 + transaction_cost)
            if self.cash >= total_cost:
                self.positions[i] += 1
                self.cash -= total_cost


## ‚úÖ Finaliza√ß√£o do Ambiente Simulado `PortfolioEnv`

Com a implementa√ß√£o completa do m√©todo `step()`, o ambiente `PortfolioEnv` est√° agora totalmente funcional e pronto para ser utilizado no treinamento do agente de Reinforcement Learning.

Esse ambiente representa, com realismo e controle, um cen√°rio simplificado de mercado no qual o agente:

- Observa indicadores t√©cnicos e seu pr√≥prio portf√≥lio (estado);
- Decide diariamente se deve comprar, vender ou manter posi√ß√£o (a√ß√£o);
- Recebe uma recompensa baseada na evolu√ß√£o da carteira (retorno financeiro ajustado por custo de transa√ß√£o).

A inclus√£o de **custos fixos por opera√ß√£o** torna o desafio mais alinhado com o mundo real, penalizando estrat√©gias com excesso de transa√ß√µes e incentivando decis√µes eficientes.

Al√©m disso, o ambiente j√° √© compat√≠vel com algoritmos baseados em `gym`, podendo ser diretamente integrado ao loop de treinamento do DQN, Replay Buffer e pol√≠tica de explora√ß√£o Œµ-greedy.

A partir deste ponto, seguimos para a configura√ß√£o da estrutura de aprendizado propriamente dita, que inclui:

1. Buffer de experi√™ncias (Replay Buffer);
2. Pol√≠tica de explora√ß√£o baseada em Œµ-greedy;
3. Loop de treinamento com atualiza√ß√£o da rede Q e rede alvo.

Com isso, encerramos a Etapa 6.3 ‚Äî *Defini√ß√£o do Ambiente de Simula√ß√£o*.


## üß± Replay Buffer: Armazenamento de Experi√™ncias para Aprendizado

O **Replay Buffer** (ou mem√≥ria de experi√™ncia) √© um componente essencial do algoritmo DQN. Ele armazena tuplas de experi√™ncia no formato:

(state, action, reward, next_state, done)


Essas experi√™ncias representam intera√ß√µes passadas do agente com o ambiente e s√£o usadas para treinar a rede DQN de forma mais est√°vel e eficiente.

### üéØ Objetivos do Replay Buffer

- **Descorrelacionar as amostras**: ao usar amostras aleat√≥rias em vez de sequenciais, evitamos instabilidades que ocorrem por dados altamente correlacionados.
- **Reutilizar experi√™ncias antigas**: mesmo a√ß√µes passadas que foram ruins (ou boas) podem ser √∫teis para o aprendizado atual.
- **Suporte ao aprendizado offline**: a rede aprende a partir do hist√≥rico, n√£o apenas da √∫ltima intera√ß√£o.

### ‚öôÔ∏è Estrutura

O buffer ser√° implementado como uma estrutura de dados circular (FIFO), com capacidade m√°xima definida (ex: 100.000 intera√ß√µes). Quando o limite √© atingido, os dados mais antigos s√£o descartados automaticamente.

A classe `ReplayBuffer` ter√° os seguintes m√©todos principais:

- `add(state, action, reward, next_state, done)`: armazena uma nova experi√™ncia;
- `sample(batch_size)`: retorna um conjunto aleat√≥rio de experi√™ncias para treino;
- `__len__()`: retorna o n√∫mero atual de elementos armazenados.

Essa abordagem permite treinar a rede em mini-batches a partir de intera√ß√µes variadas, melhorando a generaliza√ß√£o da pol√≠tica aprendida.



In [20]:
import random
from collections import deque
import numpy as np
import torch

class ReplayBuffer:
    def __init__(self, capacity, device="cpu"):
        """
        Inicializa o buffer de experi√™ncia.
        - capacity: n√∫mero m√°ximo de experi√™ncias armazenadas.
        - device: 'cpu' ou 'cuda' para onde os tensores ser√£o enviados.
        """
        self.capacity = capacity
        self.memory = deque(maxlen=capacity)  # estrutura circular FIFO
        self.device = device

    def add(self, state, action, reward, next_state, done):
        """
        Armazena uma nova experi√™ncia no buffer.
        """
        self.memory.append((state, action, reward, next_state, done))

    def sample(self, batch_size):
        """
        Retorna um mini-batch aleat√≥rio de experi√™ncias do buffer.
        Os dados j√° s√£o convertidos para tensores do PyTorch.
        """
        batch = random.sample(self.memory, batch_size)
        states, actions, rewards, next_states, dones = zip(*batch)

        # Convers√£o para tensores PyTorch
        states = torch.tensor(np.array(states), dtype=torch.float32).to(self.device)
        actions = torch.tensor(actions, dtype=torch.int64).to(self.device)
        rewards = torch.tensor(rewards, dtype=torch.float32).to(self.device)
        next_states = torch.tensor(np.array(next_states), dtype=torch.float32).to(self.device)
        dones = torch.tensor(dones, dtype=torch.float32).to(self.device)

        return states, actions, rewards, next_states, dones

    def __len__(self):
        """
        Retorna o n√∫mero atual de experi√™ncias armazenadas.
        """
        return len(self.memory)


## üé≤ Pol√≠tica de Explora√ß√£o Œµ-Greedy (com Explota√ß√£o)

Durante o treinamento do agente de Reinforcement Learning, √© importante encontrar um equil√≠brio entre:

- **Explora√ß√£o** (explore): testar a√ß√µes novas que podem levar a descobertas inesperadas;
- **Explota√ß√£o** (exploit): executar a√ß√µes que j√° parecem gerar boas recompensas, com base na pol√≠tica aprendida at√© o momento.

A estrat√©gia **Œµ-greedy** regula esse equil√≠brio com uma regra simples:

1. Em cada passo de decis√£o, o agente **gera um n√∫mero aleat√≥rio entre 0 e 1**;
2. Se esse n√∫mero for **menor que Œµ (epsilon)**, o agente escolhe uma **a√ß√£o aleat√≥ria** (explora√ß√£o);
3. Caso contr√°rio, ele escolhe a **melhor a√ß√£o segundo a rede Q atual** (explota√ß√£o da pol√≠tica aprendida).

### üîÑ Decaimento de Œµ

Para permitir aprendizado eficiente:

- Iniciamos com `Œµ = 1.0` (explora√ß√£o m√°xima);
- Reduzimos gradualmente at√© um valor m√≠nimo como `Œµ = 0.05`;
- Isso garante **ampla explora√ß√£o no in√≠cio** e **explota√ß√£o est√°vel ao final**.

Essa pol√≠tica evita que o agente se prenda prematuramente a a√ß√µes sub√≥timas e promove um aprendizado adaptativo ao ambiente.

Implementaremos uma fun√ß√£o `select_action()` que aplica a regra Œµ-greedy com suporte a CUDA, retornando vetores de a√ß√£o compat√≠veis com o ambiente `PortfolioEnv`.


In [21]:
import numpy as np
import torch

def select_action(state, q_network, epsilon, n_assets=3):
    """
    Seleciona uma a√ß√£o baseada na pol√≠tica Œµ-greedy.
    - Com probabilidade Œµ: retorna a√ß√µes aleat√≥rias (explora√ß√£o);
    - Com probabilidade 1 - Œµ: retorna a√ß√µes com maior valor Q estimado (explota√ß√£o).

    Par√¢metros:
        state (ndarray ou tensor): vetor de estado atual
        q_network (nn.Module): rede Q treinada
        epsilon (float): taxa de explora√ß√£o
        n_assets (int): n√∫mero de ativos (default: 3)

    Retorno:
        vetor de a√ß√µes discretas (1 por ativo): [0, 2, 1], por exemplo
    """
    if np.random.rand() < epsilon:
        # Explora√ß√£o: a√ß√£o aleat√≥ria para cada ativo
        return np.random.randint(0, 3, size=n_assets)

    # Explota√ß√£o: a√ß√£o √≥tima via rede Q
    state_tensor = torch.tensor(state, dtype=torch.float32).unsqueeze(0).to(q_network.net[0].weight.device)
    with torch.no_grad():
        q_values = q_network(state_tensor).cpu().numpy().squeeze()

    # A rede retorna um vetor Q de tamanho 9 (3 a√ß√µes x 3 ativos)
    # Transformamos isso em uma a√ß√£o por ativo: pega o maior Q por ativo
    return np.argmax(q_values.reshape(n_assets, 3), axis=1)


## üîÅ Loop de Treinamento do Agente DQN

Com todos os componentes implementados (ambiente `PortfolioEnv`, redes DQN, `ReplayBuffer` e pol√≠tica Œµ-greedy), estruturamos agora o ciclo de treinamento do agente com foco em aloca√ß√£o de portf√≥lio.

Este loop √© respons√°vel por **coletar experi√™ncias, treinar a rede Q e atualizar a pol√≠tica do agente** ao longo do tempo.

### üß† Estrutura Geral

1. **Inicializa√ß√£o do ambiente e redes**:
   - O agente come√ßa com uma carteira vazia e R$ 100.000,00 em caixa;
   - A rede Q (ativa) e a rede Q-alvo (congelada) s√£o inicializadas com pesos iguais.

2. **A cada passo de tempo**:
   - Seleciona uma a√ß√£o com pol√≠tica Œµ-greedy (balanceando explora√ß√£o e explota√ß√£o);
   - Executa a a√ß√£o e observa a recompensa, pr√≥ximo estado e sinal de t√©rmino (`done`);
   - Armazena a experi√™ncia no `ReplayBuffer`;
   - Quando o buffer cont√©m experi√™ncias suficientes, inicia o processo de aprendizado:
     - Amostra um mini-batch aleat√≥rio;
     - Calcula o Q-alvo com a rede congelada;
     - Calcula o Q-predito com a rede atual;
     - Minimiza o erro entre eles com otimizador (loss MSE);
   - A cada N passos, atualiza os pesos da rede-alvo.

---

### ‚öôÔ∏è Hiperpar√¢metros Definidos

As seguintes escolhas foram feitas com base em pr√°ticas recomendadas e em testes preliminares com dados financeiros:

| Par√¢metro                   | Valor       | Justificativa |
|----------------------------|-------------|----------------|
| `learning_rate`            | `1e-4`      | Est√°vel em ambientes de baixa dimensionalidade |
| `gamma` (fator de desconto)| `0.99`      | Valor alto preserva recompensas futuras |
| `batch_size`               | `64`        | Compromisso entre performance e ru√≠do |
| `replay_buffer_size`       | `100_000`   | Permite diversidade de experi√™ncias |
| `target_update_freq`       | `500` steps | Frequ√™ncia moderada para evitar oscila√ß√£o |
| `epsilon_start`            | `1.0`       | Come√ßa com m√°xima explora√ß√£o |
| `epsilon_min`              | `0.05`      | Mant√©m um m√≠nimo de explora√ß√£o no fim |
| `epsilon_decay`            | `0.995`     | Decaimento gradual a cada epis√≥dio |

---

### üß™ Crit√©rio de Parada: Estabilidade de Desempenho

Em vez de treinar por um n√∫mero fixo de epis√≥dios, o agente ser√° treinado at√© atingir **estabilidade em pelo menos duas das seguintes m√©tricas**, avaliadas em janelas m√≥veis:

- **Sharpe Ratio**: retorno ajustado pelo risco (ideal acima de 1.0);
- **Lucro M√©dio**: lucro acumulado m√©dio por epis√≥dio (positivo e crescente);
- **Hit Ratio**: porcentagem de acertos t√°ticos nas decis√µes (ideal acima de 55%).

O treinamento ser√° encerrado quando:
- As tr√™s m√©tricas estiverem **em faixa aceit√°vel e est√°vel** (com varia√ß√£o padr√£o pequena) por pelo menos **10 epis√≥dios consecutivos**;
- Ou quando um **limite m√°ximo de epis√≥dios for alcan√ßado** (ex: 300), evitando overfitting ou sobrecarga.

---

Essa abordagem permite interromper o treinamento **com base em desempenho real**, promovendo equil√≠brio entre efici√™ncia de capital, risco e precis√£o de decis√£o ‚Äî caracter√≠sticas fundamentais em aplica√ß√µes financeiras reais.


In [23]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from collections import deque

# Hiperpar√¢metros
learning_rate = 1e-4
gamma = 0.99
batch_size = 64
buffer_capacity = 100_000
target_update_freq = 500

epsilon = 1.0
epsilon_min = 0.05
epsilon_decay = 0.995

max_episodes = 300
min_buffer_size = 1000

# Inicializa√ß√£o
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
q_net = DQN(input_dim=env.reset().shape[0], output_dim=9).to(device)
q_target = DQN(input_dim=env.reset().shape[0], output_dim=9).to(device)
q_target.load_state_dict(q_net.state_dict())

optimizer = optim.Adam(q_net.parameters(), lr=learning_rate)
loss_fn = nn.MSELoss()
buffer = ReplayBuffer(capacity=buffer_capacity, device=device)

# M√©tricas para monitoramento
reward_history = []
sharpe_window = deque(maxlen=10)
hit_window = deque(maxlen=10)

step_count = 0

for episode in range(max_episodes):
    state = env.reset()
    done = False
    total_reward = 0
    rewards = []

    while not done:
        action = select_action(state, q_net, epsilon)
        next_state, reward, done, info = env.step(action)
        buffer.add(state, action, reward, next_state, done)

        state = next_state
        total_reward += reward
        rewards.append(reward)
        step_count += 1

        if len(buffer) > min_buffer_size:
            states, actions, rewards_b, next_states, dones = buffer.sample(batch_size)

            # Predi√ß√£o atual
            q_values = q_net(states)
            actions_flat = actions.view(-1, 1)
            q_pred = q_values.gather(1, actions_flat).squeeze()

            # Alvo
            with torch.no_grad():
                q_next = q_target(next_states).max(1)[0]
                q_target_vals = rewards_b + (1 - dones) * gamma * q_next

            loss = loss_fn(q_pred, q_target_vals)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            # Atualiza rede alvo
            if step_count % target_update_freq == 0:
                q_target.load_state_dict(q_net.state_dict())

    # Atualiza√ß√£o de Œµ
    epsilon = max(epsilon * epsilon_decay, epsilon_min)

    # M√©tricas
    reward_history.append(total_reward)
    sharpe_ratio = np.mean(rewards) / (np.std(rewards) + 1e-6)
    hit_ratio = np.mean([r > 0 for r in rewards])

    sharpe_window.append(sharpe_ratio)
    hit_window.append(hit_ratio)

    print(f"Ep {episode+1} | Recompensa: {total_reward:.3f} | Sharpe: {sharpe_ratio:.2f} | Hit: {hit_ratio:.2%} | Eps: {epsilon:.3f}")

    # Crit√©rio de parada com estabilidade
    if len(sharpe_window) == 10:
        sharpe_ok = np.mean(sharpe_window) > 1.0 and np.std(sharpe_window) < 0.3
        hit_ok = np.mean(hit_window) > 0.55 and np.std(hit_window) < 0.1
        lucro_ok = np.mean(reward_history[-10:]) > 0
        if sharpe_ok and hit_ok and lucro_ok:
            print("üèÅ Crit√©rio de estabilidade atingido ‚Äî encerrando o treinamento.")
            break
# Gr√°fico de recompensas
plt.figure(figsize=(12, 6))
plt.plot(reward_history, label='Recompensa Total')
plt.title('Recompensa Total por Epis√≥dio')
plt.xlabel('Epis√≥dio')
plt.ylabel('Recompensa')
plt.legend()
plt.grid()     

NameError: name 'env' is not defined

In [None]:
# Instancia o ambiente e imprime o shape do vetor de estado
env = PortfolioEnv()
sample_state = env.reset()
print("Dimens√£o do vetor de estado:", sample_state.shape)


TypeError: PortfolioEnv.__init__() missing 1 required positional argument: 'df'