In [4]:
# Bloco 1: Preparar os Dados

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import time
import os

# Carregar o dataset
data = pd.read_csv('D:\\dados\\bar_M15_data_01-01-2023_a_31-08-2024.csv')
data['DateTime'] = pd.to_datetime(data['DateTime'])

# Criar a coluna "Valor", que é uma cópia de "Close" e não será normalizada
data['Valor'] = data['Close']

# Normalizar as colunas necessárias (exceto "Valor" e "Gatilho")
scaler = MinMaxScaler()
cols_to_normalize = [
    'Open', 'High', 'Low', 'Close', 'Volume', 'PavioSuperior', 'PavioInferior',
    'Corpo', 'Range', 'SMA50', 'SMA100', 'SMA200', 'StochasticoK',
    'StochasticoD', 'RSI', 'MACD', 'MACDSignal', 'MACDHistogram'
]
data[cols_to_normalize] = scaler.fit_transform(data[cols_to_normalize])

# Converter todos os valores para tipo float32 para evitar problemas de tipo
data = data.astype({col: 'float32' for col in cols_to_normalize + ['Valor']})

import gym
from gym import spaces

class TradingEnv(gym.Env):
    def __init__(self, data):
        super(TradingEnv, self).__init__()
        self.data = data.reset_index(drop=True)
        self.current_step = 0
        self.position = 0  # 0 = neutro, 1 = comprado, -1 = vendido
        self.entry_price = 0.0
        self.entry_step = None  # Inicializar entry_step
        self.action_space = spaces.Discrete(3)  # 0 = Manter, 1 = Comprar, 2 = Vender
        self.observation_space = spaces.Box(
            low=0, high=1, shape=(len(data.columns) - 3 + 1,), dtype=np.float32
        )
        self.trades = []  # Lista para armazenar as operações realizadas

    def reset(self):
        self.current_step = 0
        self.position = 0
        self.entry_price = 0.0
        self.entry_step = None  # Resetar entry_step
        self.trades = []
        return self._next_observation()

    def _next_observation(self):
        obs = self.data.iloc[self.current_step].drop(['Valor', 'DateTime', 'Gatilho']).values
        obs = np.append(obs, self.position)  # Incluir a posição atual na observação
        return obs.astype(np.float32)

    def step(self, action):
        done = self.current_step >= len(self.data) - 2  # Ajustado para evitar índice fora do intervalo
        reward = 0
        info = {}

        # Obter o valor atual e o próximo valor
        current_price = self.data['Valor'].iloc[self.current_step]
        next_price = self.data['Valor'].iloc[self.current_step + 1]
        price_change = next_price - current_price

        # Obter o valor do gatilho no passo atual
        gatilho = int(self.data['Gatilho'].iloc[self.current_step])

        # Se o gatilho estiver ativo, o agente pode executar todas as ações
        if gatilho == 1:
            if action == 1:  # Comprar
                if self.position == 0:
                    self.position = 1  # Abrir posição comprada
                    self.entry_price = current_price
                    self.entry_step = self.current_step  # Registrar o passo de entrada
                    reward -= 0.25  # Custo de operação
                    info['trade'] = {
                        'type': 'buy',
                        'entry_step': self.entry_step,
                        'entry_price': self.entry_price
                    }
                elif self.position == -1:
                    # Fechar posição vendida
                    self.position = 0
                    self.exit_price = current_price
                    reward += -price_change - 0.25  # Ganho da posição vendida
                    info['trade'] = {
                        'type': 'close_short',
                        'exit_step': self.current_step,
                        'exit_price': self.exit_price,
                        'profit': -price_change - 0.25
                    }
                    # Registrar a operação
                    self.trades.append({
                        'type': 'short',
                        'entry_step': self.entry_step,
                        'entry_price': self.entry_price,
                        'exit_step': self.current_step,
                        'exit_price': self.exit_price,
                        'profit': -price_change - 0.25
                    })
                    # Resetar entry_step após fechar a posição
                    self.entry_step = None
            elif action == 2:  # Vender
                if self.position == 0:
                    self.position = -1  # Abrir posição vendida
                    self.entry_price = current_price
                    self.entry_step = self.current_step  # Registrar o passo de entrada
                    reward -= 0.25  # Custo de operação
                    info['trade'] = {
                        'type': 'sell',
                        'entry_step': self.entry_step,
                        'entry_price': self.entry_price
                    }
                elif self.position == 1:
                    # Fechar posição comprada
                    self.position = 0
                    self.exit_price = current_price
                    reward += price_change - 0.25  # Ganho da posição comprada
                    info['trade'] = {
                        'type': 'close_long',
                        'exit_step': self.current_step,
                        'exit_price': self.exit_price,
                        'profit': price_change - 0.25
                    }
                    # Registrar a operação
                    self.trades.append({
                        'type': 'long',
                        'entry_step': self.entry_step,
                        'entry_price': self.entry_price,
                        'exit_step': self.current_step,
                        'exit_price': self.exit_price,
                        'profit': price_change - 0.25
                    })
                    # Resetar entry_step após fechar a posição
                    self.entry_step = None
            else:  # Manter
                if self.position == 1:
                    reward += price_change  # Ganho da posição comprada
                elif self.position == -1:
                    reward += -price_change  # Ganho da posição vendida
        else:
            # Se o gatilho não estiver ativo, o agente só pode manter
            if action != 0:
                action = 0  # Forçar ação 'Manter'
            if self.position == 1:
                reward += price_change  # Ganho da posição comprada
            elif self.position == -1:
                reward += -price_change  # Ganho da posição vendida

        # Atualizar o passo atual
        self.current_step += 1

        obs = self._next_observation()
        return obs, reward, done, info

# Bloco 3: Criar o Agente DQN usando PyTorch

import torch
import torch.nn as nn
import torch.optim as optim
import collections
import random

# Configurações do dispositivo
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Criar o ambiente
env = TradingEnv(data)

obs_size = env.observation_space.shape[0]
n_actions = env.action_space.n

# Definir a rede DQN
class DQN(nn.Module):
    def __init__(self, obs_size, n_actions):
        super(DQN, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(obs_size, 128),
            nn.ReLU(),
            nn.Linear(128, 128),
            nn.ReLU(),
            nn.Linear(128, n_actions)
        )

    def forward(self, x):
        return self.model(x)

# Instanciar a rede
q_net = DQN(obs_size, n_actions).to(device)
target_net = DQN(obs_size, n_actions).to(device)
target_net.load_state_dict(q_net.state_dict())

# Definir o otimizador
optimizer = optim.Adam(q_net.parameters(), lr=1e-4)

# Hiperparâmetros para DQN
memory_size = 10000
batch_size = 64
gamma = 0.99
epsilon_start = 1.0
epsilon_end = 0.01
epsilon_decay = 0.995
target_update = 10  # Atualizar a rede alvo a cada 10 episódios

# Inicializar a memória de replay
memory = collections.deque(maxlen=memory_size)

# Função para selecionar ação usando epsilon-greedy
def select_action(state, epsilon):
    if random.random() < epsilon:
        return random.choice([0, 1, 2])
    else:
        with torch.no_grad():
            q_values = q_net(state)
            return q_values.argmax().item()

# Bloco 4: Treinamento do Agente DQN com Salvamento dos Melhores Episódios Após Cada Episódio

num_episodes = 100  # Defina o número de episódios de treinamento
epsilon = epsilon_start
best_episodes = []

save_dir = "4.4"
os.makedirs(save_dir, exist_ok=True)

for episode in range(num_episodes):
    start_time = time.time()
    obs = env.reset()
    obs = torch.FloatTensor(obs).unsqueeze(0).to(device)
    done = False
    total_reward = 0
    steps = 0
    actions_count = {0: 0, 1: 0, 2: 0}
    wins = 0
    losses = 0
    win_total = 0
    lose_total = 0
    trades = []  # Lista para armazenar as operações do episódio atual

    while not done:
        steps += 1

        # Selecionar ação
        action = select_action(obs, epsilon)

        # Executar ação no ambiente
        obs_next, reward, done, info = env.step(action)
        obs_next = torch.FloatTensor(obs_next).unsqueeze(0).to(device)

        # Armazenar na memória de replay
        memory.append((obs, action, reward, obs_next, done))

        # Atualizar o estado
        obs = obs_next
        total_reward += reward

        # Atualizar contagem de ações
        actions_count[action] += 1

        # Atualizar ganhos e perdas
        if reward > 0:
            wins += 1
            win_total += reward
        elif reward < 0:
            losses += 1
            lose_total += reward

        # Registrar a operação se houver uma
        if 'trade' in info:
            trade_info = info['trade']
            if trade_info['type'] in ['buy', 'sell']:
                # Início de uma nova operação
                current_trade = {
                    'type': trade_info['type'],
                    'entry_step': trade_info['entry_step'],
                    'entry_price': trade_info['entry_price'],
                    'exit_step': None,
                    'exit_price': None,
                    'profit': None
                }
            else:
                # Fechamento de uma operação existente
                current_trade['exit_step'] = trade_info['exit_step']
                current_trade['exit_price'] = trade_info['exit_price']
                current_trade['profit'] = trade_info['profit']
                trades.append(current_trade)
                current_trade = None  # Resetar a operação atual

        # Treinar a rede se a memória tiver tamanho suficiente
        if len(memory) >= batch_size:
            batch = random.sample(memory, batch_size)
            states, actions_batch, rewards_batch, next_states, dones = zip(*batch)

            states = torch.cat(states).to(device)
            actions_batch = torch.tensor(actions_batch, dtype=torch.long, device=device).unsqueeze(1)
            rewards_batch = torch.tensor(rewards_batch, dtype=torch.float32, device=device).unsqueeze(1)
            next_states = torch.cat(next_states).to(device)
            dones = torch.tensor(dones, dtype=torch.float32, device=device).unsqueeze(1)

            # Computar Q-valor atual
            q_values = q_net(states).gather(1, actions_batch)

            # Computar Q-valor alvo usando a rede alvo
            with torch.no_grad():
                next_q_values = target_net(next_states).max(1)[0].unsqueeze(1)
            target_q_values = rewards_batch + gamma * next_q_values * (1 - dones)

            # Calcular a perda
            loss = nn.MSELoss()(q_values, target_q_values)

            # Otimizar a rede
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

    # Decaimento de epsilon
    epsilon = max(epsilon_end, epsilon_decay * epsilon)

    # Atualizar a rede alvo
    if episode % target_update == 0:
        target_net.load_state_dict(q_net.state_dict())

    # Cálculo do tempo de treinamento do episódio
    end_time = time.time()
    episode_time = end_time - start_time

    win_rate = wins / (wins + losses) if (wins + losses) > 0 else 0
    print(f"Episode {episode + 1}/{num_episodes}, Total Reward: {total_reward:.2f}, Win Rate: {win_rate:.2f}, "
          f"Wins: {wins}, Losses: {losses}, Epsilon: {epsilon:.4f}, Steps: {steps}, Time: {episode_time:.2f}s")
    print(f"Ações: Manter={actions_count[0]}, Comprar={actions_count[1]}, Vender={actions_count[2]}")
    print(f"Ganhos Totais: {win_total:.2f}, Perdas Totais: {lose_total:.2f}\n")

    # Salvar informações do episódio
    episode_info = {
        'episode': episode + 1,
        'total_reward': total_reward,
        'win_rate': win_rate,
        'wins': wins,
        'losses': losses,
        'actions_count': actions_count.copy(),
        'win_total': win_total,
        'lose_total': lose_total,
        'steps': steps,
        'episode_time': episode_time,
        'model_state_dict': q_net.state_dict(),
        'trades': trades.copy()  # Salvar as operações do episódio
    }

    # Adicionar o episódio à lista e manter os top 10
    best_episodes.append(episode_info)
    best_episodes = sorted(best_episodes, key=lambda x: x['total_reward'], reverse=True)[:10]

    # Salvar o modelo e log se o episódio for um dos top 10
    if episode_info in best_episodes:
        model_path = os.path.join(save_dir, f"model_episode_{episode_info['episode']}.pth")
        torch.save(episode_info['model_state_dict'], model_path)
        episode_info['model_path'] = model_path

        # Salvar o log completo das operações
        log_path = os.path.join(save_dir, f"log_episode_{episode_info['episode']}.csv")
        trades_df = pd.DataFrame(episode_info['trades'])
        trades_df.to_csv(log_path, index=False)
        episode_info['log_path'] = log_path

        print(f"Modelo e log do episódio {episode_info['episode']} salvos em: {model_path} e {log_path}")

print("\nTreinamento finalizado.")
print("Top 10 Melhores Episódios:")
for idx, ep in enumerate(best_episodes, 1):
    print(f"Rank {idx}: Episode {ep['episode']}, Total Reward: {ep['total_reward']:.2f}, "
          f"Win Rate: {ep['win_rate']:.2f}, Wins: {ep['wins']}, Losses: {ep['losses']}, "
          f"Ações: {ep['actions_count']}, Steps: {ep['steps']}, Time: {ep['episode_time']:.2f}s")


Episode 1/100, Total Reward: -1493.25, Win Rate: 0.48, Wins: 11209, Losses: 12209, Epsilon: 0.9950, Steps: 36754, Time: 116.26s
Ações: Manter=12278, Comprar=12259, Vender=12217
Ganhos Totais: 119624.00, Perdas Totais: -121117.25

Modelo e log do episódio 1 salvos em: 4.4\model_episode_1.pth e 4.4\log_episode_1.csv
Episode 2/100, Total Reward: -365.25, Win Rate: 0.48, Wins: 11443, Losses: 12350, Epsilon: 0.9900, Steps: 36754, Time: 141.43s
Ações: Manter=12331, Comprar=12292, Vender=12131
Ganhos Totais: 124416.50, Perdas Totais: -124781.75

Modelo e log do episódio 2 salvos em: 4.4\model_episode_2.pth e 4.4\log_episode_2.csv
Episode 3/100, Total Reward: -1311.75, Win Rate: 0.47, Wins: 11395, Losses: 12614, Epsilon: 0.9851, Steps: 36754, Time: 161.90s
Ações: Manter=12188, Comprar=11991, Vender=12575
Ganhos Totais: 128562.00, Perdas Totais: -129873.75

Modelo e log do episódio 3 salvos em: 4.4\model_episode_3.pth e 4.4\log_episode_3.csv
Episode 4/100, Total Reward: -2600.25, Win Rate: 0.48

KeyboardInterrupt: 