## intalacao da biblioteca

In [None]:
!pip install tensorflow



## class DQNAgent:

In [None]:
import tensorflow as tf
import numpy as np # Import numpy
from collections import deque # Para o replay buffer
import os # Importar o módulo os para verificar a existência do arquivo
import pickle # Para serializar o buffer de replay

class DQNAgent:
    """
    Agente Deep Q-Network (DQN) para aprendizagem por reforço com
    gerenciamento de posição, replay buffer e suporte a TPU.
    Agora com funcionalidade para carregar modelo salvo na inicialização
    e também salvar/carregar o estado completo do agente, incluindo o número da época.
    """
    def __init__(self, state_dim, action_dim, learning_rate=0.001, gamma=0.99, epsilon_start=1.0, epsilon_end=0.01, epsilon_decay_steps=20000, buffer_capacity=50000, batch_size=64, target_update_freq=1000, model_save_path='/content/drive/MyDrive/Arquivos_MT5/dqn_forex_agent_model.keras', agent_state_path='/content/drive/MyDrive/Arquivos_MT5/dqn_forex_agent_state.pkl'):
        """
        Inicializa o agente DQN com valores padrão. O carregamento do estado salvo
        deve ser feito chamando load_state() APÓS a inicialização.

        Args:
            state_dim (int): Dimensão do espaço de estados.
            action_dim (int): Dimensão do espaço de ações.
            learning_rate (float): Taxa de aprendizado para o otimizador.
            gamma (float): Fator de desconto para recompensas futuras.
            epsilon_start (float): Valor inicial de epsilon para a política epsilon-greedy.
            epsilon_end (float): Valor final de epsilon para a política epsilon-greedy.
            epsilon_decay_steps (int): Número de passos para decair epsilon.
            buffer_capacity (int): Capacidade máxima do buffer de replay.
            batch_size (int): Tamanho do mini-batch para treinamento.
            target_update_freq (int): Frequência de atualização da target network.
            model_save_path (str): Caminho para salvar/carregar o modelo da rede.
            agent_state_path (str): Caminho para salvar/carregar o estado completo do agente (buffer, epsilon, etc.).
        """
        print(f"__init__: Iniciando inicialização do agente...")
        self.state_dim = state_dim
        self.action_dim = action_dim
        self.learning_rate = learning_rate
        self.gamma = gamma # Fator de desconto

        # GARANTE que self.epsilon_start e self.epsilon_end são definidos PRIMEIRAMENTE
        self.epsilon_start = epsilon_start
        self.epsilon_end = epsilon_end
        self.epsilon_decay_steps = epsilon_decay_steps
        # Evita divisão por zero se epsilon_decay_steps for 0
        self.epsilon_decay_rate = (self.epsilon_start - self.epsilon_end) / self.epsilon_decay_steps if self.epsilon_decay_steps > 0 else 0.0

        # Epsilon, contador e época inicializados com valores padrão. Serão sobrescritos por load_state se bem-sucedido.
        self.epsilon = self.epsilon_start
        self.train_step_counter = 0
        self.current_epoch = 0 # NOVO: Contador de época

        self.buffer_capacity = buffer_capacity
        self.batch_size = batch_size
        self.target_update_freq = target_update_freq
        self.model_save_path = model_save_path
        self.agent_state_path = agent_state_path # Novo caminho para salvar/carregar estado completo

        # --- GARANTE que self.buffer é inicializado como um deque AQUI ---
        self.buffer = deque(maxlen=buffer_capacity) # Usando deque para o buffer de replay eficiente
        print(f"__init__: Buffer de replay inicializado com capacidade {self.buffer_capacity}.")

        self.position = 0 # 0: fora, 1: comprado, -1: vendido

        # Cria a rede Q e a target network
        self.q_network = self._build_model()
        self.target_q_network = self._build_model()
        # Sincroniza pesos iniciais. Se load_state for chamado depois e bem-sucedido, isso será sobrescrito.
        self.target_q_network.set_weights(self.q_network.get_weights())
        print("__init__: Redes Q e Target criadas.")


        # Cria o otimizador
        self.optimizer = tf.keras.optimizers.Adam(learning_rate=self.learning_rate)
        print("__init__: Otimizador criado.")


        self.loss_fn = tf.keras.losses.MeanSquaredError() # DQN usa MSE para a perda Q-learning
        self.strategy = None # Initialize strategy to None

        # >>> REMOVIDA a chamada para self.load_state() daqui <<<
        print("__init__: Inicialização básica completa. load_state não foi chamado aqui.")


    def _build_model(self):
        """
        Constrói o modelo da rede neural para estimar os valores Q.
        """
        model = tf.keras.Sequential([
            tf.keras.layers.Input(shape=(self.state_dim,)),
            tf.keras.layers.Dense(64, activation='relu'),
            tf.keras.layers.Dense(64, activation='relu'),
            tf.keras.layers.Dense(self.action_dim, activation='linear') # Saída linear para valores Q
        ])
        return model

    def select_action(self, state, explore=False):
        """
        Seleciona uma ação usando a política epsilon-greedy se explore=True,
        senão usa explotação (maior Q-value).

        Args:
            state (np.array or tf.Tensor): O estado atual do ambiente.
            explore (bool): Se True, usa epsilon-greedy. Se False (padrão), usa explotação.


        Returns:
            int: O índice da ação selecionada.
        """
        # Implementação da política epsilon-greedy
        if explore and np.random.rand() <= self.epsilon:
            return np.random.randint(self.action_dim) # Exploração: ação aleatória
        else:
            # Explotação: seleciona a ação com o maior valor Q
            state = tf.convert_to_tensor(state, dtype=tf.float32)
            state = tf.expand_dims(state, 0) # Adiciona uma dimensão para o batch
            q_values = self.q_network(state)
            return tf.argmax(q_values[0]).numpy()

    def store_experience(self, state, action, reward, next_state, done):
        """
        Armazena uma experiência (transição) no buffer de replay.

        Args:
            state: O estado atual.
            action (int): A ação tomada.
            reward (float): A recompensa recebida.
            next_state: O próximo estado.
            done (bool): Indica se o episódio terminou.
        """
        # --- Novo: Verifica se o buffer foi inicializado antes de usar ---
        if self.buffer is not None:
            self.buffer.append((state, action, reward, next_state, done))
        else:
            print("Aviso: Buffer de replay não inicializado (None). Experiência não armazenada.")


    def sample_batch(self):
        """
        Amostra um mini-batch de experiências do buffer de replay.

        Returns:
            Tuple: Mini-batch de (estados, ações, recompensas, próximos estados, 'dones').
            Retorna None se não houver experiências suficientes no buffer ou se o buffer for None.
        """
        # --- Novo: Verifica se o buffer foi inicializado antes de usar ---
        if self.buffer is None or len(self.buffer) < self.batch_size:
            if self.buffer is None:
                print("Aviso: Buffer de replay é None. Não é possível amostrar um batch.")
            return None

        indices = np.random.choice(len(self.buffer), self.batch_size, replace=False)
        batch = [self.buffer[i] for i in indices]

        states, actions, rewards, next_states, dones = zip(*batch)

        # Converte para tensores do TensorFlow
        states = tf.convert_to_tensor(np.array(states), dtype=tf.float32)
        actions = tf.convert_to_tensor(np.array(actions), dtype=tf.int32)
        rewards = tf.convert_to_tensor(np.array(rewards), dtype=tf.float32)
        next_states = tf.convert_to_tensor(np.array(next_states), dtype=tf.float32)
        dones = tf.convert_to_tensor(np.array(dones), dtype=tf.float32)

        return states, actions, rewards, next_states, dones

    def train_step(self):
        """
        Executa um passo de treinamento usando um mini-batch do buffer de replay.
        Implementa a lógica de atualização Q-learning.

        Returns:
            float: O valor da perda calculada (ou None se não houver batch suficiente ou buffer for None).
        """
        # --- Novo: Adiciona verificação para buffer None antes de sample_batch ---
        if self.buffer is None:
             print("Aviso: Buffer de replay é None. Não é possível executar train_step.")
             return None

        mini_batch = self.sample_batch()
        if mini_batch is None:
            return None # Não há experiências suficientes para amostrar um batch

        states, actions, rewards, next_states, dones = mini_batch

        with tf.GradientTape() as tape:
            # Calcular os valores Q da Q-network para os estados atuais
            current_q_values = self.q_network(states)
            # Selecionar os valores Q para as ações que foram realmente tomadas
            action_mask = tf.one_hot(actions, self.action_dim)
            selected_q_values = tf.reduce_sum(current_q_values * action_mask, axis=1)

            # Calcular os valores Q alvo usando a target network para os próximos estados
            # DQN clássico usa max Q-value do próximo estado da target network
            next_target_q_values = self.target_q_network(next_states)
            max_next_target_q_values = tf.reduce_max(next_target_q_values, axis=1)

            # Calcular os valores Q alvo para a atualização (Bellman equation)
            # Se 'done' for True, o valor Q alvo é apenas a recompensa
            target_q_values = rewards + (1 - dones) * self.gamma * max_next_target_q_values

            # Calcular a perda: erro quadrático médio entre os valores Q preditos e os alvos
            loss = self.loss_fn(target_q_values, selected_q_values)

        # Calcular e aplicar os gradientes
        gradients = tape.gradient(loss, self.q_network.trainable_variables)
        self.optimizer.apply_gradients(zip(gradients, self.q_network.trainable_variables))

        # Atualizar a target network periodicamente
        self.train_step_counter += 1
        if self.train_step_counter % self.target_update_freq == 0:
            self.target_q_network.set_weights(self.q_network.get_weights())
            # print("Target network updated.") # Opcional: imprimir quando a target network é atualizada

        # Decair epsilon
        if self.epsilon > self.epsilon_end:
            self.epsilon -= self.epsilon_decay_rate
            self.epsilon = max(self.epsilon_end, self.epsilon) # Garante que epsilon não caia abaixo do mínimo


        return loss.numpy()

    def set_tpu_strategy(self):
        """
        Configura a estratégia de distribuição para usar TPU, se disponível.
        Nota: Treinamento com TPU pode exigir adaptações adicionais na pipeline de dados e treinamento.
        """
        try:
            # Check if a TPU is available
            tpu = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='') # Pass an empty string to check for availability
            if tpu.master():
                tf.config.experimental_connect_to_cluster(tpu)
                tf.tpu.experimental.initialize_tpu_system(tpu)
                self.strategy = tf.distribute.TPUStrategy(tpu)
                print('Running on TPU ', tpu.cluster_spec().as_dict()['worker'])

                # Recria o modelo e o otimizador dentro do escopo da estratégia TPU
                with self.strategy.scope():
                    # Ao usar TPU, recriamos os modelos e otimizador dentro do escopo da estratégia.
                    # Se um estado foi carregado antes (fora do escopo), precisamos carregar os pesos
                    # e o estado do otimizador dentro do escopo.
                    # A forma mais robusta é carregar o estado completo DENTRO do escopo.
                    # Se você já carregou o estado do agente, os pesos já estão na CPU.
                    # Precisa ver como TF lidava com isso ao entrar no escopo TPU.
                    # Uma abordagem comum é salvar os pesos e o estado do otimizador antes de entrar no escopo,
                    # e carregá-los DENTRO do escopo.

                    # Para simplicidade AGORA, vamos apenas recriar o modelo e otimizador
                    # dentro do escopo. Se você já carregou o estado completo na inicialização,
                    # os pesos e o estado do otimizador já foram restaurados na CPU.
                    # TensorFlow geralmente gerencia a transferência para a TPU quando você usa a estratégia.
                    # Mas se tiver problemas, pode precisar ajustar esta parte.
                    print("Recriando modelo e otimizador DENTRO do escopo TPU.")
                    self.q_network = self._build_model()
                    self.target_q_network = self._build_model()
                    self.optimizer = tf.keras.optimizers.Adam(learning_rate=self.learning_rate)

                    # Nota: Se você carregou o estado completo ANTES de chamar set_tpu_strategy,
                    # os pesos e o estado do otimizador já estão na CPU.
                    # TensorFlow deve movê-los para a TPU automaticamente.
                    # Se não, você pode precisar carregar o estado novamente AQUI dentro do escopo.
                    # Por enquanto, vamos assumir que o TF faz isso.


            else:
                print('TPU not found. Running on CPU/GPU.')

        except tf.errors.NotFoundError:
            print('TPU not found. Running on CPU/GPU.')
        except ValueError as e:
             print(f'Error detecting TPU: {e}. Running on CPU/GPU.')

    def get_state_info(self, environment_state):
        """
        Processa o estado do ambiente para obter uma representação numérica.
        Para este caso, assume que o estado já é um array numérico.
        """
        if isinstance(environment_state, (list, tuple)):
            environment_state = np.array(environment_state, dtype=np.float32)
        return environment_state

    def get_reward(self, environment_reward):
        """
        Processa a informação de recompensa do ambiente.
        """
        return float(environment_reward)

    def get_action_description(self, action_index):
        """
        Traduz o índice da ação selecionada para uma descrição textual.
        """
        action_map = {0: 'Manter', 1: 'Comprar', 2: 'Vender'}
        return action_map.get(action_index, 'Ação Desconhecida')


    def update_position(self, action_index):
        """
        Atualiza a posição do agente com base na ação tomada (0: Hold, 1: Buy, 2: Sell).
        Retorna True se a posição mudou, False caso contrário.
        """
        position_before = self.position
        if action_index == 1: # Buy
            self.position = 1
        elif action_index == 2: # Sell
            self.position = -1
        # Action 0 (Hold) does not change the position

        return position_before != self.position


    def reset_position(self):
        """
        Reseta a posição do agente para fora do mercado.
        """
        self.position = 0

    def get_position(self):
        """
        Retorna a posição atual do agente (0: fora, 1: comprado, -1: vendido).
        """
        return self.position

    def save_state(self):
        """
        Salva o estado completo do agente (modelo, otimizador, buffer, epsilon, contador, epoca)
        em arquivos locais.
        Retorna True se o salvamento foi bem-sucedido, False caso contrário.
        """
        # --- Novo: Adiciona verificação para buffer None antes de salvar ---
        if self.buffer is None:
            print("Aviso: Buffer de replay é None. Não é possível salvar o estado do agente.")
            return False

        try:
            # Salva o modelo da Q-network
            self.q_network.save(self.model_save_path)
            print(f"Modelo da Q-network salvo com sucesso em: {self.model_save_path}")

            # Salva o estado do otimizador
            # TensorFlow tem métodos para salvar/restaurar o estado do otimizador
            # Precisa de um checkpoint manager para gerenciar isso, ou salvar variáveis separadamente.
            # Para simplicidade AGORA, vamos salvar os pesos do otimizador se possível,
            # mas carregar o estado completo do otimizador é mais complexo e requer Checkpoint.
            # Vamos focar no buffer, epsilon, contador e epoca primeiro, que são mais simples de salvar/carregar com pickle.

            # Salva o buffer de replay, epsilon, train_step_counter e current_epoch usando pickle
            agent_state_data = {
                'buffer': list(self.buffer), # Converte deque para lista para serialização
                'epsilon': self.epsilon,
                'train_step_counter': self.train_step_counter,
                'current_epoch': self.current_epoch # NOVO: Salva a época atual
            }
            with open(self.agent_state_path, 'wb') as f:
                pickle.dump(agent_state_data, f)
            print(f"Estado do agente salvo com sucesso em: {self.agent_state_path}\n(buffer, epsilon={self.epsilon:.4f}, contador={self.train_step_counter}, epoca={self.current_epoch}) ")

            return True # Indicate success
        except Exception as e:
            print(f"Erro ao salvar o estado do agente: {e}")
            return False # Indicate failure

    def load_state(self):
        """
        Tenta carregar o estado completo do agente (modelo, otimizador, buffer, epsilon, contador, epoca)
        de arquivos locais. Retorna True se o carregamento foi bem-sucedido, False caso contrário.
        """
        loaded_successfully = False
        agent_state_data = {} # Initialize an empty dict for state data

        try:
            # Carrega o modelo da Q-network
            if os.path.exists(self.model_save_path):
                print(f"Tentando carregar modelo da Q-network de: {self.model_save_path}")
                self.q_network = tf.keras.models.load_model(self.model_save_path)
                # target_q_network will be synced after load_state call
                self.target_q_network.set_weights(self.q_network.get_weights()) # Ensure target is synced after loading model
                print("Modelo da Q-network carregado com sucesso.")
                loaded_successfully = True # Model loading successful so far

                # Tenta carregar o estado do agente (buffer, epsilon, contador, epoca)
                if os.path.exists(self.agent_state_path):
                    print(f"Tentando carregar estado do agente de: {self.agent_state_path}")
                    try:
                        with open(self.agent_state_path, 'rb') as f:
                            agent_state_data = pickle.load(f)

                        # --- Carregamento robusto de chaves individuais ---
                        # Carrega buffer, com fallback para novo deque se a chave não existir ou for inválida
                        buffer_data = agent_state_data.get('buffer')
                        if buffer_data is not None and isinstance(buffer_data, (list, deque)):
                             self.buffer = deque(buffer_data, maxlen=self.buffer_capacity)
                             print("  Buffer de replay carregado.")
                        else:
                             print("  Aviso: Chave 'buffer' ausente ou buffer inválido no arquivo de estado. Inicializando novo buffer.")
                             self.buffer = deque(maxlen=self.buffer_capacity)


                        # Carrega epsilon, com fallback para epsilon_start se a chave não existir
                        self.epsilon = agent_state_data.get('epsilon', self.epsilon_start)
                        if 'epsilon' in agent_state_data:
                            print(f"  Epsilon carregado: {self.epsilon:.4f}")
                        else:
                            print(f"  Aviso: Chave 'epsilon' ausente no arquivo de estado. Usando valor padrão: {self.epsilon_start:.4f}")


                        # Carrega train_step_counter, com fallback para 0 se a chave não existir
                        self.train_step_counter = agent_state_data.get('train_step_counter', 0)
                        if 'train_step_counter' in agent_state_data:
                            print(f"  Contador de passos carregado: {self.train_step_counter}")
                        else:
                            print(f"  Aviso: Chave 'train_step_counter' ausente no arquivo de estado. Usando valor padrão: 0")


                        # Carrega current_epoch, com fallback para 0 se a chave não existir
                        self.current_epoch = agent_state_data.get('current_epoch', 0)
                        if 'current_epoch' in agent_state_data:
                            print(f"  Época atual carregada: {self.current_epoch}")
                        else:
                            print(f"  Aviso: Chave 'current_epoch' ausente no arquivo de estado. Usando valor padrão: 0")


                        print("Estado do agente carregado (com fallbacks para chaves ausentes).")
                        loaded_successfully = True # Indicate state loading attempted


                    except Exception as e:
                        print(f"Erro ao carregar o conteúdo do arquivo de estado {self.agent_state_path} com pickle: {e}.")
                        print("Inicializando estado do agente do zero.")
                        # Em caso de erro no pickle.load, inicializa estado do zero
                        self.epsilon = self.epsilon_start
                        self.train_step_counter = 0
                        self.current_epoch = 0
                        self.buffer = deque(maxlen=self.buffer_capacity)
                        loaded_successfully = False # Indicate state loading failed


                else:
                    # If state file is not found, epsilon and counter remain at initial values from __init__
                    print(f"Nenhum arquivo de estado do agente encontrado em {self.agent_state_path}. Iniciando treinamento do zero.")
                    # No need to explicitly set epsilon/counter/buffer/epoch here, they are already at initial values from __init__
                    loaded_successfully = loaded_successfully and False # If model loaded but state not found, overall loading isn't fully successful


            else:
                # If model is not found, ensure state also starts from zero.
                # Epsilon, train_step_counter, buffer, and epoch are already at initial values from __init__
                print(f"Nenhum modelo da Q-network encontrado em {self.model_save_path}. Criando um novo modelo e iniciando treinamento do zero.")
                # No need to explicitly set epsilon/counter/buffer/epoch here, they are already at initial values from __init__
                loaded_successfully = False # Indicate model not found


        except Exception as e:
            print(f"Erro geral durante o processo de carregamento: {e}.")
            # Em caso de qualquer erro, garante que o estado começa do zero.
            # Epsilon e train_step_counter já estão nos valores iniciais de __init__
            # Recria modelos e otimizador em caso de terem sido parcialmente carregados ou corrompidos
            print("Recriando modelo e otimizador após erro de carregamento.")
            self.q_network = self._build_model()
            self.target_q_network = self._build_model() # Será sincronizado após load_state
            self.optimizer = tf.keras.optimizers.Adam(learning_rate=self.learning_rate) # Recria o otimizador também
            # --- Garante que o buffer seja re-inicializado em caso de erro no carregamento ---
            self.buffer = deque(maxlen=self.buffer_capacity)
            self.current_epoch = 0 # Reseta a época
            print(f"Buffer de replay re-inicializado com capacidade {self.buffer_capacity} após erro de carregamento.")
            loaded_successfully = False # Ensure flag is False on error


        # Note about the optimizer: Loading the full optimizer state with pickle is complex.
        # The more common approach in TensorFlow is to use `tf.train.Checkpoint`.
        # For now, we are just recreating the optimizer on initialization or failure.
        # This means the optimizer's internal state (momentos, etc.) will be reset,
        # but the learning rate will be maintained. For fully continuous training,
        # it would be ideal to save/load the optimizer state with Checkpoint.

        return loaded_successfully # Return the status

## arquivo de dados

Por favor, faça o upload do seu arquivo `.txt` contendo os dados históricos.

In [None]:
from google.colab import files

# Tenta carregar o modelo salvo
file_name = 'eurusd_history_range.csv'
if os.path.exists(file_name):
    print(f"arquivo de dados encontrado {file_name}")
else:
    print(f"Nenhum arquivo encontrado em {file_name}. importando um novo arquivo...")
    uploaded = files.upload()
    for fn in uploaded.keys():
      print('User uploaded file "{name}" with length {length} bytes'.format(
          name=fn, length=len(uploaded[fn])))
    file_name = list(uploaded.keys())[0]
    print(f"dados carregado com sucesso {file_name}")


Nenhum arquivo encontrado em eurusd_history_range.csv. importando um novo arquivo...


Saving eurusd_history_range.csv to eurusd_history_range.csv
User uploaded file "eurusd_history_range.csv" with length 18571728 bytes
dados carregado com sucesso eurusd_history_range.csv


In [None]:
pare

NameError: name 'pare' is not defined

## funcoes e treinamento usando **TPU**

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf # Certifique-se que tensorflow está importado
from collections import deque # Certifique-se que deque está importado
import os # Importar o módulo os para verificar a existência do arquivo
import pickle # Para serializar o buffer de replay

# Assumindo que 'file_name' foi definido na célula de upload
# Se 'file_name' não estiver definido, você pode definir um valor padrão aqui para testes.
# file_name = 'eurusd_history_range.csv' # Exemplo: descomente se necessário

# Verifique se 'file_name' existe, caso contrário, imprima um erro
if 'file_name' not in locals():
    print("Erro: A variável 'file_name' não foi definida. Por favor, execute a célula de upload de arquivo.")
else:
    # --- Código de carregamento e processamento de dados (copiado da célula 6NDXOS2mmzhh) ---
    try:
        # Tenta ler o arquivo com o separador de múltiplos espaços
        # Ignora a primeira linha (cabeçalho)
        # Especifica os nomes das colunas para melhor controle
        # Mantendo todas as colunas necessárias para a criação de estados
        financial_data = pd.read_csv(
            file_name,
            sep='\s+', # Use regex to handle multiple spaces/tabs
            header=None, # Read without a header
            names=['Data', 'Tempo', 'Open', 'High', 'Low', 'Close', 'Volume'], # Specify all column names
            skiprows=1 # Skip the actual header row
        )
        print("Dados brutos carregados com sucesso (primeiras linhas após pular o cabeçalho):")
        display(financial_data.head())

        # Combinar colunas 'Data' e 'Tempo' e converter para datetime
        financial_data['Datetime'] = financial_data['Data'] + ' ' + financial_data['Tempo']
        financial_data['Datetime'] = pd.to_datetime(financial_data['Datetime'], errors='coerce')

        # Definir a coluna 'Datetime' como índice e remover colunas temporárias
        financial_data.set_index('Datetime', inplace=True)
        financial_data.drop(columns=['Data', 'Tempo'], inplace=True)

        # Converter as colunas 'Open' e 'Close' para numéricas, tratando erros
        financial_data['Open'] = pd.to_numeric(financial_data['Open'], errors='coerce')
        financial_data['Close'] = pd.to_numeric(financial_data['Close'], errors='coerce')

        # Opcional: remover linhas onde a conversão para numérica falhou em 'Open' ou 'Close'
        financial_data.dropna(subset=['Open', 'Close'], inplace=True)

        print("\nDados financeiros processados (com Datetime como índice e 'Open'/'Close' numéricas):")
        display(financial_data.head())

    except FileNotFoundError:
        print(f"Erro: Arquivo '{file_name}' não encontrado. Por favor, verifique se o upload foi feito corretamente.")
        financial_data = pd.DataFrame() # Cria um DataFrame vazio para evitar erros posteriores
    except Exception as e:
        print(f"Ocorreu um erro inesperado ao ler ou processar o arquivo: {e}")
        print("Verifique if the separator, column names, and date format are correct in the code.")
        financial_data = pd.DataFrame() # Cria um DataFrame vazio em caso de erro


    # --- Definição da função create_states (copiado da célula a612373c) ---
    # Certifique-se que esta função está completa e correta conforme sua definição
    def create_states(closing_data, opening_data, n_lags=4, add_indicators=True):
        """
        Cria a representação do estado usando os últimos n_lags preços de fechamento e abertura,
        opcionalmente adiciona indicadores técnicos e o lucro/prejuízo (P/L) flutuante DA JANELA.

        Args:
            closing_data (pd.Series): Série temporal dos preços de fechamento (deve ser numérica).
            opening_data (pd.Series): Série temporal dos preços de abertura (deve ser numérica).
            n_lags (int): Número de lags (preços anteriores) a serem incluídos no estado.
            add_indicators (bool): Se True, calcula e adiciona indicadores técnicos ao estado.

        Returns:
            np.ndarray: Array de estados, onde cada estado é um array dos n_lags preços anteriores
                        (Close e Open) mais os valores dos indicadores, se adicionados, e o P/L flutuante DA JANELA.
            pd.Series: Série de preços de fechamento correspondente a cada estado.
            pd.Series: Série de preços de abertura correspondente a cada estado.
            pd.Index: Índice de Datetime correspondente a cada estado.
        """
        # Ensure data is numeric and handle potential non-numeric values
        numeric_closing_data = pd.to_numeric(closing_data, errors='coerce')
        numeric_opening_data = pd.to_numeric(opening_data, errors='coerce')

        # Combinar Close e Open e remover linhas com NaN em qualquer uma das colunas
        combined_price_data = pd.DataFrame({'Close': numeric_closing_data, 'Open': numeric_opening_data}).dropna()

        if len(combined_price_data) < n_lags:
            print(f"Aviso: Dados insuficientes ({len(combined_price_data)} pontos) após remover NaNs para criar estados com {n_lags} lags.")
            return np.array([]), pd.Series([]), pd.Series([]), pd.Index([])

        # --- Calcular Indicadores Técnicos (se add_indicators é True) ---
        indicator_values = pd.DataFrame(index=combined_price_data.index)

        if add_indicators:
            # Exemplo: Média Móvel Simples (SMA) de 10 e 20 períodos no Close
            indicator_values['SMA_10'] = combined_price_data['Close'].rolling(window=10).mean()
            indicator_values['SMA_20'] = combined_price_data['Close'].rolling(window=20).mean()

            # Exemplo: Índice de Força Relativa (RSI) de 14 períodos no Close
            delta = combined_price_data['Close'].diff()
            gains = delta.mask(delta < 0, 0)
            losses = delta.mask(delta > 0, 0).abs()
            # Use .fillna(0) antes de ewm para evitar problemas com séries curtas ou NaNs iniciais
            avg_gain = gains.fillna(0).ewm(com=14 - 1, adjust=False).mean()
            avg_loss = losses.fillna(0).ewm(com=14 - 1, adjust=False).mean()
            # Adiciona um pequeno valor ao divisor para evitar divisão por zero
            rs = avg_gain / (avg_loss.replace(0, np.nan) + 1e-9) # Adiciona 1e-9 para estabilidade
            indicator_values['RSI_14'] = 100 - (100 / (1 + rs))

        # --- Criar Estados ---
        # Combina os dados de preços (Close e Open) com os indicadores (se existirem)
        # Certifica-se que os índices se alinham antes de concatenar
        combined_data = pd.concat([combined_price_data, indicator_values], axis=1)

        # Remover quaisquer NaNs resultantes do cálculo dos indicadores ou dos lags
        combined_data_cleaned = combined_data.dropna()

        # Garante que ainda há dados suficientes após remover NaNs
        if len(combined_data_cleaned) < n_lags:
             print(f"Aviso: Dados insuficientes ({len(combined_data_cleaned)} pontos) após remover NaNs e calcular indicadores para criar estado com {n_lags} lags.")
             return np.array([]), pd.Series([]), pd.Series([]), pd.Index([])

        # Encontra os índices no dataframe limpo que correspondem aos estados criados
        state_indices = combined_data_cleaned.index[n_lags-1:] # O estado em i corresponde aos dados de i-n_lags+1 a i

        states = []
        closes = [] # O preço de fechamento correspondente à decisão (no momento 'i' no dataframe limpo)
        opens = [] # O preço de abertura correspondente à decisão (no momento 'i' no dataframe limpa)
        state_datetimes = [] # Para armazenar o Datetime correspondente a cada estado

        # Itere sobre os dados limpos para construir os estados e calcular o P/L flutuante da janela
        # O loop deve começar de n_lags para pegar as janelas completas
        for i in range(n_lags, len(combined_data_cleaned)):
            # Pega as últimas n_lags observações completas (Open, Close + indicadores)
            state_window_data = combined_data_cleaned.iloc[i-n_lags:i] # DataFrame window
            state_window_values = state_window_data.values.flatten() # Achata para um array 1D

            # Preço atual para cálculo do P/L flutuante da janela
            current_price_for_window_pl = combined_data_cleaned['Close'].iloc[i]

            # Calcular P/L flutuante da janela como a diferença percentual entre o preço atual e o preço de abertura do primeiro bar da janela
            # Isso dá uma ideia da tendência e volatilidade dentro da janela do estado.
            price_at_start_of_window = state_window_data['Open'].iloc[0]
            if price_at_start_of_window != 0: # Evitar divisão por zero
                 floating_pl_window = (current_price_for_window_pl - price_at_start_of_window) / price_at_start_of_window
            else:
                 floating_pl_window = 0.0

            # Adiciona o P/L flutuante da janela ao estado
            full_state = np.append(state_window_values, floating_pl_window)

            states.append(full_state)
            closes.append(combined_data_cleaned['Close'].iloc[i])
            opens.append(combined_data_cleaned['Open'].iloc[i]) # Adiciona opens
            state_datetimes.append(combined_data_cleaned.index[i])


        # Atualiza STATE_DIM com a nova dimensão (n_lags * num_features_per_step + 1 para o P/L flutuante da janela)
        # Esta dimensão é baseada no estado ANTES da substituição pelo P/L Total
        if len(states) > 0:
            # num_features_per_step é o número de colunas em combined_data_cleaned
            num_features_per_step_cleaned = combined_data_cleaned.shape[1]
            STATE_DIM = n_lags * num_features_per_step_cleaned + 1
        else:
             # Recalcula STATE_DIM com base nos parâmetros esperados + 1 para P/L
             expected_features_per_step = 2 + (3 if add_indicators else 0) # Open, Close + num_indicators
             expected_features_per_step_after_cleaning = expected_features_per_step # Assuming no columns are dropped during cleaning that would change feature count
             STATE_DIM = n_lags * expected_features_per_step_after_cleaning + 1 # Add 1 for floating P/L

        # Retorna os estados, closes, opens correspondentes e os datetimes
        return np.array(states, dtype=np.float32), pd.Series(closes, index=state_datetimes), pd.Series(opens, index=state_datetimes), pd.Index(state_datetimes)


    # --- Fim da definição da função create_states ---


    # Crie os estados usando as colunas 'Open' e 'Close' dos seus dados financeiros
    # Certifique-se que financial_data tem as colunas 'Open' e 'Close' e índice Datetime
    if 'Open' in financial_data.columns and 'Close' in financial_data.columns and isinstance(financial_data.index, pd.DatetimeIndex):
        open_prices = financial_data['Open']
        closing_prices = financial_data['Close']

        # Defina o número de lags (deve ser o mesmo usado para treinar o modelo que será carregado/criado)
        n_lags = 4 # Certifique-se que este valor corresponde ao n_lags usado no treinamento do modelo salvo

        # Crie os estados usando as colunas 'Open' e 'Close' numéricas e adicione indicadores
        # Agora a função create_states também retorna os datetimes correspondentes aos estados
        states, corresponding_closes, corresponding_opens, state_datetimes = create_states(closing_prices, open_prices, n_lags=n_lags, add_indicators=True)


        # Atualiza STATE_DIM com a nova dimensão do estado criado (ANTES da substituição do P/L)
        if len(states) > 0:
            STATE_DIM = states.shape[1]
        else:
            # Calculate STATE_DIM based on n_lags and expected features if no states are created
            # Expected features: Open, Close + number of indicators (3)
            expected_features_per_step = 2 + 3 if True else 2 # Assuming add_indicators=True adds 3 indicators
            STATE_DIM = n_lags * expected_features_per_step + 1 # Add 1 for floating P/L


        # Defina ACTION_DIM (assumindo 3 ações: Manter, Comprar, Vender)
        ACTION_DIM = 3

        print(f"Número total de estados criados (com indicadores e P/L flutuante da janela): {len(states)}")
        print(f"Dimensão do Estado BASE (STATE_DIM antes da substituição do P/L): {STATE_DIM}")
        print(f"Dimensão da Ação (ACTION_DIM): {ACTION_DIM}")
        if len(states) > 0:
            print("Primeiro estado BASE (com indicadores e P/L flutuante da janela):")
            display(states[0])
            print("\nPrimeiros 5 preços de fechamento correspondentes:")
            display(corresponding_closes.head())
            print("\nPrimeiros 5 preços de abertura correspondentes:") # Display opens as well
            display(corresponding_opens.head())
            print("\nPrimeiros 5 datetimes correspondentes:") # Display datetimes as well
            # Corrected line: Use slicing to display the first elements of the index
            display(state_datetimes[:5])
        else:
            print("Nenhum estado foi criado devido a dados insuficientes ou erros.")

    else:
        print("Erro: DataFrame 'financial_data' não contém as colunas 'Open', 'Close' ou não tem índice Datetime.")
        states = np.array([]) # Define states como array vazio para evitar erros posteriores
        corresponding_closes = pd.Series([])
        corresponding_opens = pd.Series([])
        state_datetimes = pd.Index([]) # Define state_datetimes como index vazio
        STATE_DIM = 0 # Define STATE_DIM como 0 para indicar erro
        ACTION_DIM = 3 # Define ACTION_DIM padrão


    # Ensure STATE_DIM and ACTION_DIM are defined and states were created successfully
    if 'STATE_DIM' not in locals() or 'ACTION_DIM' not in locals() or STATE_DIM == 0 or len(states) == 0:
         print("Erro: A criação de estados falhou. Não é possível inicializar o agente e executar os loops.")
    else:
        # Crie uma nova instância da classe de RL com as dimensões corretas e parâmetros para o buffer
        # Aumentamos a capacidade do buffer para um exemplo mais realista
        # Garanta que STATE_DIM foi atualizado na célula anterior
        # Define rl_agent before the training loop
        # O model_save_path pode ser gerenciado pelo usuário para forçar a criação de um novo modelo

        # --- Inicializa o agente sem carregar o estado no __init__ ---
        # O load_state será chamado APÓS esta inicialização
        rl_agent = DQNAgent(state_dim=STATE_DIM, action_dim=ACTION_DIM, buffer_capacity=50000)

        # --- Tenta carregar o estado completo do agente APÓS a inicialização ---
        print("\nCélula de Treinamento: Tentando carregar estado do agente após inicialização básica...")
        load_successful = rl_agent.load_state()

        # --- Logs de inicialização/carregamento movidos para cá ---
        # Estes logs agora são chamados APÓS load_state, onde self.epsilon_start é garantido estar definido.
        # --- Novo: Adiciona verificação para buffer None ANTES de usar len() no log ---
        buffer_size_log = len(rl_agent.buffer) if rl_agent.buffer is not None else "None (buffer is None)"

        if load_successful:
             print(f"Célula de Treinamento: Agente carregado com sucesso. Epsilon inicial: {rl_agent.epsilon_start:.4f}, Epsilon atual: {rl_agent.epsilon:.4f}, Contador de passos: {rl_agent.train_step_counter}, Epoca atual: {rl_agent.current_epoch}, Buffer size: {buffer_size_log}")
        else:
             print(f"Célula de Treinamento: Falha ao carregar estado do agente. Iniciando treinamento do zero. Epsilon inicial: {rl_agent.epsilon_start:.4f}, Contador de passos: {rl_agent.train_step_counter}, Epoca atual: {rl_agent.current_epoch}, Buffer size: {rl_agent.buffer_capacity}")


        # Opcional: Configurar para usar TPU se disponível (o método já lida com a ausência de TPU)
        # rl_agent.set_tpu_strategy() # Comentar ou remover se não usar TPU no Colab

        print("Instância da classe DQNAgent criada e configurada com sucesso.")
        print(f"Dimensão do Estado (STATE_DIM): {rl_agent.state_dim}")
        print(f"Dimensão da Ação (ACTION_DIM): {rl_agent.action_dim}")
        print(f"Capacidade do Buffer de Replay: {rl_agent.buffer_capacity}")


        # Define the number of total states in the dataset (equivalent to steps per epoch/episode)
        num_states_per_epoch = len(states)
        # num_states_per_epoch = 2000 # Para testes rápidos

        # Define o número total de épocas para treinar
        num_epochs = 10 # Defina o número de épocas desejado

        # Define o passo inicial para iniciar o treinamento dentro da PRIMEIRA época
        # Este valor será carregado do agente se o carregamento for bem-sucedido
        start_step_in_epoch = rl_agent.train_step_counter

        # Define o passo mínimo para iniciar o treinamento (quando o buffer tem experiências suficientes)
        train_start_buffer_size = 1000 # Start training after collecting a minimum number of experiences


        # Simulação do loop de treinamento no ambiente financeiro

        # Certifique-se de que 'states', 'corresponding_closes', 'corresponding_opens', and 'state_datetimes' were created
        if len(states) == 0 or len(corresponding_closes) == 0 or len(corresponding_opens) == 0 or len(state_datetimes) == 0:
            print("Erro: Os estados, preços de fechamento, preços de abertura ou datetimes correspondentes não foram criados. Por favor, verifique o carregamento e a criação de estados acima.")
        else:
            # Total number of steps to be processed across all epochs
            total_steps_to_process = num_epochs * num_states_per_epoch

            print(f"\nIniciando simulação de treinamento para {num_epochs} épocas.")
            print(f"Cada época contém {num_states_per_epoch} passos.")
            print(f"Total de passos a serem processados: {total_steps_to_process}")
            print(f"Retomando da Época {rl_agent.current_epoch}, Passo {rl_agent.train_step_counter} (início da época {rl_agent.current_epoch}).")


            # Variáveis para rastrear o desempenho (inicializadas para acumular sobre sessões)
            # Estas variáveis precisariam ser salvas/carregadas para rastreamento total entre sessões.
            # Por enquanto, vamos apenas acumular DENTRO da sessão atual.
            # Se precisar de rastreamento total, precisaríamos adicionar total_reward, total_pl_realizado, max_open_orders ao estado salvo.
            # Para este passo, vamos focar em salvar/carregar o estado essencial do RL (modelo, otimizador, buffer, epsilon, contador, epoca).
            total_reward_session = 0 # Reiniciado a cada nova execução do script
            total_pl_realizado_session = 0 # Reiniciado a cada nova execução do script
            # max_open_orders = 0 # MÁXIMO de ordens abertas SIMULTANEAMENTE (geral) - Este deve ser rastreado globalmente se quiser histórico total
            # max_negative_pl_orders_count = 0 # NOVO: Máximo de ordens abertas com P/L negativo (Contagem) - Rastreado globalmente
            # max_negative_pl_value = 0.0 # NOVO: Máximo valor de P/L negativo (o menor P/L flutuante, mais negativo) - Rastreado globalmente
            current_loss = None # Para armazenar a perda do último passo de treinamento

            # Inicializa variáveis de rastreamento de desempenho global se não existirem (para acumular entre sessões)
            if 'max_open_orders' not in locals():
                 max_open_orders = 0
            if 'max_negative_pl_orders_count' not in locals():
                 max_negative_pl_orders_count = 0
            if 'max_negative_pl_value' not in locals():
                 max_negative_pl_value = 0.0


            # Defina o custo de transação (ex: spread)
            transaction_cost = 0.00010 # Definido como 0.10 pips

            # Fator para a penalidade por ignorar lucro flutuante (ajustar conforme necessário)
            # Este fator será usado como base para a modulação pelo número de ordens
            penalty_factor_ignore_profit_base = 150.0 # Ajuste fino pode ser necessário


            # Mapeamento de ações para texto (para impressão)
            action_map = {0: 'Manter', 1: 'Comprar', 2: 'Vender'}

            # --- Variáveis para rastrear MÚLTIPLAS Posições (Simulação Interna) ---
            # Estas variáveis também precisariam ser salvas/carregadas para um estado de simulação totalmente persistente.
            # Por enquanto, elas são resetadas a cada início de script.
            open_buy_positions = [] # Reiniciado a cada nova execução do script
            open_sell_positions = [] # Reiniciado a cada nova execução do script


            # --- Loop de ÉPOCAS ---
            # O loop começa da época atual carregada
            for epoch in range(rl_agent.current_epoch, num_epochs):
                print(f"\n--- Iniciando Época {epoch + 1}/{num_epochs} ---")

                # Determina o passo de início DENTRO desta época
                # Se for a primeira época desta sessão (epoch == rl_agent.current_epoch NO INÍCIO desta execução),
                # começa do passo carregado. Para épocas subsequentes, começa do passo 0 (início do dataset).
                current_epoch_start_step = start_step_in_epoch if epoch == rl_agent.current_epoch else 0

                # Reinicia o contador de passos do agente para cada nova época (se estiver começando do passo 0)
                # Não reseta se estiver continuando de um passo diferente de zero na primeira época
                if current_epoch_start_step == 0:
                     rl_agent.train_step_counter = 0 # Reinicia o contador do agente no início de cada nova época

                print(f"Época {epoch + 1}: Processando estados de {current_epoch_start_step} a {num_states_per_epoch - 1}.")

                # --- Loop sobre os ESTADOS dentro da época ---
                # O loop agora itera sobre o índice dos estados
                # Certifique-se que o range está correto: de current_epoch_start_step até num_states_per_epoch
                for i in range(current_epoch_start_step, num_states_per_epoch):
                    # Calcular o passo total global (para decadência de epsilon e target update)
                    # O contador de passos do agente (rl_agent.train_step_counter) já faz isso se for incrementado a cada passo.
                    # Vamos usar o contador do agente como a métrica principal de passos globais.
                    # O índice `i` aqui representa o passo DENTRO da época/dataset.
                    # O contador global é `rl_agent.current_epoch * num_states_per_epoch + i` (se `i` começa de 0)
                    # OU simplesmente o `rl_agent.train_step_counter` se ele for incrementado consistentemente.
                    # Vamos usar o `rl_agent.train_step_counter` que é incrementado dentro de `train_step`.
                    # Precisamos garantir que ele seja incrementado APENAS quando o treinamento acontece.
                    # A decadência de epsilon e target update estão dentro de `train_step`, então isso está ok.

                    current_state_base = states[i] # Estado base com P/L da janela
                    current_price = corresponding_closes.iloc[i] # Preço no momento da decisão

                    # --- CALCULAR P/L FLUTUANTE TOTAL DAS POSIÇÕES SIMULADAS (ANTES DA AÇÃO) ---
                    # Estas contagens são usadas para a recompensa baseada no estado ANTES da ação
                    floating_pl_total_simulated_before = 0
                    negative_pl_orders_before_action_count = 0 # Contagem de ordens com P/L negativo ANTES da ação
                    current_negative_pl_value_before = 0.0 # Valor do P/L flutuante total negativo ANTES da ação


                    if len(open_buy_positions) > 0:
                        for entry_p in open_buy_positions:
                             # P/L flutuante de compra = Preço Atual - Preço de Entrada
                             pl = (current_price - entry_p)
                             floating_pl_total_simulated_before += pl
                             if pl < 0:
                                 negative_pl_orders_before_action_count += 1
                                 current_negative_pl_value_before += pl # Acumula o valor negativo

                    if len(open_sell_positions) > 0:
                        for entry_p in open_sell_positions:
                             # P/L flutuante de venda = Preço de Entrada (Venda) - Preço Atual
                             pl = (entry_p - current_price)
                             floating_pl_total_simulated_before += pl
                             if pl < 0:
                                 negative_pl_orders_before_action_count += 1
                                 current_negative_pl_value_before += pl # Acumula o valor negativo


                    # Atualiza o máximo de ordens com P/L negativo (Contagem) GLOBALMENTE
                    max_negative_pl_orders_count = max(max_negative_pl_orders_count, negative_pl_orders_before_action_count)
                    # Atualiza o máximo P/L negativo (o valor mais baixo/negativo) GLOBALMENTE
                    max_negative_pl_value = min(max_negative_pl_value, floating_pl_total_simulated_before) # Use o P/L total simulado ANTES da ação

                    # --- SUBSTITUIR P/L DA JANELA PELO P/L FLUTUANTE TOTAL SIMULADO NO ESTADO ---
                    processed_state = np.copy(current_state_base) # Crie uma cópia
                    # O último elemento do estado base é o P/L flutuante da janela (índice STATE_DIM - 1)
                    if processed_state.shape[0] == STATE_DIM:
                         # Normalizar o P/L flutuante total simulado para uma escala similar
                         # Usamos o preço atual para normalização, similar ao script MT5
                         normalized_pl_total_simulated = floating_pl_total_simulated_before
                         if current_price != 0:
                             normalized_pl_total_simulated = normalized_pl_total_simulated / current_price
                         processed_state[STATE_DIM - 1] = normalized_pl_total_simulated # Substitui pelo P/L total simulado normalizado
                    else:
                         print(f"Aviso: Dimensão do estado base ({current_state_base.shape[0]}) não corresponde a STATE_DIM ({STATE_DIM}). Não foi possível substituir o P/L total simulado.")
                         # Continue com o estado base, mas log o aviso.


                    # Obter a representação numérica do estado (agora já processada)
                    # processed_state = rl_agent.get_state_info(current_state) # Esta linha não é mais necessária aqui


                    # Selecionar uma ação usando a política epsilon-greedy (agora dentro do agente DQN)
                    # A exploração é controlada internamente pelo epsilon do agente
                    selected_action_index = rl_agent.select_action(processed_state, explore=True) # Mantém explore=True para treinamento
                    selected_action = action_map[selected_action_index]

                    # Determine the next state and if the episode is done
                    next_state_base = None # O próximo estado base com P/L da próxima janela
                    done = False
                    # O episódio termina APENAS quando chegamos ao ÚLTIMO estado do dataset nesta época
                    if i == num_states_per_epoch - 1:
                        done = True

                    if i + 1 < num_states_per_epoch:
                        next_state_base = states[i+1] # O próximo estado base é o próximo conjunto de lags
                        next_price = corresponding_closes.iloc[i+1] # O preço correspondente ao próximo estado
                    else:
                        # Se for o último estado da época, não há próximo estado real DENTRO DO DATASET.
                        # Para o buffer, usamos o estado atual como "próximo estado" e done=True.
                        next_price = current_price # Usar o preço atual para cálculo final, se necessário
                        next_state_base = current_state_base # Usar o estado atual como o próximo estado "terminal" para o buffer


                    # --- Calcular Recompensa e Gerenciar MúltIPLAS Posições (Simulação Interna) ---
                    reward = 0

                    current_agent_position_before_action = 0 # 0: fora, 1: comprado, -1: vendido (Simulado, ANTES da ação)
                    # Precisamos recalcular as posições openas antes de processar a ação
                    # As listas open_buy_positions e open_sell_positions refletem o estado DEPOIS da ação do passo anterior.
                    # Para a recompensa do passo ATUAL, precisamos das posições ANTES da ação ATUAL.
                    # No entanto, a simulação de múltiplas posições está sendo feita de forma contínua.
                    # Vamos usar as listas open_buy_positions e open_sell_positions como as posições ATUAIS antes da ação.
                    # A lógica já atualiza essas listas DEPOIS de tomar a ação e calcular a recompensa de fechamento.
                    # Isso parece correto para a simulação contínua.
                    current_open_orders_before_action = len(open_buy_positions) + len(open_sell_positions)

                    if len(open_buy_positions) > 0:
                         current_agent_position_before_action = 1
                    elif len(open_sell_positions) > 0:
                         current_agent_position_before_action = -1

                    positions_closed = False # Flag para saber se posições foram fechadas neste passo


                    # --- Executar Ação e Calcular Recompensa de Fechamento (Simulação Interna) ---
                    reward_from_closing = 0.0 # Recompensa apenas do fechamento de posições neste passo

                    if selected_action_index == 1: # Ação: Comprar
                        if current_agent_position_before_action == 0 or current_agent_position_before_action == 1: # Estava fora OU já comprado
                            # Abre uma nova posição de compra simulada
                            open_buy_positions.append(current_price + transaction_cost) # Adiciona preço de entrada (com custo)
                            reward_from_closing = 0.0 # Recompensa de fechamento zero ao abrir posição


                        elif current_agent_position_before_action == -1: # Estava vendido -> Fecha TODAS as posições vendidas simuladas e abre uma comprada
                            # Calcula P/L de TODAS as operações vendidas openas simuladas
                            total_sell_profit_simulated = 0.0
                            for entry_p in open_sell_positions:
                                # P/L = Preço de Entrada (Venda) - Preço de Saída (Compra) - Custo de fechamento
                                total_sell_profit_simulated += (entry_p - current_price - transaction_cost) # Considera custo no fechamento
                            reward_from_closing = total_sell_profit_simulated # A recompensa de fechamento é o P/L total das posições fechadas simuladas

                            open_sell_positions = [] # Fecha TODAS as posições vendidas simuladas
                            positions_closed = True # Marca que posições foram fechadas

                            # Imediatamente abre UMA NOVA posição comprada simulada
                            open_buy_positions.append(current_price + transaction_cost)
                            # A recompensa da abertura é zero


                    elif selected_action_index == 2: # Ação: Vender
                        if current_agent_position_before_action == 0 or current_agent_position_before_action == -1: # Estava fora OU já vendido
                            # Abre uma nova posição de venda simulada
                            open_sell_positions.append(current_price - transaction_cost) # Adiciona preço de entrada (com custo)
                            reward_from_closing = 0.0 # Recompensa de fechamento zero ao abrir posição


                        elif current_agent_position_before_action == 1: # Estava comprado -> Fecha TODAS as posições compradas openas simuladas e abre uma vendida
                         # Calcula P/L de TODAS as operações compradas openas simuladas
                         total_buy_profit_simulated = 0.0
                         for entry_p in open_buy_positions:
                             # P/L = Preço de Saída (Venda) - Preço de Entrada (Compra) - Custo de fechamento
                             total_buy_profit_simulated += (current_price - entry_p - transaction_cost) # Considera custo no fechamento
                         reward_from_closing = total_buy_profit_simulated # A recompensa de fechamento é o P/L total das posições fechadas simuladas

                         open_buy_positions = [] # Fecha TODAS as posições compradas simuladas
                         positions_closed = True # Marca que posições foram fechadas

                         # Imediatamente abre UMA NOVA posição vendida simulada
                         open_sell_positions.append(current_price - transaction_cost)
                         # A recompensa da abertura é zero


                    elif selected_action_index == 0: # Ação: Manter
                        # NOVO: Lógica para adicionar posição simulada na ação Manter se já posicionado
                        if current_agent_position_before_action == 1: # Se já comprado
                            open_buy_positions.append(current_price + transaction_cost) # Adiciona nova posição de compra simulada
                            reward_from_closing = 0.0 # Recompensa de fechamento zero ao adicionar
                        elif current_agent_position_before_action == -1: # Se já vendido
                            open_sell_positions.append(current_price - transaction_cost) # Adiciona nova posição de venda simulada
                            reward_from_closing = 0.0 # Recompensa de fechamento zero ao adicionar
                        else: # Se estiver fora (current_agent_position == 0), Manter não faz nada
                             pass


                    # <--- ATUALIZAR MÉTRICAS DE P/L E MÁXIMO DE ORDENS (Simulação Interna) ---
                    total_pl_realizado_session += reward_from_closing # Soma o P/L realizado simulado para a sessão atual
                    # Recalcula o número de ordens openas DEPOIS da ação (Simulado)
                    current_open_orders_after_action = len(open_buy_positions) + len(open_sell_positions)
                    max_open_orders = max(max_open_orders, current_open_orders_after_action) # Atualiza máximo global


                    # --- NOVA LÓGICA DE RECOMPENSA REFINADA (Simulação) ---
                    reward = 0.0  # Começa a recompensa do passo em zero

                    # 1. Recompensa direta pelo P/L realizado ao fechar posições
                    reward += reward_from_closing

                    # 2. Lógica para Ações de MANTER ou ABRIR/INVERTER com FOCO na penalidade por IGNORAR LUCRO FLUTUANTE TOTAL
                    # Se a ação NÃO resultou no fechamento de uma posição lucrativa E havia lucro flutuante TOTAL simulado antes da ação
                    # Need to calculate current_open_orders_before_action correctly here for penalty
                    current_open_orders_before_action_for_penalty = len(open_buy_positions) + len(open_sell_positions) # This is the count AFTER potential closures/opens based on the action logic above. This is correct for the penalty calculation as it reflects the state *after* the action decided *not* to close.

                    if not (positions_closed and reward_from_closing > 0) and floating_pl_total_simulated_before > 0:
                         # A penalidade aumenta com o lucro flutuante TOTAL simulado E o número de ordens abertas ANTES da ação
                         # Usamos (current_open_orders_before_action + 1) para garantir que o fator seja no mínimo 1
                         penalty = floating_pl_total_simulated_before * penalty_factor_ignore_profit_base * (current_open_orders_before_action_for_penalty + 1)
                         reward -= penalty


                    # 3. Lógica para P/L Flutuante TOTAL Negativo (Simulação)
                    # Se a ação NÃO resultou no fechamento de uma posição lucrativa E havia prejuízo flutuante TOTAL simulado antes da ação
                    elif not (positions_closed and reward_from_closing > 0) and floating_pl_total_simulated_before < 0:
                         # Deixa o agente explorar sem penalidades extras por abrir ou manter.
                         # Adicionamos uma pequena recompensa/penalidade baseada no P/L flutuante TOTAL negativo
                         # Multiplicamos por um fator para dar peso ao prejuízo flutuante
                         reward += floating_pl_total_simulated_before * 2.0 # floating_pl_total_simulated_before já é negativo. Este fator incentiva a redução da perda.


                    # 4. Penalidade incremental por número de ordens openas (Simulação, baseada na contagem APÓS a ação)
                    # Esta penalidade geral desencoraja ter muitas ordens, independentemente do P/L flutuante.
                    penalty_factor_open_orders = 0.001
                    # Recalcula o número de ordens openas DEPOIS da ação (Simulado)
                    current_open_orders_after_action = len(open_buy_positions) + len(open_sell_positions)
                    if current_open_orders_after_action > 1:
                        open_order_penalty = (current_open_orders_after_action - 1) * penalty_factor_open_orders
                        reward -= open_order_penalty
                    # --- FIM DA LÓGICA DE RECOMPENSA REFINADA (Simulação) ---


                    total_reward_session += reward # Add the total reward for the step to the accumulated total for the current session


                    # Armazenar a experiência no buffer de replay
                    # A experiência armazenada deve conter o estado PROCESSADO (com P/L total) ANTES da ação,
                    # a ação, a recompensa recebida APÓS a ação, o próximo estado PROCESSADO e se o episódio terminou.
                    # O próximo estado base precisa ser processado da mesma forma para o buffer.
                    processed_next_state = None
                    # Verifica se i+1 é um índice válido para o próximo estado base nos dados
                    if i + 1 < num_states_per_epoch:
                         next_state_base = states[i+1] # O próximo estado base é o próximo conjunto de lags
                         next_price = corresponding_closes.iloc[i+1] # O preço correspondente ao próximo estado

                         # Para o próximo estado no buffer, o P/L flutuante TOTAL simulado
                         # deve ser calculado com base nas posições openas APÓS a ação ATUAL
                         # e o preço do PRÓXIMO passo.

                         # Calcula P/L flutuante TOTAL simulado no próximo passo (usando next_price)
                         floating_pl_total_simulated_next = 0
                         if len(open_buy_positions) > 0:
                              for entry_p in open_buy_positions:
                                   floating_pl_total_simulated_next += (next_price - entry_p)
                         elif len(open_sell_positions) > 0:
                              for entry_p in open_sell_positions:
                                   floating_pl_total_simulated_next += (entry_p - next_price)

                         processed_next_state = np.copy(next_state_base)
                         if processed_next_state.shape[0] == STATE_DIM:
                              # Normaliza o P/L flutuante total simulado do próximo estado
                              normalized_pl_total_simulated_next = floating_pl_total_simulated_next
                              if next_price != 0:
                                  normalized_pl_total_simulated_next = normalized_pl_total_simulated_next / next_price
                              processed_next_state[STATE_DIM - 1] = normalized_pl_total_simulated_next # Substitui pelo P/L total simulado no próximo estado
                         else:
                              print(f"Aviso: Dimensão do próximo estado base ({next_state_base.shape[0]}) não corresponde a STATE_DIM ({STATE_DIM}). Não foi possível substituir o P/L total simulado no próximo estado para o buffer.")
                              # Se não foi possível processar o próximo estado, use o estado atual como fallback (não ideal, mas evita erro)
                              processed_next_state = processed_state


                         # Armazena a experiência (s, a, r, s', done)
                         rl_agent.store_experience(processed_state, selected_action_index, reward, processed_next_state, done)
                    else:
                         # Se for o último estado da época (i == num_states_per_epoch - 1), não há próximo estado real na simulação DENTRO DO DATASET.
                         # A experiência final é armazenada com o estado atual como o "próximo estado" e 'done' como True.
                         # Isso sinaliza o fim do episódio para o algoritmo RL.
                         rl_agent.store_experience(processed_state, selected_action_index, reward, processed_state, done)


                    # Treinar o modelo usando um mini-batch do buffer de replay
                    # O treinamento agora é iniciado quando o buffer tem experiências suficientes
                    # e é feito chamando o método train_step do agente DQN
                    # Certifique-se de que o treino comece apenas APÓS o train_start_buffer_size
                    if len(rl_agent.buffer) >= train_start_buffer_size: # Use train_start_buffer_size aqui
                         loss = rl_agent.train_step() # O train_step do DQN amostra do buffer
                         if loss is not None:
                             current_loss = loss # Atualiza a perda apenas se o treinamento ocorreu


                    # Determine if a print should occur based on action vs. current position
                    # 0: Manter, 1: Comprar, 2: Vender
                    # current_agent_position_before_action: 0: fora, 1: comprado, -1: vendido
                    should_print_action = False
                    # Print if action is Buy (1) and agent is not already Long (1)
                    if selected_action_index == 1 and current_agent_position_before_action != 1:
                        should_print_action = True
                    # Print if action is Sell (2) and agent is not already Short (-1)
                    elif selected_action_index == 2 and current_agent_position_before_action != -1:
                        should_print_action = True
                    # Print if action is Hold (0) and agent has open positions (either Long or Short)
                    # based on the new logic for Hold = Open new order in current direction
                    # Only print if a new order was *actually* added in this step (i.e., agent was already positioned)
                    elif selected_action_index == 0 and current_agent_position_before_action != 0:
                         should_print_action = True


                    # Combine conditions: print on significant action OR on close OR at intervals OR at the end of epoch/data
                    # Adiciona condição para imprimir a cada N passos para ver o progresso contínuo
                    print_interval = 1000 # Imprimir a cada 1000 passos dentro da época
                    should_print = should_print_action or positions_closed or (i % print_interval == 0) or (i == num_states_per_epoch - 1)


                    if should_print:
                       # Determine a posição geral atual para a impressão (Simulada)
                       current_position_status_after_action = "Fora"
                       if len(open_buy_positions) > 0:
                           current_position_status_after_action = "Comprado"
                       elif len(open_sell_positions) > 0:
                           current_position_status_after_action = "Vendido"

                       # Calcule o número total de ordens openas DEPOIS da ação para o log (Simulado)
                       total_open_orders_after_action_log = len(open_buy_positions) + len(open_sell_positions)

                       # Recalcular P/L flutuante e ordens negativas APÓS a ação para a impressão consistente
                       floating_pl_total_simulated_after = 0
                       negative_pl_orders_after_action_count = 0
                       current_negative_pl_value_after = 0.0

                       if len(open_buy_positions) > 0:
                           for entry_p in open_buy_positions:
                                pl = (current_price - entry_p)
                                floating_pl_total_simulated_after += pl
                                if pl < 0:
                                    negative_pl_orders_after_action_count += 1
                                    current_negative_pl_value_after += pl

                       if len(open_sell_positions) > 0:
                           for entry_p in open_sell_positions:
                                pl = (entry_p - current_price)
                                floating_pl_total_simulated_after += pl
                                if pl < 0:
                                    negative_pl_orders_after_action_count += 1
                                    current_negative_pl_value_after += pl


                       # Imprime a perda do treinamento se foi atualizada neste passo de impressão
                       # Verifica se current_loss não é None antes de formatar
                       # Usa rl_agent.train_step_counter para o passo global
                       loss_log = f"Perda={current_loss:<12.6f}" if current_loss is not None else f"Perda={'N/A':<12}"

                       # Formatar a linha de impressão principal para alinhar as colunas
                       # Definir larguras fixas para cada campo (ajustar conforme necessário)
                       # Adiciona Época ao log
                       step_log = f"Época {epoch+1}/{num_epochs}, Passo {rl_agent.train_step_counter:<7}" # Largura para o número do passo
                       action_str = f"Ação={selected_action:<8}" # Largura para a ação
                       status_str = f"Status={current_position_status_after_action:<9}" # Largura para o status
                       orders_str = f"Ordens Abertas={total_open_orders_after_action_log:<4}" # Largura para ordens abertas
                       pl_flutuante_str = f"P/L Flutuante={floating_pl_total_simulated_after:<10.5f}" # Largura e precisão para P/L Flutuante

                       # Formatar as informações de P/L Negativo (AGORA CALCULADAS APÓS A AÇÃO)
                       neg_pl_atual_str = f"P/L Neg Atuais={current_negative_pl_value_after:<10.5f}"
                       ordens_neg_atual_str = f"Ordens Neg Atuais={negative_pl_orders_after_action_count:<4}"
                       neg_pl_max_str = f"P/L Neg Max={max_negative_pl_value:<10.5f}" # Max histórico continua sendo rastreado separadamente
                       ordens_neg_max_str = f"Ordens Neg Max={max_negative_pl_orders_count:<4}" # Max histórico continua sendo rastreado separadamente


                       # Combinar as partes formatadas
                       print(f"{step_log} {action_str} {status_str} {orders_str} {pl_flutuante_str}, {loss_log}, {neg_pl_atual_str}, {ordens_neg_atual_str}, {neg_pl_max_str}, {ordens_neg_max_str}")


                    # --- Salvar o estado completo do agente periodicamente ---
                    # Salvar com menos frequência para não impactar muito a performance
                    save_state_interval = 500 # Salva a cada 500 passos dentro da época
                    # Keep periodic save even if not printing to ensure state is saved
                    # Save based on the index within the epoch (i)
                    if i > 0 and i % save_state_interval == 0 or i == num_states_per_epoch - 1:
                        rl_agent.save_state() # Chama o método para salvar o estado completo


                # --- Fim do Loop de Estados ---

                # No final de cada época, atualiza o contador de época do agente
                # Se o loop de estados foi concluído totalmente (i chegou a num_states_per_epoch - 1)
                if i == num_states_per_epoch - 1:
                     rl_agent.current_epoch += 1
                     # Ao final da época, reseta o start_step_in_epoch para 0 para a próxima época
                     start_step_in_epoch = 0
                     print(f"\n--- Época {epoch + 1} Concluída. Agente na Época {rl_agent.current_epoch}. ---")

                     # Salva o estado final da época para garantir que a época atual seja salva
                     rl_agent.save_state()


            # --- Fim do Loop de ÉPOCAS ---


            # No final da simulação de treinamento (todas as épocas), se houver posições openas simuladas, feche-as para calcular o P/L final
            # ESTE P/L FINAL SÓ É PARA O RELATÓRIO FINAL
            # Certifique-se de que corresponding_closes tem pelo menos num_states_per_epoch elementos antes de acessar o último
            # O preço final é o do último estado da última época processada
            final_price_train = corresponding_closes.iloc[num_states_per_epoch-1] if num_states_per_epoch > 0 else 0.0
            final_profit_simulated = 0.0
            if len(open_buy_positions) > 0:
                print(f"  >>> Fim da Simulação: Fechando {len(open_buy_positions)} posições compradas simuladas no preço {final_price_train:.5f}...")
                for entry_p in open_buy_positions:
                    final_profit_simulated += (final_price_train - entry_p - transaction_cost)
            if len(open_sell_positions) > 0:
                 print(f"  >>> Fim da Simulação: Fechando {len(open_sell_positions)} posições vendidas simuladas no preço {final_price_train:.5f}...")
                 for entry_p in open_sell_positions:
                     final_profit_simulated += (entry_p - final_price_train - transaction_cost)


            # Não adicione final_profit_simulated ao total_reward_session aqui, pois a recompensa já incluiu
            # a avaliação do P/L flutuante no último passo.


            print("\n--- Resumo Final da Simulação de Treinamento ---")
            print(f"Simulação de treinamento com replay buffer concluída após {num_epochs} épocas.")
            # --- Novo: Adiciona verificação para buffer None no log final ---
            buffer_size_log_final = len(rl_agent.buffer) if rl_agent.buffer is not None else "None (buffer is None)"
            print(f"Tamanho final do Buffer de Replay: {buffer_size_log_final}")
            # A recompensa total acumulada impressa reflete recompensas de fechamento + P/L flutuante total ponderado em cada passo simulado.
            print(f"Recompensa total acumulada (durante a coleta/treino) nesta sessão: {total_reward_session:.5f}")
            print(f"P/L Realizado Total (soma dos fechamentos simulados) nesta sessão: {total_pl_realizado_session:.5f}")
            # Note: final_profit_simulated é o P/L das posições *remanescentes* no final da simulação, não o total acumulado.
            print(f"P/L Final das Posições Remanescentes (fechadas no fim da simulação): {final_profit_simulated:.5f}")
            print(f"Máximo de Ordens Abertas Simultaneamente (geral, através das sessões): {max_open_orders}")
            print(f"Máximo de Ordens Abertas Simultaneamente com P/L Negativo (Contagem, através das sessões): {max_negative_pl_orders_count}")
            print(f"Máximo Valor de P/L Negativo (o mais baixo, através das sessões): {max_negative_pl_value:.5f}")


            # Resetar as listas de posições openas simuladas e a posição interna do agente no final da simulação
            open_buy_positions = []
            open_sell_positions = []
            rl_agent.reset_position() # Reseta a posição interna do agente também para consistência (Simulada)
            print(f"Listas de posições openas simuladas resetadas e posição interna do agente resetada: {rl_agent.get_position()}")

Dados brutos carregados com sucesso (primeiras linhas após pular o cabeçalho):


Unnamed: 0,Data,Tempo,Open,High,Low,Close,Volume
0,2021-01-04,00:05,1.22258,1.22374,1.22258,1.22355,37
1,2021-01-04,00:10,1.22355,1.22356,1.22336,1.22337,10
2,2021-01-04,00:15,1.22337,1.22382,1.22337,1.2238,39
3,2021-01-04,00:20,1.22369,1.22375,1.22357,1.22358,51
4,2021-01-04,00:25,1.22364,1.22393,1.22358,1.22382,49



Dados financeiros processados (com Datetime como índice e 'Open'/'Close' numéricas):


Unnamed: 0_level_0,Open,High,Low,Close,Volume
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-01-04 00:05:00,1.22258,1.22374,1.22258,1.22355,37
2021-01-04 00:10:00,1.22355,1.22356,1.22336,1.22337,10
2021-01-04 00:15:00,1.22337,1.22382,1.22337,1.2238,39
2021-01-04 00:20:00,1.22369,1.22375,1.22357,1.22358,51
2021-01-04 00:25:00,1.22364,1.22393,1.22358,1.22382,49


Número total de estados criados (com indicadores e P/L flutuante da janela): 338201
Dimensão do Estado BASE (STATE_DIM antes da substituição do P/L): 21
Dimensão da Ação (ACTION_DIM): 3
Primeiro estado BASE (com indicadores e P/L flutuante da janela):


array([ 1.2248400e+00,  1.2246000e+00,  1.2240150e+00,  1.2238115e+00,
        7.4707512e+01,  1.2252200e+00,  1.2248400e+00,  1.2241910e+00,
        1.2238950e+00,  7.8755081e+01,  1.2251400e+00,  1.2252600e+00,
        1.2243609e+00,  1.2239835e+00,  7.5997658e+01,  1.2251400e+00,
        1.2251400e+00,  1.2244960e+00,  1.2240505e+00,  7.5997627e+01,
       -1.2248897e-04], dtype=float32)


Primeiros 5 preços de fechamento correspondentes:


Unnamed: 0,0
2021-01-04 02:00:00,1.22445
2021-01-04 02:05:00,1.22475
2021-01-04 02:10:00,1.22468
2021-01-04 02:15:00,1.22458
2021-01-04 02:20:00,1.22449



Primeiros 5 preços de abertura correspondentes:


Unnamed: 0,0
2021-01-04 02:00:00,1.22512
2021-01-04 02:05:00,1.2245
2021-01-04 02:10:00,1.22475
2021-01-04 02:15:00,1.22468
2021-01-04 02:20:00,1.22458



Primeiros 5 datetimes correspondentes:


DatetimeIndex(['2021-01-04 02:00:00', '2021-01-04 02:05:00',
               '2021-01-04 02:10:00', '2021-01-04 02:15:00',
               '2021-01-04 02:20:00'],
              dtype='datetime64[ns]', freq=None)

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
Época 1/10, Passo 70675   Ação=Manter   Status=Vendido   Ordens Abertas=54   P/L Flutuante=-0.02117  , Perda=201768672.000000, P/L Neg Atuais=-0.02169  , Ordens Neg Atuais=47  , P/L Neg Max=-4.62614  , Ordens Neg Max=794 
Época 1/10, Passo 70676   Ação=Manter   Status=Vendido   Ordens Abertas=55   P/L Flutuante=-0.05799  , Perda=63567688.000000, P/L Neg Atuais=-0.05799  , Ordens Neg Atuais=55  , P/L Neg Max=-4.62614  , Ordens Neg Max=794 
Época 1/10, Passo 70677   Ação=Manter   Status=Vendido   Ordens Abertas=56   P/L Flutuante=-0.05754  , Perda=103414976.000000, P/L Neg Atuais=-0.05754  , Ordens Neg Atuais=56  , P/L Neg Max=-4.62614  , Ordens Neg Max=794 
Época 1/10, Passo 70678   Ação=Manter   Status=Vendido   Ordens Abertas=57   P/L Flutuante=-0.06380  , Perda=524255424.000000, P/L Neg Atuais=-0.06380  , Ordens Neg Atuais=57  , P/L Neg Max=-4.62614  , Ordens Neg Max=794 
Época 1/10, Passo 70679   Ação=Manter   

In [None]:
pare

# essa parte roda no **PC** naum mexer nesse bloco

## class

In [None]:
# Salve este código em um arquivo chamado 'dqn_agent.py'

import tensorflow as tf
import numpy as np
from collections import deque
import os

class DQNAgent:
    """
    Agente Deep Q-Network (DQN) para aprendizagem por reforço com
    gerenciamento de posição, replay buffer e suporte a TPU.
    Agora com funcionalidade para carregar modelo salvo na inicialização.
    """
    def __init__(self, state_dim, action_dim, learning_rate=0.001, gamma=0.99, epsilon_start=1.0, epsilon_end=0.01, epsilon_decay_steps=20000, buffer_capacity=50000, batch_size=64, target_update_freq=1000, model_save_path='dqn_forex_agent_model.keras'):
        """
        Inicializa o agente DQN. Carrega um modelo existente se encontrado.

        Args:
            state_dim (int): Dimensão do espaço de estados.
            action_dim (int): Dimensão do espaço de ações.
            learning_rate (float): Taxa de aprendizado para o otimizador.
            gamma (float): Fator de desconto para recompensas futuras.
            epsilon_start (float): Valor inicial de epsilon para a política epsilon-greedy.
            epsilon_end (float): Valor final de epsilon para a política epsilon-greedy.
            epsilon_decay_steps (int): Número de passos para decair epsilon.
            buffer_capacity (int): Capacidade máxima do buffer de replay.
            batch_size (int): Tamanho do mini-batch para treinamento.
            target_update_freq (int): Frequência de atualização da target network.
            model_save_path (str): Caminho para salvar/carregar o modelo.
        """
        self.state_dim = state_dim
        self.action_dim = action_dim
        self.learning_rate = learning_rate
        self.gamma = gamma # Fator de desconto
        self.epsilon = epsilon_start
        self.epsilon_end = epsilon_end
        self.epsilon_decay_steps = epsilon_decay_steps
        self.epsilon_decay_rate = (epsilon_start - epsilon_end) / epsilon_decay_steps
        self.buffer_capacity = buffer_capacity
        self.batch_size = batch_size
        self.target_update_freq = target_update_freq
        self.train_step_counter = 0 # Contador para controlar a atualização da target network
        self.model_save_path = model_save_path

        self.buffer = deque(maxlen=buffer_capacity) # Usando deque para o buffer de replay eficiente
        self.position = 0 # 0: fora, 1: comprado, -1: vendido (Principalmente para simulação/treinamento)

        # Tenta carregar o modelo salvo
        if os.path.exists(self.model_save_path):
            try:
                print(f"Carregando modelo existente de: {self.model_save_path}")
                # Carrega o modelo com as custom_objects se necessário (para camadas customizadas)
                # Como estamos usando camadas Dense padrão, geralmente não é necessário, mas é bom saber.
                self.q_network = tf.keras.models.load_model(self.model_save_path)
                print("Modelo carregado com sucesso.")
                # Se carregou a Q-network, a target network deve ser inicializada com os mesmos pesos
                self.target_q_network = self._build_model()
                self.target_q_network.set_weights(self.q_network.get_weights())
                # Nota: O epsilon deve ser 0 para negociação real (explotação)
                self.epsilon = 0.0 # Garante explotação ao carregar o modelo para uso em produção

            except Exception as e:
                print(f"Erro ao carregar o modelo salvo: {e}")
                print("Criando um novo modelo em vez disso.")
                self.q_network = self._build_model()
                self.target_q_network = self._build_model()
                self.target_q_network.set_weights(self.q_network.get_weights())
        else:
            print(f"Nenhum modelo encontrado em {self.model_save_path}. Criando um novo modelo.")
            self.q_network = self._build_model()
            self.target_q_network = self._build_model()
            self.target_q_network.set_weights(self.q_network.get_weights())


        self.optimizer = tf.keras.optimizers.Adam(learning_rate=self.learning_rate)
        # Note: loss_fn and training related attributes are primarily for training,
        # but we keep them in the class definition for completeness.
        self.loss_fn = tf.keras.losses.MeanSquaredError() # DQN usa MSE para a perda Q-learning
        self.strategy = None # Initialize strategy to None (TPU strategy is not relevant for the MT5 script)

    def _build_model(self):
        """
        Constrói o modelo da rede neural para estimar os valores Q.
        """
        model = tf.keras.Sequential([
            tf.keras.layers.Input(shape=(self.state_dim,)),
            tf.keras.layers.Dense(64, activation='relu'),
            tf.keras.layers.Dense(64, activation='relu'),
            tf.keras.layers.Dense(self.action_dim, activation='linear') # Saída linear para valores Q
        ])
        return model

    def select_action(self, state, explore=False):
        """
        Seleciona uma ação. Usa política epsilon-greedy se explore=True,
        senão usa explotação (maior Q-value).

        Args:
            state (np.array or tf.Tensor): O estado atual do ambiente.
            explore (bool): Se True, usa epsilon-greedy. Se False (padrão), usa explotação.

        Returns:
            int: O índice da ação selecionada.
        """
        if explore and np.random.rand() <= self.epsilon:
            return np.random.randint(self.action_dim) # Exploração: ação aleatória
        else:
            # Explotação: seleciona a ação com o maior valor Q
            state = tf.convert_to_tensor(state, dtype=tf.float32)
            state = tf.expand_dims(state, 0) # Adiciona uma dimensão para o batch
            q_values = self.q_network(state)
            return tf.argmax(q_values[0]).numpy()

    def store_experience(self, state, action, reward, next_state, done):
        """
        Armazena uma experiência (transição) no buffer de replay.
        (Este método é principalmente para treinamento e pode não ser usado no script MT5,
         mas mantido na classe).
        """
        self.buffer.append((state, action, reward, next_state, done))

    def sample_batch(self):
        """
        Amostra um mini-batch de experiências do buffer de replay.
         (Este método é principalmente para treinamento e pode não ser usado no script MT5,
         mas mantido na classe).
        """
        if len(self.buffer) < self.batch_size:
            return None

        indices = np.random.choice(len(self.buffer), self.batch_size, replace=False)
        batch = [self.buffer[i] for i in indices]

        states, actions, rewards, next_states, dones = zip(*batch)

        # Converte para tensores do TensorFlow
        states = tf.convert_to_tensor(np.array(states), dtype=tf.float32)
        actions = tf.convert_to_tensor(np.array(actions), dtype=tf.int32)
        rewards = tf.convert_to_tensor(np.array(rewards), dtype=tf.float32)
        next_states = tf.convert_to_tensor(np.array(next_states), dtype=tf.float32)
        dones = tf.convert_to_tensor(np.array(dones), dtype=tf.float32)

        return states, actions, rewards, next_states, dones

    def train_step(self):
        """
        Executa um passo de treinamento usando um mini-batch do buffer de replay.
        Implementa a lógica de atualização Q-learning.
         (Este método é principalmente para treinamento e pode não ser usado no script MT5,
         mas mantido na classe).
        """
        mini_batch = self.sample_batch()
        if mini_batch is None:
            return None # Não há experiências suficientes para amostrar um batch

        states, actions, rewards, next_states, dones = mini_batch

        with tf.GradientTape() as tape:
            # Calcular os valores Q da Q-network para os estados atuais
            current_q_values = self.q_network(states)
            # Selecionar os valores Q para as ações que foram realmente tomadas
            action_mask = tf.one_hot(actions, self.action_dim)
            selected_q_values = tf.reduce_sum(current_q_values * action_mask, axis=1)

            # Calcular os valores Q alvo usando a target network para os próximos estados
            # DQN clássico usa max Q-value do próximo estado da target network
            next_target_q_values = self.target_q_network(next_states)
            max_next_target_q_values = tf.reduce_max(next_target_q_values, axis=1)

            # Calcular os valores Q alvo para a atualização (Bellman equation)
            # Se 'done' for True, o valor Q alvo é apenas a recompensa
            target_q_values = rewards + (1 - dones) * self.gamma * max_next_target_q_values

            # Calcular a perda: erro quadrático médio entre os valores Q preditos e os alvos
            loss = self.loss_fn(target_q_values, selected_q_values)

        # Calcular e aplicar os gradientes
        gradients = tape.gradient(loss, self.q_network.trainable_variables)
        self.optimizer.apply_gradients(zip(gradients, self.q_network.trainable_variables))

        # Atualizar a target network periodicamente
        self.train_step_counter += 1
        if self.train_step_counter % self.target_update_freq == 0:
            self.target_q_network.set_weights(self.q_network.get_weights())
            # print("Target network updated.") # Opcional: imprimir quando a target network é atualizada

        # Decair epsilon (principalmente para treinamento)
        if self.epsilon > self.epsilon_end:
            self.epsilon -= self.epsilon_decay_rate
            self.epsilon = max(self.epsilon_end, self.epsilon) # Garante que epsilon não caia abaixo do mínimo


        return loss.numpy()

    def set_tpu_strategy(self):
        """
        Configura a estratégia de distribuição para usar TPU, se disponível.
        (Este método é para treinamento em Colab/servidor e não é relevante para o script MT5).
        """
        try:
            # Check if a TPU is available
            tpu = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='') # Pass an empty string to check for availability
            if tpu.master():
                tf.config.experimental_connect_to_cluster(tpu)
                tf.tpu.experimental.initialize_tpu_system(tpu)
                self.strategy = tf.distribute.TPUStrategy(tpu)
                print('Running on TPU ', tpu.cluster_spec().as_dict()['worker'])

                # Recria o modelo e o otimizador dentro do escopo da estratégia TPU
                with self.strategy.scope():
                    # Ao usar TPU, recriamos os modelos e otimizador dentro do escopo da estratégia.
                    # Se um modelo foi carregado antes, precisamos carregá-lo novamente dentro do escopo.
                    if os.path.exists(self.model_save_path):
                         try:
                             print(f"Carregando modelo existente DENTRO do escopo TPU de: {self.model_save_path}")
                             self.q_network = tf.keras.models.load_model(self.model_save_path)
                             print("Modelo carregado com sucesso DENTRO do escopo TPU.")
                             self.target_q_network = self._build_model()
                             self.target_q_network.set_weights(self.q_network.get_weights())
                             self.epsilon = 0.0 # Ensure explotação if loaded for production
                         except Exception as e:
                             print(f"Erro ao carregar o modelo DENTRO do escopo TPU: {e}")
                             print("Criando um novo modelo DENTRO do escopo TPU em vez disso.")
                             self.q_network = self._build_model()
                             self.target_q_network = self._build_model()
                             self.target_q_network.set_weights(self.q_network.get_weights())
                     # else: # This else block is only needed if you build the model inside the strategy scope when no model is found
                         # print(f"Nenhum modelo encontrado em {self.model_save_path}. Criando um novo modelo DENTRO do escopo TPU.")
                         # self.q_network = self._build_model()
                         # self.target_q_network = self._build_model()
                         # self.target_q_network.set_weights(self.q_network.get_weights())


                    self.optimizer = tf.keras.optimizers.Adam(learning_rate=self.learning_rate)
            else:
                print('TPU not found. Running on CPU/GPU.')

        except tf.errors.NotFoundError:
            print('TPU not found. Running on CPU/GPU.')
        except ValueError as e:
             print(f'Error detecting TPU: {e}. Running on CPU/GPU.')

    def get_state_info(self, environment_state):
        """
        Processa o estado do ambiente para obter uma representação numérica.
        Para este caso, assume que o estado já é um array numérico.
        """
        # Garante que o estado é um array numpy antes de converter para tensor
        if isinstance(environment_state, (list, tuple)):
            environment_state = np.array(environment_state, dtype=np.float32)
        # Adiciona uma verificação para garantir a dimensão correta
        if environment_state.shape[0] != self.state_dim:
             print(f"Aviso: Dimensão do estado ({environment_state.shape[0]}) não corresponde à dimensão esperada ({self.state_dim}).")
             # Dependendo da sua lógica, você pode querer levantar um erro ou tentar redimensionar/processar.
             # Por enquanto, apenas emite um aviso.
        return environment_state

    def get_reward(self, environment_reward):
        """
        Processa a informação de recompensa do ambiente.
        (Este método é para treinamento e não é relevante para o script MT5).
        """
        return float(environment_reward)

    def get_action_description(self, action_index):
        """
        Traduz o índice da ação selecionada para uma descrição textual.
        """
        action_map = {0: 'Manter', 1: 'Comprar', 2: 'Vender'}
        return action_map.get(action_index, 'Ação Desconhecida')


    def update_position(self, action_index):
        """
        Atualiza a posição do agente com base na ação tomada (0: Hold, 1: Buy, 2: Sell).
        Retorna True se a posição mudou, False caso contrário.
         (Este método é principalmente para rastreamento interno durante treinamento/simulação,
         a lógica de posição real será gerenciada pelo script MT5).
        """
        position_before = self.position
        if action_index == 1: # Buy
            self.position = 1
        elif action_index == 2: # Sell
            self.position = -1
        # Action 0 (Hold) does not change the position

        return position_before != self.position


    def reset_position(self):
        """
        Reseta a posição do agente para fora do mercado.
         (Este método é principalmente para treinamento/simulação).
        """
        self.position = 0

    def get_position(self):
        """
        Retorna a posição atual do agente (0: fora, 1: comprado, -1: vendido).
         (Este método é principalmente para rastreamento interno durante treinamento/simulação).
        """
        return self.position

## agente

In [None]:
# Salve este código em um arquivo chamado 'my_forex_DQN.py'

import MetaTrader5 as mt5
import tensorflow as tf
import numpy as np
import pandas as pd # Para criar estados com indicadores
import os # Para verificar se o modelo existe
import time
from dqn_agent import DQNAgent # Certifique-se que dqn_agent.py está no mesmo diretório ou acessível
import datetime # Importar datetime

# --- Parâmetros Globais da Estratégia ---
SYMBOL = "EURUSD"
TIMEFRAME = mt5.TIMEFRAME_M5
LOT_SIZE = 0.01
MAGIC_NUMBER = 123456

# AJUSTADO: STATE_DIM deve corresponder ao treinamento (n_lags * (Open + Close + num_indicators) + 1 para P/L flutuante DA JANELA)
# Agora vamos substituir o P/L da janela pelo P/L flutuante TOTAL das posições.
# A dimensão do estado continua a mesma, apenas o significado do último elemento muda.
# No script de treinamento, n_lags=4, e você tem 'Open', 'Close', 'SMA_10', 'SMA_20', 'RSI_14'
# Então: 4 * (2 preços + 3 indicadores) + 1 = 4 * 5 + 1 = 21
STATE_DIM = 21 # A dimensão do estado permanece 21

ACTION_DIM = 3 # Comprar, Manter, Vender

MODEL_PATH = 'dqn_forex_agent_model.keras'

# Mapeamento de ações para texto
action_map = {0: 'Manter', 1: 'Comprar', 2: 'Vender'}

# --- Conexão ao MetaTrader 5 ---
def connect_mt5():
    if not mt5.initialize():
        print("initialize() failed, error code =", mt5.last_error())
        return False
    print("Conectado ao MetaTrader 5")
    time.sleep(2)
    return True

# --- Funções de Negociação (Mantidas) ---
def open_buy_order(symbol, lot_size, magic_number, deviation=10):
    """Envia uma ordem de compra."""
    symbol_info = mt5.symbol_info(symbol)
    if symbol_info is None:
        print(f"Símbolo {symbol} não encontrado.")
        return None
    if not symbol_info.visible:
        print(f"Símbolo {symbol} não visível, tentando selecioná-lo")
        if not mt5.symbol_select(symbol, True):
            print(f"symbol_select({symbol}, True) failed, error code =", mt5.last_error())
            return None

    price = mt5.symbol_info_tick(symbol).ask
    request = {
        "action": mt5.TRADE_ACTION_DEAL,
        "symbol": symbol,
        "volume": lot_size,
        "type": mt5.ORDER_TYPE_BUY,
        "price": price,
        "deviation": deviation,
        "magic": magic_number,
        "comment": "DQNAgent Buy",
        "type_time": mt5.ORDER_TIME_GTC,
        "type_filling": mt5.ORDER_FILLING_IOC,
    }
    result = mt5.order_send(request)
    if result.retcode != mt5.TRADE_RETCODE_DONE:
        print(f"Falha ao enviar ordem de compra. Retcode: {result.retcode}, Erro: {mt5.last_error()}")
    else:
        print(f"Ordem de compra enviada com sucesso. Ticket: {result.order}")
    return result

def open_sell_order(symbol, lot_size, magic_number, deviation=10):
    """Envia uma ordem de venda."""
    symbol_info = mt5.symbol_info(symbol)
    if symbol_info is None:
        print(f"Símbolo {symbol} não encontrado.")
        return None
    if not symbol_info.visible:
        print(f"Símbolo {symbol} não visível, tentando selecioná-lo")
        if not mt5.symbol_select(symbol, True):
            print(f"symbol_select({symbol}, True) failed, error code =", mt5.last_error())
            return None

    price = mt5.symbol_info_tick(symbol).bid
    request = {
        "action": mt5.TRADE_ACTION_DEAL,
        "symbol": symbol,
        "volume": lot_size,
        "type": mt5.ORDER_TYPE_SELL,
        "price": price,
        "deviation": deviation,
        "magic": magic_number,
        "comment": "DQNAgent Sell",
        "type_time": mt5.ORDER_TIME_GTC,
        "type_filling": mt5.ORDER_FILLING_IOC,
    }
    result = mt5.order_send(request)
    if result.retcode != mt5.TRADE_RETCODE_DONE:
        print(f"Falha ao enviar ordem de venda. Retcode: {result.retcode}, Erro: {mt5.last_error()}")
    else:
         print(f"Ordem de venda enviada com sucesso. Ticket: {result.order}")
    return result

def close_position(ticket, deviation=10):
    """Fecha uma posição específica pelo ticket."""
    position = mt5.positions_get(ticket=ticket)
    if position:
        position = position[0]
        request = {
            "action": mt5.TRADE_ACTION_DEAL,
            "position": ticket,
            "symbol": position.symbol,
            "volume": position.volume,
            "type": mt5.ORDER_TYPE_SELL if position.type == mt5.ORDER_TYPE_BUY else mt5.ORDER_TYPE_BUY,
            "price": mt5.symbol_info_tick(position.symbol).bid if position.type == mt5.ORDER_TYPE_BUY else mt5.symbol_info_tick(position.symbol).ask,
            "deviation": deviation,
            "magic": position.magic,
            "comment": "DQNAgent Close",
            "type_time": mt5.ORDER_TIME_GTC,
            "type_filling": mt5.ORDER_FILLING_IOC,
        }
        result = mt5.order_send(request)
        if result.retcode != mt5.TRADE_RETCODE_DONE:
             print(f"Falha ao fechar posição {ticket}. Retcode: {result.retcode}, Erro: {mt5.last_error()}")
        else:
             print(f"Ordem de fechamento para posição {ticket} enviada. Retcode: {result.retcode}. Buscando deal...")
             # Após o envio bem-sucedido da ordem de fechamento, precisamos encontrar o deal associado
             # Espera um curto período para o deal aparecer no histórico
             time.sleep(0.2) # Aumenta a espera um pouco

             # Tenta obter deals do histórico em um curto período de tempo recente
             from_time = datetime.datetime.now() - datetime.timedelta(seconds=5) # Busca deals dos últimos 5 segundos
             to_time = datetime.datetime.now()
             deals = mt5.history_deals_get(from_time, to_time, symbol=position.symbol)

             if deals is not None and len(deals) > 0:
                 # Procura pelo deal que corresponde ao fechamento da posição original
                 # Filtra por position_id e entry == DEAL_ENTRY_OUT
                 closing_deal = None
                 for deal in deals:
                     if deal.position_id == ticket and deal.entry == mt5.DEAL_ENTRY_OUT:
                         closing_deal = deal
                         break # Encontrou o deal de fechamento

                 if closing_deal:
                     print(f"Deal de fechamento {closing_deal.ticket} encontrado para posição {ticket}. Lucro/Perda: {closing_deal.profit}")
                     return closing_deal.profit # Retorna o lucro/prejuízo do deal
                 else:
                     print(f"AVISO: Deal de fechamento para posição {ticket} NÃO encontrado nos deals recentes. Buscando por order ticket...")
                     # Se não encontrou nos deals recentes por position_id, tenta buscar pelo order ticket retornado
                     deals_by_order = mt5.history_deals_get(order=result.order)
                     if deals_by_order is not None and len(deals_by_order) > 0:
                          closing_deal_by_order = None
                          for deal in deals_by_order:
                              if deal.entry == mt5.DEAL_ENTRY_OUT: # Procura por um deal de saída associado a essa ordem
                                  closing_deal_by_order = deal
                                  break # Encontrou o deal

                          if closing_deal_by_order:
                              print(f"Deal de fechamento {closing_deal_by_order.ticket} encontrado via order ticket {result.order}. Lucro/Perda: {closing_deal_by_order.profit}")
                              return closing_deal_by_order.profit
                          else:
                             print(f"AVISO: Deal de fechamento NÃO encontrado para ordem {result.order} da posição {ticket} via order ticket.")
                             # Retorna 0 se o deal não for encontrado
                             return 0.0
                     else:
                         print(f"AVISO: Nenhhum deal encontrado para ordem {result.order} da posição {ticket} via order ticket. Erro history_deals_get(order): {mt5.last_error()}")
                         return 0.0


             else:
                #   print(f"AVISO: Nenhum deal encontrado nos últimos 5 segundos para o símbolo {position.symbol}. Erro history_deals_get(time): {mt5.last_error()}")
                  # Retorna 0 se nenhum deal for encontrado no intervalo de tempo
                  return 0.0

        return 0.0 # Retorna 0 se a ordem de fechamento falhou
    else:
        print(f"Posição com ticket {ticket} não encontrada ou já fechada.")
        return 0.0 # Retorna 0 se a posição não foi encontrada

def get_agent_positions(symbol, magic_number, position_type=None):
    """Retorna uma lista de posições abertas pelo agente com o magic number especificado."""
    all_positions = mt5.positions_get(symbol=symbol)
    agent_positions = []
    if all_positions:
        for pos in all_positions:
            if pos.magic == magic_number:
                if position_type is None or pos.type == position_type:
                    agent_positions.append(pos)
    return agent_positions

def close_all_agent_positions(symbol, magic_number, position_type=None):
    """Fecha todas as posições abertas pelo agente com o magic number especificado."""
    agent_positions = get_agent_positions(symbol, magic_number, position_type)
    closed_count = 0
    total_pl_realized = 0.0 # Variável para somar o P/L realizado dos deals

    if not agent_positions:
        print("Nenhuma posição do agente encontrada para fechar.")
        return True, 0.0 # Retorna True e 0 P/L se não houver posições

    print(f"Encontradas {len(agent_positions)} posições do agente para fechar.")

    for pos in agent_positions:
        print(f"Tentando fechar posição {pos.ticket} ({'BUY' if pos.type == mt5.ORDER_TYPE_BUY else 'SELL'})")
        # A função close_position agora retorna o lucro/prejuízo do deal de fechamento
        deal_profit = close_position(pos.ticket)
        total_pl_realized += deal_profit # Soma o lucro/prejuízo retornado pela função

        # Verifica se a posição ainda existe após a tentativa de fechamento
        # Pode levar um instante para a posição desaparecer após o deal ser processado
        time.sleep(0.05) # Pequena pausa para dar tempo ao MT5
        # Note: Checking if position still exists might be unreliable immediately after closing order is sent.
        # Relying on the deal being found is a better indicator of successful closure for profit calculation.
        # if not mt5.positions_get(ticket=pos.ticket):
        closed_count += 1 # Assume que a ordem de fechamento enviada com sucesso resultará em um deal

    # A verificação de se todas foram fechadas pode precisar ser feita com mt5.positions_get() APÓS o loop
    # Mas para fins de log e soma de P/L, a contagem de deals encontrados é mais relevante.
    # Para simplicidade AGORA, vamos contar apenas as tentativas bem-sucedidas de envio da ordem.
    # A verificação real de sucesso de fechamento seria se o deal foi encontrado.

    # Vamos retornar o número de deals encontrados em vez da contagem de ordens enviadas
    # Isso requer coletar os deals APÓS o loop de fechamento, o que complica.
    # Por enquanto, mantemos a contagem de ordens enviadas e somamos P/L dos deals encontrados.
    # Uma lógica mais robusta de contagem de sucesso de fechamento seria necessária para produção.
    # closed_count = number of deals found with DEAL_ENTRY_OUT corresponding to original tickets

    if closed_count > 0: # Checking if the loop ran
        print(f"Tentativas de fechamento enviadas para {closed_count} posições. P/L Realizado Total dos Deals Encontrados: {total_pl_realized:.2f}")
    else:
        print("Nenhuma posição do agente encontrada para fechar ou falha no envio das ordens de fechamento.")

    # Retorna um indicador de sucesso (se pelo menos uma tentativa foi enviada) e o P/L total realizado
    # A verificação de sucesso total (closed_count == len(agent_positions)) pode não ser 100% precisa aqui
    return True, total_pl_realized # Retorna True assumindo que a ordem de envio foi o objetivo primário

def disconnect_mt5():
    mt5.shutdown()
    print("Desconectado do MetaTrader 5")

# --- Função para calcular indicadores (AJUSTADA) ---
# Agora aceita um DataFrame com 'Close' e 'Open' (embora os indicadores sejam só de 'Close' como no treinamento)
def calculate_indicators(data_df, window_sma_10=10, window_sma_20=20, window_rsi=14):
    """
    Calcula indicadores técnicos com base nos dados fornecidos.
    Espera um DataFrame com pelo menos a coluna 'Close'.
    """
    indicator_values = pd.DataFrame(index=data_df.index)

    # SMA baseada em 'Close'
    indicator_values['SMA_10'] = data_df['Close'].rolling(window=window_sma_10).mean()
    indicator_values['SMA_20'] = data_df['Close'].rolling(window=window_sma_20).mean()

    # RSI baseada em 'Close'
    delta = data_df['Close'].diff()
    gains = delta.mask(delta < 0, 0)
    losses = delta.mask(delta > 0, 0).abs()
    avg_gain = gains.fillna(0).ewm(com=window_rsi - 1, adjust=False).mean()
    avg_loss = losses.fillna(0).ewm(com=window_rsi - 1, adjust=False).mean()
    rs = avg_gain / avg_loss.replace(0, np.nan)
    indicator_values['RSI_14'] = 100 - (100 / (1 + rs))

    return indicator_values.astype(np.float32) # Garante o tipo de dado

# --- Função para obter o estado atual do MT5 (AJUSTADA SIGNIFICATIVAMENTE) ---
# Esta função agora cria o estado contendo o P/L flutuante da janela E o P/L flutuante TOTAL.
# No entanto, o P/L flutuante TOTAL será usado para SUBSTITUIR o P/L da janela no estado FINAL.
def get_current_state(symbol, timeframe, n_lags=4, max_indicator_window=20):
    """
    Obtém os dados mais recentes do MT5 e calcula o estado para o agente,
    incluindo preços de Abertura, Fechamento, Indicadores e P/L Flutuante DA JANELA.
    Retorna o estado base (array 1D) contendo o P/L flutuante da janela no último elemento.
    Retorna None se não houver dados suficientes.
    """
    # Para obter n_lags de Close/Open e indicadores, precisamos de mais barras
    # max_indicator_window deve ser o maior período de qualquer indicador
    # e n_lags é para as observações passadas.
    # Ex: para SMA_20 e n_lags=4, precisamos de pelo menos 20 + 4 - 1 = 23 barras para ter os últimos 4 estados completos.
    # Adicionamos mais algumas para segurança e alinhamento de índices.
    bars_needed = max(max_indicator_window, n_lags) + n_lags + 5 # Um pouco de buffer

    rates = mt5.copy_rates_from_pos(symbol, timeframe, 0, bars_needed)

    if rates is None or len(rates) == 0:
        print(f"Não foi possível obter dados do MT5 para {symbol}, {timeframe}.")
        return None

    rates_df = pd.DataFrame(rates)
    rates_df['time'] = pd.to_datetime(rates_df['time'], unit='s')
    rates_df.set_index('time', inplace=True)

    # Certifique-se de que as colunas 'Open' e 'Close' existem e são numéricas
    # Renomear para consistência com o treinamento se necessário, mas 'open' e 'close' já são os nomes do MT5
    rates_df.rename(columns={'open': 'Open', 'close': 'Close'}, inplace=True)
    rates_df['Open'] = pd.to_numeric(rates_df['Open'], errors='coerce')
    rates_df['Close'] = pd.to_numeric(rates_df['Close'], errors='coerce')

    # Remover linhas com NaN em Open ou Close antes de calcular os indicadores
    rates_df.dropna(subset=['Open', 'Close'], inplace=True)

    if rates_df.empty:
        print("DataFrame vazio após remover NaNs iniciais.")
        return None

    # Calcular indicadores baseados nos preços de fechamento
    # A função calculate_indicators agora espera um DataFrame com 'Close'
    indicators = calculate_indicators(rates_df[['Close']], window_sma_10=10, window_sma_20=20, window_rsi=14)

    # Combinar Open, Close e indicadores. O índice do rates_df e indicators deve alinhar.
    # Usaremos 'Open' e 'Close' diretamente do rates_df para o estado.
    combined_data = pd.concat([rates_df[['Open', 'Close']], indicators], axis=1)

    # Remover quaisquer NaNs resultantes do cálculo dos indicadores ou dos lags
    combined_data_cleaned = combined_data.dropna()

    # Verificar se há dados suficientes para criar os lags após a limpeza
    if len(combined_data_cleaned) < n_lags:
        print(f"Dados insuficientes ({len(combined_data_cleaned)} pontos) após calcular indicadores e remover NaNs para criar estado com {n_lags} lags.")
        return None

    # Pegar as últimas n_lags observações completas (Open, Close + Indicadores)
    # E achatar para um array 1D
    # .iloc[-n_lags:] pega as últimas n_lags linhas
    state_window_data = combined_data_cleaned.iloc[-n_lags:]
    state_window_values = state_window_data.values.flatten()

    # Calcular P/L flutuante da janela (este valor será SUBSTITUÍDO no loop principal)
    current_price_for_window_pl = combined_data_cleaned['Close'].iloc[-1]
    price_at_start_of_window = state_window_data['Open'].iloc[0]
    if price_at_start_of_window != 0:
        floating_pl_window = (current_price_for_window_pl - price_at_start_of_window) / price_at_start_of_window
    else:
        floating_pl_window = 0.0

    # Adicionar o P/L flutuante da janela ao estado base
    base_state = np.append(state_window_values, floating_pl_window)

    # O estado deve ser um array numpy de float32
    return np.array(base_state, dtype=np.float32)


# --- Lógica Principal do Script ---
if connect_mt5():
    rl_agent = DQNAgent(state_dim=STATE_DIM, action_dim=ACTION_DIM, epsilon_start=0.0, epsilon_end=0.0, model_save_path=MODEL_PATH)

    if os.path.exists(MODEL_PATH):
        print("Agente DQN inicializado e modelo carregado.")

        print(f"Iniciando loop de monitoramento para o símbolo {SYMBOL} no tempo gráfico {TIMEFRAME}...")

        last_bar_time = None

        while True:

            # Vamos usar o P/L flutuante retornado diretamente pelo MT5 para maior precisão
            all_agent_positions = get_agent_positions(SYMBOL, MAGIC_NUMBER)
            floating_pl_total = sum(pos.profit for pos in all_agent_positions)
            print(f"\rNr. de Ordens: {len(all_agent_positions)} - P/L Flutuante (MT5): {floating_pl_total:.5f}",end="")

            # Pegar os dados mais recentes do mercado
            rates_check = mt5.copy_rates_from_pos(SYMBOL, TIMEFRAME, 0, 1)

            if rates_check is not None and len(rates_check) > 0:
                current_bar_time_ts = rates_check[0][0]
                current_bar_time = pd.to_datetime(current_bar_time_ts, unit='s')

                if last_bar_time is None or current_bar_time > last_bar_time:
                    print(f"\n\n--- Nova Barra Fechada em: {current_bar_time} ---")

                    # Obter o estado base (com P/L da janela no último elemento)
                    base_state = get_current_state(SYMBOL, TIMEFRAME, n_lags=4, max_indicator_window=20)

                    if base_state is not None:
                        # --- CALCULAR P/L FLUTUANTE TOTAL NO MOMENTO DA DECISÃO ---
                        buy_positions = get_agent_positions(SYMBOL, MAGIC_NUMBER, mt5.ORDER_TYPE_BUY)
                        sell_positions = get_agent_positions(SYMBOL, MAGIC_NUMBER, mt5.ORDER_TYPE_SELL)

                        num_open_orders = len(buy_positions) + len(sell_positions)
                        is_currently_long = len(buy_positions) > 0
                        is_currently_short = len(sell_positions) > 0

                        # Vamos usar o P/L flutuante retornado diretamente pelo MT5 para maior precisão
                        # all_agent_positions = get_agent_positions(SYMBOL, MAGIC_NUMBER)
                        # floating_pl_total = sum(pos.profit for pos in all_agent_positions)

                        # --- SUBSTITUIR P/L DA JANELA PELO P/L FLUTUANTE TOTAL NO ESTADO ---
                        processed_state = np.copy(base_state) # Crie uma cópia para não modificar o original
                        # O último elemento do estado base é o P/L flutuante da janela (índice STATE_DIM - 1)

                        # # Normalizar o P/L flutuante total para uma escala similar ao P/L da janela
                        # # Dividir pelo preço atual pode ser uma boa proxy para um P/L "percentual"
                        # current_price_ask = mt5.symbol_info_tick(SYMBOL).ask # Usar ASK para normalização (ou BID, ou média)
                        # normalized_pl_total = floating_pl_total
                        # if current_price_ask is not None and current_price_ask != 0:
                        #     normalized_pl_total = floating_pl_total / current_price_ask
                        # # Adicionamos um pequeno valor para evitar log(0) ou divisões problemáticas se fosse necessário no treinamento
                        # # Mas para normalização simples por preço, 0 é ok se o preço não for zero.

                        # Substitua o último elemento (índice STATE_DIM - 1) pelo P/L flutuante total normalizado
                        if processed_state.shape[0] == STATE_DIM:
                             # processed_state[STATE_DIM - 1] = normalized_pl_total # Usa o P/L total normalizado
                             processed_state[STATE_DIM - 1] = floating_pl_total # Testando com o P/L total sem normalizar
                             # print(f"Estado: Último elemento P/L Flutuante Total Normalizado ({normalized_pl_total:.5f}) - floating_pl_total: {floating_pl_total:.5f}")
                        else:
                             print(f"Erro: Dimensão do estado base ({base_state.shape[0]}) não corresponde a STATE_DIM ({STATE_DIM}). Não foi possível substituir o P/L.")
                             # Se a dimensão estiver errada, não podemos confiar neste estado.
                             last_bar_time = current_bar_time # Atualiza last_bar_time para não processar a mesma barra novamente
                             continue # Pula para a próxima iteração do loop


                        # Verificação da dimensão do estado antes de passar para o agente
                        if processed_state.shape[0] != STATE_DIM:
                            print(f"Erro: Dimensão final do estado ({processed_state.shape[0]}) não corresponde a STATE_DIM ({STATE_DIM}). Verifique a lógica de get_current_state e a substituição.")
                            time.sleep(60) # Espera e tenta novamente
                            continue


                        # --- LÓGICA DE AVALIAÇÃO COM LOGS DETALHADOS ---
                        print(f"Nr. de Ordens: {num_open_orders} - P/L Flutuante (MT5): {floating_pl_total:.5f}") #- P/L Total Estado: {normalized_pl_total:.5f}

                        # Tomar a decisão
                        # O agente agora receberá o estado com o P/L flutuante total (normalizado) no último elemento
                        selected_action_index = rl_agent.select_action(processed_state, explore=False)
                        selected_action = action_map[selected_action_index]
                        print(f"Ação selecionada pelo Agente: {selected_action}")


                        # --- Executar Ação e Gerar Logs ---
                        if selected_action_index == 1: # Sinal de COMPRA
                            if is_currently_short:
                                print("1: Sinal de COMPRA recebido enquanto VENDIDO. Invertendo posição.")
                                success, pl_realized = close_all_agent_positions(SYMBOL, MAGIC_NUMBER, mt5.ORDER_TYPE_SELL)
                                if success:
                                     open_buy_order(SYMBOL, LOT_SIZE, MAGIC_NUMBER)
                                else:
                                     print("AVISO: Falha ao fechar posições de VENDA para inverter. Não abrindo posição de compra.")
                            else:
                                # A lógica de penalidade por adicionar posição com lucro está no treinamento, não aqui na execução real.
                                # Aqui, apenas executamos a ação.
                                print("2: Sinal de COMPRA recebido. Abrindo/Adicionando posição de compra.")
                                open_buy_order(SYMBOL, LOT_SIZE, MAGIC_NUMBER)

                        elif selected_action_index == 2: # Sinal de VENDA
                             if is_currently_long:
                                 print("3: Sinal de VENDA recebido enquanto COMPRADO. Invertendo posição.")
                                 success, pl_realized = close_all_agent_positions(SYMBOL, MAGIC_NUMBER, mt5.ORDER_TYPE_BUY)
                                 if success:
                                     open_sell_order(SYMBOL, LOT_SIZE, MAGIC_NUMBER)
                                 else:
                                     print("AVISO: Falha ao fechar posições de COMPRA para inverter. Não abrindo posição de venda.")
                             else:
                                 # A lógica de penalidade por adicionar posição com lucro está no treinamento, não aqui na execução real.
                                 # Aqui, apenas executamos a ação.
                                 print("4: Sinal de VENDA recebido. Abrindo/Adicionando posição de venda.")
                                 open_sell_order(SYMBOL, LOT_SIZE, MAGIC_NUMBER)

                        elif selected_action_index == 0: # Ação: Manter
                            print("5: Sinal de MANTER recebido.")
                            if is_currently_long:
                                print("6: Agente está COMPRADO. Abrindo nova ordem de COMPRA.")
                                open_buy_order(SYMBOL, LOT_SIZE, MAGIC_NUMBER)
                            elif is_currently_short:
                                print("7: Agente está VENDIDO. Abrindo nova ordem de VENDA.")
                                open_sell_order(SYMBOL, LOT_SIZE, MAGIC_NUMBER)
                            else:
                                print("8: Agente está FORA do mercado. Ação MANTER não resulta em nova ordem.")
                            pass # Ação Manter agora pode envolver abrir uma nova ordem dependendo da posição


                        last_bar_time = current_bar_time

                    else:
                         print("Não foi possível obter um estado válido para tomar decisão. Pode ser por dados insuficientes ou NaNs.")
                         last_bar_time = current_bar_time # Atualiza last_bar_time mesmo em caso de erro para não reprocessar a mesma barra


                time.sleep(1) # Espera 1 segundo para evitar loop muito rápido
            else:
                 print(f"Não foi possível obter a última barra do MT5. Esperando 10 segundos...")
                 time.sleep(10)

    else:
        print(f"Erro: Modelo não encontrado em {MODEL_PATH}. Não é possível gerar sinais.")

else:
    print("Falha ao conectar ao MetaTrader 5.")

## metatrader

## Analisar a lógica do ea sender (mt5)

### Subtask:
Examine the logs for both the sending (MT5) and receiving (MT4) EAs.


In [None]:
//--- Expert properties
#property copyright "Copyright 2025, GledTrader Ltd."
#property link      "https://www.mql5.com"
#property version   "3.8.1" // Versão com escrita direta no arquivo final (completa)
#property description "EA que escreve o sinal diretamente no arquivo .json para evitar erros de renomeação."

//--- Parâmetros de entrada
input ulong         InpMagicNumber = 123456;
input string        InpSignalFileNamePrefix = "signal_";
input int           InpVolumeDigits = 2;
input int           InpWaitAfterDealMs = 250;

//+------------------------------------------------------------------+
//| Expert initialization function                                   |
//+------------------------------------------------------------------+
int OnInit()
{
    Print("SignalSenderEA_MT5 (v3.8.1 - Escrita Direta Completa) inicializado.");
    Print("Monitorando Magic Number: ", (string)InpMagicNumber);
    return(INIT_SUCCEEDED);
}

//+------------------------------------------------------------------+
//| Expert deinitialization function                                 |
//+------------------------------------------------------------------+
void OnDeinit(const int reason)
{
    Print("SignalSenderEA_MT5 desinicializado. Razão: ", (string)reason);
}

//+------------------------------------------------------------------+
//| OnTick - Vazio                                                   |
//+------------------------------------------------------------------+
void OnTick() {}

//+------------------------------------------------------------------+
//| OnTrade - Vazio, lógica movida para OnTradeTransaction           |
//+------------------------------------------------------------------+
void OnTrade() {}


//+------------------------------------------------------------------+
//| Função de Transação de Negociação - A forma mais robusta         |
//+------------------------------------------------------------------+
void OnTradeTransaction(
    const MqlTradeTransaction& trans, // Estrutura da transação
    const MqlTradeRequest& request,   // Estrutura da requisição
    const MqlTradeResult& result      // Estrutura do resultado
)
{
    // Vamos nos interessar apenas em transações que adicionam um negócio (deal) ao histórico
    if(trans.type == TRADE_TRANSACTION_DEAL_ADD)
    {
        long order_ticket = trans.order;
        long deal_ticket = trans.deal;

        Print("OnTradeTransaction: Transação detectada. Deal #", (string)deal_ticket, ", Order #", (string)order_ticket);

        ulong magic = 0;
        long temp_magic;

        if(HistoryDealSelect(deal_ticket))
        {
            if(HistoryDealGetInteger(deal_ticket, DEAL_MAGIC, temp_magic))
            {
                magic = (ulong)temp_magic;
                Print("Magic Number obtido via HistoryDealSelect: ", (string)magic);
            }
            else
            {
                Print("ERRO: Falha ao obter o Magic Number para o Deal #", (string)deal_ticket, ". Erro: ", GetLastError());
                return;
            }
        }
        else
        {
            Print("ERRO: Falha ao selecionar o Deal #", (string)deal_ticket, " via HistoryDealSelect. Erro: ", GetLastError());
            return;
        }

        if(magic == InpMagicNumber)
        {
            Print("Magic Number CORRETO detectado. Processando sinal para a Ordem #", (string)order_ticket);

            Sleep(InpWaitAfterDealMs);

            string signal_type = "";
            string symbol = trans.symbol;
            double volume = trans.volume;

            long deal_type;
            if(HistoryDealGetInteger(deal_ticket, DEAL_TYPE, deal_type))
            {
                if(deal_type == DEAL_TYPE_BUY)
                {
                    signal_type = "BUY";
                }
                else if(deal_type == DEAL_TYPE_SELL)
                {
                    signal_type = "SELL";
                }
            }

            if(signal_type != "")
            {
                string json_content = "{\"signal_type\":\"" + signal_type + "\"," +
                                      "\"symbol\":\"" + symbol + "\"," +
                                      "\"lot\":" + DoubleToString(volume, InpVolumeDigits) + "," +
                                      "\"magic_number\":" + (string)InpMagicNumber + "," +
                                      "\"order_ticket\":" + (string)order_ticket + "," +
                                      "\"deal_ticket\":" + (string)deal_ticket + "}";

                Print("JSON gerado: ", json_content);

                string signal_file_name = InpSignalFileNamePrefix + (string)order_ticket + ".json";

                // *** LÓGICA DE ESCRITA DIRETA ***
                int signal_handle = FileOpen(signal_file_name, FILE_WRITE | FILE_TXT | FILE_ANSI | FILE_COMMON);
                if(signal_handle != INVALID_HANDLE)
                {
                    FileWriteString(signal_handle, json_content);
                    FileClose(signal_handle);
                    Print("SUCESSO: Sinal JSON escrito diretamente em '", signal_file_name, "'.");

                    // Adiciona o nome do arquivo final à fila de processamento do receptor (MT4)
                    string queue_file_name = "signal_queue.txt";
                    int queue_handle = FileOpen(queue_file_name, FILE_READ | FILE_WRITE | FILE_TXT | FILE_COMMON);
                    if(queue_handle != INVALID_HANDLE)
                    {
                        FileSeek(queue_handle, 0, SEEK_END);
                        FileWriteString(queue_handle, signal_file_name + "\n");
                        FileClose(queue_handle);
                        Print("Fila '", queue_file_name, "' atualizada com '", signal_file_name, "'.");
                    }
                    else
                    {
                        Print("ERRO ao abrir a fila '", queue_file_name, "' para adicionar o novo sinal. Erro: ", GetLastError());
                    }
                }
                else
                {
                    Print("ERRO: Falha ao abrir arquivo de sinal '", signal_file_name, "' para escrita. Erro: ", GetLastError());
                }

                Print("Sinal de ", signal_type, " para a Ordem #", (string)order_ticket, " processado.");
            }
        }
        else
        {
            Print("Magic Number (",(string)magic,") não corresponde ao esperado (",(string)InpMagicNumber,"). Ignorando.");
        }
    }
}

// A função SendSignalToFile foi removida pois sua lógica foi integrada acima.

## Analisar a lógica do ea receptor (mt4)

### Subtask:
Analisar a lógica do ea receptor (mt4)


In [None]:
//--- Expert properties
#property copyright "Copyright 2025, GledTrader Ltd."
#property link      "https://www.mql5.com"
#property version   "3.2" // Versão com lógica de inversão de mão
#property description "EA que recebe sinais e inverte a posição se necessário, espelhando a lógica do agente."

//--- Parâmetros de entrada
extern int    InpMagicNumber = 123456;
extern double InpTradeLotSize = 0.01;
extern int    InpDeviation = 10;
extern string InpQueueFileName = "signal_queue.txt";
extern string InpProcessedFolderName = "ProcessedSignals";
extern int    InpMaxFileRenameRetries = 10;
extern int    InpFileRenameRetryDelayMs = 500;

//+------------------------------------------------------------------+
//| Expert initialization function                                   |
//+------------------------------------------------------------------+
int init()
{
   Print("SignalReceiverEA_MT4 (v3.2 - Inversão de Mão) inicializado.");
   Print("Monitorando o arquivo de fila: ", InpQueueFileName);
   Print("Magic Number esperado: ", InpMagicNumber);
   return(0);
}

//+------------------------------------------------------------------+
//| Expert deinitialization function                                 |
//+------------------------------------------------------------------+
int deinit()
{
   Print("SignalReceiverEA_MT4 desinicializado.");
   return(0);
}

//+------------------------------------------------------------------+
//| Expert tick function                                             |
//+------------------------------------------------------------------+
int start()
{
   ProcessSignalQueue();
   return(0);
}

//+------------------------------------------------------------------+
//| Processa o arquivo de fila de sinais na pasta comum              |
//+------------------------------------------------------------------+
void ProcessSignalQueue()
{
    string queue_content = "";
    int queue_handle = FileOpen(InpQueueFileName, FILE_READ | FILE_TXT | FILE_COMMON);
    if (queue_handle == INVALID_HANDLE) return;

    while (!FileIsEnding(queue_handle))
    {
        queue_content += FileReadString(queue_handle);
    }
    FileClose(queue_handle);

    if (StringLen(queue_content) > 0)
    {
        Print("== INICIANDO VERIFICAÇÃO DA FILA ==");
        string filenames[];
        int count = CustomStringSplit(queue_content, "\n", filenames);
        string remaining_filenames_in_queue = "";

        for (int i = 0; i < count; i++)
        {
            string signal_filename = CustomStringTrim(filenames[i]);
            if (StringLen(signal_filename) == 0) continue;

            if (StringFind(signal_filename, ".tmp") != -1 || StringFind(signal_filename, ".processed") != -1)
            {
                Print("DIAGNÓSTICO: Sinal temporário ou já processado encontrado na fila: '", signal_filename, "'. Será removido.");
                continue;
            }

            Print("--> Processando sinal da fila: '", signal_filename, "'");

            if (ProcessSingleSignalFile(signal_filename))
            {
                Print("SUCESSO: Sinal '", signal_filename, "' processado com êxito. Removendo da fila.");
            }
            else
            {
                Print("FALHA: Sinal '", signal_filename, "' não pôde ser processado. Mantendo na fila para nova tentativa.");
                remaining_filenames_in_queue += signal_filename + "\n";
            }
        }

        int rewrite_handle = FileOpen(InpQueueFileName, FILE_WRITE | FILE_TXT | FILE_COMMON);
        if (rewrite_handle != INVALID_HANDLE)
        {
            FileWriteString(rewrite_handle, remaining_filenames_in_queue);
            FileClose(rewrite_handle);
        }
        else
        {
            Print("ERRO CRÍTICO: Falha ao reescrever arquivo de fila '", InpQueueFileName, "'. Erro: ", GetLastError());
        }
        Print("== VERIFICAÇÃO DA FILA CONCLUÍDA ==");
    }
}


//+------------------------------------------------------------------+
//| Função Auxiliar: Processa um único arquivo de sinal JSON         |
//+------------------------------------------------------------------+
bool ProcessSingleSignalFile(string filename)
{
    string file_content = "";
    int file_handle = FileOpen(filename, FILE_READ | FILE_TXT | FILE_COMMON);
    if (file_handle == INVALID_HANDLE)
    {
        Print("ERRO: Falha ao abrir '", filename, "' para leitura. Erro: ", GetLastError(), ". Removendo da fila.");
        return true;
    }

    while (!FileIsEnding(file_handle))
    {
        file_content = FileReadString(file_handle);
    }
    FileClose(file_handle);

    Print("  Lendo JSON de '", filename, "': ", file_content);

    string signal_type = ExtractJsonValue(file_content, "signal_type");
    string symbol_from_json = ExtractJsonValue(file_content, "symbol");
    double lot_from_json = StringToDouble(ExtractJsonValue(file_content, "lot"));
    int magic_from_json = StringToInteger(ExtractJsonValue(file_content, "magic_number"));

    Print("  Dados extraídos: Tipo=", signal_type, ", Símbolo=", symbol_from_json, ", Lote=", lot_from_json, ", Magic=", magic_from_json);

    if (symbol_from_json == "EURUSD")
    {
        symbol_from_json = "EURUSDc";
        Print("  Símbolo adaptado: EURUSD -> EURUSDc");
    }

    if (magic_from_json != InpMagicNumber)
    {
        Print("  ERRO: Magic Number inválido (", magic_from_json, "). Sinal será descartado.");
        RenameSignalFileAsProcessed(filename);
        return true;
    }

    // *** NOVA LÓGICA DE INVERSÃO DE MÃO ***
    bool trade_success = false;
    if (signal_type == "BUY")
    {
        // Se receber um sinal de COMPRA, primeiro fecha todas as posições de VENDA.
        Print("  Sinal de COMPRA recebido. Verificando posições de VENDA abertas...");
        ClosePositionsByType(symbol_from_json, OP_SELL, magic_from_json);

        // Em seguida, abre a nova posição de COMPRA.
        Print("  Abrindo nova posição de COMPRA...");
        trade_success = OpenNewOrder(symbol_from_json, OP_BUY, lot_from_json);
    }
    else if (signal_type == "SELL")
    {
        // Se receber um sinal de VENDA, primeiro fecha todas as posições de COMPRA.
        Print("  Sinal de VENDA recebido. Verificando posições de COMPRA abertas...");
        ClosePositionsByType(symbol_from_json, OP_BUY, magic_from_json);

        // Em seguida, abre a nova posição de VENDA.
        Print("  Abrindo nova posição de VENDA...");
        trade_success = OpenNewOrder(symbol_from_json, OP_SELL, lot_from_json);
    }
    else
    {
        Print("  ERRO: Tipo de sinal desconhecido ('", signal_type, "'). Sinal será descartado.");
        RenameSignalFileAsProcessed(filename);
        return true;
    }

    if (trade_success)
    {
        Print("  SUCESSO: Ação de trade para o sinal '", signal_type, "' foi executada.");
        if (!RenameSignalFileAsProcessed(filename))
        {
           Print("  AVISO: A ordem foi executada, mas a renomeação do arquivo de sinal falhou. O sinal pode ser reprocessado.");
           return false;
        }
        return true;
    }
    else
    {
        Print("  FALHA: Ação de trade para o sinal '", signal_type, "' não foi executada. Sinal permanecerá na fila.");
        return false;
    }
}

//+------------------------------------------------------------------+
//| Função: Tenta renomear um arquivo com re-tentativas              |
//+------------------------------------------------------------------+
bool RenameSignalFileAsProcessed(string filename)
{
    string target_name = filename + ".processed";

    for (int i = 0; i < InpMaxFileRenameRetries; i++)
    {
        if (FileMove(filename, FILE_COMMON, target_name, FILE_COMMON))
        {
            Print("  Arquivo '", filename, "' renomeado para '", target_name, "' com sucesso.");
            return true;
        }
        int error = GetLastError();
        if (error == 4001) // ERR_NO_FILE
        {
            Print("  AVISO: Arquivo '", filename, "' não encontrado ao tentar renomear. Provavelmente já foi processado/renomeado.");
            return true;
        }
        Print("  AVISO: Tentativa ", i + 1, " de renomear '", filename, "' falhou. Erro: ", error);
        Sleep(InpFileRenameRetryDelayMs);
    }
    Print("  ERRO FINAL: Falha ao renomear '", filename, "' após ", InpMaxFileRenameRetries, " tentativas.");
    return false;
}

//+------------------------------------------------------------------+
//| Função Auxiliar: Divide uma string em um array por um delimitador|
//+------------------------------------------------------------------+
int CustomStringSplit(string text, string delimiter, string& result_array[])
{
    int count = 0;
    int pos = 0;
    int start = 0;

    ArrayResize(result_array, 0);

    while ((pos = StringFind(text, delimiter, start)) != -1)
    {
        ArrayResize(result_array, count + 1);
        result_array[count] = StringSubstr(text, start, pos - start);
        count++;
        start = pos + StringLen(delimiter);
    }

    if (start < StringLen(text))
    {
        ArrayResize(result_array, count + 1);
        result_array[count] = StringSubstr(text, start);
        count++;
    }
    return count;
}

//+------------------------------------------------------------------+
//| Função Auxiliar: Remove espaços em branco no início e fim de uma |
//| string                                                           |
//+------------------------------------------------------------------+
string CustomStringTrim(string text)
{
    int len = StringLen(text);
    int start = 0;
    int end = len - 1;

    while (start < len && (StringSubstr(text, start, 1) == " " || StringSubstr(text, start, 1) == "\t" || StringSubstr(text, start, 1) == "\n" || StringSubstr(text, start, 1) == "\r"))
    {
        start++;
    }

    while (end >= start && (StringSubstr(text, end, 1) == " " || StringSubstr(text, end, 1) == "\t" || StringSubstr(text, end, 1) == "\n" || StringSubstr(text, end, 1) == "\r"))
    {
        end--;
    }

    if (start > end)
    {
        return "";
    }
    return StringSubstr(text, start, end - start + 1);
}

//+------------------------------------------------------------------+
//| Função Auxiliar: Extrai um valor de uma string JSON              |
//+------------------------------------------------------------------+
string ExtractJsonValue(string json_str, string key)
{
    string search_key = "\"" + key + "\":";
    int start_pos = StringFind(json_str, search_key);
    if (start_pos == -1) return "";

    start_pos += StringLen(search_key);

    int end_pos = -1;

    if (StringSubstr(json_str, start_pos, 1) == "\"")
    {
        start_pos++;
        end_pos = StringFind(json_str, "\"", start_pos);
        if (end_pos == -1) return "";
        return StringSubstr(json_str, start_pos, end_pos - start_pos);
    }
    else
    {
        int end_pos_comma = StringFind(json_str, ",", start_pos);
        int end_pos_curly = StringFind(json_str, "}", start_pos);

        if (end_pos_comma != -1 && end_pos_curly != -1)
            end_pos = MathMin(end_pos_comma, end_pos_curly);
        else if (end_pos_comma != -1)
            end_pos = end_pos_comma;
        else if (end_pos_curly != -1)
            end_pos = end_pos_curly;

        if (end_pos == -1) return "";

        return StringSubstr(json_str, start_pos, end_pos - start_pos);
    }
}

//+------------------------------------------------------------------+
//| Função Auxiliar: Abre uma nova ordem a mercado (COMPRA/VENDA)    |
//+------------------------------------------------------------------+
bool OpenNewOrder(string symbol, int type, double lot)
{
    if (!MarketInfo(symbol, MODE_ASK) && !MarketInfo(symbol, MODE_BID))
    {
        Print("  AVISO: Símbolo '", symbol, "' não visível. Tentando selecioná-lo...");
        if (!SymbolSelect(symbol, true))
        {
            Print("  ERRO: Falha ao selecionar símbolo '", symbol, "'. Ordem não pode ser aberta.");
            return false;
        }
        Sleep(100);
    }

    double price = (type == OP_BUY) ? MarketInfo(symbol, MODE_ASK) : MarketInfo(symbol, MODE_BID);
    if (price == 0)
    {
        Print("  ERRO: Preço para '", symbol, "' é zero. Ordem não pode ser aberta.");
        return false;
    }

    int ticket = OrderSend(symbol, type, lot, price, InpDeviation, 0, 0, "Sinal Receiver", InpMagicNumber, 0, CLR_NONE);
    if (ticket < 0)
    {
        Print("  ERRO: OrderSend falhou para ", (type == OP_BUY ? "BUY" : "SELL"), " em ", symbol, ". Erro: ", GetLastError());
        return false;
    }
    Print("  SUCESSO: Ordem ", (type == OP_BUY ? "BUY" : "SELL"), " aberta. Ticket: ", ticket);
    return true;
}

//+------------------------------------------------------------------+
//| Função Auxiliar: Fecha posições de um tipo específico            |
//+------------------------------------------------------------------+
bool ClosePositionsByType(string symbol, int type, int magic_number)
{
    bool closed_any = false;
    int total_orders = OrdersTotal();
    Print("  Procurando posições para fechar: Símbolo=", symbol, ", Tipo=", (type == OP_BUY ? "BUY" : "SELL"), ", Magic=", magic_number);
    Print("  Total de ordens abertas: ", total_orders);

    for (int i = total_orders - 1; i >= 0; i--)
    {
        if (OrderSelect(i, SELECT_BY_POS, MODE_TRADES))
        {
            if (OrderSymbol() == symbol && OrderMagicNumber() == magic_number && OrderType() == type)
            {
                Print("    Encontrada posição para fechar: Ticket ", OrderTicket());
                double close_price = (OrderType() == OP_BUY) ? MarketInfo(OrderSymbol(), MODE_BID) : MarketInfo(OrderSymbol(), MODE_ASK);
                if (close_price == 0)
                {
                    Print("    ERRO: Preço de fechamento para ticket ", OrderTicket(), " é zero.");
                    continue;
                }

                if (OrderClose(OrderTicket(), OrderLots(), close_price, InpDeviation))
                {
                    Print("    SUCESSO: Posição ", OrderTicket(), " fechada.");
                    closed_any = true;
                }
                else
                {
                    Print("    ERRO: Falha ao fechar posição ", OrderTicket(), ". Erro: ", GetLastError());
                }
            }
        }
    }
    if (!closed_any)
    {
        Print("  Nenhuma posição correspondente encontrada para fechar.");
    }
    return true; // Retorna true mesmo se nada foi fechado, pois a 'ação de fechar' foi concluída.
}

In [None]:
# Execute a célula de treinamento novamente para testar o carregamento robusto
# Esta célula já contém a lógica para inicializar o agente, tentar carregar o estado e iniciar o treinamento
# com base no estado carregado.

# Certifique-se de que a célula de upload do arquivo de dados (eurusd_history_range.csv)
# e a célula de definição da classe DQNAgent foram executadas antes desta.

# Se você restaurou um arquivo .pkl mais antigo, o log de carregamento
# deverá mostrar que ele foi carregado, mas pode haver avisos sobre chaves ausentes.
# O treinamento começará a partir dos valores carregados (ou padrão para chaves ausentes).

# Nota: O conteúdo desta célula deve ser o mesmo da sua célula de treinamento principal
# que foi modificada anteriormente (célula 06b9749a).
# Você pode simplesmente executar a célula 06b9749a novamente.
# Este código abaixo é apenas um lembrete ou um placeholder se você quisesse rodar em uma nova célula.

# import pandas as pd
# import numpy as np
# import tensorflow as tf
# from collections import deque
# import os
# import pickle

# # Restante do código de carregamento de dados, criação de estados,
# # inicialização do agente e loop de treinamento...
# # (O conteúdo completo da célula 06b9749a deve vir aqui)

# Para evitar duplicidade e garantir que você use o código mais recente,
# é melhor simplesmente executar a célula 06b9749a novamente.
print("Por favor, execute a célula de treinamento (célula 06b9749a) novamente para testar o carregamento robusto.")

# Exemplo de como você inicializaria e carregaria, mas execute a célula original:
# rl_agent = DQNAgent(state_dim=STATE_DIM, action_dim=ACTION_DIM, buffer_capacity=50000)
# rl_agent.load_state()
# ... continue com o loop de treinamento ...

Por favor, execute a célula de treinamento (célula 06b9749a) novamente para testar o carregamento robusto.
