In [1]:
# ============================================================================
# CÉLULA 1: Importações e Configurações
# ============================================================================
import d3rlpy
import numpy as np
import pandas as pd
import joblib
import torch
import os
from d3rlpy.algos import CQLConfig
from d3rlpy.models import QRQFunctionFactory
from d3rlpy.dataset import Episode
# Esta é a linha que faltava ou estava errada:
from d3rlpy.dataset import ReplayBuffer, FIFOBuffer, Episode 
from d3rlpy.metrics import AverageValueEstimationEvaluator
from sklearn.model_selection import train_test_split
# 'average_value_estimation_scorer' is replaced by this Evaluator class
from d3rlpy.metrics import AverageValueEstimationEvaluator

# FQE is no longer a scorer. It is an OPE algorithm in 'd3rlpy.ope'.
# We import it here to use it separately later, or remove it if you only wanted a simple metric.
from d3rlpy.ope import FQEConfig

from sklearn.model_selection import train_test_split
import d3rlpy
# Configuração de sementes
d3rlpy.seed(42)
np.random.seed(42)

print(f"d3rlpy version: {d3rlpy.__version__}")
print(f"Torch version: {torch.__version__}")
print(f"GPU disponível? {torch.cuda.is_available()}")
print(f"d3rlpy version: {d3rlpy.__version__}")

Gym has been unmaintained since 2022 and does not support NumPy 2.0 amongst other critical functionality.
Please upgrade to Gymnasium, the maintained drop-in replacement of Gym, or contact the authors of your software and request that they upgrade.
Users of this version of Gym should be able to simply replace 'import gym' with 'import gymnasium as gym' in the vast majority of cases.
See the migration guide at https://gymnasium.farama.org/introduction/migration_guide/ for additional information.


d3rlpy version: 2.8.1




Torch version: 2.9.1+cpu




GPU disponível? False




d3rlpy version: 2.8.1




In [2]:

# ============================================================================
# CÉLULA 2: Carregar Artefatos Gerados (Buffer e Scalers)
# ============================================================================
BUFFER_PATH = "rl_offline_buffer.h5"

print(f"\n[1/5] Carregando ReplayBuffer de '{BUFFER_PATH}' ...")

# Carrega o buffer gerado pelo Generator_NEW.py
# Precisamos recriar a estrutura vazia e carregar o arquivo
with open(BUFFER_PATH, "rb") as f:
    # O limit deve ser igual ou maior que o tamanho do dataset original
    dataset = ReplayBuffer.load(f, FIFOBuffer(limit=200000))

print(f"✓ Buffer carregado com sucesso.")
print(f"  # Episódios: {len(dataset.episodes)}")
print(f"  # Transições totais: {dataset.transition_count}")

# Carrega os Scalers para pós-processamento e métricas reais
print("\n[2/5] Carregando Scalers...")
try:
    scaler_estado = joblib.load("scaler_estado.joblib")
    scaler_acao = joblib.load("scaler_acao.joblib")
    scaler_recompensa = joblib.load("scaler_recompensa.joblib")
    # OHE para referência
    ohe = joblib.load("ohe_encoder.joblib")
    print("✓ Scalers carregados.")
except FileNotFoundError:
    print("❌ ERRO: Scalers não encontrados. Execute Generator_NEW.py primeiro.")


[1/5] Carregando ReplayBuffer de 'rl_offline_buffer.h5' ...




2025-11-27 13:57.59

 [

info     

] 

Signatures have been automatically determined.

 

action_signature

=

Signature(dtype=[dtype('float32')], shape=[(1,)])

 

observation_signature

=

Signature(dtype=[dtype('float32')], shape=[(32,)])

 

reward_signature

=

Signature(dtype=[dtype('float32')], shape=[(1,)])




2025-11-27 13:57.59

 [

info     

] 

Action-space has been automatically determined.

 

action_space

=

<ActionSpace.CONTINUOUS: 1>




2025-11-27 13:57.59

 [

info     

] 

Action size has been automatically determined.

 

action_size

=

1




✓ Buffer carregado com sucesso.




  # Episódios: 1




  # Transições totais: 99999





[2/5] Carregando Scalers...




✓ Scalers carregados.




In [3]:
# ============================================================================
# CÉLULA 3: Divisão Treino / Validação (Split Robusto - CORREÇÃO FINAL)
# ============================================================================
print("\n[3/5] Dividindo dados em Treino e Teste (Hold-out)...")

# Verifica se temos poucos episódios (ex: 1 episódio gigante)
if len(dataset.episodes) < 10:
    print(f"⚠️ Aviso: Encontrados apenas {len(dataset.episodes)} episódios.")
    print("   -> Dividindo o episódio gigante em sub-episódios menores para validação...")
    
    giant_ep = dataset.episodes[0]
    
    # Acessa arrays
    obs = giant_ep.observations
    act = giant_ep.actions
    rew = giant_ep.rewards
    
    # Reconstrói terminais (assumindo apenas o final como terminal)
    term = np.zeros((len(obs), 1), dtype=np.float32)
    # Tenta pegar atributo terminal ou terminated
    is_global_term = getattr(giant_ep, 'terminal', getattr(giant_ep, 'terminated', True))
    if is_global_term:
        term[-1] = 1.0
        
    total_len = len(obs)
    split_idx = int(total_len * 0.8)
    
    # Divide manualmente
    train_obs, test_obs = obs[:split_idx], obs[split_idx:]
    train_act, test_act = act[:split_idx], act[split_idx:]
    train_rew, test_rew = rew[:split_idx], rew[split_idx:]
    train_term, test_term = term[:split_idx], term[split_idx:]
    
    from d3rlpy.dataset import Episode
    
    # Helper seguro (POSICIONAL para evitar erro de keyword)
    def create_ep(o, a, r, t):
        r = r.reshape(-1, 1) if r.ndim == 1 else r
        is_term = bool(t[-1]) if len(t) > 0 else False
        
        # CORREÇÃO: Argumentos posicionais na ordem (obs, act, rew, terminated)
        return Episode(o, a, r, is_term)

    train_episodes = [create_ep(train_obs, train_act, train_rew, train_term)]
    test_episodes = [create_ep(test_obs, test_act, test_rew, test_term)]
    
else:
    train_episodes, test_episodes = train_test_split(dataset.episodes, test_size=0.2, random_state=42)

print(f"  Episódios de Treino: {len(train_episodes)}")
print(f"  Episódios de Teste:  {len(test_episodes)}")


[3/5] Dividindo dados em Treino e Teste (Hold-out)...




⚠️ Aviso: Encontrados apenas 1 episódios.




   -> Dividindo o episódio gigante em sub-episódios menores para validação...




  Episódios de Treino: 1




  Episódios de Teste:  1




In [4]:
# ============================================================================
# CÉLULA 4: Configuração do Agente CQL (Hiperparâmetros da Metodologia)
# ============================================================================
print("\n[4/5] Configurando Agente CQL (Venda Única)...")

# Configuração alinhada com a metodologia LOCAC:
# - alpha=5.0 (Alto conservadorismo para evitar preços alucinados)
# - n_quantiles=64 (Para análise de risco VaR/CVaR)
# - gamma=0.98 (Horizonte longo)

cql_config = CQLConfig(
    batch_size=256,
    gamma=0.98,
    # Scalers já foram aplicados no Generator, então passamos None aqui
    # para o d3rlpy não tentar escalar de novo (o que estragaria os dados)
    observation_scaler=None,
    action_scaler=None,
    reward_scaler=None,
    alpha_learning_rate=1e-4,
    actor_learning_rate=1e-4,
    critic_learning_rate=3e-4,
    conservative_weight=5.0, # Peso conservador alto (Segurança)
    q_func_factory=QRQFunctionFactory(n_quantiles=64) # Q-Function Distribucional
)

# Cria o agente (usa GPU se disponível, senão CPU)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
cql = cql_config.create(device=device)

print(f"✓ Agente CQL configurado no dispositivo: {device}")


[4/5] Configurando Agente CQL (Venda Única)...




✓ Agente CQL configurado no dispositivo: cpu




In [5]:
# ============================================================================
# CÉLULA 5: Treinamento com Governança (Manual Loop) - CORRIGIDO (Shape Fix)
# ============================================================================
import os
from d3rlpy.metrics import AverageValueEstimationEvaluator
from d3rlpy.dataset import ReplayBuffer, FIFOBuffer, Episode

print("\n[5/5] Iniciando Treinamento Offline com Governança (Loop Manual)...")

# --- CORREÇÃO DE DADOS (FIX SHAPE) ---
# ============================================================================
# FUNÇÃO DE CORREÇÃO DE DADOS (Versão Final - Corrigida)
# ============================================================================
# ============================================================================
# FUNÇÃO DE CORREÇÃO DE DADOS (Versão Final - Robusta para Arrays)
# ============================================================================


def fix_episodes_shape(episodes):
    fixed_episodes = []
    for ep in episodes:
        # 1. Corrigir Formato das Recompensas (1D -> 2D)
        rewards = ep.rewards
        if rewards.ndim == 1:
            rewards = rewards.reshape(-1, 1)
            
        # 2. Obter flag terminal (Booleano)
        # O erro anterior mostrou que 'terminal' pode ser um array.
        # Precisamos lidar com isso.
        
        # Tenta pegar o atributo 'terminal' ou 'terminated'
        raw_terminal = getattr(ep, 'terminal', getattr(ep, 'terminated', True))
        
        # Se for um array numpy ou lista, pegamos o último elemento (que importa)
        if isinstance(raw_terminal, (np.ndarray, list)):
            # Se for array, assume que o último passo define se o episódio acabou
            # Usamos .any() se quisermos saber se houve QUALQUER terminal,
            # mas geralmente queremos saber se o episódio ACABOU no final.
            # Para segurança, vamos converter para array numpy e checar o último valor.
            term_arr = np.array(raw_terminal)
            is_terminal = bool(term_arr[-1]) if term_arr.size > 0 else True
        else:
            # Se já for escalar (bool/int/float), converte direto
            is_terminal = bool(raw_terminal)
        
        # 3. Criar novo Episódio (POSICIONAL)
        # A ordem: (observations, actions, rewards, terminated)
        fixed_episodes.append(Episode(
            ep.observations,  # 1. Observações
            ep.actions,       # 2. Ações
            rewards,          # 3. Recompensas (Corrigidas para 2D)
            is_terminal       # 4. Terminated (BOOLEANO LIMPO)
        ))
            
    return fixed_episodes

print("   -> Corrigindo formato dos dados (Rewards 2D + Robust Terminal Check)...")
train_episodes = fix_episodes_shape(train_episodes)
test_episodes = fix_episodes_shape(test_episodes)
print("   -> Dados corrigidos com sucesso.")

# Configurações de Governança
N_STEPS = 50000           
STEPS_PER_EPOCH = 1000    
PATIENCE = 20             
BEST_MODEL_PATH = "modelo_rl_final.pt"

# 1. Criar o Avaliador (Evaluator)
avg_q_evaluator = AverageValueEstimationEvaluator(test_episodes)

# 2. Criar o dicionário de avaliadores
evaluators = {
    'average_q': avg_q_evaluator
}

# 3. Criar o Buffer de Treino (com dados corrigidos)
train_buffer = ReplayBuffer(
    FIFOBuffer(limit=dataset.transition_count),
    episodes=train_episodes
)

# Estado inicial
best_score = -float('inf')
patience_counter = 0

print(f"  -> Treinando por até {N_STEPS} passos")
print(f"  -> Avaliação a cada {STEPS_PER_EPOCH} passos")
print(f"  -> Early Stopping: {PATIENCE} épocas sem melhora")

# Loop de Treino
for epoch, metrics in cql.fitter(
    train_buffer,
    n_steps=N_STEPS,
    n_steps_per_epoch=STEPS_PER_EPOCH,
    evaluators=evaluators,          
    experiment_name="cql_venda_unica_run",
    with_timestamp=False,
    show_progress=True
):
    # 1. Obter a métrica de interesse
    current_score = metrics.get('average_q')
    
    # 2. Lógica de Model Checkpoint
    if current_score > best_score:
        best_score = current_score
        patience_counter = 0
        cql.save_model(BEST_MODEL_PATH)
        print(f"    [Epoch {epoch}] Novo recorde! Score: {current_score:.4f} -> Modelo salvo.")
    else:
        patience_counter += 1
        print(f"    [Epoch {epoch}] Sem melhora. Score: {current_score:.4f} (Paciência: {patience_counter}/{PATIENCE})")
        
    # 3. Lógica de Early Stopping
    if patience_counter >= PATIENCE:
        print(f"\n🛑 EARLY STOPPING ACIONADO na época {epoch}.")
        print("   O modelo parou de aprender. Encerrando treino para evitar overfitting.")
        break

# Pós-Treino
if os.path.exists(BEST_MODEL_PATH):
    cql.load_model(BEST_MODEL_PATH)
    print(f"\n✓ Treino finalizado. Melhor modelo carregado de '{BEST_MODEL_PATH}'.")
else:
    print("\n⚠️ Aviso: Nenhum modelo foi salvo.")


[5/5] Iniciando Treinamento Offline com Governança (Loop Manual)...




   -> Corrigindo formato dos dados (Rewards 2D + Robust Terminal Check)...




   -> Dados corrigidos com sucesso.




2025-11-27 13:57.59

 [

info     

] 

Signatures have been automatically determined.

 

action_signature

=

Signature(dtype=[dtype('float32')], shape=[(1,)])

 

observation_signature

=

Signature(dtype=[dtype('float32')], shape=[(32,)])

 

reward_signature

=

Signature(dtype=[dtype('float32')], shape=[(1,)])




2025-11-27 13:57.59

 [

info     

] 

Action-space has been automatically determined.

 

action_space

=

<ActionSpace.CONTINUOUS: 1>




2025-11-27 13:57.59

 [

info     

] 

Action size has been automatically determined.

 

action_size

=

1




  -> Treinando por até 50000 passos




  -> Avaliação a cada 1000 passos




  -> Early Stopping: 20 épocas sem melhora




2025-11-27 13:57.59

 [

info     

] 

dataset info                  

 

dataset_info

=

DatasetInfo(observation_signature=Signature(dtype=[dtype('float32')], shape=[(32,)]), action_signature=Signature(dtype=[dtype('float32')], shape=[(1,)]), reward_signature=Signature(dtype=[dtype('float32')], shape=[(1,)]), action_space=<ActionSpace.CONTINUOUS: 1>, action_size=1)




2025-11-27 13:57.59

 [

debug    

] 

Building models...            




2025-11-27 13:58.04

 [

debug    

] 

Models have been built.       




2025-11-27 13:58.04

 [

info     

] 

Parameters                    

 

params

=

{'observation_shape': [32], 'action_size': 1, 'config': {'type': 'cql', 'params': {'batch_size': 256, 'gamma': 0.98, 'observation_scaler': {'type': 'none', 'params': {}}, 'action_scaler': {'type': 'none', 'params': {}}, 'reward_scaler': {'type': 'none', 'params': {}}, 'compile_graph': False, 'actor_learning_rate': 0.0001, 'critic_learning_rate': 0.0003, 'temp_learning_rate': 0.0001, 'alpha_learning_rate': 0.0001, 'actor_optim_factory': {'type': 'adam', 'params': {'clip_grad_norm': None, 'lr_scheduler_factory': {'type': 'none', 'params': {}}, 'betas': [0.9, 0.999], 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False}}, 'critic_optim_factory': {'type': 'adam', 'params': {'clip_grad_norm': None, 'lr_scheduler_factory': {'type': 'none', 'params': {}}, 'betas': [0.9, 0.999], 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False}}, 'temp_optim_factory': {'type': 'adam', 'params': {'clip_grad_norm': None, 'lr_scheduler_factory': {'type': 'none', 'params': {}}, 'betas': [0.9, 0.999], 'eps': 1e-08, '




Epoch 1/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:03.07

 [

info     

] 

cql_venda_unica_run: epoch=1 step=1000

 

epoch

=

1

 

metrics

=

{'time_sample_batch': 0.006530992031097412, 'time_algorithm_update': 0.2944160189628601, 'critic_loss': -49.58554218482971, 'conservative_loss': -65.46616566467286, 'alpha': 0.9499616181254387, 'actor_loss': 0.4077287529744208, 'temp': 0.9585544418096542, 'temp_loss': 1.1064657492041587, 'time_step': 0.3011094393730164, 'average_q': -0.10908816827613775}

 

step

=

1000




2025-11-27 14:03.07

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_1000.d3




    [Epoch 1] Novo recorde! Score: -0.1091 -> Modelo salvo.




Epoch 2/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:09.19

 [

info     

] 

cql_venda_unica_run: epoch=2 step=2000

 

epoch

=

2

 

metrics

=

{'time_sample_batch': 0.006718978881835937, 'time_algorithm_update': 0.36351041102409365, 'critic_loss': 12.887699989318847, 'conservative_loss': -68.31811238098145, 'alpha': 0.8574448474645615, 'actor_loss': 0.9595091336071492, 'temp': 0.8982812985777855, 'temp_loss': 0.5027696273624896, 'time_step': 0.37038578987121584, 'average_q': -1.101073194997979}

 

step

=

2000




2025-11-27 14:09.19

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_2000.d3




    [Epoch 2] Sem melhora. Score: -1.1011 (Paciência: 1/20)




Epoch 3/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:17.17

 [

info     

] 

cql_venda_unica_run: epoch=3 step=3000

 

epoch

=

3

 

metrics

=

{'time_sample_batch': 0.0074099056720733645, 'time_algorithm_update': 0.4682423491477966, 'critic_loss': 300.3776470413208, 'conservative_loss': -90.37318553924561, 'alpha': 0.7693642870187759, 'actor_loss': 5.993560547471047, 'temp': 0.85820948523283, 'temp_loss': 0.132318230885081, 'time_step': 0.47584810614585876, 'average_q': -11.983755539438654}

 

step

=

3000




2025-11-27 14:17.17

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_3000.d3




    [Epoch 3] Sem melhora. Score: -11.9838 (Paciência: 2/20)




Epoch 4/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:21.56

 [

info     

] 

cql_venda_unica_run: epoch=4 step=4000

 

epoch

=

4

 

metrics

=

{'time_sample_batch': 0.006423727750778198, 'time_algorithm_update': 0.270645628452301, 'critic_loss': 2191.013974914551, 'conservative_loss': -207.01945780944826, 'alpha': 0.6696812590956688, 'actor_loss': 38.183654481887814, 'temp': 0.8960166829824447, 'temp_loss': -0.4864391645649448, 'time_step': 0.277224249124527, 'average_q': -77.50151719507667}

 

step

=

4000




2025-11-27 14:21.56

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_4000.d3




    [Epoch 4] Sem melhora. Score: -77.5015 (Paciência: 3/20)




Epoch 5/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:27.33

 [

info     

] 

cql_venda_unica_run: epoch=5 step=5000

 

epoch

=

5

 

metrics

=

{'time_sample_batch': 0.00665732479095459, 'time_algorithm_update': 0.32911191701889037, 'critic_loss': 10965.039783203125, 'conservative_loss': -510.4912907104492, 'alpha': 0.569088218986988, 'actor_loss': 185.95568058776854, 'temp': 1.0236217634081841, 'temp_loss': -0.9395130585134029, 'time_step': 0.33592874121665955, 'average_q': -329.3368379219132}

 

step

=

5000




2025-11-27 14:27.33

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_5000.d3




    [Epoch 5] Sem melhora. Score: -329.3368 (Paciência: 4/20)




Epoch 6/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:33.54

 [

info     

] 

cql_venda_unica_run: epoch=6 step=6000

 

epoch

=

6

 

metrics

=

{'time_sample_batch': 0.006509501457214356, 'time_algorithm_update': 0.3727104244232178, 'critic_loss': 36044.993625, 'conservative_loss': -979.3226115417481, 'alpha': 0.4871533190011978, 'actor_loss': 617.0171998291015, 'temp': 1.1645385394096375, 'temp_loss': -1.0939144973158836, 'time_step': 0.3793638415336609, 'average_q': -957.6726671355541}

 

step

=

6000




2025-11-27 14:33.54

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_6000.d3




    [Epoch 6] Sem melhora. Score: -957.6727 (Paciência: 5/20)




Epoch 7/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 14:52.41

 [

info     

] 

cql_venda_unica_run: epoch=7 step=7000

 

epoch

=

7

 

metrics

=

{'time_sample_batch': 0.0064673395156860354, 'time_algorithm_update': 1.118891832113266, 'critic_loss': 85659.77751171876, 'conservative_loss': -1545.606301147461, 'alpha': 0.42236432459950446, 'actor_loss': 1494.996452758789, 'temp': 1.2836244795322418, 'temp_loss': -0.7943688855171204, 'time_step': 1.125518586874008, 'average_q': -2093.281366332721}

 

step

=

7000




2025-11-27 14:52.41

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_7000.d3




    [Epoch 7] Sem melhora. Score: -2093.2814 (Paciência: 6/20)




Epoch 8/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:00.09

 [

info     

] 

cql_venda_unica_run: epoch=8 step=8000

 

epoch

=

8

 

metrics

=

{'time_sample_batch': 0.006201536893844605, 'time_algorithm_update': 0.4402124853134155, 'critic_loss': 166062.376078125, 'conservative_loss': -2147.2640546875, 'alpha': 0.3699700975418091, 'actor_loss': 2949.108051513672, 'temp': 1.3931094744205474, 'temp_loss': -0.6494578281641007, 'time_step': 0.4465604445934296, 'average_q': -3843.0909234670717}

 

step

=

8000




2025-11-27 15:00.09

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_8000.d3




    [Epoch 8] Sem melhora. Score: -3843.0909 (Paciência: 7/20)




Epoch 9/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:06.35

 [

info     

] 

cql_venda_unica_run: epoch=9 step=9000

 

epoch

=

9

 

metrics

=

{'time_sample_batch': 0.006163938999176026, 'time_algorithm_update': 0.3787649393081665, 'critic_loss': 270450.948046875, 'conservative_loss': -2729.361508544922, 'alpha': 0.32658683478832246, 'actor_loss': 4903.273548828125, 'temp': 1.4937364085912705, 'temp_loss': -0.42246514014899733, 'time_step': 0.38506579780578615, 'average_q': -6061.992097236698}

 

step

=

9000




2025-11-27 15:06.35

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_9000.d3




    [Epoch 9] Sem melhora. Score: -6061.9921 (Paciência: 8/20)




Epoch 10/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:13.30

 [

info     

] 

cql_venda_unica_run: epoch=10 step=10000

 

epoch

=

10

 

metrics

=

{'time_sample_batch': 0.006163947343826294, 'time_algorithm_update': 0.40751908683776855, 'critic_loss': 409766.2755625, 'conservative_loss': -3188.108684448242, 'alpha': 0.29022586131095884, 'actor_loss': 7527.925745605468, 'temp': 1.608719585418701, 'temp_loss': -0.4275657178927213, 'time_step': 0.41382095313072204, 'average_q': -9159.595840729537}

 

step

=

10000




2025-11-27 15:13.30

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_10000.d3




    [Epoch 10] Sem melhora. Score: -9159.5958 (Paciência: 9/20)




Epoch 11/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:22.30

 [

info     

] 

cql_venda_unica_run: epoch=11 step=11000

 

epoch

=

11

 

metrics

=

{'time_sample_batch': 0.0066245758533477785, 'time_algorithm_update': 0.5310466544628143, 'critic_loss': 592579.19603125, 'conservative_loss': -3602.1773825683595, 'alpha': 0.2590813418775797, 'actor_loss': 10998.845763671876, 'temp': 1.7411708524227143, 'temp_loss': -0.36136329630203545, 'time_step': 0.5378246293067932, 'average_q': -12933.944535410365}

 

step

=

11000




2025-11-27 15:22.30

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_11000.d3




    [Epoch 11] Sem melhora. Score: -12933.9445 (Paciência: 10/20)




Epoch 12/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:31.21

 [

info     

] 

cql_venda_unica_run: epoch=12 step=12000

 

epoch

=

12

 

metrics

=

{'time_sample_batch': 0.006490363121032715, 'time_algorithm_update': 0.5234293859004975, 'critic_loss': 813776.311125, 'conservative_loss': -3897.9586259765624, 'alpha': 0.2321773655116558, 'actor_loss': 15267.783423828125, 'temp': 1.8806808505058288, 'temp_loss': -0.32905884374678135, 'time_step': 0.5300861911773682, 'average_q': -17499.80421589439}

 

step

=

12000




2025-11-27 15:31.21

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_12000.d3




    [Epoch 12] Sem melhora. Score: -17499.8042 (Paciência: 11/20)




Epoch 13/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:42.59

 [

info     

] 

cql_venda_unica_run: epoch=13 step=13000

 

epoch

=

13

 

metrics

=

{'time_sample_batch': 0.006893804550170898, 'time_algorithm_update': 0.6885101337432862, 'critic_loss': 1065212.3869375, 'conservative_loss': -4069.1532966308596, 'alpha': 0.2088011296391487, 'actor_loss': 20048.992478515625, 'temp': 2.023515330672264, 'temp_loss': -0.2551920979470015, 'time_step': 0.695601804971695, 'average_q': -22394.11007064025}

 

step

=

13000




2025-11-27 15:42.59

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_13000.d3




    [Epoch 13] Sem melhora. Score: -22394.1101 (Paciência: 12/20)




Epoch 14/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 15:53.09

 [

info     

] 

cql_venda_unica_run: epoch=14 step=14000

 

epoch

=

14

 

metrics

=

{'time_sample_batch': 0.006706946611404419, 'time_algorithm_update': 0.6006326851844788, 'critic_loss': 1300313.33425, 'conservative_loss': -3991.245090576172, 'alpha': 0.18850482764840126, 'actor_loss': 24364.10278515625, 'temp': 2.165937078952789, 'temp_loss': -0.20425302758300676, 'time_step': 0.6087718069553375, 'average_q': -25956.735127674354}

 

step

=

14000




2025-11-27 15:53.09

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_14000.d3




    [Epoch 14] Sem melhora. Score: -25956.7351 (Paciência: 13/20)




Epoch 15/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 16:02.29

 [

info     

] 

cql_venda_unica_run: epoch=15 step=15000

 

epoch

=

15

 

metrics

=

{'time_sample_batch': 0.006295170545578003, 'time_algorithm_update': 0.5516338822841644, 'critic_loss': 1472225.65875, 'conservative_loss': -3734.534657714844, 'alpha': 0.17105239753425122, 'actor_loss': 27595.20394921875, 'temp': 2.2747512311935423, 'temp_loss': -0.12206947008054704, 'time_step': 0.5580909600257874, 'average_q': -28916.04674237618}

 

step

=

15000




2025-11-27 16:02.29

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_15000.d3




    [Epoch 15] Sem melhora. Score: -28916.0467 (Paciência: 14/20)




Epoch 16/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 16:11.31

 [

info     

] 

cql_venda_unica_run: epoch=16 step=16000

 

epoch

=

16

 

metrics

=

{'time_sample_batch': 0.006236323356628418, 'time_algorithm_update': 0.5339151153564453, 'critic_loss': 1571815.051375, 'conservative_loss': -3347.735190917969, 'alpha': 0.15592356480658054, 'actor_loss': 29230.075017578125, 'temp': 2.377830836057663, 'temp_loss': -0.11433319805096835, 'time_step': 0.540297863483429, 'average_q': -29471.35150312203}

 

step

=

16000




2025-11-27 16:11.31

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_16000.d3




    [Epoch 16] Sem melhora. Score: -29471.3515 (Paciência: 15/20)




Epoch 17/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 16:22.56

 [

info     

] 

cql_venda_unica_run: epoch=17 step=17000

 

epoch

=

17

 

metrics

=

{'time_sample_batch': 0.0066181070804595945, 'time_algorithm_update': 0.6769047408103943, 'critic_loss': 1581776.80025, 'conservative_loss': -3083.821569824219, 'alpha': 0.14235916116833686, 'actor_loss': 29324.060275390624, 'temp': 2.4639178776741026, 'temp_loss': -0.08108952057221905, 'time_step': 0.6836952588558197, 'average_q': -28938.044392161013}

 

step

=

17000




2025-11-27 16:22.56

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_17000.d3




    [Epoch 17] Sem melhora. Score: -28938.0444 (Paciência: 16/20)




Epoch 18/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 16:33.42

 [

info     

] 

cql_venda_unica_run: epoch=18 step=18000

 

epoch

=

18

 

metrics

=

{'time_sample_batch': 0.006405389547348023, 'time_algorithm_update': 0.6383329300880433, 'critic_loss': 1536397.5285, 'conservative_loss': -2798.8451822509764, 'alpha': 0.1300718356743455, 'actor_loss': 28413.605388671876, 'temp': 2.53197505235672, 'temp_loss': -0.04011025080736726, 'time_step': 0.6448892064094544, 'average_q': -27659.204374085894}

 

step

=

18000




2025-11-27 16:33.42

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_18000.d3




    [Epoch 18] Sem melhora. Score: -27659.2044 (Paciência: 17/20)




Epoch 19/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 16:42.08

 [

info     

] 

cql_venda_unica_run: epoch=19 step=19000

 

epoch

=

19

 

metrics

=

{'time_sample_batch': 0.006282927036285401, 'time_algorithm_update': 0.49811692476272584, 'critic_loss': 1452879.979875, 'conservative_loss': -2533.0074047851563, 'alpha': 0.1189275126978755, 'actor_loss': 26802.8418203125, 'temp': 2.5191183195114135, 'temp_loss': 0.0741913466216065, 'time_step': 0.5045457527637481, 'average_q': -25848.911526435695}

 

step

=

19000




2025-11-27 16:42.08

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_19000.d3




    [Epoch 19] Sem melhora. Score: -25848.9115 (Paciência: 18/20)




Epoch 20/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 16:50.16

 [

info     

] 

cql_venda_unica_run: epoch=20 step=20000

 

epoch

=

20

 

metrics

=

{'time_sample_batch': 0.006382815837860108, 'time_algorithm_update': 0.4797553849220276, 'critic_loss': 1346503.7175, 'conservative_loss': -2251.151513671875, 'alpha': 0.10884483253955841, 'actor_loss': 24794.019921875, 'temp': 2.4031226546764373, 'temp_loss': 0.13347784546297042, 'time_step': 0.48628209829330443, 'average_q': -23707.616457678352}

 

step

=

20000




2025-11-27 16:50.16

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_20000.d3




    [Epoch 20] Sem melhora. Score: -23707.6165 (Paciência: 19/20)




Epoch 21/50:   0%|          | 0/1000 [00:00<?, ?it/s]

2025-11-27 17:00.48

 [

info     

] 

cql_venda_unica_run: epoch=21 step=21000

 

epoch

=

21

 

metrics

=

{'time_sample_batch': 0.006934426784515381, 'time_algorithm_update': 0.623202482700348, 'critic_loss': 1229665.37825, 'conservative_loss': -1868.038787109375, 'alpha': 0.09987576259672641, 'actor_loss': 22630.72153515625, 'temp': 2.2835449719429017, 'temp_loss': 0.09030212782137095, 'time_step': 0.6305276477336883, 'average_q': -21558.335588752096}

 

step

=

21000




2025-11-27 17:00.49

 [

info     

] 

Model parameters are saved to d3rlpy_logs\cql_venda_unica_run\model_21000.d3




    [Epoch 21] Sem melhora. Score: -21558.3356 (Paciência: 20/20)





🛑 EARLY STOPPING ACIONADO na época 21.




   O modelo parou de aprender. Encerrando treino para evitar overfitting.





✓ Treino finalizado. Melhor modelo carregado de 'modelo_rl_final.pt'.




In [6]:
# ============================================================================
# CÉLULA 6: Avaliação Final e Métricas de Negócio - CORREÇÃO FINAL (Dimensão)
# ============================================================================
import os
import numpy as np
from d3rlpy.metrics import AverageValueEstimationEvaluator

print("\n" + "="*40)
print("AVALIAÇÃO FINAL E MÉTRICAS DE NEGÓCIO")
print("="*40)

# 1. Carregar o melhor modelo salvo
if os.path.exists("modelo_rl_final.pt"):
    cql.load_model("modelo_rl_final.pt")
    print("✓ Melhor modelo ('modelo_rl_final.pt') carregado com sucesso.")
else:
    print("⚠️ Aviso: 'modelo_rl_final.pt' não encontrado. Usando modelo atual da memória.")

# 2. Calcular o Valor da Política
print("Calculando valor da política...")
estimator = AverageValueEstimationEvaluator(test_episodes)
valor_politica_norm = estimator(cql, dataset=dataset)

# Converter para Dólares
valor_politica_real = scaler_recompensa.inverse_transform([[valor_politica_norm]])[0][0]

print(f"\n--- Performance Global (Conjunto de Teste) ---")
print(f"  Valor da Política (Normalizado): {valor_politica_norm:.4f}")
print(f"  => LUCRO MÉDIO ESTIMADO POR VENDA: ${valor_politica_real:.2f}")

# 3. Inferência de Exemplo
print(f"\n--- Exemplo de Inferência (Um Caso do Teste) ---")

sample_episode = test_episodes[0]
sample_state = sample_episode.observations[0]

# Garante input 2D para o modelo
state_batch = sample_state.reshape(1, -1)

# A. Prever Ação (Retorna array 1D com a ação)
acao_norm = cql.predict(state_batch)[0]

# B. Converter para Real (CORREÇÃO AQUI: Reshape direto, sem colchetes extras)
preco_real = scaler_acao.inverse_transform(acao_norm.reshape(1, -1))[0][0]

# C. Calcular Lucro Esperado
if hasattr(cql, "predict_value"):
    # Prepara ação em batch 2D
    action_batch = acao_norm.reshape(1, -1)
    lucro_esperado_norm = cql.predict_value(state_batch, action_batch)[0]
    # Correção também aqui para garantir 2D
    lucro_esperado_real = scaler_recompensa.inverse_transform(lucro_esperado_norm.reshape(1, -1))[0][0]
else:
    lucro_esperado_real = 0.0 

print(f"  Estado (Shape): {sample_state.shape}")
print(f"  Ação do Modelo (Normalizada): {acao_norm}")
print(f"  ------------------------------------------------")
print(f"  ✅ PREÇO RECOMENDADO: ${preco_real:.2f}")
print(f"  💰 LUCRO ESPERADO:    ${lucro_esperado_real:.2f}")

if preco_real < 0:
    print("\n❌ ALERTA: O preço recomendado é negativo. Verifique o 'Generator_NEW.py'.")
else:
    print("\n✅ SUCESSO: O sistema está operando corretamente!")






AVALIAÇÃO FINAL E MÉTRICAS DE NEGÓCIO









✓ Melhor modelo ('modelo_rl_final.pt') carregado com sucesso.




Calculando valor da política...





--- Performance Global (Conjunto de Teste) ---




  Valor da Política (Normalizado): -0.1091




  => LUCRO MÉDIO ESTIMADO POR VENDA: $16390.40





--- Exemplo de Inferência (Um Caso do Teste) ---




  Estado (Shape): (32,)




  Ação do Modelo (Normalizada): [-0.8670802]




  ------------------------------------------------




  ✅ PREÇO RECOMENDADO: $-7.57




  💰 LUCRO ESPERADO:    $2874.63





❌ ALERTA: O preço recomendado é negativo. Verifique o 'Generator_NEW.py'.


