## IMPORTANTE: Reiniciar Kernel

Se voc√™ estiver encontrando erro `OSError: could not get source code`, **reinicie o kernel do notebook** (Ctrl+Shift+P ‚Üí "Restart Kernel") antes de executar as c√©lulas abaixo.

## üì¶ Setup

In [7]:
# 1. Carregar dados + 
import sys
sys.path.append('..')  # Adiciona o diret√≥rio pai
from src.utils.io.io_local import *
from src.utils.io.io_clearml import *

from src.utils.io import load_dataframe
from config import config_custom as config
from src.pipelines.pipeline_processamento import executar_pipeline_processamento
from src.pipelines.pipeline_features import executar_pipeline_features
from src.pipelines import treinar_pipeline_completo, treinar_rapido

df_raw = load_dataframe('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv')
print(f'Dados brutos: {df_raw.shape}')

Dados brutos: (1720, 40)


# Pipelines

## Pipeline processamento

In [8]:
# 1. Carregar dados + # 2. PROCESSAMENTO (Limpeza + Imputa√ß√£o)
df_raw = load_dataframe('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv')
print(f'Dados brutos: {df_raw.shape}')

# 2. PROCESSAMENTO (Limpeza + Imputa√ß√£o)
df_proc = executar_pipeline_processamento(
    df_raw,
    config_imputacao_customizada=config.CONFIG_IMPUTACAO_CUSTOMIZADA,
    criar_agrupamento_temporal=True,
    nome_coluna_agrupamento='mes-ano'
)
print(f'Ap√≥s processamento: {df_proc.shape}')
print(f'NAs restantes: {df_proc.isna().sum().sum()}')

Dados brutos: (1720, 40)
üîÑ Iniciando pipeline de processamento BASE...
  1Ô∏è‚É£ Aplicando substitui√ß√µes de limpeza...
  2Ô∏è‚É£ Convertendo tipos de dados...
  3Ô∏è‚É£ Imputando valores faltantes...
  4Ô∏è‚É£ Criando agrupamento temporal...
‚úÖ Pipeline BASE conclu√≠do! Shape final: (1720, 41)
Ap√≥s processamento: (1720, 41)
NAs restantes: 0


## Pipeline features

In [9]:
# 3. FEATURES (Codifica√ß√£o + Derivadas + Normaliza√ß√£o)
df_feat, artefatos = executar_pipeline_features(
    df_proc,
    # Codifica√ß√£o
    aplicar_codificacao=True,
    metodo_codificacao='label',           # 'label' ou 'onehot'
    sufixo_codificacao='_cod',
    
    # Features derivadas
    criar_features_derivadas=True,
    tipos_features_derivadas=[
        'imc',                            # √çndice de Massa Corporal
        'imc_classe',                     # Classe do IMC
        'heat_index',                     # √çndice de calor
        'dew_point',                      # Ponto de orvalho
        't*u',                            # Temperatura √ó Umidade
    ],
    
    # Normaliza√ß√£o
    aplicar_normalizacao=True,
    metodo_normalizacao='standard',       # 'standard', 'minmax', 'robust'
    agrupamento_normalizacao='mes-ano',   # Normalizar por grupo
    sufixo_normalizacao='_norm',
)

print(f'Ap√≥s features: {df_feat.shape}')
print(f'Artefatos criados: {list(artefatos.keys())}')
df_feat.to_csv("../dados/resultados/dados_processados_novas_features.csv")
# Visualizar resultado
df_feat.head()


üé® Iniciando pipeline de FEATURES...
  1Ô∏è‚É£ Criando features derivadas (5 tipos)...
  2Ô∏è‚É£ Aplicando codifica√ß√£o (label)...
  3Ô∏è‚É£ Aplicando normaliza√ß√£o (standard)...
‚úÖ Pipeline FEATURES conclu√≠do! Shape final: (1720, 78)
   Novas colunas criadas: 37
Ap√≥s features: (1720, 78)
Artefatos criados: ['mapeamentos_codificacao', 'colunas_normalizadas', 'artefatos_codificacao', 'artefatos_normalizacao']
  2Ô∏è‚É£ Aplicando codifica√ß√£o (label)...
  3Ô∏è‚É£ Aplicando normaliza√ß√£o (standard)...
‚úÖ Pipeline FEATURES conclu√≠do! Shape final: (1720, 78)
   Novas colunas criadas: 37
Ap√≥s features: (1720, 78)
Artefatos criados: ['mapeamentos_codificacao', 'colunas_normalizadas', 'artefatos_codificacao', 'artefatos_normalizacao']


OSError: Cannot save file into a non-existent directory: '..\dados\resultados'

# Pipeline de treinamento

In [None]:
from config.config_gerais import PARAMS_PADRAO

# Definir coluna alvo e features
coluna_alvo = 'p1'

# Usar apenas features principais para teste
features_treino = [
    'idade', 'sexo_cod', 'peso', 'altura',
    'tmedia', 'ur', 'vel_vento',
]

tipos_modelos ='regressao'

# Filtrar features que existem no DataFrame
features_existentes = [f for f in features_treino if f in df_feat.columns]
print(f"Features para treinamento: {features_existentes}")

# Preparar dados
df_treino = df_feat[features_existentes + [coluna_alvo]].dropna()
print(f"Dataset de treino: {df_treino.shape}")

# 4. TREINAMENTO
print("\n" + "="*60)
print("ü§ñ INICIANDO PIPELINE DE TREINAMENTO")
print("="*60)

resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema=tipos_modelos,  # 'classificacao' ou 'regressao'
    params_setup=PARAMS_PADRAO,
    n_modelos_comparar=3,           # Testar top 3 modelos
    otimizar_hiperparametros=True,         # Otimizar hiperpar√¢metros
    n_iter_otimizacao=10,  # 10 itera√ß√µes de otimiza√ß√£o
    salvar_modelo_final=True,           # Salvar modelo
    nome_modelo="modelo_conforto_termico",
    pasta_modelos="modelos"
)

# Visualizar resultados
print("\n" + "="*60)
print("üìä RESULTADOS DO TREINAMENTO")
print("="*60)

# Nome do melhor modelo
nome_modelo = str(resultado['tabela_comparacao'].index[0])
print(f"\n‚úì Melhor modelo: {nome_modelo}")

print(f"\nüìà M√©tricas principais:")
metricas = resultado['metricas_melhor']
for nome, valor in metricas.items():
    if isinstance(valor, (int, float)):
        print(f"  ‚Ä¢ {nome}: {valor:.4f}")

print(f"\nüíæ Modelo salvo em: {resultado.get('caminho_modelo', 'N/A')}")

print("\nüìã Compara√ß√£o de modelos (top 5 m√©tricas):")
print(resultado['tabela_comparacao'].head())

In [None]:
resultados_10_experimentos = {}
for i in range(10):
    print("\n" + "="*60)
    print(f"ü§ñ INICIANDO EXPERIMENTO {i+1}/10")
    print("="*60)
    
    resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema='regressao',  # 'classificacao' ou 'regressao'
    params_setup=PARAMS_PADRAO,
    n_modelos_comparar=3,           # Testar top 3 modelos
    otimizar_hiperparametros=True,         # Otimizar hiperpar√¢metros
    n_iter_otimizacao=10,  # 10 itera√ß√µes de otimiza√ß√£o
    salvar_modelo_final=True,           # Salvar modelo
    nome_modelo="modelo_conforto_termico",
    pasta_modelos="modelos"
)
    
    resultados_10_experimentos[f'Experimento_{i+1}'] = resultado


In [None]:
tabelas_comparacao = [dicionario["tabela_comparacao"] for dicionario in resultados_10_experimentos.values()] 
tabelas_comparacao =  [tabela.rename(columns={'Model':'Modelos','Accuracy': 'Acur√°cia', 'AUC': 'AUC', 'Recall': 'Recall', 'Prec.': 'Prec.', 'F1': 'F1'}) for tabela in tabelas_comparacao]
serie_nomes_modelos = tabelas_comparacao[0]['Modelos']
tabelas_comparacao = [tabela.select_dtypes(include='number') for tabela in tabelas_comparacao] 

In [None]:

df_desvio_metricas= pd.concat(tabelas_comparacao).groupby(level=0).std()
df_media_metricas = pd.concat(tabelas_comparacao).groupby(level=0).mean()
df_media_desvio_metricas_str = df_media_metricas.round(2).astype(str) + " ¬± " + df_desvio_metricas.round(2).astype(str)
df_media_desvio_metricas_str = df_media_desvio_metricas_str.merge(serie_nomes_modelos, left_index=True, right_index=True)
df_media_metricas = df_media_metricas.merge(serie_nomes_modelos, left_index=True, right_index=True)
df_desvio_metricas = df_desvio_metricas.merge(serie_nomes_modelos, left_index=True, right_index=True)
df_desvio_metricas.to_csv('../dados/resultados/desvio_metricas.csv')
df_media_metricas.to_csv('../dados/resultados/media_metricas.csv')
df_media_desvio_metricas_str.to_csv('../dados/resultados/media_e_desvio_metricas_str.csv')

In [None]:
df_media_desvio_metricas_str


# ClearML

## Pipeline Completo - Vers√£o Local

**Por que n√£o usar os decorators ClearML aqui?**

Os decorators `@pipeline` e `@component` do ClearML **sempre** tentam criar a infraestrutura de pipeline (tasks, serializa√ß√£o, etc.), mesmo quando configurado para `run_locally=True`. Isso causa erros ao tentar serializar DataFrames grandes e criar tasks automaticamente.

**Solu√ß√£o**: Para execu√ß√£o realmente local (sem servidor ClearML), usamos diretamente as fun√ß√µes originais dos pipelines **SEM** os decorators:
- `executar_pipeline_processamento()` - da pasta src/pipelines
- `treinar_pipeline_completo()` - da pasta src/treinamento

Isso funciona perfeitamente porque s√£o as mesmas fun√ß√µes que voc√™ j√° usa normalmente, apenas sem a camada ClearML em cima.

**Quando usar os pipelines com decorators ClearML?**
- Quando voc√™ tem um servidor ClearML configurado
- Quando quer enviar jobs para execu√ß√£o remota
- Quando precisa de rastreamento completo no servidor ClearML

In [None]:
# =========================================================================
# PIPELINE COMPLETO COM CLEARML - REGISTRO TOTAL
# =========================================================================
import sys
sys.path.append('..')

from clearml import Task, Dataset, OutputModel
import pandas as pd
from pathlib import Path

# Imports dos pipelines
from src.pipelines.pipeline_processamento import executar_pipeline_processamento
from src.pipelines.pipeline_treinamento_unified import treinar_pipeline_completo

# Configura√ß√£o
PROJECT_NAME = "conforto_termico"
coluna_alvo = 'p1'

print("="*80)
print("PIPELINE COMPLETO COM CLEARML - FULL TRACKING")
print("="*80)

# ============================================================================
# ETAPA 1: UPLOAD DE DADOS BRUTOS
# ============================================================================
print("\n[ETAPA 1] Upload de Dados Brutos para ClearML")
print("-"*80)

# Criar dataset de dados brutos
dataset_bruto = Dataset.create(
    dataset_name="dados_brutos_conforto_termico",
    dataset_project=PROJECT_NAME,
    description="Dados brutos de conforto termico de Santa Maria"
)

# Salvar temporariamente para upload
temp_path = Path("../dados/temp_clearml")
temp_path.mkdir(exist_ok=True)
arquivo_bruto = temp_path / "dados_brutos.csv"
df_raw.to_csv(arquivo_bruto, index=False)

# Adicionar arquivo ao dataset
dataset_bruto.add_files(str(arquivo_bruto))
dataset_bruto.upload()
dataset_bruto.finalize()

print(f"Dataset bruto criado: ID = {dataset_bruto.id}")
print(f"  - Shape: {df_raw.shape}")
print(f"  - Colunas: {len(df_raw.columns)}")

# ============================================================================
# ETAPA 2: PIPELINE DE PROCESSAMENTO
# ============================================================================
print("\n[ETAPA 2] Pipeline de Processamento")
print("-"*80)

# Criar task de processamento (COM FIX PARA NOTEBOOKS)
task_processamento = Task.init(
    project_name=PROJECT_NAME,
    task_name="Pipeline_Processamento",
    task_type=Task.TaskTypes.data_processing,
    reuse_last_task_id=False,  # N√£o reusar task anterior
    continue_last_task=False,   # Criar nova task sempre
    auto_connect_frameworks=False,  # Desabilita captura autom√°tica
    auto_resource_monitoring=False  # Desabilita monitoramento de recursos
)

# Conectar dataset de entrada
task_processamento.connect_configuration({
    "dataset_id": dataset_bruto.id,
    "dataset_name": "dados_brutos_conforto_termico"
})

# Executar processamento
print("Executando processamento...")
df_processado = executar_pipeline_processamento(df_raw)

# Registrar m√©tricas de processamento
task_processamento.get_logger().report_single_value("linhas_entrada", df_raw.shape[0])
task_processamento.get_logger().report_single_value("linhas_saida", df_processado.shape[0])
task_processamento.get_logger().report_single_value("colunas_entrada", df_raw.shape[1])
task_processamento.get_logger().report_single_value("colunas_saida", df_processado.shape[1])
task_processamento.get_logger().report_single_value("nas_removidos", df_raw.isna().sum().sum() - df_processado.isna().sum().sum())

print(f"Dados processados: {df_processado.shape}")
print(f"NAs restantes: {df_processado.isna().sum().sum()}")

# Upload de dados processados como dataset
dataset_processado = Dataset.create(
    dataset_name="dados_processados_conforto_termico",
    dataset_project=PROJECT_NAME,
    parent_datasets=[dataset_bruto.id],
    description="Dados processados (sem NAs, limpeza aplicada)"
)

arquivo_processado = temp_path / "dados_processados.csv"
df_processado.to_csv(arquivo_processado, index=False)
dataset_processado.add_files(str(arquivo_processado))
dataset_processado.upload()
dataset_processado.finalize()

print(f"Dataset processado criado: ID = {dataset_processado.id}")

# Registrar como artefato na task
task_processamento.upload_artifact(
    "dados_processados_sample",
    artifact_object=df_processado.head(100)  # Apenas amostra
)

task_processamento.close()
print("Task de processamento finalizada!")

# ============================================================================
# ETAPA 3: PIPELINE DE TREINAMENTO
# ============================================================================
print("\n[ETAPA 3] Pipeline de Treinamento")
print("-"*80)

# Criar task de treinamento (COM FIX PARA NOTEBOOKS)
task_treinamento = Task.init(
    project_name=PROJECT_NAME,
    task_name="Pipeline_Treinamento",
    task_type=Task.TaskTypes.training,
    reuse_last_task_id=False,
    continue_last_task=False,
    auto_connect_frameworks=False,
    auto_resource_monitoring=False
)

# Conectar dataset processado
task_treinamento.connect_configuration({
    "dataset_id": dataset_processado.id,
    "coluna_alvo": coluna_alvo,
    "tipo_problema": "regressao"
})

# Preparar dados
df_treino = df_processado.dropna()
print(f"Dados para treino: {df_treino.shape}")

# Executar treinamento
print("Executando treinamento...")
resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema='regressao',
    n_modelos_comparar=3,
    otimizar_hiperparametros=True,
    n_iter_otimizacao=10,
    salvar_modelo_final=True,
    nome_modelo="modelo_conforto_termico_clearml",
    pasta_modelos="../modelos"
)

# ============================================================================
# ETAPA 4: REGISTRO DE M√âTRICAS
# ============================================================================
print("\n[ETAPA 4] Registro de M√©tricas")
print("-"*80)

logger = task_treinamento.get_logger()

# M√©tricas do melhor modelo
metricas = resultado['metricas_melhor']
print("\nMetricas registradas:")
for nome, valor in metricas.items():
    if isinstance(valor, (int, float)):
        logger.report_single_value(nome, valor)
        print(f"  {nome}: {valor:.4f}")

# ============================================================================
# ETAPA 5: UPLOAD DE TABELAS E ARTEFATOS
# ============================================================================
print("\n[ETAPA 5] Upload de Tabelas e Artefatos")
print("-"*80)

# Tabela de compara√ß√£o de modelos
tabela_comparacao = resultado['tabela_comparacao']
task_treinamento.upload_artifact(
    "comparacao_modelos",
    artifact_object=tabela_comparacao
)
print("Tabela de comparacao enviada como artefato")

# Criar gr√°fico de compara√ß√£o de modelos
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(10, 6))
tabela_comparacao[['MAE', 'MSE', 'RMSE', 'R2']].plot(kind='bar', ax=ax)
ax.set_title('Comparacao de Modelos - Metricas')
ax.set_xlabel('Modelos')
ax.set_ylabel('Valor')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()

# Enviar gr√°fico
logger.report_matplotlib_figure(
    title="Comparacao de Modelos",
    series="Metricas",
    figure=fig,
    iteration=0
)
plt.close()
print("Grafico de comparacao enviado")

# ============================================================================
# ETAPA 6: REGISTRO DO MODELO
# ============================================================================
print("\n[ETAPA 6] Registro do Modelo")
print("-"*80)

# Criar OutputModel
melhor_modelo_nome = str(resultado['tabela_comparacao'].index[0])
output_model = OutputModel(
    task=task_treinamento,
    name=f"modelo_{melhor_modelo_nome}_conforto_termico",
    framework="PyCaret"
)

# Registrar informa√ß√µes do modelo
output_model.update_labels({
    "tipo": "regressao",
    "coluna_alvo": coluna_alvo,
    "melhor_modelo": melhor_modelo_nome
})

# Adicionar m√©tricas ao modelo
output_model.update_design(config_dict={
    "metricas": {k: float(v) for k, v in metricas.items() if isinstance(v, (int, float))},
    "n_features": df_treino.shape[1] - 1,
    "n_samples_treino": df_treino.shape[0]
})

# Upload do arquivo do modelo
if 'caminho_modelo' in resultado and resultado['caminho_modelo']:
    caminho_modelo = Path(resultado['caminho_modelo'])
    if caminho_modelo.exists():
        output_model.update_weights(weights_filename=str(caminho_modelo))
        print(f"Modelo registrado: {caminho_modelo}")
    else:
        print(f"AVISO: Arquivo do modelo nao encontrado: {caminho_modelo}")

# ============================================================================
# ETAPA 7: FINALIZA√á√ÉO E RESUMO
# ============================================================================
print("\n[ETAPA 7] Finalizacao")
print("-"*80)

# Tags na task
task_treinamento.add_tags([
    "producao",
    melhor_modelo_nome,
    f"r2_{metricas.get('R2', 0):.2f}".replace(".", "_")
])

task_treinamento.close()

# Limpar arquivos tempor√°rios
import shutil
if temp_path.exists():
    shutil.rmtree(temp_path)

# ============================================================================
# RESUMO FINAL
# ============================================================================
print("\n" + "="*80)
print("PIPELINE COMPLETO FINALIZADO - TUDO REGISTRADO NO CLEARML!")
print("="*80)
print(f"\nProjeto: {PROJECT_NAME}")
print(f"\nDatasets criados:")
print(f"  1. Dados brutos: {dataset_bruto.id}")
print(f"  2. Dados processados: {dataset_processado.id}")
print(f"\nTasks criadas:")
print(f"  1. Processamento: {task_processamento.id}")
print(f"  2. Treinamento: {task_treinamento.id}")
print(f"\nModelo registrado:")
print(f"  - Nome: modelo_{melhor_modelo_nome}_conforto_termico")
print(f"  - Melhor modelo: {melhor_modelo_nome}")
print(f"  - R2: {metricas.get('R2', 0):.4f}")
print(f"  - MAE: {metricas.get('MAE', 0):.4f}")
print("\nAcesse o ClearML UI para visualizar todos os resultados!")
print("="*80)

## Visualizar Resultados no ClearML

Ap√≥s executar a c√©lula acima, acesse a interface web do ClearML:
- **Local**: http://localhost:8080
- **Demo**: https://app.clear.ml

### O que voc√™ vai encontrar:

**üìä No Projeto "conforto_termico":**
- 2 Tasks (Processamento + Treinamento)
- 2 Datasets (Bruto + Processado) com genealogia
- 1 Modelo registrado com m√©tricas

**üìà M√©tricas rastreadas:**
- Todas as m√©tricas de regress√£o (MAE, MSE, RMSE, R2, etc.)
- Compara√ß√£o entre modelos
- Gr√°ficos de compara√ß√£o

**üì¶ Artefatos salvos:**
- Tabela de compara√ß√£o de modelos
- Sample dos dados processados
- Gr√°fico de m√©tricas

**ü§ñ Modelo:**
- Arquivo .pkl do modelo treinado
- Labels e configura√ß√µes
- Genealogia completa (dados ‚Üí processamento ‚Üí treinamento)

## [OPCIONAL] Buscar e Reusar Recursos do ClearML

In [None]:
# =========================================================================
# REUSAR RECURSOS DO CLEARML (Datasets, Modelos, Tasks)
# =========================================================================
import sys
sys.path.append('..')

from clearml import Task, Dataset, Model
import pandas as pd

PROJECT_NAME = "conforto_termico_def"

print("="*80)
print("BUSCANDO RECURSOS NO CLEARML")
print("="*80)

# ============================================================================
# 1. LISTAR DATASETS DISPON√çVEIS
# ============================================================================
print("\n[1] Datasets disponiveis no projeto:")
print("-"*80)

datasets = Dataset.list_datasets(
    dataset_project=PROJECT_NAME,
    partial_name="conforto_termico"
)

for i, ds in enumerate(datasets, 1):
    print(f"\n{i}. {ds.name}")
    print(f"   ID: {ds.id}")
    print(f"   Versao: {ds.version}")
    print(f"   Criado: {ds.created}")

# ============================================================================
# 2. BAIXAR DATASET ESPEC√çFICO
# ============================================================================
print("\n[2] Baixando dataset processado:")
print("-"*80)

# Buscar o dataset mais recente de dados processados
dataset_processado = Dataset.get(
    dataset_project=PROJECT_NAME,
    dataset_name="dados_processados_conforto_termico"
)

# Baixar para pasta local
local_path = dataset_processado.get_local_copy()
print(f"Dataset baixado para: {local_path}")

# Carregar dados
arquivos = list(Path(local_path).glob("*.csv"))
if arquivos:
    df_downloaded = pd.read_csv(arquivos[0])
    print(f"Dados carregados: {df_downloaded.shape}")
    print(df_downloaded.head())

# ============================================================================
# 3. LISTAR TASKS DO PROJETO
# ============================================================================
print("\n[3] Tasks do projeto:")
print("-"*80)

tasks = Task.get_tasks(
    project_name=PROJECT_NAME,
    task_name=None  # Todas as tasks
)

for i, t in enumerate(tasks[:5], 1):  # Primeiras 5
    print(f"\n{i}. {t.name}")
    print(f"   ID: {t.id}")
    print(f"   Status: {t.status}")
    print(f"   Tipo: {t.task_type}")

# ============================================================================
# 4. BUSCAR MODELOS REGISTRADOS
# ============================================================================
print("\n[4] Modelos registrados:")
print("-"*80)

modelos = Model.query_models(
    project_name=PROJECT_NAME,
    model_name=None  # Todos os modelos
)

for i, modelo in enumerate(modelos, 1):
    print(f"\n{i}. {modelo.name}")
    print(f"   ID: {modelo.id}")
    print(f"   Framework: {modelo.framework}")
    print(f"   Labels: {modelo.labels}")
    
    # Baixar modelo se quiser
    # modelo_local = modelo.get_local_copy()
    # print(f"   Download: {modelo_local}")

# ============================================================================
# 5. CLONAR E REUSAR TASK
# ============================================================================
print("\n[5] Exemplo: Clonar uma task existente")
print("-"*80)

if tasks:
    task_original = tasks[0]
    print(f"Clonando task: {task_original.name}")
    
    # Clonar task (cria uma c√≥pia)
    task_clonada = Task.clone(
        source_task=task_original.id,
        name=f"{task_original.name}_clonada",
        project=PROJECT_NAME
    )
    
    print(f"Task clonada criada: {task_clonada.id}")
    print("Voc√™ pode executar esta task clonada com configuracoes diferentes!")

print("\n" + "="*80)
print("BUSCA DE RECURSOS CONCLUIDA")
print("="*80)

In [1]:
# PASSO 1: Verificar Importa√ß√µes e Credenciais
# ============================================================================

import sys
from pathlib import Path

# Adicionar path do projeto
if '..' not in sys.path:
    sys.path.append('..')

print("="*80)
print("DIAGN√ìSTICO COMPLETO")
print("="*80)

# 1. Verificar arquivo .env
print("\n[1] Verificando arquivo .env...")
env_path = Path('../.env')
if env_path.exists():
    print(f"‚úì Arquivo .env encontrado: {env_path.resolve()}")
    # Ler conte√∫do (sem mostrar secrets)
    with open(env_path, 'r') as f:
        linhas = f.readlines()
    print(f"  Linhas no arquivo: {len(linhas)}")
    for linha in linhas:
        if '=' in linha and not linha.startswith('#'):
            chave = linha.split('=')[0].strip()
            print(f"  ‚Ä¢ {chave}: {'***' if 'KEY' in chave else '‚úì'}")
else:
    print(f"‚úó Arquivo .env N√ÉO encontrado em: {env_path.resolve()}")

# 2. Testar carregamento de credenciais
print("\n[2] Testando carregamento de credenciais...")
try:
    from src.clearml.utils.credenciais_clearml import configurar_clearml_online
    sucesso = configurar_clearml_online()
    if sucesso:
        print("‚úì Credenciais carregadas com sucesso")
    else:
        print("‚úó Falha ao carregar credenciais")
except Exception as e:
    print(f"‚úó Erro ao importar/configurar: {e}")
    import traceback
    traceback.print_exc()

# 3. Verificar importa√ß√£o do pipeline
print("\n[3] Testando importa√ß√£o do pipeline...")
try:
    from src.clearml.pipelines_clearml import executar_pipeline_processamento_clearml
    print("‚úì Pipeline importado com sucesso")
except Exception as e:
    print(f"‚úó Erro ao importar pipeline: {e}")
    import traceback
    traceback.print_exc()

# 4. Verificar arquivo de dados
print("\n[4] Verificando arquivo de dados...")
arquivo_dados = Path('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv')
if arquivo_dados.exists():
    print(f"‚úì Arquivo encontrado: {arquivo_dados.resolve()}")
    print(f"  Tamanho: {arquivo_dados.stat().st_size / (1024*1024):.2f} MB")
else:
    print(f"‚úó Arquivo N√ÉO encontrado: {arquivo_dados.resolve()}")

print("\n" + "="*80)
print("Se tudo estiver ‚úì, execute a pr√≥xima c√©lula para rodar o pipeline")
print("="*80)

DIAGN√ìSTICO COMPLETO

[1] Verificando arquivo .env...
‚úì Arquivo .env encontrado: C:\Users\Readone\Desktop\tcc_mba_esalq_mlops\.env
  Linhas no arquivo: 5
  ‚Ä¢ CLEARML_WEB_HOST: ‚úì
  ‚Ä¢ CLEARML_API_HOST: ‚úì
  ‚Ä¢ CLEARML_FILES_HOST: ‚úì
  ‚Ä¢ CLEARML_API_ACCESS_KEY: ***
  ‚Ä¢ CLEARML_API_SECRET_KEY: ***

[2] Testando carregamento de credenciais...


2026-02-09 22:39:31,707 - INFO - M√≥dulo ClearML carregado com sucesso
2026-02-09 22:39:31,714 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:39:31,715 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:39:31,715 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:39:31,716 - INFO - ‚úì ClearML configurado para uso ONLINE
2026-02-09 22:39:31,714 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:39:31,715 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:39:31,715 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:39:31,716 - INFO - ‚úì ClearML configurado para uso ONLINE


‚úì Credenciais carregadas com sucesso

[3] Testando importa√ß√£o do pipeline...
‚úì Pipeline importado com sucesso

[4] Verificando arquivo de dados...
‚úì Arquivo encontrado: C:\Users\Readone\Desktop\tcc_mba_esalq_mlops\dados\2025.05.14_thermal_confort_santa_maria_brazil_.csv
  Tamanho: 0.29 MB

Se tudo estiver ‚úì, execute a pr√≥xima c√©lula para rodar o pipeline


In [2]:
# Processamento
# ============================================================================
import traceback
from src.clearml.pipelines_clearml import executar_pipeline_processamento_clearml

arquivo = '../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv'

print("="*80)
print("PIPELINE DE PROCESSAMENTO - VERS√ÉO FINAL")
print("="*80)
print(f"Arquivo: {arquivo}")
print("Modo: ONLINE (ClearML)")
print("\nMelhorias:")
print("  ‚úì Carregamento robusto com load_dataframe() de src/utils/io")
print("  ‚úì Detec√ß√£o autom√°tica de delimitador")
print("  ‚úì M√©tricas de entrada/sa√≠da registradas")
print("="*80 + "\n")

try:
    resultado = executar_pipeline_processamento_clearml(
        caminho_csv=arquivo,
        offline_mode=False
    )
    
    print("\n" + "="*80)
    print("‚úÖ PIPELINE CONCLU√çDO COM SUCESSO!")
    print("="*80)
    print(f"\nüìä Resultados:")
    print(f"  Shape final: {resultado['shape']}")
    print(f"  Dataset ID: {resultado.get('dataset_id', 'N/A')}")
    print(f"  NAs removidos: {resultado.get('nas_removidos', 'N/A')}")
    
    print(f"\nüåê Acesse: https://app.clear.ml")
    print(f"  ‚Ä¢ Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS")
    print(f"  ‚Ä¢ Task: Pipeline_Processamento")
    print(f"  ‚Ä¢ Dataset: dados_processados (ID: {resultado.get('dataset_id', 'N/A')[:8]}...)")
    print(f"  ‚Ä¢ M√©tricas: linhas entrada={resultado['shape'][0]}, NAs removidos={resultado.get('nas_removidos', 'N/A')}")
    
    print("\nüíæ DataFrame processado dispon√≠vel em:")
    print("  resultado['df_processado']")
    print("="*80)
    
except Exception as e:
    print("\n" + "="*80)
    print("‚ùå ERRO DETECTADO")
    print("="*80)
    print(f"\nTipo do erro: {type(e).__name__}")
    print(f"Mensagem: {str(e)}")
    print("\n" + "-"*80)
    print("TRACEBACK COMPLETO:")
    print("-"*80)
    traceback.print_exc()


2026-02-09 22:39:31,753 - INFO - Modo ONLINE: Iniciando integra√ß√£o ClearML
2026-02-09 22:39:31,755 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:39:31,756 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:39:31,757 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:39:31,758 - INFO - ‚úì ClearML configurado para uso ONLINE
2026-02-09 22:39:31,755 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:39:31,756 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:39:31,757 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:39:31,758 - INFO - ‚úì ClearML configurado para uso ONLINE


PIPELINE DE PROCESSAMENTO - VERS√ÉO FINAL
Arquivo: ../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv
Modo: ONLINE (ClearML)

Melhorias:
  ‚úì Carregamento robusto com load_dataframe() de src/utils/io
  ‚úì Detec√ß√£o autom√°tica de delimitador
  ‚úì M√©tricas de entrada/sa√≠da registradas

ClearML Task: created new task id=a4ae6d82b61443279bff4087ad551ed1
ClearML Task: created new task id=a4ae6d82b61443279bff4087ad551ed1
ClearML results page: https://app.clear.ml/projects/06661800c2e642339d895b6d02c06481/experiments/a4ae6d82b61443279bff4087ad551ed1/output/log
ClearML results page: https://app.clear.ml/projects/06661800c2e642339d895b6d02c06481/experiments/a4ae6d82b61443279bff4087ad551ed1/output/log


2026-02-09 22:39:42,955 - INFO - Task criada: Pipeline_Processamento (ID: a4ae6d82b61443279bff4087ad551ed1, Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS)
2026-02-09 22:39:46,740 - INFO - ‚úì Task ClearML criada (ID: a4ae6d82b61443279bff4087ad551ed1)
2026-02-09 22:39:46,745 - INFO - PIPELINE DE PROCESSAMENTO
2026-02-09 22:39:46,746 - INFO - 
[1] Carregando dados do CSV...
2026-02-09 22:39:46,746 - INFO -     Arquivo: ../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv
2026-02-09 22:39:46,740 - INFO - ‚úì Task ClearML criada (ID: a4ae6d82b61443279bff4087ad551ed1)
2026-02-09 22:39:46,745 - INFO - PIPELINE DE PROCESSAMENTO
2026-02-09 22:39:46,746 - INFO - 
[1] Carregando dados do CSV...
2026-02-09 22:39:46,746 - INFO -     Arquivo: ../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv
2026-02-09 22:39:46,781 - INFO -     ‚úì Dados carregados: (1720, 40)
2026-02-09 22:39:46,781 - INFO -     Colunas: 40
2026-02-09 22:39:46,782 - INFO - 
[2] Executando pipel

üîÑ Iniciando pipeline de processamento BASE...
  1Ô∏è‚É£ Aplicando substitui√ß√µes de limpeza...
  2Ô∏è‚É£ Convertendo tipos de dados...
  3Ô∏è‚É£ Imputando valores faltantes...
  4Ô∏è‚É£ Criando agrupamento temporal...
‚úÖ Pipeline BASE conclu√≠do! Shape final: (1720, 41)


2026-02-09 22:39:49,995 - INFO - DataFrame registrado: dados_processados_sample (shape: (100, 41))
2026-02-09 22:39:49,996 - INFO - ‚úì Artefatos registrados
2026-02-09 22:39:49,997 - INFO - 
[4] Criando dataset ClearML...
2026-02-09 22:39:49,996 - INFO - ‚úì Artefatos registrados
2026-02-09 22:39:49,997 - INFO - 
[4] Criando dataset ClearML...


ClearML results page: https://app.clear.ml/projects/801c2956f7704234b987beef3f9cc1e6/experiments/eed3f4f2f711470882340222902528e9/output/log
ClearML dataset page: https://app.clear.ml/datasets/simple/801c2956f7704234b987beef3f9cc1e6/experiments/eed3f4f2f711470882340222902528e9


2026-02-09 22:40:14,877 - INFO - Dataset criado: dados_processados (ID: eed3f4f2f711470882340222902528e9, Projeto: Datasets)


Uploading dataset changes (1 files compressed to 49.62 KiB) to https://files.clear.ml
File compression and upload completed: total size 49.62 KiB, 1 chunk(s) stored (average size 49.62 KiB)
File compression and upload completed: total size 49.62 KiB, 1 chunk(s) stored (average size 49.62 KiB)


2026-02-09 22:40:42,137 - INFO - ‚úì Dataset criado (ID: eed3f4f2f711470882340222902528e9)
2026-02-09 22:40:42,139 - INFO - 
[5] Fechando task...
2026-02-09 22:40:42,139 - INFO - 
[5] Fechando task...
2026-02-09 22:40:45,295 - INFO - ‚úì Task finalizada e pronta para pr√≥ximo pipeline
2026-02-09 22:40:45,295 - INFO - 
2026-02-09 22:40:45,296 - INFO - PIPELINE CONCLU√çDO COM SUCESSO
2026-02-09 22:40:45,295 - INFO - ‚úì Task finalizada e pronta para pr√≥ximo pipeline
2026-02-09 22:40:45,295 - INFO - 
2026-02-09 22:40:45,296 - INFO - PIPELINE CONCLU√çDO COM SUCESSO



‚úÖ PIPELINE CONCLU√çDO COM SUCESSO!

üìä Resultados:
  Shape final: (1720, 41)
  Dataset ID: eed3f4f2f711470882340222902528e9
  NAs removidos: 435

üåê Acesse: https://app.clear.ml
  ‚Ä¢ Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS
  ‚Ä¢ Task: Pipeline_Processamento
  ‚Ä¢ Dataset: dados_processados (ID: eed3f4f2...)
  ‚Ä¢ M√©tricas: linhas entrada=1720, NAs removidos=435

üíæ DataFrame processado dispon√≠vel em:
  resultado['df_processado']


In [3]:
# ============================================================================
# PIPELINE 2: ENGENHARIA DE FEATURES COM CLEARML
# ============================================================================
# Recebe o resultado do Pipeline 1 e aplica transforma√ß√µes de features
# ============================================================================

import traceback
from src.clearml.pipelines_clearml import executar_pipeline_features_clearml

print("="*80)
print("PIPELINE DE FEATURES - CLEARML ONLINE")
print("="*80)

# Verificar se temos o resultado do pipeline anterior
if 'resultado' not in locals():
    print("\n‚ö†Ô∏è  ATEN√á√ÉO: Execute primeiro o Pipeline 1 (Processamento)")
    print("Usando fallback: carregando dados do notebook...")
    
    # Fallback: usar df_raw do notebook
    from src.pipelines.pipeline_processamento import executar_pipeline_processamento
    df_para_features = executar_pipeline_processamento(df_raw)
    dataset_anterior_id = None
else:
    print(f"‚úì Pipeline 1 conclu√≠do")
    print(f"  Dataset ID anterior: {resultado.get('dataset_id', 'N/A')}")
    df_para_features = resultado['dados_processados']
    dataset_anterior_id = resultado.get('dataset_id')

print(f"\nDados para features: {df_para_features.shape}")
print("="*80 + "\n")

try:
    resultado_features = executar_pipeline_features_clearml(
        df_processado=df_para_features,
        dataset_processado_id=dataset_anterior_id,
        offline_mode=False,
        # Configura√ß√µes de features
        aplicar_codificacao=True,
        metodo_codificacao='label',
        criar_features_derivadas=True,
        tipos_features_derivadas=['imc', 'imc_classe', 'heat_index', 'dew_point', 't*u'],
        aplicar_normalizacao=True,
        metodo_normalizacao='standard'
    )
    
    print("\n" + "="*80)
    print("‚úÖ PIPELINE DE FEATURES CONCLU√çDO!")
    print("="*80)
    print(f"\nüìä Resultados:")
    print(f"  Shape final: {resultado_features['shape']}")
    
    # Formata√ß√£o segura do Dataset ID
    dataset_id = resultado_features.get('dataset_id', 'N/A')
    if dataset_id and dataset_id != 'N/A':
        dataset_id_display = f"{dataset_id[:8]}..."
    else:
        dataset_id_display = "N/A (modo offline ou erro na cria√ß√£o)"
    print(f"  Dataset ID: {dataset_id_display}")
    
    print(f"  Artefatos criados: {len(resultado_features.get('artefatos', {}))}")
    
    # Mostrar artefatos criados
    if resultado_features.get('artefatos'):
        print(f"\nüì¶ Artefatos:")
        for nome, artefato in resultado_features['artefatos'].items():
            if isinstance(artefato, dict) and 'shape' in artefato:
                print(f"  ‚Ä¢ {nome}: {artefato['shape']}")
            else:
                print(f"  ‚Ä¢ {nome}")
    
    print(f"\nüåê Acesse: https://app.clear.ml")
    print(f"  ‚Ä¢ Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS")
    print(f"  ‚Ä¢ Task: Pipeline_Features")
    print(f"  ‚Ä¢ Dataset: dados_features (ID: {dataset_id_display})")
    print(f"  ‚Ä¢ Genealogia: dados_brutos ‚Üí processados ‚Üí features")
    
    print("\nüíæ DataFrame com features dispon√≠vel em:")
    print("  resultado_features['dados_features']")
    
    # Estat√≠sticas das features criadas
    if 'artefatos' in resultado_features:
        print(f"\nüìà Transforma√ß√µes aplicadas:")
        if 'mapeamentos_codificacao' in resultado_features['artefatos']:
            print(f"  ‚úì Codifica√ß√£o: {len(resultado_features['artefatos']['mapeamentos_codificacao'])} vari√°veis")
        if 'colunas_normalizadas' in resultado_features['artefatos']:
            print(f"  ‚úì Normaliza√ß√£o: {len(resultado_features['artefatos']['colunas_normalizadas'])} colunas")
    
    print("="*80)
    
except Exception as e:
    print("\n" + "="*80)
    print("‚ùå ERRO DETECTADO")
    print("="*80)
    print(f"\nTipo do erro: {type(e).__name__}")
    print(f"Mensagem: {str(e)}")
    print("\n" + "-"*80)
    print("TRACEBACK COMPLETO:")
    print("-"*80)
    traceback.print_exc()
    print("\n" + "="*80)
    print("üí° Dicas:")
    print("  ‚Ä¢ Execute primeiro o Pipeline 1 (Processamento)")
    print("  ‚Ä¢ Verifique se o DataFrame est√° no formato correto")
    print("  ‚Ä¢ Use offline_mode=True para executar sem ClearML")
    print("="*80)

2026-02-09 22:40:45,321 - INFO - Modo ONLINE: Iniciando integra√ß√£o ClearML
2026-02-09 22:40:45,323 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:40:45,323 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:40:45,324 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:40:45,325 - INFO - ‚úì ClearML configurado para uso ONLINE
2026-02-09 22:40:45,323 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:40:45,323 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:40:45,324 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:40:45,325 - INFO - ‚úì ClearML configurado para uso ONLINE


PIPELINE DE FEATURES - CLEARML ONLINE
‚úì Pipeline 1 conclu√≠do
  Dataset ID anterior: eed3f4f2f711470882340222902528e9

Dados para features: (1720, 41)

ClearML Task: created new task id=3591669706a0414a90dd7cd5538de23a
ClearML Task: created new task id=3591669706a0414a90dd7cd5538de23a
ClearML results page: https://app.clear.ml/projects/06661800c2e642339d895b6d02c06481/experiments/3591669706a0414a90dd7cd5538de23a/output/log
ClearML results page: https://app.clear.ml/projects/06661800c2e642339d895b6d02c06481/experiments/3591669706a0414a90dd7cd5538de23a/output/log


2026-02-09 22:40:54,872 - INFO - Task criada: Pipeline_Features (ID: 3591669706a0414a90dd7cd5538de23a, Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS)
2026-02-09 22:40:58,522 - INFO - ‚úì Task ClearML criada (ID: 3591669706a0414a90dd7cd5538de23a)
2026-02-09 22:40:58,524 - INFO - PIPELINE DE ENGENHARIA DE FEATURES
2026-02-09 22:40:58,527 - INFO - 
[1] Executando pipeline de features local...
2026-02-09 22:40:58,527 - INFO -     Shape entrada: (1720, 41)
2026-02-09 22:40:58,522 - INFO - ‚úì Task ClearML criada (ID: 3591669706a0414a90dd7cd5538de23a)
2026-02-09 22:40:58,524 - INFO - PIPELINE DE ENGENHARIA DE FEATURES
2026-02-09 22:40:58,527 - INFO - 
[1] Executando pipeline de features local...
2026-02-09 22:40:58,527 - INFO -     Shape entrada: (1720, 41)
2026-02-09 22:40:58,634 - INFO - ‚úì Features criadas com sucesso
2026-02-09 22:40:58,635 - INFO -   Shape final: (1720, 78)
2026-02-09 22:40:58,636 - INFO -   Novas colunas: 37
2026-02-09 22:40:58,636 - INFO - 
[2] Re

üé® Iniciando pipeline de FEATURES...
  1Ô∏è‚É£ Criando features derivadas (5 tipos)...
  2Ô∏è‚É£ Aplicando codifica√ß√£o (label)...
  3Ô∏è‚É£ Aplicando normaliza√ß√£o (standard)...
‚úÖ Pipeline FEATURES conclu√≠do! Shape final: (1720, 78)
   Novas colunas criadas: 37


2026-02-09 22:41:01,883 - INFO - DataFrame registrado: dados_features (shape: (1720, 78))
2026-02-09 22:41:03,446 - INFO - Arquivo registrado: artefatos_features
2026-02-09 22:41:03,448 - INFO -   Artefatos registrados: ['mapeamentos_codificacao', 'colunas_normalizadas', 'artefatos_codificacao', 'artefatos_normalizacao']
2026-02-09 22:41:03,449 - INFO - M√©tricas registradas: ['linhas_features', 'colunas_features', 'novas_colunas', 'colunas_entrada']
2026-02-09 22:41:03,450 - INFO - ‚úì Artefatos registrados
2026-02-09 22:41:03,451 - INFO - 
[3] Criando dataset ClearML...
2026-02-09 22:41:03,446 - INFO - Arquivo registrado: artefatos_features
2026-02-09 22:41:03,448 - INFO -   Artefatos registrados: ['mapeamentos_codificacao', 'colunas_normalizadas', 'artefatos_codificacao', 'artefatos_normalizacao']
2026-02-09 22:41:03,449 - INFO - M√©tricas registradas: ['linhas_features', 'colunas_features', 'novas_colunas', 'colunas_entrada']
2026-02-09 22:41:03,450 - INFO - ‚úì Artefatos registrad

'sdiskpart' object has no attribute 'maxfile'


Skipping upload, could not find object file 'c:/Users/Readone/Desktop/tcc_mba_esalq_mlops/notebooks/temp_artefatos_features.json'


ClearML results page: https://app.clear.ml/projects/d002871436ec4f3a8e158a0997a0e923/experiments/80272a4490934b8ba191125924fc6c34/output/log
ClearML dataset page: https://app.clear.ml/datasets/simple/d002871436ec4f3a8e158a0997a0e923/experiments/80272a4490934b8ba191125924fc6c34


2026-02-09 22:41:53,903 - INFO - Dataset criado: dados_features (ID: 80272a4490934b8ba191125924fc6c34, Projeto: Datasets)


Uploading dataset changes (1 files compressed to 137.64 KiB) to https://files.clear.ml
File compression and upload completed: total size 137.64 KiB, 1 chunk(s) stored (average size 137.64 KiB)
File compression and upload completed: total size 137.64 KiB, 1 chunk(s) stored (average size 137.64 KiB)


2026-02-09 22:43:28,236 - INFO - ‚úì Dataset criado (ID: 80272a4490934b8ba191125924fc6c34)
2026-02-09 22:43:28,237 - INFO - 
2026-02-09 22:43:28,238 - INFO - PIPELINE DE FEATURES CONCLU√çDO COM SUCESSO
2026-02-09 22:43:28,237 - INFO - 
2026-02-09 22:43:28,238 - INFO - PIPELINE DE FEATURES CONCLU√çDO COM SUCESSO



‚úÖ PIPELINE DE FEATURES CONCLU√çDO!

üìä Resultados:
  Shape final: (1720, 78)
  Dataset ID: 80272a44...
  Artefatos criados: 4

üì¶ Artefatos:
  ‚Ä¢ mapeamentos_codificacao
  ‚Ä¢ colunas_normalizadas
  ‚Ä¢ artefatos_codificacao
  ‚Ä¢ artefatos_normalizacao

üåê Acesse: https://app.clear.ml
  ‚Ä¢ Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS
  ‚Ä¢ Task: Pipeline_Features
  ‚Ä¢ Dataset: dados_features (ID: 80272a44...)
  ‚Ä¢ Genealogia: dados_brutos ‚Üí processados ‚Üí features

üíæ DataFrame com features dispon√≠vel em:
  resultado_features['dados_features']

üìà Transforma√ß√µes aplicadas:
  ‚úì Codifica√ß√£o: 2 vari√°veis
  ‚úì Normaliza√ß√£o: 30 colunas


In [None]:
# ============================================================================
# PIPELINE 3: TREINAMENTO DE MODELOS COM CLEARML
# ============================================================================
# Recebe o resultado do Pipeline 2 e treina modelos com PyCaret
# ============================================================================

import traceback
from src.clearml.pipelines_clearml import executar_pipeline_treinamento_clearml

print("="*80)
print("PIPELINE DE TREINAMENTO - CLEARML ONLINE")
print("="*80)

# Verificar se temos o resultado do pipeline anterior
if 'resultado_features' not in locals():
    print("\n‚ö†Ô∏è  ATEN√á√ÉO: Execute primeiro os Pipelines 1 e 2")
    print("Usando fallback: tentando usar dados do notebook...")
    
    # Fallback: verificar se temos df_feat do notebook
    if 'df_feat' in locals():
        print("‚úì Usando df_feat do notebook")
        df_para_treino = df_feat
        dataset_anterior_id = None
    else:
        print("‚ùå Nenhum dado dispon√≠vel. Execute os pipelines anteriores primeiro!")
        df_para_treino = None
        dataset_anterior_id = None
else:
    print(f"‚úì Pipeline 2 conclu√≠do")
    print(f"  Dataset ID anterior: {resultado_features.get('dataset_id', 'N/A')}")
    df_para_treino = resultado_features['dados_features']
    dataset_anterior_id = resultado_features.get('dataset_id')

if df_para_treino is not None:
    # Preparar dados (remover NAs)
    df_treino_final = df_para_treino.dropna()
    
    print(f"\nDados para treinamento: {df_treino_final.shape}")
    print(f"Coluna alvo: p1")
    print("="*80 + "\n")

    try:
        resultado_treinamento = executar_pipeline_treinamento_clearml(
            df_features=df_treino_final,
            coluna_alvo='p1',
            tipo_problema='regressao',
            dataset_features_id=dataset_anterior_id,
            offline_mode=False,
            # Configura√ß√µes de treinamento
            n_modelos_comparar=3,
            otimizar_hiperparametros=True,
            n_iter_otimizacao=10,
            salvar_modelo_final=True,
            nome_modelo="modelo_conforto_termico",
            pasta_modelos="../modelos"
        )
        
        print("\n" + "="*80)
        print("‚úÖ PIPELINE DE TREINAMENTO CONCLU√çDO!")
        print("="*80)
        
        # Melhor modelo
        melhor_modelo_nome = str(resultado_treinamento['tabela_comparacao'].index[0])
        print(f"\nüèÜ Melhor Modelo: {melhor_modelo_nome}")
        
        # M√©tricas
        print(f"\nüìä M√©tricas do Melhor Modelo:")
        metricas = resultado_treinamento['metricas_melhor']
        metricas_principais = ['MAE', 'MSE', 'RMSE', 'R2', 'MAPE']
        for nome in metricas_principais:
            if nome in metricas:
                valor = metricas[nome]
                if isinstance(valor, (int, float)):
                    print(f"  ‚Ä¢ {nome}: {valor:.4f}")
        
        # Model ID
        model_id = resultado_treinamento.get('model_id', 'N/A')
        if model_id and model_id != 'N/A':
            model_id_display = model_id
        else:
            model_id_display = "N/A (modo offline ou erro)"
        
        print(f"\nüíæ Modelo:")
        print(f"  ‚Ä¢ Salvo em: {resultado_treinamento.get('caminho_modelo', 'N/A')}")
        print(f"  ‚Ä¢ ClearML ID: {model_id_display}")
        
        # Compara√ß√£o de modelos
        print(f"\nüìã Compara√ß√£o de Modelos (Top {len(resultado_treinamento['tabela_comparacao'])}):")
        print(resultado_treinamento['tabela_comparacao'][['MAE', 'MSE', 'RMSE', 'R2']].head())
        
        print(f"\nüåê Acesse: https://app.clear.ml")
        print(f"  ‚Ä¢ Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS")
        print(f"  ‚Ä¢ Task: Pipeline_Treinamento")
        print(f"  ‚Ä¢ Modelo: modelo_{melhor_modelo_nome}_modelo_conforto_termico")
        print(f"  ‚Ä¢ Genealogia: dados_brutos ‚Üí processados ‚Üí features ‚Üí **MODELO**")
        
        print("\nüéØ Modelo treinado dispon√≠vel em:")
        print("  resultado_treinamento['melhor_modelo']")
        print("="*80)
        
    except Exception as e:
        print("\n" + "="*80)
        print("‚ùå ERRO DETECTADO")
        print("="*80)
        print(f"\nTipo do erro: {type(e).__name__}")
        print(f"Mensagem: {str(e)}")
        print("\n" + "-"*80)
        print("TRACEBACK COMPLETO:")
        print("-"*80)
        traceback.print_exc()
        print("\n" + "="*80)
        print("üí° Dicas:")
        print("  ‚Ä¢ Execute os Pipelines 1 e 2 primeiro")
        print("  ‚Ä¢ Verifique se o DataFrame tem a coluna alvo")
        print("  ‚Ä¢ Use offline_mode=True para executar sem ClearML")
        print("="*80)
else:
    print("\n" + "="*80)
    print("‚ùå ERRO: Nenhum dado dispon√≠vel")
    print("="*80)
    print("\nüí° Execute os pipelines na ordem:")
    print("  1. Pipeline 1: Processamento")
    print("  2. Pipeline 2: Features")
    print("  3. Pipeline 3: Treinamento (esta c√©lula)")
    print("="*80)

PIPELINE DE TREINAMENTO - CLEARML ONLINE
‚úì Pipeline 2 conclu√≠do
  Dataset ID anterior: 80272a4490934b8ba191125924fc6c34
PIPELINE DE TREINAMENTO - CLEARML ONLINE
‚úì Pipeline 2 conclu√≠do
  Dataset ID anterior: 80272a4490934b8ba191125924fc6c34


2026-02-09 22:53:49,513 - INFO - Modo ONLINE: Iniciando integra√ß√£o ClearML



Dados para treinamento: (1720, 78)
Coluna alvo: p1



2026-02-09 22:53:49,738 - INFO - ‚úì Credenciais ClearML carregadas do .env
2026-02-09 22:53:49,739 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:53:49,739 - INFO -   API Host: https://api.clear.ml
2026-02-09 22:53:49,740 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:53:49,740 - INFO -   Web Host: https://app.clear.ml
2026-02-09 22:53:49,818 - INFO - ‚úì ClearML configurado para uso ONLINE
2026-02-09 22:53:49,818 - INFO - ‚úì ClearML configurado para uso ONLINE
2026-02-09 22:53:49,879 - INFO - Fechando task anterior: Pipeline_Treinamento
2026-02-09 22:53:49,879 - INFO - Fechando task anterior: Pipeline_Treinamento


ClearML Task: created new task id=563165a5492d44119a249e32223ada39
ClearML results page: https://app.clear.ml/projects/06661800c2e642339d895b6d02c06481/experiments/563165a5492d44119a249e32223ada39/output/log
ClearML results page: https://app.clear.ml/projects/06661800c2e642339d895b6d02c06481/experiments/563165a5492d44119a249e32223ada39/output/log


2026-02-09 22:54:09,465 - INFO - Task criada: Pipeline_Treinamento (ID: 563165a5492d44119a249e32223ada39, Projeto: Estudo de Sensa√ß√£o T√©rmica Humana em Santa Maria - RS)
