## IMPORTANTE: Reiniciar Kernel

Se voc√™ estiver encontrando erro `OSError: could not get source code`, **reinicie o kernel do notebook** (Ctrl+Shift+P ‚Üí "Restart Kernel") antes de executar as c√©lulas abaixo.

## üì¶ Setup

In [1]:
# 1. Carregar dados + 
import sys
sys.path.append('..')  # Adiciona o diret√≥rio pai
from src.utils.io.io_local import *
from src.utils.io.io_clearml import *

from src.utils.io import load_dataframe
from config import config_custom as config
from src.pipelines.pipeline_processamento import executar_pipeline_processamento
from src.pipelines.pipeline_features import executar_pipeline_features
from src.pipelines import treinar_pipeline_completo, treinar_rapido

df_raw = load_dataframe('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv')
print(f'Dados brutos: {df_raw.shape}')

Dados brutos: (1720, 40)


# Pipelines

## Pipeline processamento

In [None]:
# 1. Carregar dados + # 2. PROCESSAMENTO (Limpeza + Imputa√ß√£o)
df_raw = load_dataframe('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv')
print(f'Dados brutos: {df_raw.shape}')

# 2. PROCESSAMENTO (Limpeza + Imputa√ß√£o)
df_proc = executar_pipeline_processamento(
    df_raw,
    config_imputacao_customizada=config.CONFIG_IMPUTACAO_CUSTOMIZADA,
    criar_agrupamento_temporal=True,
    nome_coluna_agrupamento='mes-ano'
)
print(f'Ap√≥s processamento: {df_proc.shape}')
print(f'NAs restantes: {df_proc.isna().sum().sum()}')

## Pipeline features

In [None]:
# 3. FEATURES (Codifica√ß√£o + Derivadas + Normaliza√ß√£o)
df_feat, artefatos = executar_pipeline_features(
    df_proc,
    # Codifica√ß√£o
    aplicar_codificacao=True,
    metodo_codificacao='label',           # 'label' ou 'onehot'
    sufixo_codificacao='_cod',
    
    # Features derivadas
    criar_features_derivadas=True,
    tipos_features_derivadas=[
        'imc',                            # √çndice de Massa Corporal
        'imc_classe',                     # Classe do IMC
        'heat_index',                     # √çndice de calor
        'dew_point',                      # Ponto de orvalho
        't*u',                            # Temperatura √ó Umidade
    ],
    
    # Normaliza√ß√£o
    aplicar_normalizacao=True,
    metodo_normalizacao='standard',       # 'standard', 'minmax', 'robust'
    agrupamento_normalizacao='mes-ano',   # Normalizar por grupo
    sufixo_normalizacao='_norm',
)

print(f'Ap√≥s features: {df_feat.shape}')
print(f'Artefatos criados: {list(artefatos.keys())}')
df_feat.to_csv("../dados/resultados/dados_processados_novas_features.csv")
# Visualizar resultado
df_feat.head()


# Pipeline de treinamento

In [None]:
from config.config_gerais import PARAMS_PADRAO

# Definir coluna alvo e features
coluna_alvo = 'p1'

# Usar apenas features principais para teste
features_treino = [
    'idade', 'sexo_cod', 'peso', 'altura',
    'tmedia', 'ur', 'vel_vento',
]

tipos_modelos ='regressao'

# Filtrar features que existem no DataFrame
features_existentes = [f for f in features_treino if f in df_feat.columns]
print(f"Features para treinamento: {features_existentes}")

# Preparar dados
df_treino = df_feat[features_existentes + [coluna_alvo]].dropna()
print(f"Dataset de treino: {df_treino.shape}")

# 4. TREINAMENTO
print("\n" + "="*60)
print("ü§ñ INICIANDO PIPELINE DE TREINAMENTO")
print("="*60)

resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema=tipos_modelos,  # 'classificacao' ou 'regressao'
    params_setup=PARAMS_PADRAO,
    n_modelos_comparar=3,           # Testar top 3 modelos
    otimizar_hiperparametros=True,         # Otimizar hiperpar√¢metros
    n_iter_otimizacao=10,  # 10 itera√ß√µes de otimiza√ß√£o
    salvar_modelo_final=True,           # Salvar modelo
    nome_modelo="modelo_conforto_termico",
    pasta_modelos="modelos"
)

# Visualizar resultados
print("\n" + "="*60)
print("üìä RESULTADOS DO TREINAMENTO")
print("="*60)

# Nome do melhor modelo
nome_modelo = str(resultado['tabela_comparacao'].index[0])
print(f"\n‚úì Melhor modelo: {nome_modelo}")

print(f"\nüìà M√©tricas principais:")
metricas = resultado['metricas_melhor']
for nome, valor in metricas.items():
    if isinstance(valor, (int, float)):
        print(f"  ‚Ä¢ {nome}: {valor:.4f}")

print(f"\nüíæ Modelo salvo em: {resultado.get('caminho_modelo', 'N/A')}")

print("\nüìã Compara√ß√£o de modelos (top 5 m√©tricas):")
print(resultado['tabela_comparacao'].head())

In [None]:
resultados_10_experimentos = {}
for i in range(10):
    print("\n" + "="*60)
    print(f"ü§ñ INICIANDO EXPERIMENTO {i+1}/10")
    print("="*60)
    
    resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema='regressao',  # 'classificacao' ou 'regressao'
    params_setup=PARAMS_PADRAO,
    n_modelos_comparar=3,           # Testar top 3 modelos
    otimizar_hiperparametros=True,         # Otimizar hiperpar√¢metros
    n_iter_otimizacao=10,  # 10 itera√ß√µes de otimiza√ß√£o
    salvar_modelo_final=True,           # Salvar modelo
    nome_modelo="modelo_conforto_termico",
    pasta_modelos="modelos"
)
    
    resultados_10_experimentos[f'Experimento_{i+1}'] = resultado


In [None]:
tabelas_comparacao = [dicionario["tabela_comparacao"] for dicionario in resultados_10_experimentos.values()] 
tabelas_comparacao =  [tabela.rename(columns={'Model':'Modelos','Accuracy': 'Acur√°cia', 'AUC': 'AUC', 'Recall': 'Recall', 'Prec.': 'Prec.', 'F1': 'F1'}) for tabela in tabelas_comparacao]
serie_nomes_modelos = tabelas_comparacao[0]['Modelos']
tabelas_comparacao = [tabela.select_dtypes(include='number') for tabela in tabelas_comparacao] 

In [None]:

df_desvio_metricas= pd.concat(tabelas_comparacao).groupby(level=0).std()
df_media_metricas = pd.concat(tabelas_comparacao).groupby(level=0).mean()
df_media_desvio_metricas_str = df_media_metricas.round(2).astype(str) + " ¬± " + df_desvio_metricas.round(2).astype(str)
df_media_desvio_metricas_str = df_media_desvio_metricas_str.merge(serie_nomes_modelos, left_index=True, right_index=True)
df_media_metricas = df_media_metricas.merge(serie_nomes_modelos, left_index=True, right_index=True)
df_desvio_metricas = df_desvio_metricas.merge(serie_nomes_modelos, left_index=True, right_index=True)
df_desvio_metricas.to_csv('../dados/resultados/desvio_metricas.csv')
df_media_metricas.to_csv('../dados/resultados/media_metricas.csv')
df_media_desvio_metricas_str.to_csv('../dados/resultados/media_e_desvio_metricas_str.csv')

In [None]:
df_media_desvio_metricas_str


# ClearML

## Pipeline Completo - Vers√£o Local

**Por que n√£o usar os decorators ClearML aqui?**

Os decorators `@pipeline` e `@component` do ClearML **sempre** tentam criar a infraestrutura de pipeline (tasks, serializa√ß√£o, etc.), mesmo quando configurado para `run_locally=True`. Isso causa erros ao tentar serializar DataFrames grandes e criar tasks automaticamente.

**Solu√ß√£o**: Para execu√ß√£o realmente local (sem servidor ClearML), usamos diretamente as fun√ß√µes originais dos pipelines **SEM** os decorators:
- `executar_pipeline_processamento()` - da pasta src/pipelines
- `treinar_pipeline_completo()` - da pasta src/treinamento

Isso funciona perfeitamente porque s√£o as mesmas fun√ß√µes que voc√™ j√° usa normalmente, apenas sem a camada ClearML em cima.

**Quando usar os pipelines com decorators ClearML?**
- Quando voc√™ tem um servidor ClearML configurado
- Quando quer enviar jobs para execu√ß√£o remota
- Quando precisa de rastreamento completo no servidor ClearML

In [None]:
# =========================================================================
# PIPELINE CLEARML COMPLETO - VERS√ÉO LOCAL SIMPLIFICADA
# =========================================================================
# NOTA: Os decorators @pipeline do ClearML sempre tentam criar infraestrutura,
#       mesmo com run_locally=True. Para execu√ß√£o realmente local, usamos as
#       fun√ß√µes wrapped (sem decorators) ou reimplementamos o fluxo.
# =========================================================================
import sys
sys.path.append('..')

# Imports das pipelines originais (SEM decorators ClearML)
from src.pipelines.pipeline_processamento import executar_pipeline_processamento
from src.pipelines.pipeline_treinamento_unified import treinar_pipeline_completo

print("="*70)
print("PIPELINE COMPLETO - VERSAO LOCAL (SEM CLEARML)")
print("="*70)

# 1. Verificar dados
print(f"\n1. Dados brutos: {df_raw.shape}")

# 2. PROCESSAMENTO
print(f"\n2. Executando processamento...")
df_processado = executar_pipeline_processamento(df_raw)
print(f"   Dados processados: {df_processado.shape}")

# 3. Preparar dados para treino (remover NAs)
print(f"\n3. Preparando dados para treino...")
print(f"   Dados limpos: {df_treino.shape}")

# 4. TREINAMENTO
print(f"\n4. Executando treinamento...")
print(f"   Coluna alvo: {coluna_alvo}")
print(f"   Tipo: regressao")

resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema='regressao',
    n_modelos_comparar=2,  # Apenas 2 modelos para teste rapido
    otimizar_hiperparametros=False,  # Sem otimizacao para ser rapido
    salvar_modelo_final=False,
    nome_modelo="teste_clearml"
)

# 5. RESULTADOS
print("\n" + "="*70)
print("RESULTADOS")
print("="*70)

melhor_modelo = type(resultado['melhor_modelo']).__name__
print(f"\nMelhor modelo: {melhor_modelo}")

print(f"\nMetricas:")
metricas = resultado['metricas_melhor']
for nome, valor in list(metricas.items())[:5]:  # Primeiras 5 metricas
    if isinstance(valor, (int, float)):
        print(f"  {nome}: {valor:.4f}")

print(f"\nComparacao de modelos:")
print(resultado['tabela_comparacao'][['MAE', 'MSE', 'RMSE', 'R2']].head())

print("\n" + "="*70)
print("PIPELINE CONCLUIDO COM SUCESSO!")
print("="*70)

## Pipeline Completo COM ClearML

Agora vamos usar o ClearML **completo** para:
1. Criar **tasks separadas** para cada etapa
2. **Upload de datasets** (bruto e processado) como vers√µes
3. **Registro de m√©tricas** em cada pipeline
4. **Upload do modelo final**
5. **Artefatos**: tabelas de compara√ß√£o, plots, etc.

**Pr√©-requisitos**: 
- ClearML configurado (`clearml-init`)
- Servidor ClearML acess√≠vel (pode ser demo.clear.ml)

In [None]:
# =========================================================================
# PIPELINE COMPLETO COM CLEARML - REGISTRO TOTAL
# =========================================================================
import sys
sys.path.append('..')

from clearml import Task, Dataset, OutputModel
import pandas as pd
from pathlib import Path

# Imports dos pipelines
from src.pipelines.pipeline_processamento import executar_pipeline_processamento
from src.pipelines.pipeline_treinamento_unified import treinar_pipeline_completo

# Configura√ß√£o
PROJECT_NAME = "conforto_termico"
coluna_alvo = 'p1'

print("="*80)
print("PIPELINE COMPLETO COM CLEARML - FULL TRACKING")
print("="*80)

# ============================================================================
# ETAPA 1: UPLOAD DE DADOS BRUTOS
# ============================================================================
print("\n[ETAPA 1] Upload de Dados Brutos para ClearML")
print("-"*80)

# Criar dataset de dados brutos
dataset_bruto = Dataset.create(
    dataset_name="dados_brutos_conforto_termico",
    dataset_project=PROJECT_NAME,
    description="Dados brutos de conforto termico de Santa Maria"
)

# Salvar temporariamente para upload
temp_path = Path("../dados/temp_clearml")
temp_path.mkdir(exist_ok=True)
arquivo_bruto = temp_path / "dados_brutos.csv"
df_raw.to_csv(arquivo_bruto, index=False)

# Adicionar arquivo ao dataset
dataset_bruto.add_files(str(arquivo_bruto))
dataset_bruto.upload()
dataset_bruto.finalize()

print(f"Dataset bruto criado: ID = {dataset_bruto.id}")
print(f"  - Shape: {df_raw.shape}")
print(f"  - Colunas: {len(df_raw.columns)}")

# ============================================================================
# ETAPA 2: PIPELINE DE PROCESSAMENTO
# ============================================================================
print("\n[ETAPA 2] Pipeline de Processamento")
print("-"*80)

# Criar task de processamento (COM FIX PARA NOTEBOOKS)
task_processamento = Task.init(
    project_name=PROJECT_NAME,
    task_name="Pipeline_Processamento",
    task_type=Task.TaskTypes.data_processing,
    reuse_last_task_id=False,  # N√£o reusar task anterior
    continue_last_task=False,   # Criar nova task sempre
    auto_connect_frameworks=False,  # Desabilita captura autom√°tica
    auto_resource_monitoring=False  # Desabilita monitoramento de recursos
)

# Conectar dataset de entrada
task_processamento.connect_configuration({
    "dataset_id": dataset_bruto.id,
    "dataset_name": "dados_brutos_conforto_termico"
})

# Executar processamento
print("Executando processamento...")
df_processado = executar_pipeline_processamento(df_raw)

# Registrar m√©tricas de processamento
task_processamento.get_logger().report_single_value("linhas_entrada", df_raw.shape[0])
task_processamento.get_logger().report_single_value("linhas_saida", df_processado.shape[0])
task_processamento.get_logger().report_single_value("colunas_entrada", df_raw.shape[1])
task_processamento.get_logger().report_single_value("colunas_saida", df_processado.shape[1])
task_processamento.get_logger().report_single_value("nas_removidos", df_raw.isna().sum().sum() - df_processado.isna().sum().sum())

print(f"Dados processados: {df_processado.shape}")
print(f"NAs restantes: {df_processado.isna().sum().sum()}")

# Upload de dados processados como dataset
dataset_processado = Dataset.create(
    dataset_name="dados_processados_conforto_termico",
    dataset_project=PROJECT_NAME,
    parent_datasets=[dataset_bruto.id],
    description="Dados processados (sem NAs, limpeza aplicada)"
)

arquivo_processado = temp_path / "dados_processados.csv"
df_processado.to_csv(arquivo_processado, index=False)
dataset_processado.add_files(str(arquivo_processado))
dataset_processado.upload()
dataset_processado.finalize()

print(f"Dataset processado criado: ID = {dataset_processado.id}")

# Registrar como artefato na task
task_processamento.upload_artifact(
    "dados_processados_sample",
    artifact_object=df_processado.head(100)  # Apenas amostra
)

task_processamento.close()
print("Task de processamento finalizada!")

# ============================================================================
# ETAPA 3: PIPELINE DE TREINAMENTO
# ============================================================================
print("\n[ETAPA 3] Pipeline de Treinamento")
print("-"*80)

# Criar task de treinamento (COM FIX PARA NOTEBOOKS)
task_treinamento = Task.init(
    project_name=PROJECT_NAME,
    task_name="Pipeline_Treinamento",
    task_type=Task.TaskTypes.training,
    reuse_last_task_id=False,
    continue_last_task=False,
    auto_connect_frameworks=False,
    auto_resource_monitoring=False
)

# Conectar dataset processado
task_treinamento.connect_configuration({
    "dataset_id": dataset_processado.id,
    "coluna_alvo": coluna_alvo,
    "tipo_problema": "regressao"
})

# Preparar dados
df_treino = df_processado.dropna()
print(f"Dados para treino: {df_treino.shape}")

# Executar treinamento
print("Executando treinamento...")
resultado = treinar_pipeline_completo(
    dados=df_treino,
    coluna_alvo=coluna_alvo,
    tipo_problema='regressao',
    n_modelos_comparar=3,
    otimizar_hiperparametros=True,
    n_iter_otimizacao=10,
    salvar_modelo_final=True,
    nome_modelo="modelo_conforto_termico_clearml",
    pasta_modelos="../modelos"
)

# ============================================================================
# ETAPA 4: REGISTRO DE M√âTRICAS
# ============================================================================
print("\n[ETAPA 4] Registro de M√©tricas")
print("-"*80)

logger = task_treinamento.get_logger()

# M√©tricas do melhor modelo
metricas = resultado['metricas_melhor']
print("\nMetricas registradas:")
for nome, valor in metricas.items():
    if isinstance(valor, (int, float)):
        logger.report_single_value(nome, valor)
        print(f"  {nome}: {valor:.4f}")

# ============================================================================
# ETAPA 5: UPLOAD DE TABELAS E ARTEFATOS
# ============================================================================
print("\n[ETAPA 5] Upload de Tabelas e Artefatos")
print("-"*80)

# Tabela de compara√ß√£o de modelos
tabela_comparacao = resultado['tabela_comparacao']
task_treinamento.upload_artifact(
    "comparacao_modelos",
    artifact_object=tabela_comparacao
)
print("Tabela de comparacao enviada como artefato")

# Criar gr√°fico de compara√ß√£o de modelos
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(10, 6))
tabela_comparacao[['MAE', 'MSE', 'RMSE', 'R2']].plot(kind='bar', ax=ax)
ax.set_title('Comparacao de Modelos - Metricas')
ax.set_xlabel('Modelos')
ax.set_ylabel('Valor')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()

# Enviar gr√°fico
logger.report_matplotlib_figure(
    title="Comparacao de Modelos",
    series="Metricas",
    figure=fig,
    iteration=0
)
plt.close()
print("Grafico de comparacao enviado")

# ============================================================================
# ETAPA 6: REGISTRO DO MODELO
# ============================================================================
print("\n[ETAPA 6] Registro do Modelo")
print("-"*80)

# Criar OutputModel
melhor_modelo_nome = str(resultado['tabela_comparacao'].index[0])
output_model = OutputModel(
    task=task_treinamento,
    name=f"modelo_{melhor_modelo_nome}_conforto_termico",
    framework="PyCaret"
)

# Registrar informa√ß√µes do modelo
output_model.update_labels({
    "tipo": "regressao",
    "coluna_alvo": coluna_alvo,
    "melhor_modelo": melhor_modelo_nome
})

# Adicionar m√©tricas ao modelo
output_model.update_design(config_dict={
    "metricas": {k: float(v) for k, v in metricas.items() if isinstance(v, (int, float))},
    "n_features": df_treino.shape[1] - 1,
    "n_samples_treino": df_treino.shape[0]
})

# Upload do arquivo do modelo
if 'caminho_modelo' in resultado and resultado['caminho_modelo']:
    caminho_modelo = Path(resultado['caminho_modelo'])
    if caminho_modelo.exists():
        output_model.update_weights(weights_filename=str(caminho_modelo))
        print(f"Modelo registrado: {caminho_modelo}")
    else:
        print(f"AVISO: Arquivo do modelo nao encontrado: {caminho_modelo}")

# ============================================================================
# ETAPA 7: FINALIZA√á√ÉO E RESUMO
# ============================================================================
print("\n[ETAPA 7] Finalizacao")
print("-"*80)

# Tags na task
task_treinamento.add_tags([
    "producao",
    melhor_modelo_nome,
    f"r2_{metricas.get('R2', 0):.2f}".replace(".", "_")
])

task_treinamento.close()

# Limpar arquivos tempor√°rios
import shutil
if temp_path.exists():
    shutil.rmtree(temp_path)

# ============================================================================
# RESUMO FINAL
# ============================================================================
print("\n" + "="*80)
print("PIPELINE COMPLETO FINALIZADO - TUDO REGISTRADO NO CLEARML!")
print("="*80)
print(f"\nProjeto: {PROJECT_NAME}")
print(f"\nDatasets criados:")
print(f"  1. Dados brutos: {dataset_bruto.id}")
print(f"  2. Dados processados: {dataset_processado.id}")
print(f"\nTasks criadas:")
print(f"  1. Processamento: {task_processamento.id}")
print(f"  2. Treinamento: {task_treinamento.id}")
print(f"\nModelo registrado:")
print(f"  - Nome: modelo_{melhor_modelo_nome}_conforto_termico")
print(f"  - Melhor modelo: {melhor_modelo_nome}")
print(f"  - R2: {metricas.get('R2', 0):.4f}")
print(f"  - MAE: {metricas.get('MAE', 0):.4f}")
print("\nAcesse o ClearML UI para visualizar todos os resultados!")
print("="*80)

## Visualizar Resultados no ClearML

Ap√≥s executar a c√©lula acima, acesse a interface web do ClearML:
- **Local**: http://localhost:8080
- **Demo**: https://app.clear.ml

### O que voc√™ vai encontrar:

**üìä No Projeto "conforto_termico":**
- 2 Tasks (Processamento + Treinamento)
- 2 Datasets (Bruto + Processado) com genealogia
- 1 Modelo registrado com m√©tricas

**üìà M√©tricas rastreadas:**
- Todas as m√©tricas de regress√£o (MAE, MSE, RMSE, R2, etc.)
- Compara√ß√£o entre modelos
- Gr√°ficos de compara√ß√£o

**üì¶ Artefatos salvos:**
- Tabela de compara√ß√£o de modelos
- Sample dos dados processados
- Gr√°fico de m√©tricas

**ü§ñ Modelo:**
- Arquivo .pkl do modelo treinado
- Labels e configura√ß√µes
- Genealogia completa (dados ‚Üí processamento ‚Üí treinamento)

## [OPCIONAL] Buscar e Reusar Recursos do ClearML

In [None]:
# =========================================================================
# REUSAR RECURSOS DO CLEARML (Datasets, Modelos, Tasks)
# =========================================================================
import sys
sys.path.append('..')

from clearml import Task, Dataset, Model
import pandas as pd

PROJECT_NAME = "conforto_termico_def"

print("="*80)
print("BUSCANDO RECURSOS NO CLEARML")
print("="*80)

# ============================================================================
# 1. LISTAR DATASETS DISPON√çVEIS
# ============================================================================
print("\n[1] Datasets disponiveis no projeto:")
print("-"*80)

datasets = Dataset.list_datasets(
    dataset_project=PROJECT_NAME,
    partial_name="conforto_termico"
)

for i, ds in enumerate(datasets, 1):
    print(f"\n{i}. {ds.name}")
    print(f"   ID: {ds.id}")
    print(f"   Versao: {ds.version}")
    print(f"   Criado: {ds.created}")

# ============================================================================
# 2. BAIXAR DATASET ESPEC√çFICO
# ============================================================================
print("\n[2] Baixando dataset processado:")
print("-"*80)

# Buscar o dataset mais recente de dados processados
dataset_processado = Dataset.get(
    dataset_project=PROJECT_NAME,
    dataset_name="dados_processados_conforto_termico"
)

# Baixar para pasta local
local_path = dataset_processado.get_local_copy()
print(f"Dataset baixado para: {local_path}")

# Carregar dados
arquivos = list(Path(local_path).glob("*.csv"))
if arquivos:
    df_downloaded = pd.read_csv(arquivos[0])
    print(f"Dados carregados: {df_downloaded.shape}")
    print(df_downloaded.head())

# ============================================================================
# 3. LISTAR TASKS DO PROJETO
# ============================================================================
print("\n[3] Tasks do projeto:")
print("-"*80)

tasks = Task.get_tasks(
    project_name=PROJECT_NAME,
    task_name=None  # Todas as tasks
)

for i, t in enumerate(tasks[:5], 1):  # Primeiras 5
    print(f"\n{i}. {t.name}")
    print(f"   ID: {t.id}")
    print(f"   Status: {t.status}")
    print(f"   Tipo: {t.task_type}")

# ============================================================================
# 4. BUSCAR MODELOS REGISTRADOS
# ============================================================================
print("\n[4] Modelos registrados:")
print("-"*80)

modelos = Model.query_models(
    project_name=PROJECT_NAME,
    model_name=None  # Todos os modelos
)

for i, modelo in enumerate(modelos, 1):
    print(f"\n{i}. {modelo.name}")
    print(f"   ID: {modelo.id}")
    print(f"   Framework: {modelo.framework}")
    print(f"   Labels: {modelo.labels}")
    
    # Baixar modelo se quiser
    # modelo_local = modelo.get_local_copy()
    # print(f"   Download: {modelo_local}")

# ============================================================================
# 5. CLONAR E REUSAR TASK
# ============================================================================
print("\n[5] Exemplo: Clonar uma task existente")
print("-"*80)

if tasks:
    task_original = tasks[0]
    print(f"Clonando task: {task_original.name}")
    
    # Clonar task (cria uma c√≥pia)
    task_clonada = Task.clone(
        source_task=task_original.id,
        name=f"{task_original.name}_clonada",
        project=PROJECT_NAME
    )
    
    print(f"Task clonada criada: {task_clonada.id}")
    print("Voc√™ pode executar esta task clonada com configuracoes diferentes!")

print("\n" + "="*80)
print("BUSCA DE RECURSOS CONCLUIDA")
print("="*80)

---

## üìã Resumo: ClearML vs Local

| Recurso | **Local (sem ClearML)** | **Com ClearML** |
|---------|------------------------|-----------------|
| **Execu√ß√£o** | R√°pida, sem overhead | Overhead de registro, mas rastre√°vel |
| **Datasets** | Arquivos locais | Versionados no servidor, com genealogia |
| **Modelos** | Apenas arquivos .pkl | Registrados com metadados, m√©tricas, tags |
| **M√©tricas** | Apenas print no console | Dashboard visual, compar√°vel |
| **Reprodutibilidade** | Manual (c√≥digo) | Autom√°tica (par√¢metros, ambiente, c√≥digo) |
| **Colabora√ß√£o** | Dif√≠cil | F√°cil (servidor compartilhado) |
| **Hist√≥rico** | N√£o rastreado | Completo (todas as execu√ß√µes) |

### üí° Quando usar cada um:

**Use LOCAL (c√©lula anterior):**
- Desenvolvimento r√°pido
- Testes locais
- Notebooks explorat√≥rios
- Quando n√£o tem servidor ClearML

**Use ClearML (esta se√ß√£o):**
- Produ√ß√£o
- Experimentos para comparar
- Trabalho em equipe
- Quando precisa rastrear tudo
- Deploy de modelos

## Pipeline Completo COM Decorators (@PipelineDecorator)

Esta √© a solu√ß√£o **completa** usando os decorators oficiais do ClearML:
- `@PipelineDecorator.pipeline` - Define o pipeline completo
- `@PipelineDecorator.component` - Define cada componente do pipeline

### üéØ O que este pipeline faz:

1. **Cria projeto automaticamente** no ClearML (se n√£o existir)
2. **Registra 3 datasets versionados**:
   - Dados brutos
   - Dados processados
   - Dados com features
3. **Cria 5 tasks separadas** (uma para cada componente)
4. **Registra modelo** com m√©trica principal (R¬≤) para decis√£o de modelo vigente
5. **Artefatos**: tabelas, gr√°ficos, encoders, scalers

### üìù Modos de execu√ß√£o:

- **Local**: `run_locally=True` - executa no notebook, mas registra tudo no ClearML
- **Remoto**: `run_locally=False` - envia para fila de execu√ß√£o remota

### ‚öôÔ∏è Arquivo criado:

[src/clearml/pipeline_completo_decorators.py](../src/clearml/pipeline_completo_decorators.py)

---

### ‚ö†Ô∏è IMPORTANTE: Problema de Cache

Se voc√™ receber o erro `OSError: could not get source code`:

**SOLU√á√ÉO**: Reinicie o kernel do notebook:
1. Pressione `Ctrl+Shift+P` (ou `Cmd+Shift+P` no Mac)
2. Digite "Restart Kernel"
3. Selecione "Jupyter: Restart Kernel"
4. Execute a c√©lula abaixo novamente

Isso acontece porque o Python mant√©m em cache o c√≥digo fonte dos m√≥dulos importados. Quando modificamos o arquivo depois de import√°-lo, o cache fica desatualizado.

In [None]:
# ============================================================================
# IMPORTANTE: EXECUTE ESTA CELULA APENAS UMA VEZ
# Se der erro de "could not get source code", reinicie o kernel manualmente:
# Ctrl+Shift+P -> "Restart Kernel" e execute esta celula novamente
# ============================================================================

from src.clearml.pipeline_completo_decorators import executar_pipeline
from pathlib import Path

# Usar caminho absoluto para evitar problemas
CAMINHO_DADOS = str(Path('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv').resolve())

print("="*80)
print("EXECUTANDO PIPELINE COMPLETO COM @PipelineDecorator")
print("="*80)
print(f"\nArquivo CSV: {CAMINHO_DADOS}")
print(f"Arquivo existe: {Path(CAMINHO_DADOS).exists()}")
print("Modo: EXECUCAO LOCAL (com tracking ClearML)\n")
print("="*80)

try:
    resultado = executar_pipeline(
        caminho_csv=CAMINHO_DADOS,
        run_locally=True  # True = local, False = remoto (precisa de fila configurada)
    )
    
    print("\n" + "="*80)
    print("RESUMO FINAL")
    print("="*80)
    
    if resultado:
        print(f"\nPipeline concluido com sucesso!")
        print(f"\nDatasets criados:")
        for key, value in resultado.items():
            if 'dataset' in key:
                print(f"  - {key}: {value}")
        
        print(f"\nModelo:")
        if 'model' in resultado:
            print(f"  - ID: {resultado['model']}")
        
        print(f"\nMetricas:")
        if 'metricas' in resultado:
            for metric, value in resultado['metricas'].items():
                if isinstance(value, (int, float)):
                    print(f"  - {metric}: {value:.4f}")
    else:
        print("\nPipeline falhou")
        
except Exception as e:
    print("\n" + "="*80)
    print("ERRO NO PIPELINE")
    print("="*80)
    print(f"\nErro: {type(e).__name__}")
    print(f"Mensagem: {str(e)}")
    import traceback
    print("\nTraceback completo:")
    traceback.print_exc()

print("\n" + "="*80)

### üîç Como funciona internamente:

O pipeline usa **5 componentes** encadeados:

```python
@PipelineDecorator.component - component_upload_dados_brutos
    ‚Üì (dataset_bruto_id)
@PipelineDecorator.component - component_pipeline_processamento
    ‚Üì (dataset_processado_id)
@PipelineDecorator.component - component_pipeline_features
    ‚Üì (dataset_features_id)
@PipelineDecorator.component - component_pipeline_treinamento
    ‚Üì (resultado_treinamento, caminho_modelo)
@PipelineDecorator.component - component_registrar_modelo
    ‚Üì (model_id)
@PipelineDecorator.pipeline - pipeline_completo_clearml
    ‚Üì (resumo completo)
```

Cada componente:
- Cria sua pr√≥pria Task no ClearML
- Pode ser executado independentemente
- Pode ter cache (exceto treinamento)
- Retorna valores serializ√°veis para o pr√≥ximo

### üìå M√©trica Principal para Decis√£o de Modelo Vigente

O pipeline registra **R¬≤** como m√©trica principal no modelo. Esta m√©trica √© usada para:
- Comparar modelos entre experimentos
- Decidir qual modelo deve ser promovido para produ√ß√£o
- Configur√°vel em `METRICA_PRINCIPAL` no arquivo

Para classifica√ß√£o, voc√™ pode mudar para: `METRICA_PRINCIPAL = "Accuracy"` ou `"AUC"`

In [None]:
from src.clearml.executar_pipelines import executar_pipelines_completo

resultado = executar_pipelines_completo(
    caminho_csv="dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv",
    coluna_alvo="p1",
    n_modelos=3
)

In [None]:
# ============================================================================
# DIAGN√ìSTICO: Verificar Configura√ß√£o Antes de Executar Pipelines
# ============================================================================

import sys
from pathlib import Path

print("="*80)
print("DIAGN√ìSTICO PR√â-PIPELINE")
print("="*80)

# 1. Verificar arquivo de dados
arquivo_dados = Path('../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv')
print(f"\n1. Arquivo de dados:")
print(f"   Caminho: {arquivo_dados.resolve()}")
print(f"   Existe: {arquivo_dados.exists()}")
if arquivo_dados.exists():
    print(f"   Tamanho: {arquivo_dados.stat().st_size / 1024:.2f} KB")

# 2. Verificar configura√ß√£o ClearML
print(f"\n2. ClearML:")
try:
    from clearml import Task
    # Tentar criar uma task de teste (sem inicializar realmente)
    print(f"   ‚úì ClearML instalado")
    
    # Verificar arquivo de config
    clearml_conf = Path.home() / 'clearml.conf'
    print(f"   Config: {clearml_conf}")
    print(f"   Config existe: {clearml_conf.exists()}")
    
except ImportError as e:
    print(f"   ‚úó ClearML n√£o instalado: {e}")
except Exception as e:
    print(f"   ‚ö† Aviso: {e}")

# 3. Verificar m√≥dulos do projeto
print(f"\n3. M√≥dulos do projeto:")
try:
    from src.clearml.pipeline_01_processamento import pipeline_processamento
    print(f"   ‚úì pipeline_01_processamento importado")
except ImportError as e:
    print(f"   ‚úó Erro ao importar pipeline_01_processamento: {e}")

try:
    from src.pipelines.pipeline_processamento import executar_pipeline_processamento
    print(f"   ‚úì executar_pipeline_processamento importado")
except ImportError as e:
    print(f"   ‚úó Erro ao importar executar_pipeline_processamento: {e}")

# 4. Verificar Python path
print(f"\n4. Python path:")
print(f"   Diret√≥rio atual: {Path.cwd()}")
print(f"   '..' no sys.path: {'..' in sys.path}")

print("\n" + "="*80)
print("Se tudo estiver ‚úì, voc√™ pode executar os pipelines ClearML")
print("Se houver ‚úó, corrija os problemas antes de continuar")
print("="*80)

### üîß Solu√ß√£o Aplicada: PipelineDecorator vs Task.init()

#### ‚ùå **Problema Identificado**: `ValueError: Pipeline step "processar_dados" ... failed`

**Causa Real**: O uso de `@PipelineDecorator` cria tasks que s√£o **enviadas para execu√ß√£o remota** no servidor ClearML, mesmo quando voc√™ executa localmente. Essas tasks remotas falham porque:

1. ‚ùå O arquivo CSV est√° na sua m√°quina, n√£o no servidor
2. ‚ùå O ambiente remoto pode n√£o ter as depend√™ncias instaladas
3. ‚ùå O c√≥digo das suas fun√ß√µes n√£o √© transferido corretamente

#### ‚úÖ **Solu√ß√£o Implementada**: Usar `Task.init()` diretamente

Mudamos de:
```python
# ‚ùå PROBLEM√ÅTICO - cria tasks remotas
@PipelineDecorator.pipeline(...)
@PipelineDecorator.component(...)
def processar_dados(...):
    ...
```

Para:
```python
# ‚úÖ FUNCIONA - executa localmente com tracking
def pipeline_processamento(...):
    task = Task.init(...)  # Cria task local
    # ... seu c√≥digo aqui ...
    task.close()
```

**Vantagens**:
- ‚úÖ Executa **localmente** (acessa seus arquivos CSV)
- ‚úÖ **Registra tudo** no servidor ClearML (datasets, m√©tricas, artefatos)
- ‚úÖ N√£o precisa configurar agentes remotos
- ‚úÖ Mais controle sobre a execu√ß√£o

**Quando usar cada abordagem**:
- `Task.init()` ‚Üí Desenvolvimento, notebooks, execu√ß√£o local com tracking
- `@PipelineDecorator` ‚Üí Produ√ß√£o com agentes ClearML configurados e dados no servidor

In [None]:
# ============================================================================
# Pipeline 1: Processamento de Dados (VERS√ÉO CORRIGIDA)
# ============================================================================
# MUDAN√áA: Agora usa Task.init() em vez de @PipelineDecorator
# MOTIVO: Decorators enviam tasks para servidor remoto, causando falhas
# SOLU√á√ÉO: Execu√ß√£o local com tracking ClearML completo
# ============================================================================

from src.clearml.pipeline_01_processamento import pipeline_processamento

# Caminho do arquivo (relativo ao notebook)
arquivo = '../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv'

print("="*80)
print("Pipeline 1: Processamento de Dados")
print("Modo: EXECU√á√ÉO LOCAL com tracking ClearML")
print("="*80)
print(f"Arquivo: {arquivo}\n")

try:
    # Executar pipeline de processamento
    # Agora executa LOCALMENTE e registra no ClearML
    r1 = pipeline_processamento(arquivo)
    
    print("\n‚úì Pipeline 1 conclu√≠do com sucesso!")
    print(f"\nüì¶ Resultados:")
    print(f"   Dataset ID: {r1['dataset_processado_id']}")
    print(f"   Shape: {r1['shape']}")
    print(f"   NAs removidos: {r1['nas_removidos']}")
    print("\n‚úì Acesse o ClearML UI para ver m√©tricas, dataset e artefatos!")
    print("="*80)
    
except Exception as e:
    print(f"\n‚úó Erro no Pipeline 1:")
    print(f"  Tipo: {type(e).__name__}")
    print(f"  Mensagem: {str(e)}")
    print("\nüí° Dicas:")
    print("  ‚Ä¢ Verifique se o arquivo CSV existe")
    print("  ‚Ä¢ Verifique a conex√£o com o servidor ClearML")
    print("  ‚Ä¢ Veja os logs completos acima para mais detalhes")
    raise

Pipeline 1: Processamento de Dados
Modo: EXECU√á√ÉO LOCAL com tracking ClearML
Arquivo: ../dados/2025.05.14_thermal_confort_santa_maria_brazil_.csv





In [None]:

# Pipeline 2 (usa ID do pipeline 1)
from src.clearml.pipeline_02_features import pipeline_features
r2 = pipeline_features(dataset_processado_id=r1['dataset_processado_id'])

# Pipeline 3 (usa ID do pipeline 2)
from src.clearml.pipeline_03_treinamento import pipeline_treinamento
r3 = pipeline_treinamento(dataset_features_id=r2['dataset_features_id'])