# üöÄ Pipeline Unificado de Treinamento

Este notebook demonstra o uso do **pipeline unificado** que suporta tanto **classifica√ß√£o** quanto **regress√£o** atrav√©s de uma √∫nica interface.

## üéØ Principais Caracter√≠sticas

- ‚úÖ **Um √∫nico pipeline** para classifica√ß√£o e regress√£o
- ‚úÖ **Mesma API** para ambos os tipos
- ‚úÖ **M√©tricas autom√°ticas** selecionadas por tipo
- ‚úÖ **F√°cil de usar** - apenas 1 par√¢metro diferente!

---

## üì¶ Setup

In [1]:
import sys
sys.path.append('..')

import pandas as pd
import numpy as np
from sklearn.datasets import make_classification, make_regression
from src.pipelines import treinar_pipeline_completo, treinar_rapido

print("‚úì Imports OK")

KeyboardInterrupt: 

## üìä Preparar Dados

Vamos criar dados sint√©ticos para demonstra√ß√£o:

In [None]:
# Dados de CLASSIFICA√á√ÉO
X_clf, y_clf = make_classification(
    n_samples=500,
    n_features=20,
    n_informative=10,
    n_redundant=5,
    random_state=42
)
df_classificacao = pd.DataFrame(X_clf, columns=[f'feature_{i}' for i in range(20)])
df_classificacao['classe'] = y_clf

print(f"Dados de classifica√ß√£o: {df_classificacao.shape}")
print(f"Classes: {df_classificacao['classe'].value_counts().to_dict()}")

# Dados de REGRESS√ÉO
X_reg, y_reg = make_regression(
    n_samples=500,
    n_features=20,
    n_informative=10,
    random_state=42
)
df_regressao = pd.DataFrame(X_reg, columns=[f'feature_{i}' for i in range(20)])
df_regressao['valor'] = y_reg

print(f"\nDados de regress√£o: {df_regressao.shape}")
print(f"Valor (stats): {df_regressao['valor'].describe()}")

---

## üéØ EXEMPLO 1: Classifica√ß√£o - Treinamento Completo

Pipeline completo com todas as etapas:
1. Setup
2. Compara√ß√£o de modelos
3. Otimiza√ß√£o
4. Finaliza√ß√£o
5. Salvamento

In [None]:
resultado_clf = treinar_pipeline_completo(
    dados=df_classificacao,
    coluna_alvo='classe',
    tipo_problema='classificacao',  # ‚Üê Define o tipo!
    n_modelos_comparar=3,
    metrica_ordenacao='Accuracy',  # Padr√£o para classifica√ß√£o
    otimizar_hiperparametros=True,
    n_iter_otimizacao=10,
    finalizar=True,
    salvar_modelo_final=False  # True para salvar
)

In [None]:
# Ver resultados
print("üèÜ MELHOR MODELO:", type(resultado_clf['melhor_modelo']).__name__)
print("\nüìä M√âTRICAS:")
for metrica, valor in resultado_clf['metricas_melhor'].items():
    if isinstance(valor, (int, float)):
        print(f"  {metrica}: {valor:.4f}")

print("\nüìà COMPARA√á√ÉO DE MODELOS:")
resultado_clf['tabela_comparacao'][['Accuracy', 'AUC', 'F1']].head()

---

## üìà EXEMPLO 2: Regress√£o - Treinamento Completo

**Mesma fun√ß√£o, apenas muda o `tipo_problema`!**

In [None]:
resultado_reg = treinar_pipeline_completo(
    dados=df_regressao,
    coluna_alvo='valor',
    tipo_problema='regressao',  # ‚Üê √önica diferen√ßa!
    n_modelos_comparar=3,
    metrica_ordenacao='R2',  # Padr√£o para regress√£o
    otimizar_hiperparametros=True,
    n_iter_otimizacao=10,
    finalizar=True,
    salvar_modelo_final=False
)

In [None]:
# Ver resultados
print("üèÜ MELHOR MODELO:", type(resultado_reg['melhor_modelo']).__name__)
print("\nüìä M√âTRICAS:")
for metrica, valor in resultado_reg['metricas_melhor'].items():
    if isinstance(valor, (int, float)):
        print(f"  {metrica}: {valor:.4f}")

print("\nüìà COMPARA√á√ÉO DE MODELOS:")
resultado_reg['tabela_comparacao'][['MAE', 'MSE', 'R2']].head()

---

## ‚ö° EXEMPLO 3: Treinamento R√°pido

Para prototipagem e testes r√°pidos:

In [None]:
# Classifica√ß√£o r√°pida
exp_clf_rapido, modelo_clf_rapido = treinar_rapido(
    dados=df_classificacao,
    coluna_alvo='classe',
    tipo_problema='classificacao',
    modelo='rf',  # ou 'auto' para deixar PyCaret escolher
    salvar=False
)

print("‚úì Modelo de classifica√ß√£o r√°pido:", type(modelo_clf_rapido).__name__)

In [None]:
# Regress√£o r√°pida
exp_reg_rapido, modelo_reg_rapido = treinar_rapido(
    dados=df_regressao,
    coluna_alvo='valor',
    tipo_problema='regressao',
    modelo='auto',  # Deixa PyCaret escolher o melhor
    salvar=False
)

print("‚úì Modelo de regress√£o r√°pido:", type(modelo_reg_rapido).__name__)

---

## üéØ EXEMPLO 4: Modelos Espec√≠ficos

Treinar apenas modelos espec√≠ficos:

In [None]:
resultado_especifico = treinar_pipeline_completo(
    dados=df_classificacao,
    coluna_alvo='classe',
    tipo_problema='classificacao',
    modelos_incluir=['rf', 'lr', 'dt'],  # Apenas estes 3
    n_modelos_comparar=1,  # Seleciona apenas o melhor
    otimizar_hiperparametros=False,
    finalizar=False,
    salvar_modelo_final=False
)

print("Modelos testados:")
print(resultado_especifico['tabela_comparacao'][['Accuracy', 'F1']])

---

## üìä EXEMPLO 5: Diferentes M√©tricas de Ordena√ß√£o

In [None]:
# Classifica√ß√£o ordenada por F1
resultado_f1 = treinar_pipeline_completo(
    dados=df_classificacao,
    coluna_alvo='classe',
    tipo_problema='classificacao',
    n_modelos_comparar=2,
    metrica_ordenacao='F1',  # Ordena por F1 em vez de Accuracy
    otimizar_hiperparametros=False,
    finalizar=False,
    salvar_modelo_final=False
)

print("Melhores modelos por F1:")
print(resultado_f1['tabela_comparacao'][['F1', 'Accuracy', 'AUC']].head())

In [None]:
# Regress√£o ordenada por MAE
resultado_mae = treinar_pipeline_completo(
    dados=df_regressao,
    coluna_alvo='valor',
    tipo_problema='regressao',
    n_modelos_comparar=2,
    metrica_ordenacao='MAE',  # Ordena por MAE em vez de R2
    otimizar_hiperparametros=False,
    finalizar=False,
    salvar_modelo_final=False
)

print("\nMelhores modelos por MAE:")
print(resultado_mae['tabela_comparacao'][['MAE', 'RMSE', 'R2']].head())

---

## üéÅ Resumo dos Benef√≠cios

| Benef√≠cio | Descri√ß√£o |
|-----------|----------|
| **Unificado** | Um √∫nico pipeline para classifica√ß√£o e regress√£o |
| **Simples** | Apenas 1 par√¢metro (`tipo_problema`) define o tipo |
| **Autom√°tico** | M√©tricas selecionadas automaticamente |
| **Flex√≠vel** | Customiz√°vel em todos os aspectos |
| **Consistente** | Mesma API para ambos os tipos |
| **Manuten√≠vel** | Sem duplica√ß√£o de c√≥digo |

---

## üìö Documenta√ß√£o Completa

- **README:** `src/pipelines/README_UNIFIED.md`
- **Exemplos:** `exemplos/exemplo_pipeline_unificado.py`
- **Testes:** `tests/test_pipeline_unificado.py`
- **Refatora√ß√£o:** `docs/refatoracao-pipeline-unificado.md`

---

## üöÄ Pr√≥ximos Passos

1. Teste com seus pr√≥prios dados
2. Experimente diferentes modelos
3. Ajuste hiperpar√¢metros
4. Salve e fa√ßa deploy dos modelos

**Bom treinamento! üéâ**