# ChurnInsight ‚Äî Pipeline Principal

Este notebook representa o **pipeline operacional can√¥nico** do projeto **ChurnInsight**.  
Ele consolida, de forma **sequencial, reprodut√≠vel e audit√°vel**, todo o fluxo de prepara√ß√£o de dados, defini√ß√£o da vari√°vel-alvo, treinamento e gera√ß√£o dos artefatos consumidos pela API de previs√£o.

Seu papel **n√£o √© explorat√≥rio**, mas **orquestrador**:  
todas as etapas aqui executadas refletem **decis√µes t√©cnicas previamente definidas**, documentadas e versionadas nos materiais oficiais do projeto.

üìò **Documenta√ß√£o de refer√™ncia obrigat√≥ria**  
- `pipeline_notebook.md` ‚Äî descreve a **narrativa operacional** do pipeline, explicando *como* o notebook deve ser lido e interpretado.  
- `pipeline_elements.md` ‚Äî documenta a **l√≥gica t√©cnica e sem√¢ntica** de cada elemento exibido no notebook, explicitando contratos, decis√µes e artefatos produzidos.

Esses documentos complementam este notebook, fornecendo o contexto t√©cnico e sem√¢ntico das decis√µes apresentadas ao longo do pipeline.

---

## Estrutura do pipeline

O conte√∫do √© organizado em **etapas numeradas**, refletindo o fluxo real de transforma√ß√£o dos dados ao longo do projeto:

- Configura√ß√£o do ambiente e contextualiza√ß√£o do projeto  
- Ingest√£o e caracteriza√ß√£o inicial do dataset  
- Diagn√≥stico de qualidade estrutural e tipagem  
- Conformidade ao contrato e prepara√ß√£o sem√¢ntica dos dados  
- Tratamento de dados faltantes (com auditoria expl√≠cita)  
- Constru√ß√£o e valida√ß√£o da vari√°vel-alvo  
- Treinamento e avalia√ß√£o do modelo  
- Gera√ß√£o dos artefatos finais para integra√ß√£o com a API  

Cada se√ß√£o segue explicitamente o padr√£o:

**diagn√≥stico ‚Üí decis√£o expl√≠cita ‚Üí execu√ß√£o ‚Üí auditoria**

Nenhuma transforma√ß√£o cr√≠tica ocorre de forma impl√≠cita ou silenciosa.

---

## Autoria e contribui√ß√µes

Este material foi desenvolvido no contexto das atividades de **Data Science do projeto ChurnInsight**, com as seguintes contribui√ß√µes:

- **Lilian Moraes** ‚Äî Cientista de Dados  
- **Lucas Frigato** ‚Äî Cientista de Dados  
- **Luedji Abayomi** ‚Äî Cientista de Dados  
- **F√°bio Aguiar** ‚Äî Engenheiro de Dados  


## Contexto de Execu√ß√£o do Notebook
Esta c√©lula estabelece o **contexto de execu√ß√£o** do notebook, tornando expl√≠cito o ponto de refer√™ncia do projeto durante a leitura e execu√ß√£o das etapas seguintes.

Ela atua como um **contrato cognitivo**, ajudando o leitor a compreender de onde os m√≥dulos s√£o resolvidos e como o notebook se posiciona dentro da estrutura do projeto, sem impor depend√™ncias funcionais ao pipeline.

In [2]:
from pathlib import Path
import sys

ROOT = Path.cwd()
while not (ROOT / "src").exists() and ROOT.parent != ROOT:
    ROOT = ROOT.parent

sys.path.insert(0, str(ROOT))

print("Project ROOT:", ROOT)

Project ROOT: C:\Users\fabio\Projetos DEV\Hackathon ONE\churninsight-hackathon-one


## 1 - Ingest√£o e diagn√≥stico inicial
> Esta se√ß√£o estabelece o estado inicial do dataset ap√≥s a ingest√£o, apresentando indicadores puramente diagn√≥sticos de origem, dimens√£o, tipagem e presen√ßa de valores ausentes.
> Nenhuma transforma√ß√£o √© aplicada nesta etapa.

In [3]:
from src.data.load_data import list_raw_files
list_raw_files()

Unnamed: 0,filename,extension,size_bytes,size_human
0,Bank Customer Churn Prediction.csv,csv,561600,548.44 KB
1,WA_Fn-UseC_-Telco-Customer-Churn.csv,csv,977501,954.59 KB


In [4]:
from src.data.load_data import load_and_report_raw_data
df = load_and_report_raw_data("Bank Customer Churn Prediction.csv")

dtype,cols
int64,8
object,2
float64,2

column,dtype,missing,pct_missing,severity
customer_id,int64,0,0.0,OK
credit_score,int64,0,0.0,OK
country,object,0,0.0,OK
gender,object,0,0.0,OK
age,int64,0,0.0,OK
tenure,int64,0,0.0,OK
balance,float64,0,0.0,OK
products_number,int64,0,0.0,OK
credit_card,int64,0,0.0,OK
active_member,int64,0,0.0,OK


## 2 - Qualidade Estrutural & Tipagem
> Esta se√ß√£o avalia e consolida a qualidade estrutural do dataset, aplicando valida√ß√µes t√©cnicas e convers√µes de tipo necess√°rias para garantir consist√™ncia operacional.
> As altera√ß√µes s√£o t√©cnicas e n√£o afetam a sem√¢ntica de neg√≥cio.

In [5]:
from src.data.quality_typing import run_quality_and_typing_report
df = run_quality_and_typing_report(df)

M√©trica,Antes,Depois,Œî
Linhas,10000.0,10000.0,0.0
Colunas,12.0,12.0,0.0
Mem√≥ria (MB),1.8,1.8,0.0


## 3 - Conformidade ao Contrato (API) & Prepara√ß√£o Sem√¢ntica dos Dados
> Esta se√ß√£o estabelece o escopo sem√¢ntico do pipeline, conectando o dataset validado ao contrato formal da API de previs√£o.
> Aqui s√£o identificadas features, target e candidatos categ√≥ricos, sem aplicar transforma√ß√µes.

> Observa√ß√£o:  
> O target (`Churn`) j√° √© fornecido pelo dataset no formato *Yes/No*.  
> Nesta se√ß√£o, ele √© apenas **identificado**, **isolado do escopo de diagn√≥stico** e **preservado estruturalmente**, sem qualquer transforma√ß√£o ou infer√™ncia adicional.

In [6]:
from src.data.contract_loader import load_contract_yaml
from src.features.contract_and_candidates import run_contract_and_candidates
from src.reporting.ui import render_contract_and_candidates_report

CONTRACT_PATH = "contracts/bank_churn.yaml"

cfg = load_contract_yaml(CONTRACT_PATH)
scope = cfg.to_scope()

payload_s31 = run_contract_and_candidates(df, scope=scope)
render_contract_and_candidates_report(payload_s31)
df = payload_s31["df"]

M√©trica,Antes,Depois,Œî
Linhas,10000,10000,+0.00
Colunas,12,7,-5.00
Mem√≥ria,1.80 MB,0.53 MB,-1.27 MB


column,dtype,n_unique,pct_unique,sample_values,reasons
active_member,int64,2,0.0002,"[1, 0]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
credit_card,int64,2,0.0002,"[1, 0]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
products_number,int64,4,0.0004,"[1, 3, 2, 4]",num√©rico baixa cardinalidade
tenure,int64,11,0.0011,"[2, 1, 8, 7, 4, 6]",num√©rico baixa cardinalidade

column,dtype,n_unique,pct_unique,sample_values,reasons
active_member,int64,2,0.0002,"[1, 0]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
credit_card,int64,2,0.0002,"[1, 0]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"


> Esta pr√≥xima etapa executa a padroniza√ß√£o categ√≥rica declarada explicitamente, derivada do diagn√≥stico da Se√ß√£o 3.
> As transforma√ß√µes s√£o irrevers√≠veis no pipeline, restritas √†s features do contrato e sem aplica√ß√£o de encoding.

In [7]:
from src.features.categorical_standardization import run_categorical_standardization
from src.reporting.ui import render_categorical_standardization_report

# Sem regras categ√≥ricas para este dataset
S3_CAT_STD_MAP = {}
S3_CAT_STD_COLS = []

payload_s32 = run_categorical_standardization(
    df=df,    
    scope=scope,
    phrase_map=S3_CAT_STD_MAP,
    cols_scope=S3_CAT_STD_COLS,
)

render_categorical_standardization_report(payload_s32)
df = payload_s32["df"]


M√©trica,Antes,Depois,Œî
Linhas,10000.0,10000.0,0.0
Colunas,7.0,7.0,0.0
Mem√≥ria (MB),0.53,0.53,0.0


> Esta pr√≥xima etapa realiza uma auditoria **somente diagn√≥stica** da coluna target, verificando
> presen√ßa, dom√≠nio e consist√™ncia b√°sica dos valores, **sem aplicar qualquer transforma√ß√£o**.
> O objetivo √© validar se o target est√° adequado para a etapa de modelagem.

In [8]:
from src.features.target_audit import run_target_audit
from src.reporting.ui import render_target_audit_report

# dom√≠nio esperado do Telco churn
EXPECTED_TARGET = [0, 1]

payload_s33 = run_target_audit(
    df=df,
    scope=scope,
    expected_values=EXPECTED_TARGET
)

render_target_audit_report(payload_s33)

value,count,pct
0,7963,79.63
1,2037,20.37


## 4 - Tratamento de Dados Faltantes
> Esta se√ß√£o executa o tratamento expl√≠cito de dados faltantes, por meio de imputa√ß√£o controlada e audit√°vel.
> A execu√ß√£o √© irrevers√≠vel no pipeline, restrita √†s features do contrato, com preserva√ß√£o expl√≠cita do target.

In [9]:
from src.features.missing_imputation import run_missing_imputation
from src.reporting.ui import render_missing_imputation_report

# decision: decis√£o expl√≠cita (SEM defaults escondidos)
decision_s4 = {
    # se None: assume inten√ß√£o = todas as features (ainda filtradas pelo scope)
    "include_cols": None,
    # opcional: colunas explicitamente exclu√≠das
    "exclude_cols": [],
    # obrigat√≥rio
    "numeric_strategy": "median",            # "median" | "mean" | "constant"
    "categorical_strategy": "most_frequent", # "most_frequent" | "constant"
}

payload_s4 = run_missing_imputation(df=df, scope=scope, decision=decision_s4)
df = payload_s4["df"]  
render_missing_imputation_report(payload_s4)

M√©trica,Antes,Depois,Œî
Linhas,10000.0,10000.0,0.0
Colunas,7.0,7.0,0.0
Mem√≥ria (MB),0.53,0.53,0.0

column,kind,strategy,fill_value_used
tenure,numeric,median,5.0
estimated_salary,numeric,median,100193.915
active_member,numeric,median,1.0
credit_card,numeric,median,1.0
products_number,numeric,median,1.0
credit_score,numeric,median,652.0


## 5 - Prepara√ß√£o para Modelagem
> Esta se√ß√£o prepara o dataset para a etapa de modelagem supervisionada, realizando a separa√ß√£o expl√≠cita entre vari√°veis independentes (X) e vari√°vel alvo (y), bem como o split entre conjuntos de treino e teste.
> S√£o aplicadas apenas opera√ß√µes estruturais (particionamento e valida√ß√µes), sem transforma√ß√£o de valores, encoding ou engenharia de features.
> A execu√ß√£o inclui diagn√≥sticos audit√°veis de integridade, distribui√ß√£o do target e consist√™ncia do escopo, garantindo que os dados estejam aptos para o treinamento dos modelos.

In [10]:
from src.features.contract_and_candidates import NormalizationScope
from src.features.train_test_split_prep import run_train_test_split
from src.reporting.ui import render_modeling_report

decision_s5 = {
    "test_size": 0.2,
    "random_state": 42,
    "shuffle": True,
    "stratify": False,
    # "stratify_col": "Churn",  # s√≥ se stratify=True
    "audit_categorical_cardinality": False,  
}

payload_s5 = run_train_test_split(
    df=df,
    scope=scope,
    decision=decision_s5,
)

render_modeling_report(payload_s5)

churn,count_all,rate_all,count_train,rate_train,count_test,rate_test,delta_rate_train_vs_all,delta_rate_test_vs_all
0,7963,0.7963,6356,0.7945,1607,0.8035,-0.0018,0.0072
1,2037,0.2037,1644,0.2055,393,0.1965,0.0018,-0.0072


## 6 - Representa√ß√£o para Modelagem Supervisionada
> Esta se√ß√£o materializa explicitamente a representa√ß√£o final das vari√°veis para uso em modelos de Machine Learning supervisionados.
> Aqui s√£o aplicadas as decis√µes declaradas de representa√ß√£o das features (X) e do target (y), incluindo estrat√©gias de encoding e garantias de consist√™ncia entre treino e teste.
> A execu√ß√£o √© irrevers√≠vel no pipeline, restrita ao conjunto de treino para ajuste de transformadores (anti-leakage) e acompanhada de auditorias estruturais que asseguram alinhamento dimensional, rastreabilidade e prontid√£o para a etapa de modelagem.
> Neste dataset, o target j√° √© fornecido como vari√°vel bin√°ria (0/1).

In [11]:
from src.features.supervised_representation import run_supervised_representation
from src.reporting.ui import render_supervised_representation_report

# Inputs can√¥nicos 
split_s5 = payload_s5["split"]     # cont√©m: X_train, X_test, y_train, y_test
scope_s5 = payload_s5["scope"]

# Decis√£o expl√≠cita de representa√ß√£o (NADA √© inferido)
decision_s6 = {
    "X": {
        "categorical": {
            "strategy": "onehot",
            "handle_unknown": "ignore",
        },
        "numeric": {
            "strategy": "passthrough",
        },
    },
    "y": {
        "strategy": "map_binary",
        "mapping": {0: 0, 1: 1},  # Bank churn j√° √© bin√°rio num√©rico
        "dtype": "int64",
    },
}

payload_s6 = run_supervised_representation(
    split=split_s5,
    scope=scope_s5,
    decision=decision_s6,
)

render_supervised_representation_report(payload_s6)


raw,encoded
0,0
1,1


## 7 - Estrat√©gia de Avalia√ß√£o e Baselines

> Nesta se√ß√£o s√£o definidos, de forma expl√≠cita, os **crit√©rios de avalia√ß√£o** do problema de churn.  
> Antes de testar modelos reais, o pipeline estabelece a **m√©trica principal** e **baselines m√≠nimos**
> para garantir compara√ß√µes justas e decis√µes audit√°veis nas etapas seguintes.

### Decis√£o expl√≠cita de avalia√ß√£o

Nesta etapa, o pipeline **n√£o busca otimizar modelos**, mas sim **formalizar o crit√©rio de sucesso** do problema de churn.  
As escolhas abaixo representam **decis√µes normativas**, orientadas por risco de neg√≥cio e custo de erro ‚Äî e n√£o por desempenho emp√≠rico observado.

- **`positive_label = 1`**  
  Define explicitamente que a classe positiva representa **churn**.  
  Isso remove ambiguidades sem√¢nticas e garante consist√™ncia no c√°lculo das m√©tricas.

- **`primary_metric = "recall"`**  
  Define o **crit√©rio de risco m√≠nimo aceit√°vel** do projeto.  
  No contexto de churn, falsos negativos (n√£o identificar um cliente que ir√° sair) representam perda direta de receita e s√£o considerados o erro mais cr√≠tico.
  Essa escolha **n√£o determina automaticamente o modelo final**, nem obriga a ordena√ß√£o por recall,  
  mas estabelece que **qualquer solu√ß√£o com baixa capacidade de detec√ß√£o de churn √© semanticamente inv√°lida**,  
  independentemente de outras m√©tricas como acur√°cia ou precis√£o.


- **`secondary_metrics = ["f1"]`**  
  M√©tricas de apoio s√£o mantidas para an√°lise complementar, permitindo avaliar o equil√≠brio entre precis√£o e cobertura sem substituir o crit√©rio principal.

- **`baselines`**  
  Os modelos baseline (`most_frequent`, `stratified`) servem como **controle m√≠nimo de desempenho**, garantindo que qualquer modelo treinado posteriormente supere estrat√©gias triviais.  
  Eles n√£o competem com os modelos finais ‚Äî atuam como refer√™ncia de sanidade.

- **`average = "binary"`**  
  Define explicitamente o escopo de c√°lculo das m√©tricas, coerente com um problema de classifica√ß√£o bin√°ria.

- **`zero_division = 0`**  
  Decis√£o expl√≠cita para evitar comportamento impl√≠cito em casos de divis√£o por zero, garantindo reprodutibilidade e auditabilidade.

- **`random_state = 42`**  
  Assegura que baselines e avalia√ß√µes sejam **determin√≠sticas**, permitindo compara√ß√£o justa entre execu√ß√µes.

> üìå **Importante:**  
> Esta etapa **define o crit√©rio oficial de avalia√ß√£o**, mas **n√£o imp√µe** esse crit√©rio √†s explora√ß√µes da pr√≥xima se√ß√£o.  
> O painel de modelos pode ordenar e comparar resultados por qualquer m√©trica, mantendo a separa√ß√£o entre **governan√ßa avaliativa** e **an√°lise explorat√≥ria**.


In [12]:
from src.models.evaluation_baselines import run_section7_evaluation_and_baselines
from src.reporting.ui import render_evaluation_report

# ------------------------------------------------------------
# Decis√£o expl√≠cita 
# ------------------------------------------------------------
decision_s7 = {
    "positive_label": 1,                 # churn = 1
    "primary_metric": "recall",           # m√©trica principal
    "secondary_metrics": ["f1"],          # m√©trica de apoio
    "baselines": [
        {"name": "most_frequent", "strategy": "most_frequent"},
        {"name": "stratified", "strategy": "stratified"},
    ],
    "average": "binary",                  # escopo restrito da S7
    "zero_division": 0,                   # decis√£o expl√≠cita
    "random_state": 42,                   # reprodutibilidade
}


# ------------------------------------------------------------
# Execu√ß√£o
# ------------------------------------------------------------
payload_s7 = run_section7_evaluation_and_baselines(
    s6_payload=payload_s6,    # sa√≠da auditada da Se√ß√£o 6
    decision=decision_s7,
)

# ------------------------------------------------------------
# Renderiza√ß√£o / Auditoria (UI)
# ------------------------------------------------------------
render_evaluation_report(payload_s7)


class,count,pct
0,6356,0.7945
1,1644,0.2055

class,count,pct
0,1607,0.8035
1,393,0.1965

baseline,strategy,accuracy,precision,recall,f1
most_frequent,most_frequent,0.8035,0.0,0.0,0.0
stratified,stratified,0.678,0.2019,0.216285,0.208845


## 8 - Painel de Modelos & Hiperpar√¢metros

Nesta se√ß√£o, s√£o realizados os **experimentos de Machine Learning** por meio de um **painel interativo**,
permitindo selecionar modelos, configurar hiperpar√¢metros e definir o modo de treinamento.

O usu√°rio pode:
- selecionar os **modelos** a serem avaliados,
- escolher entre **treino direto** ou **busca de hiperpar√¢metros (GridSearchCV)**,
- configurar par√¢metros via **painel** ou **dict**,
- executar os experimentos **explicitamente** pelo bot√£o **Rodar experimento**.

> ‚ö†Ô∏è O experimento **s√≥ √© executado** ao clicar em **Rodar experimento**.

### Avalia√ß√£o e m√©tricas

- As **m√©tricas s√£o calculadas nesta etapa, utilizando o conjunto de teste.
- A etapa anterior, Estrat√©gia de Avalia√ß√£o e Baselines, pode sugerir um crit√©rio principal de decis√£o (ex.: *recall*),
  mas o **Leaderboard pode ser ordenado por qualquer m√©trica**, sem restri√ß√µes.

### Grids de hiperpar√¢metros

Os grids utilizados na busca de hiperpar√¢metros seguem escolhas **deliberadas e documentadas**,
com foco em equil√≠brio entre rigor acad√™mico, custo computacional e reprodutibilidade.

A fundamenta√ß√£o completa est√° dispon√≠vel no documento oficial:

üìÑ **`hyperparameter_grids.md`** ‚Äî refer√™ncia √∫nica do projeto para decis√µes sobre grids.


In [13]:
from src.reporting.models_control_panel import render_section8_models_panel

render_section8_models_panel(payload_s6=payload_s6, payload_s7=payload_s7, payload_s5=payload_s5)

VBox(children=(Label(value=''), HTML(value="<div style='line-height:1.35'></div>"), HBox(children=(Checkbox(va‚Ä¶


### ‚úÖ Decis√£o da escolha do modelo (p√≥s-processamento)

Com base nos experimentos realizados nesta se√ß√£o, a decis√£o do modelo considera o **crit√©rio de avalia√ß√£o definido na Se√ß√£o 7** (Estrat√©gia de Avalia√ß√£o e Baselines) e os **trade-offs observados no Leaderboard**.

A **Decision Tree** apresentou o **maior recall**, alinhando-se diretamente ao crit√©rio de risco do problema de churn, cujo objetivo √© **maximizar a detec√ß√£o de clientes propensos a sair**, mesmo ao custo de mais falsos positivos.  
Por outro lado, o **Random Forest** obteve o **melhor F1-score** e o maior **ROC-AUC**, representando a op√ß√£o com **melhor equil√≠brio geral** entre precis√£o e recall, al√©m de maior capacidade discriminativa.

> **S√≠ntese inicial:**  
> - **Escolha orientada por risco (S7 ‚Äî recall):** *Decision Tree*  
> - **Escolha orientada por desempenho equilibrado (S8 ‚Äî F1):** *Random Forest*

Apesar da Decision Tree estar mais diretamente alinhada ao crit√©rio de risco definido na Se√ß√£o 7, a escolha do modelo a ser **exportado** considera tamb√©m aspectos de **robustez, estabilidade estat√≠stica e generaliza√ß√£o**.

O **Random Forest** foi selecionado para exporta√ß√£o porque:
- apresentou o **melhor F1-score**, indicando maior equil√≠brio entre *recall* e *precision*;
- obteve o maior **ROC-AUC**, demonstrando **melhor capacidade de separa√ß√£o** entre clientes churn e n√£o churn;
- reduz significativamente o risco de **overfitting**, comum em √°rvores de decis√£o individuais;
- oferece maior **estabilidade**, sendo menos sens√≠vel a varia√ß√µes do conjunto de treino.

Do ponto de vista operacional, essa escolha **n√£o invalida o crit√©rio de risco estabelecido na Se√ß√£o 7**.  
Ao contr√°rio, ela preserva a possibilidade de **ajuste posterior do limiar de decis√£o (threshold)**, permitindo elevar o *recall* conforme a necessidade do neg√≥cio, sem comprometer a capacidade de generaliza√ß√£o do modelo.

> üìå **S√≠ntese final da decis√£o:**  
> - A **Se√ß√£o 7** define **qual tipo de erro √© inaceit√°vel** (governan√ßa de risco).  
> - A **Se√ß√£o 8** seleciona o modelo com **maior capacidade discriminativa global** para atender a esse crit√©rio de forma robusta.  
> - O **Random Forest** representa o melhor ponto de partida para **uso operacional e eventual calibra√ß√£o**.

---

üìê **Nota metodol√≥gica sobre os grids de hiperpar√¢metros**

Os resultados apresentados nesta se√ß√£o foram obtidos a partir de **grids de hiperpar√¢metros deliberadamente controlados**, projetados para garantir:
- comparabilidade justa entre modelos,
- custo computacional previs√≠vel,
- e reprodutibilidade dos experimentos.

A defini√ß√£o e a fundamenta√ß√£o acad√™mica desses grids est√£o documentadas no arquivo  
**`hyperparameter_grids.md`**, que serve como **refer√™ncia oficial do projeto** para decis√µes relacionadas √† busca de hiperpar√¢metros.

Essa escolha metodol√≥gica assegura que a decis√£o do modelo n√£o seja resultado de *tuning excessivo*,  
mas da **capacidade discriminativa intr√≠nseca** dos algoritmos avaliados.


## 9 - Exporta√ß√£o do Modelo

Nesta se√ß√£o, o modelo selecionado na Se√ß√£o 8 √© materializado como um artefato persistente,
pronto para uso em infer√™ncia futura.

Nenhum novo treinamento ou avalia√ß√£o √© realizado.
O objetivo √© garantir que o modelo exportado preserve:
- a representa√ß√£o de dados definida na Se√ß√£o 6;
- os par√¢metros aprendidos durante o treinamento;
- a decis√£o emp√≠rica documentada na Se√ß√£o 8.


In [15]:
# ============================================================
# Se√ß√£o 9 ‚Äî Exporta√ß√£o do Modelo Treinado (Caminho A)
# ============================================================

from src.reporting.models_control_panel import get_payload_s8
from sklearn.pipeline import Pipeline
from pathlib import Path
import joblib

# ------------------------------------------------------------
# 1) Recupera artefatos produzidos pela S8
# ------------------------------------------------------------
payload_s8 = get_payload_s8()

# ------------------------------------------------------------
# 2) Escolha expl√≠cita do modelo a exportar
#    (nenhuma decis√£o autom√°tica)
# ------------------------------------------------------------
MODEL_KEY = "rf"  # ex.: "rf", "dt", "knn", "logreg"
best_estimator = payload_s8["best_estimators"][MODEL_KEY]

# ------------------------------------------------------------
# 3) Monta pipeline final (S6 + estimador treinado)
# ------------------------------------------------------------
final_pipeline = Pipeline(steps=[
    ("preprocess", payload_s6["representation"]["transformer"]),
    ("model", best_estimator),
])

# ------------------------------------------------------------
# 4) Resolve path correto para artifacts/ na raiz do projeto
# ------------------------------------------------------------
project_root = Path("..").resolve()   # notebooks/ ‚Üí raiz
artifacts_dir = project_root / "artifacts"
artifacts_dir.mkdir(exist_ok=True)

out_path = artifacts_dir / "churn_model.joblib"

# ------------------------------------------------------------
# 5) Exporta artefato treinado
# ------------------------------------------------------------
joblib.dump(final_pipeline, out_path)

print(f"[INFO] Modelo exportado com sucesso em: {out_path}")


[INFO] Modelo exportado com sucesso em: C:\Users\fabio\Projetos DEV\Hackathon ONE\churninsight-hackathon-one\artifacts\churn_model.joblib
