# ChurnInsight ‚Äî Pipeline Principal

Este notebook representa o **pipeline operacional can√¥nico** do projeto **ChurnInsight**.  
Ele consolida, de forma **sequencial, reprodut√≠vel e audit√°vel**, todo o fluxo de prepara√ß√£o de dados, defini√ß√£o da vari√°vel-alvo, treinamento e gera√ß√£o dos artefatos consumidos pela API de previs√£o.

Seu papel **n√£o √© explorat√≥rio**, mas **orquestrador**:  
todas as etapas aqui executadas refletem **decis√µes t√©cnicas previamente definidas**, documentadas e versionadas nos materiais oficiais do projeto.

üìò **Documenta√ß√£o de refer√™ncia obrigat√≥ria**  
- `pipeline_notebook.md` ‚Äî descreve a **narrativa operacional** do pipeline, explicando *como* o notebook deve ser lido e interpretado.  
- `pipeline_elements.md` ‚Äî documenta a **l√≥gica t√©cnica e sem√¢ntica** de cada elemento exibido no notebook, explicitando contratos, decis√µes e artefatos produzidos.

Esses documentos complementam este notebook, fornecendo o contexto t√©cnico e sem√¢ntico das decis√µes apresentadas ao longo do pipeline.

---

## Estrutura do pipeline

O conte√∫do √© organizado em **etapas numeradas**, refletindo o fluxo real de transforma√ß√£o dos dados ao longo do projeto:

- Configura√ß√£o do ambiente e contextualiza√ß√£o do projeto  
- Ingest√£o e caracteriza√ß√£o inicial do dataset  
- Diagn√≥stico de qualidade estrutural e tipagem  
- Conformidade ao contrato e prepara√ß√£o sem√¢ntica dos dados  
- Tratamento de dados faltantes (com auditoria expl√≠cita)  
- Constru√ß√£o e valida√ß√£o da vari√°vel-alvo  
- Treinamento e avalia√ß√£o do modelo  
- Gera√ß√£o dos artefatos finais para integra√ß√£o com a API  

Cada se√ß√£o segue explicitamente o padr√£o:

**diagn√≥stico ‚Üí decis√£o expl√≠cita ‚Üí execu√ß√£o ‚Üí auditoria**

Nenhuma transforma√ß√£o cr√≠tica ocorre de forma impl√≠cita ou silenciosa.

---

## Autoria e contribui√ß√µes

Este material foi desenvolvido no contexto das atividades de **Data Science do projeto ChurnInsight**, com as seguintes contribui√ß√µes:

- **Lilian Moraes** ‚Äî Cientista de Dados  
- **Lucas Frigato** ‚Äî Cientista de Dados  
- **Luedji Abayomi** ‚Äî Cientista de Dados  
- **F√°bio Aguiar** ‚Äî Engenheiro de Dados  


## Contexto de Execu√ß√£o do Notebook
Esta c√©lula estabelece o **contexto de execu√ß√£o** do notebook, tornando expl√≠cito o ponto de refer√™ncia do projeto durante a leitura e execu√ß√£o das etapas seguintes.

Ela atua como um **contrato cognitivo**, ajudando o leitor a compreender de onde os m√≥dulos s√£o resolvidos e como o notebook se posiciona dentro da estrutura do projeto, sem impor depend√™ncias funcionais ao pipeline.

In [1]:
from pathlib import Path
import sys

ROOT = Path.cwd()
while not (ROOT / "src").exists() and ROOT.parent != ROOT:
    ROOT = ROOT.parent

sys.path.insert(0, str(ROOT))

print("Project ROOT:", ROOT)

Project ROOT: C:\Users\fabio\Projetos DEV\Hackathon ONE\churninsight-hackathon-one


## 1 - Ingest√£o e diagn√≥stico inicial
> Esta se√ß√£o estabelece o estado inicial do dataset ap√≥s a ingest√£o, apresentando indicadores puramente diagn√≥sticos de origem, dimens√£o, tipagem e presen√ßa de valores ausentes.
> Nenhuma transforma√ß√£o √© aplicada nesta etapa.

In [2]:
from src.data.load_data import list_raw_files
list_raw_files()

Unnamed: 0,filename,extension,size_bytes,size_human
0,WA_Fn-UseC_-Telco-Customer-Churn.csv,csv,977501,954.59 KB


In [3]:
from src.data.load_data import load_and_report_raw_data
df = load_and_report_raw_data("WA_Fn-UseC_-Telco-Customer-Churn.csv")

dtype,cols
object,18
int64,2
float64,1

column,dtype,missing,pct_missing,severity
customerID,object,0,0.0,OK
gender,object,0,0.0,OK
SeniorCitizen,int64,0,0.0,OK
Partner,object,0,0.0,OK
Dependents,object,0,0.0,OK
tenure,int64,0,0.0,OK
PhoneService,object,0,0.0,OK
MultipleLines,object,0,0.0,OK
InternetService,object,0,0.0,OK
OnlineSecurity,object,0,0.0,OK


## 2 - Qualidade Estrutural & Tipagem
> Esta se√ß√£o avalia e consolida a qualidade estrutural do dataset, aplicando valida√ß√µes t√©cnicas e convers√µes de tipo necess√°rias para garantir consist√™ncia operacional.
> As altera√ß√µes s√£o t√©cnicas e n√£o afetam a sem√¢ntica de neg√≥cio.

In [4]:
from src.data.quality_typing import run_quality_and_typing_report
df = run_quality_and_typing_report(df)

M√©trica,Antes,Depois,Œî
Linhas,7043.0,7043.0,0.0
Colunas,21.0,21.0,0.0
Mem√≥ria (MB),6.82,6.51,-0.31

column,dtype_after,converted_non_null,introduced_nans
TotalCharges,float64,7043,11

column,introduced_nans,introduced_nans_pct
TotalCharges,11,0.1561834445548772


## 3 - Conformidade ao Contrato (API) & Prepara√ß√£o Sem√¢ntica dos Dados
> Esta se√ß√£o estabelece o escopo sem√¢ntico do pipeline, conectando o dataset validado ao contrato formal da API de previs√£o.
> Aqui s√£o identificadas features, target e candidatos categ√≥ricos, sem aplicar transforma√ß√µes.

> Observa√ß√£o:  
> O target (`Churn`) j√° √© fornecido pelo dataset no formato *Yes/No*.  
> Nesta se√ß√£o, ele √© apenas **identificado**, **isolado do escopo de diagn√≥stico** e **preservado estruturalmente**, sem qualquer transforma√ß√£o ou infer√™ncia adicional.

In [5]:
from src.data.contract_loader import load_contract_yaml
from src.features.contract_and_candidates import run_contract_and_candidates
from src.reporting.ui import render_contract_and_candidates_report

CONTRACT_PATH = "contracts/telco_churn.yaml"

cfg = load_contract_yaml(CONTRACT_PATH)
scope = cfg.to_scope()

payload = run_contract_and_candidates(df, scope=scope)
render_contract_and_candidates_report(payload)

M√©trica,Antes,Depois,Œî
Linhas,7043,7043,+0.00
Colunas,21,9,-12.00
Mem√≥ria,6.51 MB,2.77 MB,-3.74 MB


column,dtype,n_unique,pct_unique,sample_values,reasons
OnlineSecurity,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, frases de servi√ßo"
TechSupport,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, frases de servi√ßo"
PaperlessBilling,object,2,0.0003,"[Yes, No]","texto/categoria, bin√°rio (yes/no)"
Contract,object,3,0.0004,"[Month-to-month, One year, Two year]",texto/categoria
InternetService,object,3,0.0004,"[DSL, Fiber optic, No]",texto/categoria
PaymentMethod,object,4,0.0006,"[Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic)]",texto/categoria

column,dtype,n_unique,pct_unique,sample_values,reasons
PaperlessBilling,object,2,0.0003,"[Yes, No]","texto/categoria, bin√°rio (yes/no)"

column,dtype,n_unique,pct_unique,sample_values,reasons
OnlineSecurity,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, frases de servi√ßo"
TechSupport,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, frases de servi√ßo"


> Esta pr√≥xima etapa executa a padroniza√ß√£o categ√≥rica declarada explicitamente, derivada do diagn√≥stico da Se√ß√£o 3.
> As transforma√ß√µes s√£o irrevers√≠veis no pipeline, restritas √†s features do contrato e sem aplica√ß√£o de encoding.

In [6]:
from src.features.categorical_standardization import run_categorical_standardization
from src.reporting.ui import render_categorical_standardization_report

# Nota: a execu√ß√£o aplica normaliza√ß√£o textual m√≠nima (strip + lower + colapso de espa√ßos).
S3_CAT_STD_MAP = {"no internet service": "no"}
S3_CAT_STD_COLS = ["OnlineSecurity", "TechSupport"]

payload_std = run_categorical_standardization(
    df=payload["df"],
    scope=payload.get("scope"),
    phrase_map=S3_CAT_STD_MAP,
    cols_scope=S3_CAT_STD_COLS,
)

render_categorical_standardization_report(payload_std)
df = payload_std["df"]


M√©trica,Antes,Depois,Œî
Linhas,7043.0,7043.0,0.0
Colunas,9.0,9.0,0.0
Mem√≥ria (MB),2.77,2.72,-0.05

from,to
no internet service,no

column,rule_type,cells_changed,examples
OnlineSecurity,service_phrase_map,1526,no internet service‚Üíno
TechSupport,service_phrase_map,1526,no internet service‚Üíno


> Esta pr√≥xima etapa realiza uma auditoria **somente diagn√≥stica** da coluna target, verificando
> presen√ßa, dom√≠nio e consist√™ncia b√°sica dos valores, **sem aplicar qualquer transforma√ß√£o**.
> O objetivo √© validar se o target est√° adequado para a etapa de modelagem.

In [7]:
from src.features.target_audit import run_target_audit
from src.reporting.ui import render_target_audit_report

# dom√≠nio esperado do Telco churn
EXPECTED_TARGET = ["Yes", "No"]

payload_s33 = run_target_audit(
    df=df,
    scope=scope,
    expected_values=EXPECTED_TARGET
)

render_target_audit_report(payload_s33)

value,count,pct
No,5174,73.46
Yes,1869,26.54


## 4 - Tratamento de Dados Faltantes
> Esta se√ß√£o executa o tratamento expl√≠cito de dados faltantes, por meio de imputa√ß√£o controlada e audit√°vel.
> A execu√ß√£o √© irrevers√≠vel no pipeline, restrita √†s features do contrato, com preserva√ß√£o expl√≠cita do target.

In [8]:
from src.features.missing_imputation import run_missing_imputation
from src.reporting.ui import render_missing_imputation_report

# decision: decis√£o expl√≠cita (SEM defaults escondidos)
decision_s4 = {
    # se None: assume inten√ß√£o = todas as features (ainda filtradas pelo scope)
    "include_cols": None,
    # opcional: colunas explicitamente exclu√≠das
    "exclude_cols": [],
    # obrigat√≥rio
    "numeric_strategy": "median",            # "median" | "mean" | "constant"
    "categorical_strategy": "most_frequent", # "most_frequent" | "constant"
}

payload_s4 = run_missing_imputation(df=df, scope=scope, decision=decision_s4)
df = payload_s4["df"]  # mant√©m seu padr√£o de sempre avan√ßar com df
render_missing_imputation_report(payload_s4)

M√©trica,Antes,Depois,Œî
Linhas,7043.0,7043.0,0.0
Colunas,9.0,9.0,0.0
Mem√≥ria (MB),2.72,2.72,0.0

column,kind,strategy,fill_value_used
tenure,numeric,median,29.0
Contract,categorical,most_frequent,Month-to-month
InternetService,categorical,most_frequent,Fiber optic
OnlineSecurity,categorical,most_frequent,no
TechSupport,categorical,most_frequent,no
MonthlyCharges,numeric,median,70.35
PaperlessBilling,categorical,most_frequent,Yes
PaymentMethod,categorical,most_frequent,Electronic check
