# Modelagem Preditiva de Churn – Telecom X (Parte 2)

> **Objetivo:** treinar, avaliar e comparar modelos de classificação para prever **evasão** (*churn*), 
mantendo o **pipeline reprodutível** e evitando *data leakage*.
Este notebook **preserva a narrativa explicativa** (títulos + bullets) e inclui **oversampling com SMOTE** dentro do pipeline (opcional).

**Sumário**
1. Contexto e premissas
2. Carregamento do dataset base
3. Target, *features* e distribuição de classes
4. Split estratificado (treino/teste)
5. Pré-processamento (One-Hot + StandardScaler)
6. Pipelines **com** e **sem** SMOTE
7. Validação cruzada (5-fold) e quadro comparativo
8. Ajuste final e avaliação em teste (métricas, matriz de confusão, ROC)
9. Importâncias (Random Forest)
10. Conclusões rápidas e próximos passos


## 1) Contexto e premissas
- O arquivo `dataset_base.csv` foi exportado no **Notebook 01**.
- A coluna alvo se chama **`Evasao`** (0 = não evadiu, 1 = evadiu).
- O **SMOTE** será aplicado **apenas no conjunto de treino** (e dentro do pipeline) para evitar *data leakage*.


### Pacotes e configuração

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, StratifiedKFold, cross_validate
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, RocCurveDisplay
from sklearn.pipeline import Pipeline

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

from imblearn.pipeline import Pipeline as ImbPipeline
from imblearn.over_sampling import SMOTE

import matplotlib.pyplot as plt

RANDOM_STATE = 42
pd.set_option("display.max_columns", 200)


## 2) Carregamento do dataset base

In [None]:
DATA_PATH = "dataset_base.csv"
df = pd.read_csv(DATA_PATH)
print("Shape:", df.shape)
display(df.head(3))


## 3) Target, *features* e distribuição de classes

In [None]:
TARGET_COL = "Evasao"  # ajuste aqui se preferir renomear para 'Churn' no Notebook 01

assert TARGET_COL in df.columns, f"Coluna alvo '{TARGET_COL}' não encontrada."
X = df.drop(columns=[TARGET_COL])
y = df[TARGET_COL]

print("Distribuição do target (absoluta):")
print(y.value_counts())

print("\nDistribuição do target (proporção):")
print((y.value_counts(normalize=True)*100).round(2).astype(str) + "%")


## 4) Split estratificado (treino/teste)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_STATE, stratify=y
)
print("Shapes -> X_train:", X_train.shape, "| X_test:", X_test.shape)


## 5) Pré-processamento (One-Hot + StandardScaler)

In [None]:
cat_cols = X.select_dtypes(include=['object', 'category']).columns.tolist()
num_cols = X.select_dtypes(include=[np.number]).columns.tolist()

print(f"Categóricas ({len(cat_cols)}):", cat_cols[:20], "..." if len(cat_cols)>20 else "")
print(f"Numéricas   ({len(num_cols)}):", num_cols[:20], "..." if len(num_cols)>20 else "")

preprocess_lr = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), num_cols),
        ("cat", OneHotEncoder(handle_unknown="ignore", drop="first", sparse=False), cat_cols),
    ]
)

preprocess_tree = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(with_mean=False), num_cols),
        ("cat", OneHotEncoder(handle_unknown="ignore", sparse=False), cat_cols),
    ]
)


## 6) Pipelines **com** e **sem** SMOTE

In [None]:
models = {
    "LogReg": LogisticRegression(max_iter=1000, random_state=RANDOM_STATE),
    "RandomForest": RandomForestClassifier(n_estimators=300, random_state=RANDOM_STATE, n_jobs=-1),
    "KNN": KNeighborsClassifier(n_neighbors=11),
}

pipelines_no_smote = {
    "LogReg_noSMOTE": Pipeline(steps=[("preprocess", preprocess_lr), ("model", models["LogReg"])]),
    "RF_noSMOTE":     Pipeline(steps=[("preprocess", preprocess_tree), ("model", models["RandomForest"])]),
    "KNN_noSMOTE":    Pipeline(steps=[("preprocess", preprocess_lr), ("model", models["KNN"])]),
}

pipelines_smote = {
    "LogReg_SMOTE": ImbPipeline(steps=[("preprocess", preprocess_lr), ("smote", SMOTE(random_state=RANDOM_STATE)), ("model", models["LogReg"])]),
    "RF_SMOTE":     ImbPipeline(steps=[("preprocess", preprocess_tree), ("smote", SMOTE(random_state=RANDOM_STATE)), ("model", models["RandomForest"])]),
    "KNN_SMOTE":    ImbPipeline(steps=[("preprocess", preprocess_lr), ("smote", SMOTE(random_state=RANDOM_STATE)), ("model", models["KNN"])]),
}

list(pipelines_no_smote.keys()), list(pipelines_smote.keys())


## 7) Validação cruzada (5-fold) e quadro comparativo

In [None]:
scoring = {"accuracy":"accuracy","precision":"precision","recall":"recall","f1":"f1","roc_auc":"roc_auc"}
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

def run_cv(pipelines_dict, label):
    cv_results = {}
    for name, pipe in pipelines_dict.items():
        scores = cross_validate(pipe, X_train, y_train, cv=cv, scoring=scoring, n_jobs=-1, return_train_score=False)
        cv_results[name] = {m: (scores[f"test_{m}"].mean(), scores[f"test_{m}"].std()) for m in scoring}
    df_cv = pd.DataFrame({m: {k: f"{v[m][0]:.3f} ± {v[m][1]:.3f}" for k, v in cv_results.items()} for m in scoring})
    df_cv = df_cv.T
    df_cv.index.name = f"Métrica ({label})"
    return df_cv

cv_no = run_cv(pipelines_no_smote, "sem SMOTE")
cv_sm = run_cv(pipelines_smote, "com SMOTE")

print("=== Validação Cruzada (SEM SMOTE) ===")
display(cv_no)
print("\n=== Validação Cruzada (COM SMOTE) ===")
display(cv_sm)


## 8) Ajuste final e avaliação em teste (métricas, matriz de confusão, ROC)

In [None]:
def evaluate_and_plot(pipe, X_train, y_train, X_test, y_test, title):
    pipe.fit(X_train, y_train)
    y_pred = pipe.predict(X_test)
    y_proba = pipe.predict_proba(X_test)[:, 1] if hasattr(pipe, "predict_proba") else None

    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred)
    rec = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    roc = roc_auc_score(y_test, y_proba) if y_proba is not None else np.nan

    print(f"{title} -> Accuracy: {acc:.3f} | Precision: {prec:.3f} | Recall: {rec:.3f} | F1: {f1:.3f} | ROC-AUC: {roc:.3f}")
    cm = confusion_matrix(y_test, y_pred)
    print("Matriz de Confusão:\n", cm)

    if y_proba is not None:
        RocCurveDisplay.from_predictions(y_test, y_proba)
        plt.title(f"Curva ROC - {title}")
        plt.show()
    return {"accuracy": acc, "precision": prec, "recall": rec, "f1": f1, "roc_auc": roc}

models_to_test = [
    ("RF_noSMOTE", pipelines_no_smote["RF_noSMOTE"]),
    ("RF_SMOTE", pipelines_smote["RF_SMOTE"]),
    ("LogReg_noSMOTE", pipelines_no_smote["LogReg_noSMOTE"]),
    ("LogReg_SMOTE", pipelines_smote["LogReg_SMOTE"]),
]

final_results = {}
for name, pipe in models_to_test:
    print("\n" + "="*90)
    final_results[name] = evaluate_and_plot(pipe, X_train, y_train, X_test, y_test, title=name)

results_df = pd.DataFrame(final_results).T.sort_values("f1", ascending=False)
display(results_df)


## 9) Importâncias (Random Forest)

In [None]:
rf_smote = pipelines_smote["RF_SMOTE"]
rf_smote.fit(X_train, y_train)

ohe = rf_smote.named_steps["preprocess"].named_transformers_["cat"]
cat_feature_names = list(ohe.get_feature_names_out()) if hasattr(ohe, "get_feature_names_out") else [f"cat_{i}" for i in range(len(X.columns))]
feature_names = num_cols + cat_feature_names

rf = rf_smote.named_steps["model"]
importances = rf.feature_importances_

imp_df = pd.DataFrame({"feature": feature_names, "importance": importances}).sort_values("importance", ascending=False).head(20)
display(imp_df)

plt.figure()
plt.barh(imp_df["feature"][::-1], imp_df["importance"][::-1])
plt.title("Top 20 Importâncias - Random Forest (com SMOTE)")
plt.xlabel("Importância")
plt.ylabel("Variável")
plt.tight_layout()
plt.show()



### 10-A. Análise de Importância das Variáveis (múltiplos métodos)

Nesta seção, complementamos a interpretação dos modelos:
- **Random Forest**: importância por redução de impureza (já implementada).
- **Regressão Logística**: coeficientes (após pré-processamento).
- **KNN**: *Permutation Importance* (importância por embaralhamento), já que o KNN não possui atributos nativos de importância.


In [None]:

from sklearn.inspection import permutation_importance
import numpy as np
import pandas as pd

def get_feature_names_from_preprocess(preprocess, num_cols, cat_cols):
    # Recupera nomes após transformação
    cat_transformer = preprocess.named_transformers_.get("cat", None)
    if cat_transformer is not None and hasattr(cat_transformer, "get_feature_names_out"):
        cat_names = list(cat_transformer.get_feature_names_out(cat_cols))
    else:
        cat_names = [f"{c}_encoded" for c in cat_cols]
    return num_cols + cat_names


In [None]:

# Importância via coeficientes (Regressão Logística) no pipeline SEM SMOTE para evitar viés do oversampling
logreg_pipe = pipelines_no_smote.get("LogReg_noSMOTE")
if logreg_pipe is not None:
    # Ajustar no treino
    logreg_pipe.fit(X_train, y_train)
    feature_names = get_feature_names_from_preprocess(
        logreg_pipe.named_steps["preprocess"], num_cols, cat_cols
    )
    clf = logreg_pipe.named_steps["model"]
    coefs = clf.coef_.ravel()
    imp_lr = pd.DataFrame({"feature": feature_names, "coef": coefs, "abs_coef": np.abs(coefs)})                 .sort_values("abs_coef", ascending=False).head(20)
    display(imp_lr)
else:
    print("Pipeline LogReg_noSMOTE não encontrado.")


In [None]:

# Importância por permutação para KNN (pipeline SEM SMOTE, medindo queda média no F1 em validação interna)
knn_pipe = pipelines_no_smote.get("KNN_noSMOTE")
if knn_pipe is not None:
    # Ajustar no treino
    knn_pipe.fit(X_train, y_train)
    # Permutation importance no conjunto de TESTE transformado pelo pipeline completo
    result = permutation_importance(
        knn_pipe, X_test, y_test, n_repeats=10, random_state=RANDOM_STATE, scoring="f1", n_jobs=-1
    )
    feature_names = get_feature_names_from_preprocess(
        knn_pipe.named_steps["preprocess"], num_cols, cat_cols
    )
    imp_knn = pd.DataFrame({
        "feature": feature_names,
        "importance_mean": result.importances_mean,
        "importance_std": result.importances_std
    }).sort_values("importance_mean", ascending=False).head(20)
    display(imp_knn)
else:
    print("Pipeline KNN_noSMOTE não encontrado.")



> **Nota:** Importâncias podem variar entre técnicas.  
> Use **coeficientes** para modelos lineares, **redução de impureza** para árvores e **permutation importance** como abordagem agnóstica ao modelo.


## 10) Conclusões rápidas e próximos passos
- Compare as tabelas de cross-validation **com** e **sem** SMOTE. Observe **Recall** e **F1**.
- Se o objetivo de negócio for **reduzir falsos negativos** (não deixar evadir), priorize **Recall** (e considere ajustar limiar de decisão).
- Próximos passos:
  - *GridSearchCV* para refinar hiperparâmetros do(s) melhor(es) pipeline(s).
  - SHAP para interpretabilidade local.
  - Exportar o pipeline final com `joblib`.
