
# Modelagem Preditiva de Churn – Telecom X (Parte 2)

Este notebook treina e avalia modelos de classificação para prever churn.  
Ele assume que o arquivo `dataset_base.csv` foi exportado no Notebook 01.

## Etapas
1. Carregamento do dataset base
2. Separação entre features e target
3. Divisão treino/teste estratificada
4. Pré-processamento com `ColumnTransformer` (One-Hot para categóricas, StandardScaler para numéricas)
5. Treinamento de múltiplos modelos (Regressão Logística, Random Forest, KNN)
6. Avaliação com métricas (accuracy, precision, recall, f1, ROC-AUC) e matriz de confusão
7. Importância de variáveis (Random Forest) e interpretação básica
8. Comparativo final entre modelos


### 1. Importações e Configuração

In [None]:

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, StratifiedKFold, cross_validate
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, RocCurveDisplay

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

import matplotlib.pyplot as plt

RANDOM_STATE = 42
pd.set_option("display.max_columns", 200)


### 2. Carregar o dataset base

In [None]:

# Ajuste o caminho se necessário
DATA_PATH = "dataset_base.csv"
df = pd.read_csv(DATA_PATH)
print("Shape:", df.shape)
df.head()


### 3. Definir target e features

In [None]:

# Nome da coluna alvo (ajuste se o seu target tiver outro nome)
TARGET_COL = "Churn"

assert TARGET_COL in df.columns, f"Coluna alvo '{TARGET_COL}' não encontrada no dataset."

X = df.drop(columns=[TARGET_COL])
y = df[TARGET_COL]

# Garantir que o target está binário (0/1). Se estiver como texto, converte:
if y.dtype == 'O':
    # mapeia 'Yes'/'No' ou 'Sim'/'Não' automaticamente
    mapping = {v:i for i, v in enumerate(sorted(y.unique()))}
    print("Mapeando target categórico para binário:", mapping)
    y = y.map(mapping)

print("Proporção de classe positiva (1):", y.mean())


### 4. Identificar tipos de variáveis

In [None]:

# Detectar automaticamente colunas categóricas (object e category) e numéricas
cat_cols = X.select_dtypes(include=['object', 'category']).columns.tolist()
num_cols = X.select_dtypes(include=[np.number]).columns.tolist()

print(f"Categóricas ({len(cat_cols)}):", cat_cols[:20], "..." if len(cat_cols)>20 else "")
print(f"Numéricas   ({len(num_cols)}):", num_cols[:20], "..." if len(num_cols)>20 else "")


### 5. Split Treino/Teste (estratificado)

In [None]:

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_STATE, stratify=y
)
print("Shapes -> X_train:", X_train.shape, "| X_test:", X_test.shape)


### 6. Pré-processamento (ColumnTransformer)

In [None]:

# One-Hot para categóricas (drop='first' evita colinearidade), StandardScaler para numéricas
preprocess = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), num_cols),
        ("cat", OneHotEncoder(handle_unknown="ignore", drop="first"), cat_cols),
    ]
)


### 7. Definir modelos e Pipelines

In [None]:

models = {
    "LogReg": LogisticRegression(max_iter=1000, random_state=RANDOM_STATE),
    "RandomForest": RandomForestClassifier(
        n_estimators=300, max_depth=None, random_state=RANDOM_STATE, n_jobs=-1
    ),
    "KNN": KNeighborsClassifier(n_neighbors=11)
}

pipelines = {name: Pipeline(steps=[("preprocess", preprocess), ("model", clf)]) 
             for name, clf in models.items()}
list(pipelines.keys())


### 8. Treino e avaliação (cross-validation e teste holdout)

In [None]:

scoring = {
    "accuracy": "accuracy",
    "precision": "precision",
    "recall": "recall",
    "f1": "f1",
    "roc_auc": "roc_auc"
}

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

cv_results = {}
for name, pipe in pipelines.items():
    scores = cross_validate(pipe, X_train, y_train, cv=cv, scoring=scoring, n_jobs=-1, return_train_score=False)
    cv_results[name] = {m: (scores[f'test_{m}'].mean(), scores[f'test_{m}'].std()) for m in scoring.keys()}

pd.DataFrame({m: {k: f"{v[m][0]:.3f} ± {v[m][1]:.3f}" for k, v in cv_results.items()} for m in scoring.keys()})


### 9. Ajuste final em treino e avaliação em teste (métricas e matriz de confusão)

In [None]:

def evaluate_and_plot(pipe, X_train, y_train, X_test, y_test, title):
    pipe.fit(X_train, y_train)
    y_pred = pipe.predict(X_test)
    y_proba = pipe.predict_proba(X_test)[:, 1] if hasattr(pipe, "predict_proba") else None

    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred)
    rec = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    roc = roc_auc_score(y_test, y_proba) if y_proba is not None else np.nan

    print(f"{title} -> Accuracy: {acc:.3f} | Precision: {prec:.3f} | Recall: {rec:.3f} | F1: {f1:.3f} | ROC-AUC: {roc:.3f}")

    cm = confusion_matrix(y_test, y_pred)
    print("Matriz de Confusão:\n", cm)

    # Curva ROC (apenas se houver probas)
    if y_proba is not None:
        RocCurveDisplay.from_predictions(y_test, y_proba)
        plt.title(f"Curva ROC - {title}")
        plt.show()

    return pipe, {"accuracy": acc, "precision": prec, "recall": rec, "f1": f1, "roc_auc": roc}

final_results = {}
fitted_pipes = {}
for name, pipe in pipelines.items():
    print("\n" + "="*80)
    fitted, metrics = evaluate_and_plot(pipe, X_train, y_train, X_test, y_test, title=name)
    fitted_pipes[name] = fitted
    final_results[name] = metrics

pd.DataFrame(final_results).T.sort_values("f1", ascending=False)


### 10. Importância de variáveis (Random Forest)

In [None]:

# Importância de variáveis do RandomForest após o pré-processamento
rf_pipe = fitted_pipes.get("RandomForest")
if rf_pipe is not None:
    # Recuperar nomes das features após transformação
    ohe = rf_pipe.named_steps["preprocess"].named_transformers_["cat"]
    cat_feature_names = []
    if hasattr(ohe, "get_feature_names_out"):
        cat_feature_names = list(ohe.get_feature_names_out(cat_cols))
    else:
        # fallback simples
        cat_feature_names = [f"{c}_{i}" for c in cat_cols for i in range(1,2)]

    feature_names = num_cols + cat_feature_names

    rf = rf_pipe.named_steps["model"]
    importances = rf.feature_importances_

    # Ordenar
    imp_df = pd.DataFrame({"feature": feature_names, "importance": importances})                 .sort_values("importance", ascending=False).head(20)

    display(imp_df)

    # Plot simples
    plt.figure()
    plt.barh(imp_df["feature"][::-1], imp_df["importance"][::-1])
    plt.title("Top 20 Importâncias - Random Forest")
    plt.xlabel("Ganho de Importância")
    plt.ylabel("Variável")
    plt.tight_layout()
    plt.show()
else:
    print("RandomForest não foi ajustado.")


### 11. Comparativo final e salvamento dos resultados

In [None]:

results_df = pd.DataFrame(final_results).T
results_df = results_df.sort_values(by="f1", ascending=False)
display(results_df)

# Salvar comparativo
results_path = "resultados_modelos.csv"
results_df.to_csv(results_path, index=True)
print(f"Resultados salvos em: {results_path}")



### Próximos passos (opcional)
- Ajuste fino de hiperparâmetros (GridSearchCV / RandomizedSearchCV) para o(s) melhor(es) modelo(s).
- Interpretabilidade local (ex.: SHAP) para explicar previsões individuais.
- Definição de limiar de decisão conforme objetivo de negócio (otimizar Recall vs. Precision).
- Exportar o melhor pipeline com `joblib` para uso posterior em produção ou em um app de demonstração.
