# üìë Notebook 3 ‚Äî Relat√≥rio Final com Gr√°ficos (Telecom X)

## Objetivo
Elaborar um relat√≥rio detalhado destacando os fatores que mais influenciam a **evas√£o (churn)**, com base nas vari√°veis selecionadas e no desempenho do **modelo exportado** no Notebook 2.  
Identificar os principais fatores que afetam a evas√£o e **propor estrat√©gias de reten√ß√£o** com base nos resultados obtidos.

---

## 1) Carregar artefatos do Notebook 2

In [None]:
import os, joblib, numpy as np, pandas as pd
from sklearn.metrics import classification_report, confusion_matrix

MODEL_PATH = "artefatos/modelo_churn_telecomx.pkl"
ARTEFATOS_PATH = "artefatos/artefatos_modelagem.pkl"
TESTSET_PATH = "artefatos/conjunto_teste.pkl"

if not (os.path.exists(MODEL_PATH) and os.path.exists(ARTEFATOS_PATH) and os.path.exists(TESTSET_PATH)):
    raise FileNotFoundError("N√£o encontrei os artefatos exportados. Rodar o Notebook 2 at√© a etapa de exporta√ß√£o.")

best_pipe = joblib.load(MODEL_PATH)
artefatos = joblib.load(ARTEFATOS_PATH)
teste = joblib.load(TESTSET_PATH)
X_test, y_test = teste["X_test"], teste["y_test"]

feature_names_saved = artefatos.get("feature_names")
importances_df_saved = artefatos.get("importances_df")
coefs_df_saved = artefatos.get("coefs_df")

print("Origem do melhor modelo:", artefatos.get("origem_melhor_modelo"))


## 2) Desempenho no teste

In [None]:
y_pred = best_pipe.predict(X_test)
print(classification_report(y_test, y_pred, digits=3))

**Interpretar:** priorizar **recall** em churn (classe 1) para **reduzir falsos negativos** (n√£o deixar evadir), aceitando mais falsos positivos quando necess√°rio.

## 3) Matriz de confus√£o (gr√°fico)

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred, labels=[0, 1])

fig = plt.figure()
plt.imshow(cm, interpolation='nearest')
plt.title('Matriz de Confus√£o ‚Äî Modelo Final')
plt.xlabel('Previsto')
plt.ylabel('Real')
plt.xticks([0,1], ['N√£o Evas√£o (0)', 'Evas√£o (1)'])
plt.yticks([0,1], ['N√£o Evas√£o (0)', 'Evas√£o (1)'])
for (i, j), val in np.ndenumerate(cm):
    plt.text(j, i, int(val), ha='center', va='center')
plt.tight_layout()
plt.show()

**Ler assim:** diagonal = acertos; fora da diagonal = erros.  
**Atentar:** falsos negativos (1 previsto como 0) s√£o cr√≠ticos em churn; medir impacto operacional do threshold de decis√£o.

## 4) Import√¢ncia por Permuta√ß√£o (p√≥s-OHE) ‚Äî Top 15

In [None]:
from sklearn.inspection import permutation_importance

# Detectar passo de pr√©-processamento
pre_step_name = None
for candidate in ["pre", "preprocess"]:
    if candidate in best_pipe.named_steps:
        pre_step_name = candidate
        break
if pre_step_name is None:
    raise RuntimeError("N√£o encontrei o passo de pr√©-processamento ('pre' ou 'preprocess').")

pre = best_pipe.named_steps[pre_step_name]
model = best_pipe.named_steps["model"]

# Transformar X_test para espa√ßo p√≥s-OHE
X_test_trans = pre.transform(X_test)

# Nomes p√≥s-OHE
ohe = pre.named_transformers_["cat"]
num_names = np.array(pre.transformers_[0][2], dtype=object)
cat_cols_ = pre.transformers_[1][2]
cat_names = ohe.get_feature_names_out(cat_cols_)
feature_names_perm = np.concatenate([num_names, cat_names])

# Calcular permutation importance no estimador final
perm = permutation_importance(
    model, X_test_trans, y_test,
    n_repeats=10, random_state=42, scoring="f1", n_jobs=-1
)
perm_df = (
    pd.DataFrame({
        "feature": feature_names_perm,
        "importance_mean": perm.importances_mean,
        "importance_std": perm.importances_std
    })
    .sort_values("importance_mean", ascending=False)
    .reset_index(drop=True)
)

# Plot Top-15 (matplotlib puro)
top = 15
plot_df = perm_df.head(top).iloc[::-1]
fig = plt.figure()
plt.barh(plot_df["feature"], plot_df["importance_mean"])
plt.title("Top 15 Vari√°veis por Import√¢ncia (Permutation Importance)")
plt.xlabel("Import√¢ncia m√©dia (Œî F1)")
plt.ylabel("Vari√°vel")
plt.tight_layout()
plt.show()

perm_df.head(20)

**Import√¢ncia por permuta√ß√£o:** medir quanto a m√©trica (F1) piorar ao embaralhar uma feature.  
**Interpretar:** quanto maior a barra, maior a contribui√ß√£o da vari√°vel para o desempenho do modelo no teste.

## 5) Fatores do modelo (import√¢ncias/coeficientes) ‚Äî opcional

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# Reconstruir nomes, se necess√°rio
feature_names_model = feature_names_saved if feature_names_saved is not None else None
if feature_names_model is None:
    try:
        feature_names_model = feature_names_perm  # j√° calculados acima
    except NameError:
        feature_names_model = None

if isinstance(best_pipe.named_steps["model"], RandomForestClassifier) and feature_names_model is not None:
    importances = best_pipe.named_steps["model"].feature_importances_
    imp_df = (
        pd.DataFrame({"feature": feature_names_model, "importance": importances})
        .sort_values("importance", ascending=False)
        .reset_index(drop=True)
    )
    # Plot Top-15 (matplotlib puro)
    plot_df2 = imp_df.head(15).iloc[::-1]
    fig = plt.figure()
    plt.barh(plot_df2["feature"], plot_df2["importance"])
    plt.title("Top 15 ‚Äî Import√¢ncia (Random Forest)")
    plt.xlabel("Import√¢ncia (impureza)")
    plt.ylabel("Vari√°vel")
    plt.tight_layout()
    plt.show()
    imp_df.head(20)

elif isinstance(best_pipe.named_steps["model"], LogisticRegression) and feature_names_model is not None:
    coefs = best_pipe.named_steps["model"].coef_.ravel()
    coef_df = (
        pd.DataFrame({"feature": feature_names_model, "coef": coefs})
        .assign(abs_coef=lambda d: d["coef"].abs())
        .sort_values("abs_coef", ascending=False)
        .reset_index(drop=True)
    )
    # Plot Top-15 |coef| (matplotlib puro)
    plot_df3 = coef_df.head(15).iloc[::-1]
    fig = plt.figure()
    plt.barh(plot_df3["feature"], plot_df3["abs_coef"])
    plt.title("Top 15 ‚Äî |Coef| (Logistic Regression)")
    plt.xlabel("|Coef|")
    plt.ylabel("Vari√°vel")
    plt.tight_layout()
    plt.show()
    coef_df.head(20)
else:
    print("Modelo n√£o √© RandomForest nem LogisticRegression ou n√£o foi poss√≠vel reconstruir feature_names.")

**Ler assim:**  
- **Random Forest:** import√¢ncia baseada na redu√ß√£o m√©dia de impureza.  
- **Logistic Regression:** coeficiente positivo associar a **maior** probabilidade de churn; negativo associar a **menor** probabilidade.  
**Cautela:** tratar como **associa√ß√£o**, n√£o causalidade.

## 6) Recomenda√ß√µes de reten√ß√£o (a partir dos gr√°ficos)

- **Priorizar** clientes com **tenure baixo** e **contrato mensal** para **migrar** para 1‚Äì2 anos com incentivo.  
- **Oferecer** **Suporte T√©cnico** e **Seguran√ßa Online** como benef√≠cio de fidelidade em perfis de alto risco.  
- **Aprimorar** a jornada de **Fatura Digital** e **migrar** **Electronic check** para **autopay**.  
- **Monitorar** a experi√™ncia de clientes em **fibra** e **priorizar** SLA onde houver degrada√ß√£o.  
- **Calibrar** o **threshold** para **maximizar recall** com custo controlado de falsos positivos; **mensurar** convers√£o por segmento.

## 7) Pr√≥ximos passos

- **Avaliar** ROC-AUC e PR-AUC; **rodar** valida√ß√£o cruzada estratificada.  
- **Calibrar** probabilidades (*CalibratedClassifierCV*) e **ajustar** o threshold ao custo de neg√≥cio.  
- **Monitorar** *drift* e **re-treinar** periodicamente.  
- **Enriquecer** dados com vari√°veis de **qualidade de servi√ßo**, **pre√ßo/promos** e **hist√≥rico de contato**.