# üå≥ √Årvore de Decis√£o ‚Äî Churn do Produto A
**P√≥s-Gradua√ß√£o BI & Analytics ¬∑ An√°lise Complementar ao Logit**

---

### Por que √Årvore de Decis√£o aqui?

O Logit entregou AUC ~0.83 e interpreta√ß√£o via coeficientes lineares.  
A √°rvore de decis√£o vai mostrar **como o modelo raciocina em regras** ‚Äî a l√≥gica em forma de `if/else`.  
Isso tem duas vantagens pr√°ticas:

- **Interpretabilidade visual direta** ‚Äî qualquer pessoa de neg√≥cio consegue seguir o fluxo
- **Captura intera√ß√µes** ‚Äî o modelo descobre que `segmento_A = 1 E nps_score < 5` √© especialmente perigoso, sem precisar que a gente especifique essa intera√ß√£o

### Rela√ß√£o com os outros modelos

| Modelo | Interpreta como | Captura intera√ß√µes | AUC t√≠pico |
|---|---|---|---|
| Logit | Coeficientes lineares | ‚ùå N√£o | 0.82‚Äì0.86 |
| **√Årvore de Decis√£o** | **Regras if/else** | **‚úÖ Sim** | 0.80‚Äì0.88 |
| XGBoost | SHAP values | ‚úÖ Sim (muito) | 0.87‚Äì0.92 |

---
### Roteiro
1. Importar e preparar os dados (mesmo pr√©-processamento do Logit)
2. Problema de profundidade: overfitting vs. underfitting
3. Encontrar a profundidade √≥tima
4. Treinar o modelo final
5. Visualizar a √°rvore (interpreta√ß√£o visual)
6. Extrair regras de decis√£o em texto
7. Avaliar: Matriz de Confus√£o, AUC-ROC
8. Import√¢ncia das features
9. Comparar com Logit
10. Sa√≠da acion√°vel: segmentos de risco com regras claras

In [None]:
# ‚îÄ‚îÄ Imports ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

from sklearn.tree import DecisionTreeClassifier, export_text, plot_tree
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (
    confusion_matrix, classification_report,
    roc_auc_score, roc_curve,
    accuracy_score, f1_score,
    precision_score, recall_score
)

plt.rcParams.update({
    'figure.dpi': 130,
    'font.family': 'DejaVu Sans',
    'axes.spines.top': False,
    'axes.spines.right': False,
})

COR_CHURN  = '#c84b2f'
COR_OK     = '#2f6ec8'
COR_NEUTRO = '#94a3b8'

print('‚úÖ Bibliotecas carregadas')

## 1. Preparar os Dados

In [None]:
# ‚îÄ‚îÄ Carregar dados ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
URL = 'https://raw.githubusercontent.com/SEU_USUARIO/ml-bi-analytics-aula/main/data/clientes_produto_A.csv'
# df = pd.read_csv('clientes_produto_A.csv')  # local
df = pd.read_csv(URL)
print(f'Shape: {df.shape}')

# ‚îÄ‚îÄ Pr√©-processamento (id√™ntico ao notebook do Logit) ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_model = pd.get_dummies(
    df.drop(columns=['id_cliente', 'segmento', 'prob_churn_real'], errors='ignore'),
    columns=['regiao', 'porte'],
    drop_first=True
)

TARGET   = 'reduziu_compras'
X        = df_model.drop(columns=[TARGET])
y        = df_model[TARGET]
FEATURES = list(X.columns)

# Imputar missing com mediana
imputer = SimpleImputer(strategy='median')
X_imp   = pd.DataFrame(imputer.fit_transform(X), columns=FEATURES)

# Split estratificado
X_train, X_test, y_train, y_test = train_test_split(
    X_imp, y, test_size=0.2, stratify=y, random_state=42
)

print(f'Treino: {X_train.shape} | Teste: {X_test.shape}')
print(f'Churn rate: {y.mean():.1%}')
print()
print('üìå √Årvore de decis√£o N√ÉO precisa de StandardScaler.')
print('   O algoritmo usa thresholds ‚Äî a escala das vari√°veis √© irrelevante.')

## 2 + 3. O Problema da Profundidade

> **Profundidade pequena** ‚Üí underfitting: √°rvore simplista, n√£o captura padr√µes reais.  
> **Profundidade grande** ‚Üí overfitting: decora o treino, generaliza mal.  
> Encontrar o ponto de equil√≠brio √© o principal hiperpar√¢metro da √°rvore.

In [None]:
# ‚îÄ‚îÄ Curva de complexidade: AUC treino vs. teste por profundidade ‚îÄ‚îÄ‚îÄ
depths     = range(1, 14)
aucs_train = []
aucs_test  = []
aucs_cv    = []

for d in depths:
    dt_tmp = DecisionTreeClassifier(
        max_depth=d, random_state=42,
        class_weight='balanced', min_samples_leaf=15
    )
    dt_tmp.fit(X_train, y_train)
    aucs_train.append(roc_auc_score(y_train, dt_tmp.predict_proba(X_train)[:, 1]))
    aucs_test.append(roc_auc_score(y_test,  dt_tmp.predict_proba(X_test)[:, 1]))

    cv = cross_val_score(
        DecisionTreeClassifier(max_depth=d, random_state=42,
                               class_weight='balanced', min_samples_leaf=15),
        X_imp, y, cv=5, scoring='roc_auc'
    )
    aucs_cv.append(cv.mean())

best_depth = list(depths)[np.argmax(aucs_cv)]

fig, ax = plt.subplots(figsize=(10, 4.5))
ax.plot(depths, aucs_train, 'o-', color=COR_NEUTRO, lw=2, ms=6,
        label='AUC ‚Äî Treino (otimista)')
ax.plot(depths, aucs_test,  's-', color=COR_OK,    lw=2, ms=6,
        label='AUC ‚Äî Teste')
ax.plot(depths, aucs_cv,    '^-', color=COR_CHURN, lw=2, ms=6,
        label='AUC ‚Äî Cross-val 5-fold (mais confi√°vel)')
ax.axvline(best_depth, color='#1a1a1a', lw=1.5, linestyle='--',
           label=f'Profundidade √≥tima: {best_depth}')
ax.fill_betweenx([0.5, 1.01], best_depth - 0.4, best_depth + 0.4,
                 alpha=0.08, color='#1a1a1a')
ax.annotate('‚Üê Underfitting', xy=(2, aucs_cv[1]),
            xytext=(2.4, 0.72), fontsize=8.5, color='#888')
ax.annotate('Overfitting ‚Üí\n(treino ‚Üë, teste ‚Üì)', xy=(10, aucs_train[9]),
            xytext=(9.2, 0.84), fontsize=8.5, color='#888', ha='center')
ax.set(xlabel='Profundidade m√°xima (max_depth)', ylabel='AUC-ROC',
       title='Curva de Complexidade ‚Äî Underfitting vs. Overfitting',
       xlim=(0.8, max(depths) + 0.2), ylim=(0.65, 1.01))
ax.legend(fontsize=9)
plt.tight_layout()
plt.show()

print(f'Profundidade √≥tima (cross-val): {best_depth}')
print(f'AUC cross-val: {aucs_cv[best_depth-1]:.3f}')
print(f'AUC teste:     {aucs_test[best_depth-1]:.3f}')

## 4. Treinar o Modelo Final

In [None]:
# ‚îÄ‚îÄ Modelo final ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
dt = DecisionTreeClassifier(
    max_depth         = best_depth,
    class_weight      = 'balanced',
    min_samples_leaf  = 20,    # n√≥ folha precisa de pelo menos 20 amostras
    min_samples_split = 40,    # n√≥ interno precisa de pelo menos 40 para dividir
    random_state      = 42
)
dt.fit(X_train, y_train)

y_pred  = dt.predict(X_test)
y_proba = dt.predict_proba(X_test)[:, 1]

print('Par√¢metros do modelo final:')
print(f'  max_depth:           {dt.max_depth}')
print(f'  N√≥s totais:          {dt.tree_.node_count}')
print(f'  Folhas (segmentos):  {dt.get_n_leaves()}')
print(f'  Features utilizadas: {(dt.feature_importances_ > 0).sum()} de {len(FEATURES)}')
print()
print('M√©tricas no conjunto de teste:')
print(f'  AUC-ROC  : {roc_auc_score(y_test, y_proba):.3f}')
print(f'  Acur√°cia : {accuracy_score(y_test, y_pred):.3f}')
print(f'  Recall   : {recall_score(y_test, y_pred):.3f}')
print(f'  Precis√£o : {precision_score(y_test, y_pred):.3f}')
print(f'  F1-Score : {f1_score(y_test, y_pred):.3f}')

## 5. Visualizar a √Årvore

> Esta √© a principal vantagem da √°rvore de decis√£o sobre outros modelos:  
> **qualquer pessoa de neg√≥cio consegue seguir a l√≥gica de cima para baixo.**

In [None]:
# ‚îÄ‚îÄ Nomes leg√≠veis para os n√≥s ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
nomes_legiveis = {
    'segmento_A':            'Segmento A',
    'var_compras_6m':        'Var. Compras 6m (%)',
    'freq_compras_trim':     'Freq. Compras/Trim',
    'ticket_medio_ratio':    'Ticket M√©dio Ratio',
    'tempo_cliente_anos':    'Tempo Cliente (anos)',
    'nps_score':             'NPS Score',
    'canal_digital':         'Canal Digital',
    'vendedor_rotatividade': 'Rot. Vendedor',
    'inadimplencia_hist':    'Inadimpl√™ncia Hist.',
}
feature_names_plot = [nomes_legiveis.get(f, f) for f in FEATURES]

# ‚îÄ‚îÄ Plotar √°rvore ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(22, 9))
plot_tree(
    dt,
    feature_names = feature_names_plot,
    class_names   = ['N√£o reduziu', 'Reduziu'],
    filled        = True,
    rounded       = True,
    fontsize      = 8,
    ax            = ax,
    impurity      = False,
    precision     = 2,
)
ax.set_title(
    '√Årvore de Decis√£o ‚Äî Churn do Produto A\n'
    '(azul = majoritariamente n√£o-churn  |  laranja = majoritariamente churn)',
    fontsize=12, fontweight='bold', pad=14
)
plt.tight_layout()
plt.show()

print('üí° Como ler a √°rvore:')
print('   ‚Ä¢ Cada n√≥ mostra a regra de divis√£o (ex: NPS ‚â§ 4.5)')
print('   ‚Ä¢ Cor mais intensa = maior pureza do n√≥')
print('   ‚Ä¢ Folhas laranjas = segmento de alto risco de churn')
print('   ‚Ä¢ Folhas azuis   = segmento de baixo risco')

## 6. Regras de Decis√£o em Texto

> A √°rvore pode ser exportada como regras `if/else` em linguagem natural.  
> O time de neg√≥cio pode aplicar essas regras **sem abrir o Python**.

In [None]:
# ‚îÄ‚îÄ Exportar como texto ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
regras = export_text(
    dt,
    feature_names = feature_names_plot,
    decimals      = 2,
    show_weights  = True
)
print('=== REGRAS DE DECIS√ÉO (formato if/else) ===')
print(regras)

In [None]:
# ‚îÄ‚îÄ Resumo das folhas: quais segmentos t√™m alto risco? ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tree_ = dt.tree_

print('=== FOLHAS DA √ÅRVORE ===\n')
print(f"{'Folha':>6}  {'N amostras':>10}  {'% churn':>9}  {'Classifica√ß√£o'}")
print('‚îÄ' * 55)

for node_id in range(tree_.node_count):
    if tree_.children_left[node_id] != -1:
        continue  # n√£o √© folha
    n_total   = int(tree_.n_node_samples[node_id])
    n_class   = tree_.value[node_id][0]
    pct_churn = n_class[1] / n_class.sum()
    classe    = 'üî¥ ALTO RISCO' if pct_churn > 0.55 else 'üü¢ Baixo risco'
    print(f'  {node_id:>4}  {n_total:>10,}  {pct_churn:>8.1%}  {classe}')

print()
print('üí° Cada folha √© um segmento homog√™neo.')
print('   Folhas vermelhas ‚Üí a√ß√£o comercial priorit√°ria.')

In [None]:
# ‚îÄ‚îÄ Em que n√≠vel cada feature aparece? ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Features no n√≠vel 0 (raiz) t√™m o maior poder discriminat√≥rio global.
feature_depth = {}

def traverse(node, depth):
    if tree_.children_left[node] == -1:
        return
    fname = feature_names_plot[tree_.feature[node]]
    feature_depth.setdefault(fname, []).append(depth)
    traverse(tree_.children_left[node],  depth + 1)
    traverse(tree_.children_right[node], depth + 1)

traverse(0, 0)

print('Features por n√≠vel da √°rvore (n√≠vel 0 = raiz = mais discriminante):\n')
for nivel in range(best_depth):
    feats = [f for f, ds in feature_depth.items() if nivel in ds]
    if feats:
        print(f'  N√≠vel {nivel}: {" | ".join(feats)}')

## 7. Avalia√ß√£o ‚Äî Matriz de Confus√£o e AUC-ROC

In [None]:
# ‚îÄ‚îÄ M√©tricas completas ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
cm  = confusion_matrix(y_test, y_pred)
auc = roc_auc_score(y_test, y_proba)
fpr, tpr, _ = roc_curve(y_test, y_proba)

fig, axes = plt.subplots(1, 3, figsize=(15, 4.5))

# Matriz de confus√£o
axes[0].imshow(cm, cmap='Blues')
labels_cm = [['TN\n(acertou n√£o-churn)', 'FP\n(alarme falso)'],
             ['FN\n(perdeu churn)',       'TP\n(pegou churn)']]
for i in range(2):
    for j in range(2):
        cor_txt = 'white' if cm[i, j] > cm.max() / 2 else '#1a1a1a'
        axes[0].text(j, i, f'{cm[i,j]:,}\n{labels_cm[i][j]}',
                     ha='center', va='center', fontsize=9, color=cor_txt)
axes[0].set(xticks=[0, 1], yticks=[0, 1],
            xticklabels=['Previsto: N√£o', 'Previsto: Sim'],
            yticklabels=['Real: N√£o', 'Real: Sim'],
            title='Matriz de Confus√£o')

# Curva ROC
axes[1].plot(fpr, tpr, color=COR_CHURN, lw=2.5, label=f'√Årvore (AUC={auc:.3f})')
axes[1].plot([0, 1], [0, 1], '--', color=COR_NEUTRO, lw=1)
axes[1].fill_between(fpr, tpr, alpha=0.07, color=COR_CHURN)
axes[1].set(xlabel='FPR', ylabel='TPR', title='Curva ROC')
axes[1].legend(fontsize=9)

# Distribui√ß√£o das probabilidades por classe real
bins = np.linspace(0, 1, 20)
axes[2].hist(y_proba[y_test == 0], bins=bins, color=COR_OK,    alpha=0.65,
             label='Real: N√£o reduziu', density=True)
axes[2].hist(y_proba[y_test == 1], bins=bins, color=COR_CHURN, alpha=0.65,
             label='Real: Reduziu', density=True)
axes[2].axvline(0.5, color='#1a1a1a', lw=1.3, linestyle='--', label='Threshold 0.5')
axes[2].set(xlabel='Probabilidade Prevista', ylabel='Densidade',
            title='Distribui√ß√£o das Probabilidades')
axes[2].legend(fontsize=8)

plt.suptitle('Avalia√ß√£o ‚Äî √Årvore de Decis√£o', fontweight='bold', fontsize=11)
plt.tight_layout()
plt.show()

print(classification_report(y_test, y_pred, target_names=['N√£o reduziu', 'Reduziu']))

## 8. Import√¢ncia das Features

In [None]:
# ‚îÄ‚îÄ Import√¢ncia Gini ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
imp_df = pd.DataFrame({
    'feature':    FEATURES,
    'nome':       feature_names_plot,
    'importance': dt.feature_importances_
}).query('importance > 0').sort_values('importance', ascending=True)

fig, axes = plt.subplots(1, 2, figsize=(14, max(4, len(imp_df) * 0.42 + 1)))

# Barras
q75 = imp_df['importance'].quantile(0.75)
cores_imp = [COR_CHURN if v >= q75 else COR_NEUTRO for v in imp_df['importance']]
axes[0].barh(imp_df['nome'], imp_df['importance'], color=cores_imp)
axes[0].set(title='Import√¢ncia das Features (Gini Impurity)',
            xlabel='Import√¢ncia relativa')
for i, v in enumerate(imp_df['importance']):
    axes[0].text(v + 0.002, i, f'{v:.3f}', va='center', fontsize=8)

# Acumulada
imp_sorted = imp_df.sort_values('importance', ascending=False)
cum_imp    = imp_sorted['importance'].cumsum()
n_80       = int((cum_imp < 0.80).sum()) + 1

axes[1].bar(range(len(imp_sorted)), imp_sorted['importance'],
            color=[COR_CHURN if i < n_80 else COR_NEUTRO for i in range(len(imp_sorted))])
ax2 = axes[1].twinx()
ax2.plot(range(len(imp_sorted)), cum_imp.values, 'o-', color='#1a1a1a', lw=1.8, ms=5)
ax2.axhline(0.80, color='#b07d1a', lw=1.2, linestyle='--', label='80% acumulado')
ax2.set(ylabel='Import√¢ncia acumulada', ylim=(0, 1.05))
ax2.legend(fontsize=8)
axes[1].set(
    title=f'{n_80} features explicam 80% do poder preditivo',
    xticks=range(len(imp_sorted)), ylabel='Import√¢ncia'
)
axes[1].set_xticklabels(
    [n[:14] for n in imp_sorted['nome']], rotation=40, ha='right', fontsize=8)

plt.suptitle('Import√¢ncia das Features ‚Äî √Årvore de Decis√£o', fontweight='bold')
plt.tight_layout()
plt.show()

print('Top 5 features por import√¢ncia Gini:')
for _, r in imp_df.sort_values('importance', ascending=False).head(5).iterrows():
    print(f'  {r["nome"]:<32} {r["importance"]:.4f}')

## 9. Compara√ß√£o com o Logit

In [None]:
# ‚îÄ‚îÄ Logit (com normaliza√ß√£o ‚Äî obrigat√≥rio para ele) ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
scaler       = StandardScaler()
Xtr_sc       = scaler.fit_transform(X_train)
Xte_sc       = scaler.transform(X_test)
logit        = LogisticRegression(C=1.0, max_iter=500, random_state=42)
logit.fit(Xtr_sc, y_train)
y_proba_l    = logit.predict_proba(Xte_sc)[:, 1]
y_pred_l     = logit.predict(Xte_sc)

# ‚îÄ‚îÄ Tabela comparativa ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
metricas = [
    ('AUC-ROC',   lambda yp, ypr: roc_auc_score(y_test, ypr)),
    ('Acur√°cia',  lambda yp, ypr: accuracy_score(y_test, yp)),
    ('Recall',    lambda yp, ypr: recall_score(y_test, yp)),
    ('Precis√£o',  lambda yp, ypr: precision_score(y_test, yp)),
    ('F1-Score',  lambda yp, ypr: f1_score(y_test, yp)),
]

print(f"{'M√©trica':<22}  {'√Årvore':>10}  {'Logit':>10}  Melhor")
print('‚îÄ' * 55)
for nome_m, fn in metricas:
    av = fn(y_pred, y_proba)
    lv = fn(y_pred_l, y_proba_l)
    melhor = '‚úÖ √Årvore' if av > lv else '‚úÖ Logit'
    print(f'  {nome_m:<20}  {av:>10.3f}  {lv:>10.3f}  {melhor}')

# ‚îÄ‚îÄ Curvas ROC sobrepostas ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(7, 5))
for nome_m, ypr, cor in [
    ('√Årvore de Decis√£o',   y_proba,   COR_CHURN),
    ('Regress√£o Log√≠stica', y_proba_l, COR_OK),
]:
    fp, tp, _ = roc_curve(y_test, ypr)
    auc_m = roc_auc_score(y_test, ypr)
    ax.plot(fp, tp, lw=2.5, color=cor, label=f'{nome_m} (AUC={auc_m:.3f})')

ax.plot([0, 1], [0, 1], '--', color=COR_NEUTRO, lw=1)
ax.set(xlabel='FPR', ylabel='TPR', title='Curvas ROC ‚Äî Comparativo')
ax.legend(fontsize=10)
plt.tight_layout()
plt.show()

print()
print('üí° Quando escolher √Årvore vs. Logit?')
print()
print('  √Årvore ‚Üí quando precisar explicar o modelo em reuni√£o com gestores')
print('  √Årvore ‚Üí quando houver intera√ß√µes entre vari√°veis')
print('  √Årvore ‚Üí quando o time de campo vai aplicar regras manualmente')
print('  Logit  ‚Üí quando AUC for significativamente maior')
print('  Logit  ‚Üí quando exig√™ncia regulat√≥ria pede coeficientes/p-values')
print('  Logit  ‚Üí quando precisar calibrar threshold via EMP')

## 10. Sa√≠da Acion√°vel ‚Äî Segmentos com Regras Claras

> A grande vantagem operacional da √°rvore:  
> **cada folha vira um segmento com uma regra que o time aplica sem abrir o Python.**

In [None]:
# ‚îÄ‚îÄ Scoring de toda a base ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
X_full = pd.DataFrame(
    imputer.transform(
        df_model.drop(columns=[TARGET]).reindex(columns=FEATURES, fill_value=0)
    ),
    columns=FEATURES
)

prob_full  = dt.predict_proba(X_full)[:, 1]
folha_full = dt.apply(X_full)   # ID da folha para cada cliente

resultado_full = pd.DataFrame({
    'id_cliente':    df['id_cliente'],
    'segmento_A':    df['segmento_A'],
    'nps_score':     df['nps_score'],
    'canal_digital': df['canal_digital'],
    'prob_churn':    prob_full.round(4),
    'folha_id':      folha_full,
    'alerta':        (prob_full >= 0.5).astype(int),
}).sort_values('prob_churn', ascending=False)

# Perfil de cada folha
resumo = resultado_full.groupby('folha_id').agg(
    n_clientes  = ('id_cliente',    'count'),
    prob_media  = ('prob_churn',    'mean'),
    pct_seg_A   = ('segmento_A',    'mean'),
    nps_medio   = ('nps_score',     'mean'),
    pct_digital = ('canal_digital', 'mean'),
).sort_values('prob_media', ascending=False).round(3)

resumo['risco'] = resumo['prob_media'].apply(
    lambda x: 'üî¥ ALTO' if x > 0.65 else ('üü° M√âDIO' if x > 0.35 else 'üü¢ BAIXO')
)

print('Perfil de cada segmento (folha da √°rvore):')
print(resumo.to_string())

resultado_full.to_csv('arvore_segmentos_clientes.csv', index=False)
print('\n‚úÖ arvore_segmentos_clientes.csv exportado')

In [None]:
# ‚îÄ‚îÄ Visualiza√ß√£o executiva ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig, axes = plt.subplots(1, 2, figsize=(13, 5))

# Pizza: distribui√ß√£o de risco
n_alerta = resultado_full['alerta'].sum()
n_ok     = len(resultado_full) - n_alerta
axes[0].pie(
    [n_ok, n_alerta],
    labels=[f'Baixo/m√©dio risco\n({n_ok:,})', f'Alto risco (alerta)\n({n_alerta:,})'],
    colors=[COR_OK, COR_CHURN],
    autopct='%1.1f%%',
    startangle=90,
    explode=[0, 0.07],
    textprops={'fontsize': 9}
)
axes[0].set_title('Distribui√ß√£o de Risco na Base', fontweight='bold')

# Heatmap: prob churn por segmento √ó canal
crosstab = resultado_full.groupby(
    ['segmento_A', 'canal_digital'])['prob_churn'].mean().unstack()
crosstab.index   = ['Seg. B/C', 'Seg. A']
crosstab.columns = ['Tradicional', 'Digital']

im = axes[1].imshow(crosstab.values, cmap='RdYlGn_r', vmin=0, vmax=1)
for i in range(2):
    for j in range(2):
        val = crosstab.values[i, j]
        axes[1].text(j, i, f'{val:.1%}', ha='center', va='center',
                     fontsize=14, fontweight='bold',
                     color='white' if val > 0.55 else '#1a1a1a')
axes[1].set(
    xticks=[0, 1], yticks=[0, 1],
    xticklabels=crosstab.columns,
    yticklabels=crosstab.index,
    title='Probabilidade M√©dia de Churn\nSegmento √ó Canal'
)
plt.colorbar(im, ax=axes[1], label='Prob. churn', shrink=0.75)

plt.suptitle('Segmentos de Risco ‚Äî Vis√£o Executiva', fontweight='bold', fontsize=11)
plt.tight_layout()
plt.show()

# Resumo executivo
n_seg_A_alerta = resultado_full[
    (resultado_full['alerta'] == 1) & (resultado_full['segmento_A'] == 1)
].shape[0]
prob_pior = resultado_full[
    (resultado_full['segmento_A'] == 1) & (resultado_full['canal_digital'] == 1)
]['prob_churn'].mean()

print('=== RESUMO EXECUTIVO ===')
print(f'Clientes em alerta:                     {n_alerta:,} ({n_alerta/len(resultado_full):.1%} da base)')
print(f'Destes, do Segmento A:                  {n_seg_A_alerta:,} ({n_seg_A_alerta/n_alerta:.1%})')
print(f'Prob. m√©dia ‚Äî Seg. A + Canal Digital:   {prob_pior:.1%}')
print()
print('Regra principal identificada pela √°rvore:')
print('  Segmento A + Canal Digital + NPS baixo = grupo de maior risco')
print('  ‚Üí A√ß√£o: campanha de reativa√ß√£o com oferta proporcional ao LTV previsto')

## S√≠ntese: Quando Usar Cada Modelo?

| Situa√ß√£o | Modelo recomendado |
|---|---|
| Explicar para gestores sem Python | **√Årvore de Decis√£o** |
| Time de campo aplica regras manualmente | **√Årvore de Decis√£o** |
| Coeficientes/p-values para auditoria | **Logit** |
| Calibrar threshold via EMP | **Logit** |
| Maximizar AUC sem restri√ß√£o de interpretabilidade | **XGBoost** |
| Detectar intera√ß√µes complexas | **XGBoost + SHAP** |

---
*A √°rvore n√£o √© melhor nem pior que o Logit ‚Äî ela responde perguntas diferentes.*  
*Rodar os dois e comparar √© sempre uma boa pr√°tica.*