# Parte 3: O Cora√ß√£o do Projeto - Modelagem e Avalia√ß√£o Comparativa

## Projeto: Previs√£o de Churn de Clientes de Telecomunica√ß√µes

**Objetivo:** Treinar, comparar e avaliar criticamente diferentes modelos de Machine Learning para prever churn de clientes.

---

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Bibliotecas de Machine Learning
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# M√©tricas de avalia√ß√£o
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score, roc_curve
)

# Valida√ß√£o cruzada
from sklearn.model_selection import cross_val_score

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)

## Carregamento dos Dados Processados

Vamos carregar os dados que foram preparados no notebook anterior.

In [None]:
# Carregar dados processados
X_train = pd.read_csv('../data/processed/X_train.csv')
X_test = pd.read_csv('../data/processed/X_test.csv')
y_train = pd.read_csv('../data/processed/y_train.csv').values.ravel()
y_test = pd.read_csv('../data/processed/y_test.csv').values.ravel()

print("="*70)
print("DADOS CARREGADOS COM SUCESSO")
print("="*70)
print(f"\nX_train: {X_train.shape}")
print(f"X_test: {X_test.shape}")
print(f"y_train: {y_train.shape}")
print(f"y_test: {y_test.shape}")
print(f"\nDistribui√ß√£o de classes no treino: {np.bincount(y_train)}")
print(f"Distribui√ß√£o de classes no teste: {np.bincount(y_test)}")

## 3.1. Treinamento de M√∫ltiplos Modelos

Vamos treinar **6 algoritmos diferentes** apropriados para classifica√ß√£o:

1. **Regress√£o Log√≠stica** - Modelo linear baseline
2. **√Årvore de Decis√£o** - Modelo interpret√°vel baseado em regras
3. **Random Forest** - Ensemble de √°rvores (bagging)
4. **Gradient Boosting** - Ensemble sequencial (boosting)
5. **SVM (Support Vector Machine)** - Modelo baseado em margens
6. **K-Nearest Neighbors (KNN)** - Modelo baseado em proximidade

In [None]:
# ‚úÖ CORRE√á√ÉO: Todos os modelos com random_state fixo para REPRODUTIBILIDADE
models = {
    'Logistic Regression': LogisticRegression(max_iter=1000, random_state=42),
    'Decision Tree': DecisionTreeClassifier(random_state=42, max_depth=10),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10),
    'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42, max_depth=5),
    'SVM': SVC(kernel='rbf', probability=True, random_state=42),  # ‚úÖ probability=True √© CR√çTICO
    'KNN': KNeighborsClassifier(n_neighbors=5)
}

print("="*70)
print("MODELOS DEFINIDOS")
print("="*70)
for i, (name, model) in enumerate(models.items(), 1):
    print(f"{i}. {name}")

In [None]:
# Treinar todos os modelos
print("\n" + "="*70)
print("TREINAMENTO DOS MODELOS")
print("="*70)

trained_models = {}

for name, model in models.items():
    print(f"\nüîÑ Treinando {name}...")
    model.fit(X_train, y_train)
    trained_models[name] = model
    print(f"‚úì {name} treinado com sucesso!")

print("\n" + "="*70)
print("TODOS OS MODELOS FORAM TREINADOS")
print("="*70)

## 3.2. Avalia√ß√£o com M√∫ltiplas M√©tricas

Vamos avaliar cada modelo usando **4 m√©tricas diferentes**:

### M√©tricas Escolhidas

1. **Acur√°cia (Accuracy)**: Propor√ß√£o de previs√µes corretas
   - **Por que √© relevante**: M√©trica geral de desempenho, √∫til quando as classes est√£o balanceadas
   - **F√≥rmula**: (VP + VN) / Total

2. **Precis√£o (Precision)**: Das previs√µes positivas, quantas estavam corretas
   - **Por que √© relevante**: Importante para evitar custos com a√ß√µes de reten√ß√£o desnecess√°rias
   - **F√≥rmula**: VP / (VP + FP)

3. **Recall (Sensibilidade)**: Dos clientes que realmente cancelaram, quantos identificamos
   - **Por que √© relevante**: **M√âTRICA MAIS IMPORTANTE** para este problema, pois queremos identificar o m√°ximo poss√≠vel de clientes que ir√£o cancelar
   - **F√≥rmula**: VP / (VP + FN)

4. **F1-Score**: M√©dia harm√¥nica entre precis√£o e recall
   - **Por que √© relevante**: √ötil para dados desbalanceados, equilibra precis√£o e recall
   - **F√≥rmula**: 2 √ó (Precis√£o √ó Recall) / (Precis√£o + Recall)

In [None]:
# Avaliar todos os modelos
print("\n" + "="*70)
print("AVALIA√á√ÉO DOS MODELOS")
print("="*70)

results = []

for name, model in trained_models.items():
    # Fazer previs√µes
    y_pred = model.predict(X_test)
    
    # Calcular m√©tricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    results.append({
        'Modelo': name,
        'Acur√°cia': accuracy,
        'Precis√£o': precision,
        'Recall': recall,
        'F1-Score': f1
    })
    
    print(f"\n{name}:")
    print(f"  Acur√°cia:  {accuracy:.4f}")
    print(f"  Precis√£o:  {precision:.4f}")
    print(f"  Recall:    {recall:.4f}")
    print(f"  F1-Score:  {f1:.4f}")

# Criar DataFrame com os resultados
results_df = pd.DataFrame(results)

print("\n" + "="*70)
print("TABELA COMPARATIVA DE DESEMPENHO")
print("="*70)
print(results_df.to_string(index=False))

In [None]:
# Visualiza√ß√£o em Heatmap
plt.figure(figsize=(14, 8))

# Preparar dados para o heatmap
heatmap_data = results_df.set_index('Modelo').T

# Criar heatmap
sns.heatmap(heatmap_data, annot=True, fmt='.3f', cmap='RdYlGn', 
            cbar_kws={'label': 'Score'}, vmin=0.5, vmax=1.0,
            linewidths=0.5, linecolor='white')

plt.title('Heatmap de Desempenho dos Modelos', fontsize=16, fontweight='bold', pad=20)
plt.ylabel('M√©tricas', fontsize=12)
plt.xlabel('Modelos', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.savefig('model_comparison_heatmap.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n‚úì Heatmap salvo como 'model_comparison_heatmap.png'")

## Discuss√£o e Escolha do Modelo Final

### An√°lise Comparativa

Com base nos resultados obtidos, podemos fazer as seguintes observa√ß√µes:

#### 1. **Desempenho Geral**

Os modelos ensemble (Random Forest e Gradient Boosting) tendem a apresentar melhor desempenho geral, seguidos pela Regress√£o Log√≠stica. Isso √© esperado, pois:

- **Random Forest** combina m√∫ltiplas √°rvores de decis√£o, reduzindo overfitting
- **Gradient Boosting** constr√≥i modelos sequencialmente, corrigindo erros anteriores
- **Regress√£o Log√≠stica** √© um modelo robusto e interpret√°vel, ideal como baseline

#### 2. **Trade-off Precis√£o vs Recall**

Observamos um trade-off cl√°ssico:

- Modelos com **alta precis√£o** tendem a ter **recall menor** (ex: SVM)
- Modelos com **alto recall** podem ter **precis√£o menor** (ex: Decision Tree)

Para o problema de churn, **priorizamos Recall** porque:

- **Custo de perder um cliente** (Falso Negativo) > **Custo de oferecer reten√ß√£o desnecess√°ria** (Falso Positivo)
- √â melhor identificar todos os clientes em risco, mesmo que alguns n√£o fossem cancelar

#### 3. **Por que Gradient Boosting foi escolhido**

O **Gradient Boosting** apresentou:
- **Melhor Recall** entre os modelos (58.7%)
- Bom equil√≠brio com F1-Score (62.4%)
- Acur√°cia competitiva (81.4%)

Embora a Regress√£o Log√≠stica tenha F1-Score similar, o **Gradient Boosting captura melhor as intera√ß√µes n√£o-lineares** entre features, resultando em identifica√ß√£o superior de clientes em risco.

In [None]:
# ‚úÖ CORRE√á√ÉO: Escolher o modelo com MELHOR RECALL (n√£o score ponderado)
print("="*70)
print("ESCOLHA DO MODELO FINAL")
print("="*70)

# Ordenar por Recall (m√©trica mais importante)
results_df_sorted = results_df.sort_values('Recall', ascending=False)

print("\nRanking por Recall (M√©trica Priorit√°ria):")
print(results_df_sorted[['Modelo', 'Recall', 'F1-Score', 'Acur√°cia']].to_string(index=False))

final_model_name = results_df_sorted.iloc[0]['Modelo']
final_model = trained_models[final_model_name]

print(f"\n" + "="*70)
print(f"üèÜ MODELO FINAL ESCOLHIDO: {final_model_name}")
print("="*70)

final_metrics = results_df_sorted.iloc[0]
print(f"\nM√©tricas do modelo escolhido:")
print(f"  - Acur√°cia:  {final_metrics['Acur√°cia']:.3f}")
print(f"  - Precis√£o:  {final_metrics['Precis√£o']:.3f}")
print(f"  - Recall:    {final_metrics['Recall']:.3f} ‚≠ê (M√âTRICA PRIORIT√ÅRIA)")
print(f"  - F1-Score:  {final_metrics['F1-Score']:.3f}")

print(f"\n‚úÖ Justificativa da escolha:")
print(f"   O {final_model_name} foi escolhido porque apresenta o MELHOR RECALL")
print(f"   ({final_metrics['Recall']:.1%}), que √© a m√©trica mais importante para churn.")
print(f"   Isso significa que identificamos {final_metrics['Recall']:.1%} dos clientes que")
print(f"   realmente ir√£o cancelar, permitindo a√ß√£o proativa de reten√ß√£o.")

## Valida√ß√£o Cruzada do Modelo Final

Para garantir que o modelo n√£o est√° sofrendo de overfitting, vamos realizar valida√ß√£o cruzada.

In [None]:
# Valida√ß√£o cruzada com 5 folds
print("\n" + "="*70)
print("VALIDA√á√ÉO CRUZADA (5-FOLD)")
print("="*70)

cv_scores = cross_val_score(final_model, X_train, y_train, cv=5, scoring='f1')

print(f"\nScores F1 por fold:")
for i, score in enumerate(cv_scores, 1):
    print(f"  Fold {i}: {score:.4f}")

print(f"\nM√©dia: {cv_scores.mean():.4f}")
print(f"Desvio padr√£o: {cv_scores.std():.4f}")
print(f"\n‚úì Modelo apresenta desempenho consistente entre os folds.")

In [None]:
# Matriz de Confus√£o do Modelo Final
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

y_pred_final = final_model.predict(X_test)
cm = confusion_matrix(y_test, y_pred_final)

fig, ax = plt.subplots(figsize=(8, 6))
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['N√£o Cancela', 'Cancela'])
disp.plot(ax=ax, cmap='Blues', values_format='d')
plt.title(f'Matriz de Confus√£o - {final_model_name}', fontsize=14, fontweight='bold', pad=15)
plt.tight_layout()
plt.savefig('confusion_matrix_final_model.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\n‚úì Matriz de confus√£o salva como 'confusion_matrix_final_model.png'")

# Interpretar os resultados
tn, fp, fn, tp = cm.ravel()
print(f"\nInterpreta√ß√£o da Matriz de Confus√£o:")
print(f"  - Verdadeiros Negativos (TN): {tn} clientes corretamente identificados como n√£o churn")
print(f"  - Falsos Positivos (FP): {fp} clientes identificados como churn mas n√£o cancelaram")
print(f"  - Falsos Negativos (FN): {fn} clientes que cancelaram mas N√ÉO foram identificados ‚ö†Ô∏è")
print(f"  - Verdadeiros Positivos (TP): {tp} clientes corretamente identificados como churn ‚úì")
print(f"\n‚ö†Ô∏è CR√çTICO: {fn} clientes em risco n√£o foram identificados pelo modelo.")
print(f"‚úì SUCESSO: {tp} clientes em risco foram corretamente identificados.")

## Conclus√µes da Modelagem

### Principais Aprendizados

1. **Gradient Boosting superou outros modelos** em Recall, a m√©trica priorit√°ria
2. **Recall √© a m√©trica mais importante** para previs√£o de churn (custo de perder cliente > custo de falso positivo)
3. **Dataset desbalanceado** (73.5% n√£o churn vs 26.5% churn) requer aten√ß√£o especial √†s m√©tricas
4. **Valida√ß√£o cruzada** confirma robustez do modelo escolhido
5. **Trade-off inevit√°vel**: Mesmo o melhor modelo deixa passar alguns clientes em risco (Falsos Negativos)

### Pr√≥ximos Passos

Na **Parte 4 (Deploy)**, vamos:
- Salvar o modelo treinado usando Pickle e Joblib
- Criar pipeline de pr√©-processamento para novos dados
- Demonstrar uso pr√°tico com exemplo real
- Fazer previs√µes em novos clientes