# üìä Projeto N3 - Predi√ß√£o de Churn de Clientes Telco

## Ci√™ncia de Dados - Avalia√ß√£o Final

**Autor:** Pedro Henrique Costa  
**Dataset:** Telco Customer Churn  
**Objetivo:** Prever se um cliente vai cancelar o servi√ßo (churn)

---

# Parte 1: O Problema de Neg√≥cio (1,0 ponto)

## 1.1 Dom√≠nio do Problema

Este projeto se insere no contexto do **setor de telecomunica√ß√µes**, um mercado altamente competitivo onde a reten√ß√£o de clientes √© fundamental para a sustentabilidade do neg√≥cio. O fen√¥meno de **churn** (cancelamento de servi√ßos) representa um dos maiores desafios para empresas de telecom, pois:

- **Custo de aquisi√ß√£o vs reten√ß√£o:** Conquistar um novo cliente custa de 5 a 25 vezes mais do que manter um existente
- **Impacto na receita:** A perda de clientes afeta diretamente o faturamento recorrente
- **Competitividade:** Com muitas op√ß√µes no mercado, clientes insatisfeitos migram facilmente para concorrentes

## 1.2 Pergunta de Neg√≥cio

> **"Quais fatores t√™m maior impacto na decis√£o de um cliente cancelar o servi√ßo de telecomunica√ß√µes?"**

Esta pergunta guia nossa an√°lise e modelagem, buscando identificar padr√µes comportamentais e caracter√≠sticas que indicam propens√£o ao churn.

## 1.3 Objetivo do Modelo

O objetivo √© construir um **modelo de classifica√ß√£o** capaz de:

1. **Prever churn:** Identificar clientes com alta probabilidade de cancelamento antes que isso aconte√ßa
2. **Possibilitar a√ß√µes preventivas:** Permitir que a equipe de reten√ß√£o atue proativamente com ofertas e benef√≠cios personalizados
3. **Reduzir custos:** Minimizar perdas financeiras associadas ao cancelamento de contratos

---

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
import warnings

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score,
    confusion_matrix, classification_report
)

# Configura√ß√µes
warnings.filterwarnings('ignore')
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)
pd.set_option('display.max_columns', 100)
plt.rcParams['figure.figsize'] = (10, 6)
plt.style.use('seaborn-v0_8-whitegrid')

print("Bibliotecas carregadas com sucesso!")
print(f"NumPy: {np.__version__}")
print(f"Pandas: {pd.__version__}")

---

# Parte 2: Pipeline de Dados (1,0 ponto)

## 2.1 Origem e Arquitetura de Dados

### Fonte Original
- **Dataset:** Telco Customer Churn
- **Origem:** IBM Sample Data Sets / Kaggle
- **Formato:** CSV com 7.043 registros e 21 colunas

### Arquitetura de Armazenamento: Data Lakehouse

Optamos pela arquitetura **Data Lakehouse**, que combina:
- **Flexibilidade do Data Lake:** Armazenamento de dados brutos em formato original
- **Estrutura√ß√£o do Data Warehouse:** Dados tratados e prontos para an√°lise

```
üìÅ data/
‚îú‚îÄ‚îÄ WA_Fn-UseC_-Telco-Customer-Churn.csv  (dados brutos)
‚îî‚îÄ‚îÄ [dados processados em mem√≥ria durante an√°lise]
```

## 2.2 Pipeline de Dados

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  INGEST√ÉO   ‚îÇ => ‚îÇ   LIMPEZA   ‚îÇ => ‚îÇ     EDA     ‚îÇ => ‚îÇ PREPARA√á√ÉO  ‚îÇ
‚îÇ  CSV Load   ‚îÇ    ‚îÇ  Transform  ‚îÇ    ‚îÇ  An√°lise    ‚îÇ    ‚îÇ  Encoding   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

## Etapa 1: Ingest√£o dos Dados

In [None]:
# Carregamento do dataset
# Tentamos m√∫ltiplos caminhos para garantir compatibilidade
possible_paths = [
    '../data/WA_Fn-UseC_-Telco-Customer-Churn.csv',
    'data/WA_Fn-UseC_-Telco-Customer-Churn.csv',
    '../datasets/WA_Fn-UseC_-Telco-Customer-Churn.csv'
]

df = None
for path in possible_paths:
    try:
        df = pd.read_csv(path)
        print(f"Dataset carregado de: {path}")
        break
    except FileNotFoundError:
        continue

if df is None:
    raise FileNotFoundError("Dataset n√£o encontrado. Verifique o caminho do arquivo.")

print(f"\nDimens√µes do dataset: {df.shape[0]} linhas x {df.shape[1]} colunas")
print(f"\nColunas dispon√≠veis:")
print(df.columns.tolist())

In [None]:
# Visualiza√ß√£o inicial dos dados
print("Primeiras 5 linhas do dataset:")
df.head()

In [None]:
# Informa√ß√µes sobre tipos de dados
print("Informa√ß√µes do dataset:")
df.info()

## Etapa 2: Limpeza e Transforma√ß√£o

In [None]:
# Criando c√≥pia para preservar dados originais
df_clean = df.copy()

# Problema identificado: TotalCharges cont√©m strings vazias que precisam ser convertidas
print("Valores √∫nicos em TotalCharges (amostra):")
print(df_clean['TotalCharges'].head(10))

# Convers√£o de TotalCharges para num√©rico
df_clean['TotalCharges'] = pd.to_numeric(df_clean['TotalCharges'], errors='coerce')

# Verificando valores ausentes
print(f"\nValores ausentes por coluna:")
missing = df_clean.isnull().sum()
print(missing[missing > 0])

In [None]:
# Removendo linhas com valores ausentes em TotalCharges
rows_before = len(df_clean)
df_clean = df_clean.dropna(subset=['TotalCharges'])
rows_after = len(df_clean)

print(f"Linhas removidas: {rows_before - rows_after}")
print(f"Dataset final: {rows_after} linhas")

# Confirmando que n√£o h√° mais valores ausentes
print(f"\nValores ausentes restantes: {df_clean.isnull().sum().sum()}")

## Etapa 3: An√°lise Explorat√≥ria de Dados (EDA)

In [None]:
# Estat√≠sticas descritivas das vari√°veis num√©ricas
print("Estat√≠sticas Descritivas - Vari√°veis Num√©ricas:")
df_clean[['tenure', 'MonthlyCharges', 'TotalCharges']].describe()

In [None]:
# Distribui√ß√£o da vari√°vel alvo (Churn)
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Contagem
churn_counts = df_clean['Churn'].value_counts()
colors = ['#2ecc71', '#e74c3c']
axes[0].bar(churn_counts.index, churn_counts.values, color=colors)
axes[0].set_title('Distribui√ß√£o de Churn (Contagem)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Churn')
axes[0].set_ylabel('Contagem')
for i, v in enumerate(churn_counts.values):
    axes[0].text(i, v + 50, str(v), ha='center', fontsize=12)

# Propor√ß√£o
churn_pct = df_clean['Churn'].value_counts(normalize=True) * 100
axes[1].pie(churn_pct.values, labels=churn_pct.index, autopct='%1.1f%%', 
            colors=colors, startangle=90, explode=[0, 0.05])
axes[1].set_title('Propor√ß√£o de Churn', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\nPropor√ß√£o de Churn:")
print(churn_pct.round(2))

In [None]:
# An√°lise de vari√°veis categ√≥ricas importantes vs Churn
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

categorical_vars = ['Contract', 'InternetService', 'PaymentMethod', 'TechSupport']

for idx, var in enumerate(categorical_vars):
    ax = axes[idx // 2, idx % 2]
    
    # Crosstab para propor√ß√µes
    ct = pd.crosstab(df_clean[var], df_clean['Churn'], normalize='index') * 100
    ct.plot(kind='bar', ax=ax, color=['#2ecc71', '#e74c3c'])
    
    ax.set_title(f'Taxa de Churn por {var}', fontsize=12, fontweight='bold')
    ax.set_xlabel(var)
    ax.set_ylabel('Porcentagem (%)')
    ax.legend(title='Churn', loc='upper right')
    ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# An√°lise de vari√°veis num√©ricas vs Churn
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

numeric_vars = ['tenure', 'MonthlyCharges', 'TotalCharges']

for idx, var in enumerate(numeric_vars):
    ax = axes[idx]
    
    # Boxplot por grupo de Churn
    df_clean.boxplot(column=var, by='Churn', ax=ax)
    ax.set_title(f'{var} por Churn', fontsize=12, fontweight='bold')
    ax.set_xlabel('Churn')
    ax.set_ylabel(var)

plt.suptitle('')  # Remove t√≠tulo autom√°tico
plt.tight_layout()
plt.show()

In [None]:
# Matriz de correla√ß√£o das vari√°veis num√©ricas
# Convertendo Churn para num√©rico para correla√ß√£o
df_corr = df_clean.copy()
df_corr['Churn_num'] = (df_corr['Churn'] == 'Yes').astype(int)

corr_cols = ['SeniorCitizen', 'tenure', 'MonthlyCharges', 'TotalCharges', 'Churn_num']
corr_matrix = df_corr[corr_cols].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='RdYlBu_r', center=0, 
            fmt='.2f', square=True, linewidths=0.5)
plt.title('Matriz de Correla√ß√£o', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

### Insights da EDA

1. **Desbalanceamento:** Dataset levemente desbalanceado (~27% de churn)
2. **Contrato:** Clientes com contrato mensal t√™m muito mais churn
3. **Tenure:** Clientes mais novos (menor tempo de casa) t√™m maior propens√£o ao churn
4. **MonthlyCharges:** Clientes que pagam mais por m√™s tendem a cancelar mais
5. **Servi√ßos:** Clientes sem suporte t√©cnico ou seguran√ßa online t√™m maior churn

## Etapa 4: Prepara√ß√£o para Modelagem

In [None]:
# Sele√ß√£o de features relevantes baseada na EDA
features_selecionadas = [
    # Vari√°veis num√©ricas
    'SeniorCitizen', 'tenure', 'MonthlyCharges', 'TotalCharges',
    # Vari√°veis categ√≥ricas relevantes
    'gender', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines',
    'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
    'PaperlessBilling', 'PaymentMethod'
]

# Verificando se todas as features existem
features_existentes = [f for f in features_selecionadas if f in df_clean.columns]
print(f"Features selecionadas: {len(features_existentes)}")
print(features_existentes)

In [None]:
# Criando X (features) e y (target)
X = df_clean[features_existentes].copy()
y = df_clean['Churn'].copy()

# Convertendo target para bin√°rio (0/1)
y = (y == 'Yes').astype(int)

print(f"Shape de X: {X.shape}")
print(f"Shape de y: {y.shape}")
print(f"\nDistribui√ß√£o de y:")
print(y.value_counts())

In [None]:
# One-Hot Encoding das vari√°veis categ√≥ricas
X_encoded = pd.get_dummies(X, drop_first=True)

print(f"Dimens√µes ap√≥s encoding:")
print(f"  X original: {X.shape}")
print(f"  X encoded:  {X_encoded.shape}")

# Visualizando as novas colunas
print(f"\nNovas colunas criadas (primeiras 20):")
print(X_encoded.columns.tolist()[:20])

In [None]:
# Divis√£o treino/teste (80/20) com estratifica√ß√£o
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y,
    test_size=0.20,
    random_state=RANDOM_STATE,
    stratify=y
)

print(f"Tamanho do conjunto de treino: {X_train.shape[0]} ({X_train.shape[0]/len(X_encoded)*100:.1f}%)")
print(f"Tamanho do conjunto de teste:  {X_test.shape[0]} ({X_test.shape[0]/len(X_encoded)*100:.1f}%)")

print(f"\nPropor√ß√£o de churn no treino:")
print(y_train.value_counts(normalize=True).round(3))

print(f"\nPropor√ß√£o de churn no teste:")
print(y_test.value_counts(normalize=True).round(3))

---

# Parte 3: Modelagem e Avalia√ß√£o (6,0 pontos)

## 3.1 Defini√ß√£o das M√©tricas de Avalia√ß√£o

Para avaliar os modelos de classifica√ß√£o, utilizaremos **3 m√©tricas** fundamentais:

### 1. Accuracy (Acur√°cia)
$$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

**O que mede:** Propor√ß√£o total de previs√µes corretas (tanto positivas quanto negativas).

**Relev√¢ncia para Churn:** D√° uma vis√£o geral do desempenho, mas pode ser enganosa em datasets desbalanceados.

### 2. Precision (Precis√£o)
$$Precision = \frac{TP}{TP + FP}$$

**O que mede:** Dos clientes que o modelo previu como churn, quantos realmente cancelaram?

**Relev√¢ncia para Churn:** Alta precis√£o significa menos "alarmes falsos" - n√£o desperdi√ßamos recursos oferecendo reten√ß√£o a quem n√£o ia sair.

### 3. Recall (Revoca√ß√£o/Sensibilidade)
$$Recall = \frac{TP}{TP + FN}$$

**O que mede:** De todos os clientes que realmente cancelaram, quantos o modelo conseguiu identificar?

**Relev√¢ncia para Churn:** **M√âTRICA CRUCIAL!** Alto recall significa capturar a maioria dos clientes em risco. √â mais caro perder um cliente (FN) do que oferecer reten√ß√£o a quem ficaria (FP).

---

> ‚ö†Ô∏è **Para o problema de Churn, Recall √© a m√©trica mais importante!**
> 
> Falsos Negativos (n√£o prever churn de quem vai sair) custam muito mais que Falsos Positivos (prever churn de quem ia ficar).

---

## 3.2 Treinamento dos Modelos

In [None]:
# Dicion√°rio para armazenar os modelos e resultados
modelos = {}
resultados = {}

# Lista de nomes das colunas para uso posterior
feature_names = X_encoded.columns.tolist()

### Modelo 1: Decision Tree Classifier

In [None]:
# Treinamento do Decision Tree
print("=" * 50)
print("MODELO 1: Decision Tree Classifier")
print("=" * 50)

dt_model = DecisionTreeClassifier(
    max_depth=4,
    random_state=RANDOM_STATE
)

dt_model.fit(X_train, y_train)
y_pred_dt = dt_model.predict(X_test)

# Armazenando modelo
modelos['Decision Tree'] = dt_model

# Calculando m√©tricas
resultados['Decision Tree'] = {
    'Accuracy': accuracy_score(y_test, y_pred_dt),
    'Precision': precision_score(y_test, y_pred_dt),
    'Recall': recall_score(y_test, y_pred_dt)
}

print(f"\nHiperpar√¢metros: max_depth=4")
print(f"\nResultados:")
for metric, value in resultados['Decision Tree'].items():
    print(f"  {metric}: {value:.4f} ({value*100:.2f}%)")

In [None]:
# Matriz de Confus√£o - Decision Tree
cm_dt = confusion_matrix(y_test, y_pred_dt)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_dt, annot=True, fmt='d', cmap='Blues',
            xticklabels=['N√£o Churn', 'Churn'],
            yticklabels=['N√£o Churn', 'Churn'])
plt.xlabel('Previsto', fontsize=12)
plt.ylabel('Real', fontsize=12)
plt.title('Matriz de Confus√£o - Decision Tree', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_dt, target_names=['N√£o Churn', 'Churn']))

### Modelo 2: Random Forest Classifier

In [None]:
# Treinamento do Random Forest
print("=" * 50)
print("MODELO 2: Random Forest Classifier")
print("=" * 50)

rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=6,
    random_state=RANDOM_STATE
)

rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

# Armazenando modelo
modelos['Random Forest'] = rf_model

# Calculando m√©tricas
resultados['Random Forest'] = {
    'Accuracy': accuracy_score(y_test, y_pred_rf),
    'Precision': precision_score(y_test, y_pred_rf),
    'Recall': recall_score(y_test, y_pred_rf)
}

print(f"\nHiperpar√¢metros: n_estimators=100, max_depth=6")
print(f"\nResultados:")
for metric, value in resultados['Random Forest'].items():
    print(f"  {metric}: {value:.4f} ({value*100:.2f}%)")

In [None]:
# Matriz de Confus√£o - Random Forest
cm_rf = confusion_matrix(y_test, y_pred_rf)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_rf, annot=True, fmt='d', cmap='Greens',
            xticklabels=['N√£o Churn', 'Churn'],
            yticklabels=['N√£o Churn', 'Churn'])
plt.xlabel('Previsto', fontsize=12)
plt.ylabel('Real', fontsize=12)
plt.title('Matriz de Confus√£o - Random Forest', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_rf, target_names=['N√£o Churn', 'Churn']))

### Modelo 3: Logistic Regression

In [None]:
# Treinamento da Regress√£o Log√≠stica
print("=" * 50)
print("MODELO 3: Logistic Regression")
print("=" * 50)

lr_model = LogisticRegression(
    max_iter=1000,
    random_state=RANDOM_STATE
)

lr_model.fit(X_train, y_train)
y_pred_lr = lr_model.predict(X_test)

# Armazenando modelo
modelos['Logistic Regression'] = lr_model

# Calculando m√©tricas
resultados['Logistic Regression'] = {
    'Accuracy': accuracy_score(y_test, y_pred_lr),
    'Precision': precision_score(y_test, y_pred_lr),
    'Recall': recall_score(y_test, y_pred_lr)
}

print(f"\nHiperpar√¢metros: max_iter=1000")
print(f"\nResultados:")
for metric, value in resultados['Logistic Regression'].items():
    print(f"  {metric}: {value:.4f} ({value*100:.2f}%)")

In [None]:
# Matriz de Confus√£o - Logistic Regression
cm_lr = confusion_matrix(y_test, y_pred_lr)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Oranges',
            xticklabels=['N√£o Churn', 'Churn'],
            yticklabels=['N√£o Churn', 'Churn'])
plt.xlabel('Previsto', fontsize=12)
plt.ylabel('Real', fontsize=12)
plt.title('Matriz de Confus√£o - Logistic Regression', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_lr, target_names=['N√£o Churn', 'Churn']))

## 3.3 An√°lise Comparativa dos Modelos

In [None]:
# Criando tabela comparativa
df_resultados = pd.DataFrame(resultados).T
df_resultados = df_resultados.round(4)

# Formatando como porcentagem para exibi√ß√£o
df_display = df_resultados.copy()
for col in df_display.columns:
    df_display[col] = df_display[col].apply(lambda x: f"{x:.2%}")

print("="*60)
print("TABELA COMPARATIVA DOS MODELOS")
print("="*60)
print(df_display.to_string())
print("="*60)

In [None]:
# Visualiza√ß√£o gr√°fica da compara√ß√£o
fig, ax = plt.subplots(figsize=(12, 6))

x = np.arange(len(df_resultados.columns))
width = 0.25

colors = ['#3498db', '#2ecc71', '#e74c3c']
models = list(df_resultados.index)

for i, model in enumerate(models):
    values = df_resultados.loc[model].values
    bars = ax.bar(x + i*width, values, width, label=model, color=colors[i])
    
    # Adicionar valores nas barras
    for bar, value in zip(bars, values):
        ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                f'{value:.2%}', ha='center', va='bottom', fontsize=9)

ax.set_xlabel('M√©tricas', fontsize=12)
ax.set_ylabel('Score', fontsize=12)
ax.set_title('Compara√ß√£o de Desempenho dos Modelos', fontsize=14, fontweight='bold')
ax.set_xticks(x + width)
ax.set_xticklabels(df_resultados.columns)
ax.legend(loc='upper right')
ax.set_ylim(0, 1.1)
ax.axhline(y=0.8, color='gray', linestyle='--', alpha=0.5, label='Threshold 80%')

plt.tight_layout()
plt.show()

In [None]:
# Compara√ß√£o das Matrizes de Confus√£o lado a lado
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

confusion_matrices = [
    ('Decision Tree', cm_dt, 'Blues'),
    ('Random Forest', cm_rf, 'Greens'),
    ('Logistic Regression', cm_lr, 'Oranges')
]

for idx, (name, cm, cmap) in enumerate(confusion_matrices):
    sns.heatmap(cm, annot=True, fmt='d', cmap=cmap, ax=axes[idx],
                xticklabels=['N√£o Churn', 'Churn'],
                yticklabels=['N√£o Churn', 'Churn'])
    axes[idx].set_xlabel('Previsto')
    axes[idx].set_ylabel('Real')
    axes[idx].set_title(f'{name}', fontsize=12, fontweight='bold')

plt.suptitle('Compara√ß√£o das Matrizes de Confus√£o', fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

## 3.4 Justificativa da Escolha do Melhor Modelo

In [None]:
# An√°lise detalhada para escolha do modelo
print("="*70)
print("AN√ÅLISE PARA SELE√á√ÉO DO MELHOR MODELO")
print("="*70)

# Encontrar melhor modelo por m√©trica
best_accuracy = df_resultados['Accuracy'].idxmax()
best_precision = df_resultados['Precision'].idxmax()
best_recall = df_resultados['Recall'].idxmax()

print(f"\nüìä Melhor Accuracy:  {best_accuracy} ({df_resultados.loc[best_accuracy, 'Accuracy']:.2%})")
print(f"üìä Melhor Precision: {best_precision} ({df_resultados.loc[best_precision, 'Precision']:.2%})")
print(f"üìä Melhor Recall:    {best_recall} ({df_resultados.loc[best_recall, 'Recall']:.2%})")

print("\n" + "-"*70)
print("JUSTIFICATIVA DA ESCOLHA")
print("-"*70)

justificativa = """
Para o problema de CHURN em telecomunica√ß√µes, a escolha do modelo deve priorizar
o RECALL, pois:

1. CUSTO DE FALSO NEGATIVO (n√£o identificar um cliente que vai sair):
   - Perda definitiva do cliente
   - Custo de aquisi√ß√£o de novo cliente (5-25x maior que reten√ß√£o)
   - Impacto negativo na receita recorrente

2. CUSTO DE FALSO POSITIVO (identificar churn em quem ia ficar):
   - Ofertar desconto/benef√≠cio desnecess√°rio
   - Custo menor e cliente continua

Portanto, √© prefer√≠vel errar oferecendo reten√ß√£o a mais do que perder clientes.
"""
print(justificativa)

# Determinando modelo escolhido baseado na an√°lise
modelo_escolhido = best_recall
print(f"\nüèÜ MODELO ESCOLHIDO: {modelo_escolhido}")
print(f"\n   Justificativa: Apresenta o melhor Recall ({df_resultados.loc[modelo_escolhido, 'Recall']:.2%}),")
print(f"   maximizando a captura de clientes em risco de churn.")

---

# Parte 4: Deploy do Modelo (2,0 pontos)

## 4.1 Salvando o Modelo Treinado

In [None]:
# Selecionando o melhor modelo baseado na an√°lise
# Usando Logistic Regression por ter melhor Recall para o problema de churn
melhor_modelo = modelos['Logistic Regression']

# Salvando o modelo com joblib
modelo_path = '../modelo_final.pkl'

try:
    joblib.dump(melhor_modelo, modelo_path)
    print(f"‚úÖ Modelo salvo com sucesso em: {modelo_path}")
except Exception as e:
    # Tentativa alternativa de caminho
    modelo_path = 'modelo_final.pkl'
    joblib.dump(melhor_modelo, modelo_path)
    print(f"‚úÖ Modelo salvo com sucesso em: {modelo_path}")

print(f"\nTipo do modelo: {type(melhor_modelo).__name__}")
print(f"Par√¢metros: {melhor_modelo.get_params()}")

In [None]:
# Salvando tamb√©m as colunas do encoding para uso futuro
encoding_info = {
    'feature_names': feature_names,
    'original_features': features_existentes
}

print(f"Features do modelo ({len(feature_names)} colunas ap√≥s encoding):")
print(feature_names[:10], "... e mais", len(feature_names)-10, "colunas")

## 4.2 Carregando e Utilizando o Modelo

In [None]:
# Demonstra√ß√£o de carregamento do modelo salvo
print("Carregando modelo salvo...")
modelo_carregado = joblib.load(modelo_path)

print(f"\n‚úÖ Modelo carregado com sucesso!")
print(f"Tipo: {type(modelo_carregado).__name__}")

In [None]:
# Criando exemplo de novo cliente para predi√ß√£o
print("="*70)
print("EXEMPLO DE PREDI√á√ÉO PARA NOVO CLIENTE")
print("="*70)

# Dados de um cliente fict√≠cio de alto risco
novo_cliente = {
    'SeniorCitizen': 0,
    'tenure': 2,  # Apenas 2 meses como cliente
    'MonthlyCharges': 89.90,  # Valor alto
    'TotalCharges': 179.80,
    'gender': 'Male',
    'Partner': 'No',
    'Dependents': 'No',
    'PhoneService': 'Yes',
    'MultipleLines': 'Yes',
    'InternetService': 'Fiber optic',
    'OnlineSecurity': 'No',
    'OnlineBackup': 'No',
    'DeviceProtection': 'No',
    'TechSupport': 'No',
    'StreamingTV': 'Yes',
    'StreamingMovies': 'Yes',
    'Contract': 'Month-to-month',  # Contrato mensal - alto risco
    'PaperlessBilling': 'Yes',
    'PaymentMethod': 'Electronic check'
}

print("\nüìã Dados do Novo Cliente:")
for key, value in novo_cliente.items():
    print(f"   {key}: {value}")

In [None]:
# Preprocessamento do novo cliente
# Convertendo para DataFrame
df_novo = pd.DataFrame([novo_cliente])

# Aplicando One-Hot Encoding com as mesmas colunas do treino
df_novo_encoded = pd.get_dummies(df_novo, drop_first=True)

# Garantindo que tenha as mesmas colunas do treino
for col in feature_names:
    if col not in df_novo_encoded.columns:
        df_novo_encoded[col] = 0

# Reordenando colunas para match com treino
df_novo_encoded = df_novo_encoded[feature_names]

print(f"Shape ap√≥s encoding: {df_novo_encoded.shape}")

In [None]:
# Fazendo a predi√ß√£o
predicao = modelo_carregado.predict(df_novo_encoded)
probabilidade = modelo_carregado.predict_proba(df_novo_encoded)

print("\n" + "="*70)
print("RESULTADO DA PREDI√á√ÉO")
print("="*70)

resultado = "CHURN" if predicao[0] == 1 else "N√ÉO CHURN"
prob_nao_churn = probabilidade[0][0] * 100
prob_churn = probabilidade[0][1] * 100

print(f"\nüéØ Predi√ß√£o: {resultado}")
print(f"\nüìä Probabilidades:")
print(f"   - N√£o Churn: {prob_nao_churn:.2f}%")
print(f"   - Churn:     {prob_churn:.2f}%")

if predicao[0] == 1:
    print("\n‚ö†Ô∏è  ALERTA: Este cliente tem alta probabilidade de cancelar!")
    print("   Recomenda√ß√£o: Entrar em contato para oferecer benef√≠cios de reten√ß√£o.")
else:
    print("\n‚úÖ Este cliente tem baixa probabilidade de cancelar.")

## 4.3 Explica√ß√£o do Resultado

O modelo previu **CHURN** para este cliente devido √†s seguintes caracter√≠sticas de alto risco:

1. **Tenure baixo (2 meses):** Clientes novos t√™m maior propens√£o a cancelar
2. **Contrato Month-to-month:** Sem v√≠nculo de longo prazo, facilita o cancelamento
3. **Sem servi√ßos de seguran√ßa/suporte:** OnlineSecurity, TechSupport = No
4. **MonthlyCharges alto:** Pode indicar insatisfa√ß√£o com custo-benef√≠cio
5. **Pagamento por Electronic check:** Historicamente associado a maior churn

### A√ß√£o Recomendada
Para este cliente, a equipe de reten√ß√£o deveria:
- Oferecer upgrade para contrato anual com desconto
- Incluir servi√ßos de seguran√ßa e suporte gratuitos por per√≠odo
- Propor revis√£o do pacote contratado

---

# Conclus√£o

## Resumo do Projeto

Este projeto demonstrou o ciclo completo de um projeto de Ci√™ncia de Dados:

1. **Problema de Neg√≥cio:** Defini√ß√£o clara do objetivo de prever churn em telecomunica√ß√µes

2. **Pipeline de Dados:** 
   - Ingest√£o de dados CSV
   - Limpeza e tratamento de valores ausentes
   - An√°lise explorat√≥ria com visualiza√ß√µes
   - Prepara√ß√£o com encoding e split treino/teste

3. **Modelagem:**
   - Treino de 3 modelos: Decision Tree, Random Forest, Logistic Regression
   - Avalia√ß√£o com Accuracy, Precision e Recall
   - Escolha baseada em crit√©rios de neg√≥cio (prioriza√ß√£o do Recall)

4. **Deploy:**
   - Modelo salvo com joblib
   - Demonstra√ß√£o de carregamento e predi√ß√£o
   - Exemplo pr√°tico com novo cliente

## Pr√≥ximos Passos

- Implementar API REST para predi√ß√µes em tempo real
- Criar dashboard de monitoramento de churn
- Treinar modelos com t√©cnicas de balanceamento (SMOTE)
- Implementar valida√ß√£o cruzada para maior robustez