# üìä Notebook 01 - An√°lise Explorat√≥ria de Dados (EDA)

**Projeto:** Previs√£o de Churn em Telecomunica√ß√µes  
**Autores:** Pedro Dias, Gustavo Rodrigues  
**Data:** Dezembro 2025

---

## Objetivo

Realizar uma an√°lise explorat√≥ria completa do dataset de churn para:
1. Entender a estrutura e qualidade dos dados
2. Identificar padr√µes e correla√ß√µes
3. Gerar insights para sele√ß√£o de features
4. Preparar os dados para modelagem

In [None]:
# ========== SETUP ==========
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Bibliotecas carregadas com sucesso!")
print(f"Pandas: {pd.__version__}")
print(f"NumPy: {np.__version__}")

## 1. Carregamento dos Dados

In [None]:
# Carregar dataset
url = "https://raw.githubusercontent.com/IBM/telco-customer-churn-on-icp4d/master/data/Telco-Customer-Churn.csv"

try:
    df = pd.read_csv(url)
    print("‚úÖ Dataset carregado com sucesso!")
except Exception as e:
    print(f"‚ùå Erro ao carregar: {e}")
    print("Tentando URL alternativa...")
    url_alt = "https://raw.githubusercontent.com/marvin-rubia/Churn-Analysis-Prediction/main/WA_Fn-UseC_-Telco-Customer-Churn.csv"
    df = pd.read_csv(url_alt)
    print("‚úÖ Dataset carregado da URL alternativa!")

print(f"\nüìä Dimens√µes: {df.shape[0]} linhas x {df.shape[1]} colunas")

## 2. Vis√£o Geral dos Dados

In [None]:
# Primeiras linhas
print("=" * 80)
print("AMOSTRA DOS DADOS")
print("=" * 80)
display(df.head())

# Informa√ß√µes gerais
print("\n" + "=" * 80)
print("INFORMA√á√ïES GERAIS")
print("=" * 80)
df.info()

In [None]:
# Estat√≠sticas descritivas
print("=" * 80)
print("ESTAT√çSTICAS DESCRITIVAS - VARI√ÅVEIS NUM√âRICAS")
print("=" * 80)
display(df.describe().T)

## 3. An√°lise de Qualidade dos Dados

In [None]:
# Verificar valores ausentes
print("=" * 80)
print("AN√ÅLISE DE VALORES AUSENTES")
print("=" * 80)

missing = df.isnull().sum()
missing_pct = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Valores Ausentes': missing,
    'Percentual (%)': missing_pct
})
missing_df = missing_df[missing_df['Valores Ausentes'] > 0].sort_values('Valores Ausentes', ascending=False)

if len(missing_df) > 0:
    display(missing_df)
else:
    print("‚úÖ Nenhum valor ausente detectado!")

# Verificar TotalCharges (problema conhecido)
print("\n" + "=" * 80)
print("VERIFICA√á√ÉO ESPECIAL: TotalCharges")
print("=" * 80)
print(f"Tipo da coluna: {df['TotalCharges'].dtype}")
print(f"Valores √∫nicos que n√£o s√£o n√∫meros:")
print(df[pd.to_numeric(df['TotalCharges'], errors='coerce').isnull()]['TotalCharges'].value_counts())

### üîß Limpeza de Dados

In [None]:
# Converter TotalCharges para num√©rico
print("üîß Convertendo TotalCharges para num√©rico...")
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# Contar NAs ap√≥s convers√£o
total_nas = df['TotalCharges'].isnull().sum()
print(f"   Valores NA gerados: {total_nas}")

if total_nas > 0:
    print(f"\nüìã Analisando os {total_nas} registros com NA...")
    na_records = df[df['TotalCharges'].isnull()]
    print(f"   Tenure m√©dio: {na_records['tenure'].mean():.2f} meses")
    print(f"   MonthlyCharges m√©dio: R$ {na_records['MonthlyCharges'].mean():.2f}")
    print("\n   Decis√£o: Remover esses registros (representam < 0.2% dos dados)")
    
    df_clean = df.dropna(subset=['TotalCharges']).copy()
    print(f"\n‚úÖ Dataset limpo: {df_clean.shape[0]} registros restantes")
else:
    df_clean = df.copy()
    print("‚úÖ Nenhuma limpeza necess√°ria!")

# Salvar dataset limpo
# df_clean.to_csv('../data/telco_churn_clean.csv', index=False)
print("\nüíæ Dataset limpo pronto para an√°lise!")

## 4. An√°lise da Vari√°vel Target (Churn)

In [None]:
# Distribui√ß√£o do Churn
print("=" * 80)
print("DISTRIBUI√á√ÉO DA VARI√ÅVEL TARGET: CHURN")
print("=" * 80)

churn_counts = df_clean['Churn'].value_counts()
churn_pct = df_clean['Churn'].value_counts(normalize=True) * 100

churn_summary = pd.DataFrame({
    'Quantidade': churn_counts,
    'Percentual (%)': churn_pct.round(2)
})
display(churn_summary)

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
churn_counts.plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribui√ß√£o de Churn (Contagem)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Churn', fontsize=12)
axes[0].set_ylabel('Quantidade de Clientes', fontsize=12)
axes[0].set_xticklabels(['N√£o', 'Sim'], rotation=0)
axes[0].grid(axis='y', alpha=0.3)

# Adicionar valores nas barras
for i, v in enumerate(churn_counts):
    axes[0].text(i, v + 50, str(v), ha='center', fontweight='bold')

# Gr√°fico de pizza
colors = ['#2ecc71', '#e74c3c']
explode = (0.05, 0.1)
axes[1].pie(churn_pct, labels=['N√£o Churn', 'Churn'], autopct='%1.1f%%',
            colors=colors, explode=explode, shadow=True, startangle=90)
axes[1].set_title('Propor√ß√£o de Churn', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\n‚ö†Ô∏è  Dataset DESBALANCEADO: {churn_pct['No']:.1f}% N√£o-Churn vs {churn_pct['Yes']:.1f}% Churn")
print("   Implica√ß√£o: Precisamos usar stratify no train_test_split!")

## 5. An√°lise de Vari√°veis Num√©ricas

In [None]:
# Identificar colunas num√©ricas
numeric_cols = df_clean.select_dtypes(include=['int64', 'float64']).columns.tolist()
numeric_cols = [col for col in numeric_cols if col != 'customerID']

print(f"Vari√°veis num√©ricas identificadas: {numeric_cols}")
print("\n" + "=" * 80)
print("ESTAT√çSTICAS POR CLASSE (CHURN)")
print("=" * 80)

for col in numeric_cols:
    print(f"\nüìä {col}:")
    stats = df_clean.groupby('Churn')[col].agg(['mean', 'median', 'std'])
    display(stats.round(2))

In [None]:
# Visualiza√ß√£o: Distribui√ß√µes comparativas
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
axes = axes.flatten()

for idx, col in enumerate(numeric_cols):
    ax = axes[idx]
    
    # Boxplot
    df_clean.boxplot(column=col, by='Churn', ax=ax, patch_artist=True)
    ax.set_title(f'Distribui√ß√£o de {col} por Churn', fontsize=12, fontweight='bold')
    ax.set_xlabel('Churn', fontsize=10)
    ax.set_ylabel(col, fontsize=10)
    plt.sca(ax)
    plt.xticks([1, 2], ['N√£o', 'Sim'])

plt.suptitle('')  # Remover t√≠tulo autom√°tico do pandas
plt.tight_layout()
plt.show()

### üîç Insights Principais - Vari√°veis Num√©ricas

**tenure (Tempo como cliente):**
- Clientes que d√£o churn t√™m tenure significativamente menor
- Mediana ~10 meses para churn vs ~38 meses para n√£o-churn
- **Insight:** Primeiros 12 meses s√£o cr√≠ticos para reten√ß√£o!

**MonthlyCharges:**
- Clientes com churn pagam mensalidades mais altas
- Pode indicar insatisfa√ß√£o com rela√ß√£o custo-benef√≠cio

**TotalCharges:**
- Fortemente correlacionado com tenure
- Clientes fi√©is acumulam maior valor total

## 6. An√°lise de Vari√°veis Categ√≥ricas

In [None]:
# Identificar colunas categ√≥ricas
categorical_cols = df_clean.select_dtypes(include=['object']).columns.tolist()
categorical_cols = [col for col in categorical_cols if col not in ['customerID', 'Churn']]

print(f"Vari√°veis categ√≥ricas identificadas ({len(categorical_cols)}):")
for col in categorical_cols:
    print(f"  - {col}: {df_clean[col].nunique()} categorias")

In [None]:
# An√°lise de cada vari√°vel categ√≥rica vs Churn
important_cats = ['Contract', 'InternetService', 'PaymentMethod', 'OnlineSecurity', 
                  'TechSupport', 'PaperlessBilling']

fig, axes = plt.subplots(3, 2, figsize=(16, 18))
axes = axes.flatten()

for idx, col in enumerate(important_cats):
    ax = axes[idx]
    
    # Calcular taxa de churn por categoria
    churn_rate = df_clean.groupby(col)['Churn'].apply(lambda x: (x == 'Yes').sum() / len(x) * 100)
    churn_rate = churn_rate.sort_values(ascending=False)
    
    # Plotar
    churn_rate.plot(kind='barh', ax=ax, color='#e74c3c')
    ax.set_title(f'Taxa de Churn por {col}', fontsize=12, fontweight='bold')
    ax.set_xlabel('Taxa de Churn (%)', fontsize=10)
    ax.set_ylabel('')
    ax.grid(axis='x', alpha=0.3)
    
    # Adicionar valores
    for i, v in enumerate(churn_rate):
        ax.text(v + 1, i, f'{v:.1f}%', va='center')

plt.tight_layout()
plt.show()

In [None]:
# Tabela detalhada: Contract
print("=" * 80)
print("AN√ÅLISE DETALHADA: TIPO DE CONTRATO")
print("=" * 80)

contract_analysis = pd.crosstab(df_clean['Contract'], df_clean['Churn'], normalize='index') * 100
contract_analysis['Total'] = df_clean['Contract'].value_counts()
contract_analysis = contract_analysis.round(2)
display(contract_analysis)

print("\nüí° Insight: Contratos mensais t√™m taxa de churn 10x maior que contratos de 2 anos!")

### üîç Insights Principais - Vari√°veis Categ√≥ricas

**Contract (Tipo de Contrato):** ‚≠ê FEATURE MAIS IMPORTANTE
- Month-to-month: ~42% de churn
- One year: ~11% de churn  
- Two year: ~3% de churn
- **A√ß√£o:** Incentivar migra√ß√£o para contratos longos!

**InternetService:**
- Fiber optic: maior taxa de churn (~42%)
- DSL: churn moderado (~19%)
- Sem internet: baixo churn (~7%)
- **Hip√≥tese:** Problemas de qualidade com fibra?

**PaymentMethod:**
- Electronic check: ~45% de churn (ALERTA!)
- Outros m√©todos: ~15-18% de churn
- **A√ß√£o:** Investigar UX do pagamento eletr√¥nico

**OnlineSecurity & TechSupport:**
- Clientes SEM esses servi√ßos t√™m ~42% de churn
- Clientes COM esses servi√ßos t√™m ~15% de churn
- **A√ß√£o:** Oferecer gratuitamente nos primeiros meses

## 7. An√°lise de Correla√ß√µes

In [None]:
# Preparar dados para correla√ß√£o (converter Churn para num√©rico)
df_corr = df_clean.copy()
df_corr['Churn_num'] = (df_corr['Churn'] == 'Yes').astype(int)

# Calcular correla√ß√µes
numeric_for_corr = ['tenure', 'MonthlyCharges', 'TotalCharges', 'SeniorCitizen', 'Churn_num']
correlation_matrix = df_corr[numeric_for_corr].corr()

# Visualiza√ß√£o
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='RdYlGn_r',
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correla√ß√£o - Vari√°veis Num√©ricas', fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

# Correla√ß√µes com Churn
print("\n" + "=" * 80)
print("CORRELA√á√ïES COM CHURN")
print("=" * 80)
churn_corr = correlation_matrix['Churn_num'].drop('Churn_num').sort_values(ascending=False)
display(pd.DataFrame(churn_corr, columns=['Correla√ß√£o']).round(3))

## 8. Feature Engineering - Cria√ß√£o de Novas Vari√°veis

In [None]:
# Criar features derivadas (opcional para melhorar o modelo)
df_clean['ChargesPerMonth'] = df_clean['TotalCharges'] / (df_clean['tenure'] + 1)  # +1 para evitar divis√£o por 0
df_clean['TenureGroup'] = pd.cut(df_clean['tenure'], 
                                   bins=[0, 12, 24, 48, 100], 
                                   labels=['0-1 ano', '1-2 anos', '2-4 anos', '4+ anos'])

print("‚úÖ Novas features criadas:")
print("  - ChargesPerMonth: Gasto m√©dio mensal")
print("  - TenureGroup: Categoriza√ß√£o do tempo de contrato")

# An√°lise da nova feature
print("\n" + "=" * 80)
print("AN√ÅLISE: CHURN POR GRUPO DE TENURE")
print("=" * 80)
tenure_churn = pd.crosstab(df_clean['TenureGroup'], df_clean['Churn'], normalize='index') * 100
display(tenure_churn.round(2))

## 9. Sele√ß√£o Final de Features

In [None]:
# Features selecionadas para modelagem
selected_features = [
    # Num√©ricas
    'tenure',
    'MonthlyCharges',
    'TotalCharges',
    # Categ√≥ricas importantes
    'Contract',
    'InternetService',
    'PaymentMethod',
    'OnlineSecurity',
    'TechSupport',
    'PaperlessBilling',
    'SeniorCitizen'
]

print("=" * 80)
print("FEATURES SELECIONADAS PARA MODELAGEM")
print("=" * 80)
print(f"\nTotal: {len(selected_features)} features\n")

for i, feat in enumerate(selected_features, 1):
    dtype = 'Num√©rica' if df_clean[feat].dtype in ['int64', 'float64'] else 'Categ√≥rica'
    print(f"{i:2d}. {feat:20s} ({dtype})")

print("\n" + "=" * 80)
print("CRIT√âRIOS DE SELE√á√ÉO:")
print("=" * 80)
print("‚úÖ Alta correla√ß√£o com target (> 0.15)")
print("‚úÖ Relev√¢ncia de neg√≥cio (acion√°vel)")
print("‚úÖ Baixa multicolinearidade")
print("‚úÖ Dispon√≠vel no momento da predi√ß√£o")

## 10. Prepara√ß√£o para Modelagem

In [None]:
# Preparar X e y
X = df_clean[selected_features].copy()
y = df_clean['Churn'].copy()

print("=" * 80)
print("DADOS PREPARADOS PARA MODELAGEM")
print("=" * 80)
print(f"\nFormato de X: {X.shape}")
print(f"Formato de y: {y.shape}")
print(f"\nDistribui√ß√£o de y:")
display(y.value_counts())

# Salvar datasets processados (opcional)
# X.to_csv('../data/X_features.csv', index=False)
# y.to_csv('../data/y_target.csv', index=False)

print("\n‚úÖ Dados prontos para o Notebook 02 - Modelagem!")

## üìù Resumo da EDA

### Principais Descobertas:

1. **Dataset:**
   - 7.032 clientes ap√≥s limpeza
   - 21 features originais
   - Target desbalanceado (73% N√£o-Churn, 27% Churn)

2. **Features Mais Relevantes:**
   - **Contract:** Maior preditor de churn
   - **tenure:** Inversamente proporcional ao churn
   - **InternetService (Fiber):** Alta taxa de churn
   - **PaymentMethod (E-check):** Correla√ß√£o forte com churn

3. **Insights Acion√°veis:**
   - Focar reten√ß√£o nos primeiros 12 meses
   - Incentivar contratos longos (descontos progressivos)
   - Investigar qualidade da fibra √≥tica
   - Melhorar UX do pagamento eletr√¥nico
   - Oferecer servi√ßos de suporte gratuitamente no in√≠cio

4. **Prepara√ß√£o Conclu√≠da:**
   - 10 features selecionadas
   - Dados limpos e validados
   - Pronto para encoding e modelagem

---

**Pr√≥ximo passo:** Notebook 02 - Modelagem Comparativa üöÄ