# Challenge TelecomX - Parte 2: Modelos Preditivos

## Objetivo
Criar modelos de Machine Learning para prever a evas√£o de clientes (churn) da TelecomX, utilizando os dados j√° tratados na Parte 1 do desafio.

## Etapas do Projeto
1. **Carregamento dos dados tratados**
2. **An√°lise explorat√≥ria para modelagem**
3. **Prepara√ß√£o dos dados para ML**
4. **Constru√ß√£o de modelos preditivos**
5. **Avalia√ß√£o e compara√ß√£o dos modelos**
6. **Interpreta√ß√£o dos resultados**

In [None]:
%pip install scikit-learn pandas numpy matplotlib seaborn imbalanced-learn

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.metrics import roc_curve, auc, roc_auc_score

from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from imblearn.combine import SMOTETomek

print("Bibliotecas importadas com sucesso!")

: 

## 1. Carregamento dos Dados Tratados

Carregando o conjunto de dados que foi limpo e tratado na Parte 1 do Challenge TelecomX.

In [None]:
try:
    dados = pd.read_csv("dados_tratados.csv")
    print("Dados tratados carregados do arquivo CSV")
except FileNotFoundError:
    print("Arquivo dados_tratados.csv n√£o encontrado")
    print("Carregando e tratando dados da API...")
    
    import requests
    
    url = 'https://github.com/alura-cursos/challenge2-data-science/raw/refs/heads/main/TelecomX_Data.json'
    response = requests.get(url)
    data = response.json()
    
    dados = pd.json_normalize(data)
    dados.replace({'Yes': 1, 'No': 0}, inplace=True)
    
    colunas_numericas = ['account.Charges.Monthly', 'account.Charges.Total', 'customer.tenure']
    for col in colunas_numericas:
        if col in dados.columns:
            dados[col] = pd.to_numeric(dados[col], errors='coerce')
    
    if 'account.Charges.Monthly' in dados.columns:
        dados['Contas_Diarias'] = dados['account.Charges.Monthly'] / 30
    
    dados = dados[dados['Churn'].isin([0, 1])]
    
    print("Dados carregados e tratados da API")

print(f"Dimens√µes do dataset: {dados.shape}")
print(f"Colunas dispon√≠veis: {len(dados.columns)}")
dados.head()

In [None]:
print("Informa√ß√µes do dataset:")
print(f"Registros: {len(dados):,}")
print(f"Colunas: {dados.columns.tolist()}")
print(f"\nTipos de dados:")
print(dados.dtypes)
print(f"\nValores ausentes:")
print(dados.isnull().sum().sum())

if 'Churn' in dados.columns:
    print(f"\nDistribui√ß√£o do churn:")
    churn_counts = dados['Churn'].value_counts()
    print(f"N√£o cancelaram (0): {churn_counts[0]:,} ({churn_counts[0]/len(dados)*100:.1f}%)")
    print(f"Cancelaram (1): {churn_counts[1]:,} ({churn_counts[1]/len(dados)*100:.1f}%)")
    
    plt.figure(figsize=(6,4))
    dados['Churn'].value_counts().plot(kind='bar', color=['lightblue', 'coral'])
    plt.title('Distribui√ß√£o da Vari√°vel Target (Churn)')
    plt.xlabel('Churn')
    plt.ylabel('Quantidade')
    plt.xticks([0,1], ['N√£o Cancelou', 'Cancelou'], rotation=0)
    plt.tight_layout()
    plt.show()

## 2. Pr√©-processamento Avan√ßado dos Dados

### Etapas do Pr√©-processamento:
1. **Elimina√ß√£o de colunas irrelevantes** (IDs, identificadores √∫nicos)
2. **Codifica√ß√£o de vari√°veis categ√≥ricas** (One-Hot Encoding)
3. **An√°lise do balanceamento das classes**
4. **Aplica√ß√£o de t√©cnicas de balanceamento** (SMOTE, undersampling)
5. **Normaliza√ß√£o/Padroniza√ß√£o** conforme necess√°rio para cada modelo

In [None]:
# Etapa 1: Elimina√ß√£o de Colunas Irrelevantes

print("An√°lise das colunas do dataset:")

print("Colunas dispon√≠veis:")
for i, col in enumerate(dados.columns):
    print(f"{i+1:2d}. {col}")
    
print(f"\nShape original dos dados: {dados.shape}")

colunas_para_remover = []

for col in dados.columns:
    if 'id' in col.lower() or 'customerid' in col.lower():
        colunas_para_remover.append(col)
        print(f"Coluna '{col}' identificada como ID")
    elif dados[col].nunique() == len(dados):
        colunas_para_remover.append(col)
        print(f"Coluna '{col}' tem valores √∫nicos (poss√≠vel ID)")

if colunas_para_remover:
    dados_limpos = dados.drop(columns=colunas_para_remover)
    print(f"Colunas removidas: {colunas_para_remover}")
    print(f"Shape ap√≥s remo√ß√£o: {dados_limpos.shape}")
else:
    dados_limpos = dados.copy()
    print("Nenhuma coluna irrelevante identificada automaticamente")

print("\nColunas mantidas:")
for col in dados_limpos.columns:
    tipo_dado = dados_limpos[col].dtype
    valores_unicos = dados_limpos[col].nunique()
    print(f"‚Ä¢ {col:20s} | Tipo: {str(tipo_dado):10s} | √önicos: {valores_unicos:4d}")

print(f"\nDados prontos para pr√≥xima etapa: {dados_limpos.shape}")

In [None]:
# Etapa 2: Codifica√ß√£o de Vari√°veis Categ√≥ricas

print("Transformando vari√°veis categ√≥ricas")

colunas_categoricas = []
colunas_numericas = []
coluna_target = None

for col in dados_limpos.columns:
    if 'churn' in col.lower() or 'evasao' in col.lower() or 'cancelou' in col.lower():
        coluna_target = col
        print(f"Vari√°vel target identificada: '{col}'")
    elif dados_limpos[col].dtype == 'object' or dados_limpos[col].dtype.name == 'category':
        colunas_categoricas.append(col)
    elif pd.api.types.is_numeric_dtype(dados_limpos[col]):
        colunas_numericas.append(col)

print(f"\nResumo das vari√°veis:")
print(f"‚Ä¢ Categ√≥ricas: {len(colunas_categoricas)} - {colunas_categoricas}")
print(f"‚Ä¢ Num√©ricas: {len(colunas_numericas)} - {colunas_numericas}")
print(f"‚Ä¢ Target: {coluna_target}")

if coluna_target:
    X = dados_limpos.drop(coluna_target, axis=1)
    y = dados_limpos[coluna_target]
else:
    X = dados_limpos.iloc[:, :-1]
    y = dados_limpos.iloc[:, -1]
    coluna_target = dados_limpos.columns[-1]

X_numericas = X.select_dtypes(include=[np.number])
X_categoricas = X.select_dtypes(include=['object', 'category'])

print(f"\nSepara√ß√£o conclu√≠da:")
print(f"X (features): {X.shape}")
print(f"y (target): {y.shape}")

if not X_categoricas.empty:
    print(f"\nAplicando One-Hot Encoding em {len(X_categoricas.columns)} vari√°veis categ√≥ricas...")
    
    # Converter todas as colunas categ√≥ricas para string para evitar erro de tipos mistos
    X_categoricas_str = X_categoricas.astype(str)
    
    encoder = OneHotEncoder(drop='first', sparse_output=False, handle_unknown='ignore')
    X_categoricas_encoded = encoder.fit_transform(X_categoricas_str)
    
    nomes_encoded = encoder.get_feature_names_out(X_categoricas.columns)
    X_categoricas_encoded = pd.DataFrame(X_categoricas_encoded, 
                                       columns=nomes_encoded, 
                                       index=X_categoricas.index)
    
    X_final = pd.concat([X_numericas, X_categoricas_encoded], axis=1)
    
    print(f"One-Hot Encoding aplicado")
    print(f"Shape antes: {X.shape} | Shape depois: {X_final.shape}")
    print(f"Novas colunas criadas: {len(nomes_encoded)}")
    
else:
    X_final = X.copy()
    print("Nenhuma vari√°vel categ√≥rica encontrada - dados j√° num√©ricos")

if y.dtype == 'object':
    label_encoder = LabelEncoder()
    y_encoded = label_encoder.fit_transform(y)
    print(f"\nTarget '{coluna_target}' codificado:")
    for i, classe in enumerate(label_encoder.classes_):
        print(f"   ‚Ä¢ {classe} ‚Üí {i}")
else:
    y_encoded = y.copy()
    print(f"\nTarget '{coluna_target}' j√° est√° em formato num√©rico")

print(f"\nDados finais para modelagem:")
print(f"‚Ä¢ Features (X): {X_final.shape}")
print(f"‚Ä¢ Target (y): {y_encoded.shape}")
print(f"‚Ä¢ Colunas finais: {list(X_final.columns)}")

In [None]:
# Etapa 3: An√°lise do Balanceamento das Classes

print("An√°lise de balanceamento das classes")

distribuicao_classes = pd.Series(y_encoded).value_counts().sort_index()
total_amostras = len(y_encoded)

print("Distribui√ß√£o absoluta:")
for classe, quantidade in distribuicao_classes.items():
    print(f"   Classe {classe}: {quantidade:,} amostras")

print(f"\nDistribui√ß√£o percentual:")
for classe, quantidade in distribuicao_classes.items():
    percentual = (quantidade / total_amostras) * 100
    print(f"   Classe {classe}: {percentual:.2f}%")

classe_majoritaria = distribuicao_classes.max()
classe_minoritaria = distribuicao_classes.min()
razao_desbalanceamento = classe_majoritaria / classe_minoritaria

print(f"\nM√©tricas de balanceamento:")
print(f"   ‚Ä¢ Classe majorit√°ria: {classe_majoritaria:,} amostras")
print(f"   ‚Ä¢ Classe minorit√°ria: {classe_minoritaria:,} amostras")
print(f"   ‚Ä¢ Raz√£o de desbalanceamento: {razao_desbalanceamento:.2f}:1")

if razao_desbalanceamento <= 1.5:
    nivel_desbalanceamento = "BAIXO"
elif razao_desbalanceamento <= 3.0:
    nivel_desbalanceamento = "MODERADO"
elif razao_desbalanceamento <= 10.0:
    nivel_desbalanceamento = "ALTO"
else:
    nivel_desbalanceamento = "MUITO ALTO"

print(f"   ‚Ä¢ N√≠vel de desbalanceamento: {nivel_desbalanceamento}")

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
distribuicao_classes.plot(kind='bar', color=['skyblue', 'lightcoral'])
plt.title('Distribui√ß√£o das Classes', fontsize=14, fontweight='bold')
plt.xlabel('Classe', fontsize=12)
plt.ylabel('Quantidade de Amostras', fontsize=12)
plt.xticks(rotation=0)
for i, v in enumerate(distribuicao_classes.values):
    plt.text(i, v + total_amostras*0.01, f'{v:,}', ha='center', fontweight='bold')

plt.subplot(1, 2, 2)
labels = [f'Classe {i}\n({v:,} amostras)' for i, v in enumerate(distribuicao_classes.values)]
colors = ['lightblue', 'lightcoral']
plt.pie(distribuicao_classes.values, labels=labels, autopct='%1.1f%%', 
        colors=colors, startangle=90, textprops={'fontsize': 10})
plt.title('Propor√ß√£o das Classes', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\nRecomenda√ß√µes para {nivel_desbalanceamento} desbalanceamento:")
if razao_desbalanceamento <= 1.5:
    print("   Dataset bem balanceado - modelos podem ser treinados sem ajustes especiais")
elif razao_desbalanceamento <= 3.0:
    print("   Considerar ajuste de class_weight nos modelos")
    print("   Monitorar m√©tricas de precision e recall por classe")
elif razao_desbalanceamento <= 10.0:
    print("   Recomendado aplicar t√©cnicas de balanceamento (SMOTE, undersampling)")
    print("   Usar m√©tricas balanceadas (F1-score, ROC-AUC) para avalia√ß√£o")
    print("   Ajustar threshold de classifica√ß√£o se necess√°rio")
else:
    print("   OBRIGAT√ìRIO aplicar t√©cnicas de balanceamento")
    print("   Considerar estrat√©gias ensemble especializadas")
    print("   Foco em recall da classe minorit√°ria")

print(f"\nAn√°lise de balanceamento conclu√≠da")

In [None]:
# Etapa 4: Aplica√ß√£o de T√©cnicas de Balanceamento

print("Aplicando t√©cnicas de balanceamento")

datasets_balanceados = {}
datasets_balanceados['Original'] = (X_final, y_encoded)

if razao_desbalanceamento > 1.5:
    print(f"Aplicando t√©cnicas de balanceamento (raz√£o: {razao_desbalanceamento:.2f}:1)")
    
    try:
        print("\nAplicando SMOTE...")
        smote = SMOTE(random_state=42, k_neighbors=min(5, classe_minoritaria-1))
        X_smote, y_smote = smote.fit_resample(X_final, y_encoded)
        datasets_balanceados['SMOTE'] = (X_smote, y_smote)
        print(f"   SMOTE aplicado - Shape: {X_smote.shape}")
        
    except Exception as e:
        print(f"   Erro no SMOTE: {e}")
    
    try:
        print("\nAplicando Random Under Sampling...")
        undersampler = RandomUnderSampler(random_state=42)
        X_under, y_under = undersampler.fit_resample(X_final, y_encoded)
        datasets_balanceados['UnderSampling'] = (X_under, y_under)
        print(f"   Under Sampling aplicado - Shape: {X_under.shape}")
        
    except Exception as e:
        print(f"   Erro no Under Sampling: {e}")
    
    try:
        print("\nAplicando SMOTE + Tomek...")
        smote_tomek = SMOTETomek(random_state=42)
        X_smote_tomek, y_smote_tomek = smote_tomek.fit_resample(X_final, y_encoded)
        datasets_balanceados['SMOTE_Tomek'] = (X_smote_tomek, y_smote_tomek)
        print(f"   SMOTE+Tomek aplicado - Shape: {X_smote_tomek.shape}")
        
    except Exception as e:
        print(f"   Erro no SMOTE+Tomek: {e}")

else:
    print(f"Dataset j√° bem balanceado (raz√£o: {razao_desbalanceamento:.2f}:1) - balanceamento n√£o necess√°rio")

print(f"\nCompara√ß√£o das distribui√ß√µes:")

for nome, (X_data, y_data) in datasets_balanceados.items():
    distribuicao = pd.Series(y_data).value_counts().sort_index()
    total = len(y_data)
    razao = distribuicao.max() / distribuicao.min() if len(distribuicao) > 1 else 1.0
    
    print(f"\n{nome.upper()}:")
    print(f"   Total de amostras: {total:,}")
    for classe, qtd in distribuicao.items():
        perc = (qtd/total)*100
        print(f"   Classe {classe}: {qtd:,} ({perc:.1f}%)")
    print(f"   Raz√£o de balanceamento: {razao:.2f}:1")

if len(datasets_balanceados) > 1:
    fig, axes = plt.subplots(2, len(datasets_balanceados), figsize=(4*len(datasets_balanceados), 8))
    if len(datasets_balanceados) == 1:
        axes = axes.reshape(-1, 1)
    
    for i, (nome, (X_data, y_data)) in enumerate(datasets_balanceados.items()):
        dist = pd.Series(y_data).value_counts().sort_index()
        axes[0, i].bar(range(len(dist)), dist.values, color=['skyblue', 'lightcoral'])
        axes[0, i].set_title(f'{nome}\n({len(y_data):,} amostras)', fontsize=12, fontweight='bold')
        axes[0, i].set_xlabel('Classe')
        axes[0, i].set_ylabel('Quantidade')
        
        for j, v in enumerate(dist.values):
            axes[0, i].text(j, v + max(dist.values)*0.01, f'{v:,}', ha='center', fontweight='bold')
        
        axes[1, i].pie(dist.values, labels=[f'Classe {j}' for j in range(len(dist))], 
                      autopct='%1.1f%%', startangle=90)
        axes[1, i].set_title(f'Propor√ß√£o - {nome}')
    
    plt.tight_layout()
    plt.show()

dataset_escolhido = 'SMOTE' if 'SMOTE' in datasets_balanceados else 'Original'
X_balanceado, y_balanceado = datasets_balanceados[dataset_escolhido]

print(f"\nDataset escolhido para modelagem: {dataset_escolhido}")
print(f"Shape final: X={X_balanceado.shape}, y={y_balanceado.shape}")
print("T√©cnicas de balanceamento aplicadas com sucesso")

## 3. An√°lise de Correla√ß√£o e Sele√ß√£o de Vari√°veis

### Objetivos:
1. **Visualizar matriz de correla√ß√£o** entre todas as vari√°veis
2. **Identificar correla√ß√µes com o target** (vari√°veis mais relevantes)
3. **Investigar rela√ß√µes espec√≠ficas** entre tempo de contrato e evas√£o
4. **Analisar impacto dos gastos** na decis√£o de cancelamento
5. **Selecionar features mais relevantes** para modelagem

In [None]:
# Etapa 1: Divis√£o Estratificada dos Dados

print("Divis√£o dos dados em treino e teste")

try:
    if 'features_recomendadas' in locals() and 'X_final' in locals() and 'y_encoded' in locals():
        X_modelagem = X_final[features_recomendadas[:15]]
        y_modelagem = y_encoded
        print("Usando features selecionadas da an√°lise de correla√ß√£o")
        print(f"Features utilizadas ({len(X_modelagem.columns)}): {list(X_modelagem.columns)}")
    else:
        X_modelagem = X_final
        y_modelagem = y_encoded
        print("Usando todas as features processadas dispon√≠veis")
        
except NameError:
    print("Executando pr√©-processamento b√°sico...")
    
    if 'Churn' in dados.columns:
        X_modelagem = dados.drop('Churn', axis=1)
        y_modelagem = dados['Churn']
        coluna_target = 'Churn'
    else:
        X_modelagem = dados.iloc[:, :-1]
        y_modelagem = dados.iloc[:, -1]
        coluna_target = dados.columns[-1]
    
    for col in X_modelagem.select_dtypes(include=['object']).columns:
        if col != 'customerID':
            le = LabelEncoder()
            X_modelagem[col] = le.fit_transform(X_modelagem[col].astype(str))
    
    id_columns = [col for col in X_modelagem.columns if 'id' in col.lower()]
    if id_columns:
        X_modelagem = X_modelagem.drop(columns=id_columns)
        print(f"Removidas colunas ID: {id_columns}")
    
    print("Pr√©-processamento b√°sico aplicado")

print(f"\nDimens√µes dos dados:")
print(f"   ‚Ä¢ Features (X): {X_modelagem.shape}")
print(f"   ‚Ä¢ Target (y): {y_modelagem.shape}")
print(f"   ‚Ä¢ Total de amostras: {len(y_modelagem):,}")

distribuicao_original = pd.Series(y_modelagem).value_counts()
print(f"\nDistribui√ß√£o original das classes:")
for classe, qtd in distribuicao_original.items():
    percentual = (qtd / len(y_modelagem)) * 100
    print(f"   ‚Ä¢ Classe {classe}: {qtd:,} amostras ({percentual:.1f}%)")

divisoes = [
    {'test_size': 0.2, 'nome': '80/20', 'recomendacao': 'PADR√ÉO'},
    {'test_size': 0.3, 'nome': '70/30', 'recomendacao': 'ALTERNATIVA'}
]

print(f"\nTestando diferentes divis√µes:")

datasets_divididos = {}

for config in divisoes:
    X_train, X_test, y_train, y_test = train_test_split(
        X_modelagem, y_modelagem,
        test_size=config['test_size'],
        random_state=42,
        stratify=y_modelagem
    )
    
    datasets_divididos[config['nome']] = {
        'X_train': X_train, 'X_test': X_test,
        'y_train': y_train, 'y_test': y_test,
        'config': config
    }
    
    print(f"\nDivis√£o {config['nome']} ({config['recomendacao']}):")
    print(f"   ‚Ä¢ Treino: {X_train.shape[0]:,} amostras ({(1-config['test_size'])*100:.0f}%)")
    print(f"   ‚Ä¢ Teste:  {X_test.shape[0]:,} amostras ({config['test_size']*100:.0f}%)")
    
    dist_treino = pd.Series(y_train).value_counts(normalize=True)
    dist_teste = pd.Series(y_test).value_counts(normalize=True)
    
    print("   Distribui√ß√£o Treino vs Teste:")
    for classe in dist_treino.index:
        diff = abs(dist_treino[classe] - dist_teste[classe]) * 100
        status = "OK" if diff < 2 else "Alerta"
        print(f"      {status} Classe {classe}: Treino {dist_treino[classe]:.1%} | Teste {dist_teste[classe]:.1%} | Diff: {diff:.1f}pp")

divisao_escolhida = '80/20'
dados_finais = datasets_divididos[divisao_escolhida]

X_train = dados_finais['X_train']
X_test = dados_finais['X_test']
y_train = dados_finais['y_train'] 
y_test = dados_finais['y_test']

print(f"\nDivis√£o escolhida: {divisao_escolhida}")
print(f"Dados preparados para modelagem:")
print(f"   ‚Ä¢ X_train: {X_train.shape}")
print(f"   ‚Ä¢ X_test: {X_test.shape}")
print(f"   ‚Ä¢ y_train: {y_train.shape}")
print(f"   ‚Ä¢ y_test: {y_test.shape}")

print(f"\nDivis√£o estratificada dos dados conclu√≠da")
print("Dados prontos para treinamento dos modelos")

In [None]:
# Etapa 2: Prepara√ß√£o Espec√≠fica por Tipo de Modelo

print("Prepara√ß√£o dos dados por categoria de modelo")

categorias_modelos = {
    'Sens√≠veis √† Escala': {
        'modelos': ['Logistic Regression', 'KNN'],
        'precisa_normalizacao': True,
        'justificativa': [
            'Regress√£o Log√≠stica usa gradiente descendente (sens√≠vel a diferentes escalas)',
            'KNN calcula dist√¢ncias euclidianas (features com escalas maiores dominam)',
            'Converg√™ncia mais r√°pida e est√°vel com dados normalizados',
            'Coeficientes mais interpret√°veis na Regress√£o Log√≠stica'
        ]
    },
    'Baseados em √Årvore': {
        'modelos': ['Decision Tree', 'Random Forest'],
        'precisa_normalizacao': False,
        'justificativa': [
            '√Årvores fazem divis√µes baseadas em valores absolutos (thresholds)',
            'Algoritmo √© invariante a transforma√ß√µes mon√≥tonas',
            'Cada feature √© avaliada independentemente',
            'Normaliza√ß√£o n√£o afeta a estrutura das decis√µes'
        ]
    }
}

print("Justificativas t√©cnicas por categoria:")

for categoria, info in categorias_modelos.items():
    necessidade = "REQUER" if info['precisa_normalizacao'] else "N√ÉO REQUER"
    
    print(f"\n{categoria.upper()} - {necessidade} NORMALIZA√á√ÉO:")
    print(f"   ‚Ä¢ Modelos: {', '.join(info['modelos'])}")
    print("   ‚Ä¢ Justificativas t√©cnicas:")
    for just in info['justificativa']:
        print(f"     ‚óã {just}")

datasets_por_categoria = {}

print(f"\nPreparando datasets espec√≠ficos:")

print("\nCATEGORIA: Modelos Baseados em √Årvore")
print("   Estrat√©gia: Dados originais (sem normaliza√ß√£o)")

datasets_por_categoria['Baseados em √Årvore'] = {
    'X_train': X_train.copy(),
    'X_test': X_test.copy(),
    'y_train': y_train.copy(),
    'y_test': y_test.copy(),
    'scaler': None,
    'normalizacao_aplicada': False
}

print("   Dataset preparado (dados mantidos na escala original)")

print("\nCATEGORIA: Modelos Sens√≠veis √† Escala")
print("   Estrat√©gia: StandardScaler (m√©dia=0, std=1)")

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns, index=X_train.index)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns, index=X_test.index)

datasets_por_categoria['Sens√≠veis √† Escala'] = {
    'X_train': X_train_scaled,
    'X_test': X_test_scaled,
    'y_train': y_train.copy(),
    'y_test': y_test.copy(),
    'scaler': scaler,
    'normalizacao_aplicada': True
}

print("   StandardScaler aplicado")

print(f"\nComparando escalas antes e depois:")

# Amostra de features para compara√ß√£o
features_amostra = X_train.columns[:5]

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Antes da normaliza√ß√£o
axes[0,0].boxplot([X_train[col] for col in features_amostra], labels=features_amostra)
axes[0,0].set_title('ANTES - Escalas Originais')
axes[0,0].set_ylabel('Valor')
axes[0,0].tick_params(axis='x', rotation=45)
axes[0,0].grid(alpha=0.3)

# Depois da normaliza√ß√£o
axes[0,1].boxplot([X_train_scaled[col] for col in features_amostra], labels=features_amostra)
axes[0,1].set_title('DEPOIS - Escalas Padronizadas')
axes[0,1].set_ylabel('Valor (Z-score)')
axes[0,1].tick_params(axis='x', rotation=45)
axes[0,1].grid(alpha=0.3)

# Histograma antes
for i, col in enumerate(features_amostra[:2]):
    axes[1,0].hist(X_train[col], alpha=0.7, bins=20, label=col)
axes[1,0].set_title('ANTES - Distribui√ß√µes Originais')
axes[1,0].set_xlabel('Valor')
axes[1,0].set_ylabel('Frequ√™ncia')
axes[1,0].legend()
axes[1,0].grid(alpha=0.3)

# Histograma depois
for i, col in enumerate(features_amostra[:2]):
    axes[1,1].hist(X_train_scaled[col], alpha=0.7, bins=20, label=col)
axes[1,1].set_title('DEPOIS - Escalas Padronizadas')
axes[1,1].set_ylabel('Valor (Z-score)')
axes[1,1].tick_params(axis='x', rotation=45)
axes[1,1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nResumo dos datasets preparados:")

for categoria, dados in datasets_por_categoria.items():
    print(f"\n{categoria.upper()}:")
    print(f"   ‚Ä¢ Normaliza√ß√£o: {'SIM' if dados['normalizacao_aplicada'] else 'N√ÉO'}")
    print(f"   ‚Ä¢ X_train shape: {dados['X_train'].shape}")
    print(f"   ‚Ä¢ X_test shape: {dados['X_test'].shape}")
    print(f"   ‚Ä¢ Modelos compat√≠veis: {', '.join(categorias_modelos[categoria]['modelos'])}")
    if dados['scaler']:
        print(f"   ‚Ä¢ Scaler: {type(dados['scaler']).__name__}")

print(f"\nPrepara√ß√£o espec√≠fica por tipo de modelo conclu√≠da")
print("Datasets otimizados prontos para treinamento")

In [None]:
# Etapa 3: Treinamento dos Modelos Selecionados

print("Treinamento dos modelos preditivos")

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
import time

modelos_config = {
    'Regress√£o Log√≠stica': {
        'modelo': LogisticRegression(random_state=42, max_iter=1000),
        'categoria': 'Sens√≠veis √† Escala',
        'dataset_key': 'Sens√≠veis √† Escala',
        'justificativa': [
            'Modelo linear baseado em probabilidades (fun√ß√£o sigmoide)',
            'Coeficientes interpret√°veis para an√°lise de impacto',
            'Computacionalmente eficiente para datasets grandes',
            'Baseline robusto para problemas de classifica√ß√£o bin√°ria'
        ],
        'vantagens': ['Interpretabilidade alta', 'R√°pido treinamento', 'Probabilidades calibradas'],
        'quando_usar': 'Rela√ß√µes lineares entre features e target'
    },
    
    'K-Nearest Neighbors': {
        'modelo': KNeighborsClassifier(n_neighbors=5, metric='euclidean'),
        'categoria': 'Sens√≠veis √† Escala',
        'dataset_key': 'Sens√≠veis √† Escala',
        'justificativa': [
            'Algoritmo n√£o-param√©trico baseado em vizinhan√ßa',
            'Captura padr√µes locais complexos nos dados',
            'Flex√≠vel para fronteiras de decis√£o n√£o-lineares',
            'N√£o assume distribui√ß√£o espec√≠fica dos dados'
        ],
        'vantagens': ['Sem suposi√ß√µes sobre dados', 'Fronteiras complexas', 'Simples conceitualmente'],
        'quando_usar': 'Padr√µes locais complexos, dados com clusters naturais'
    },
    
    '√Årvore de Decis√£o': {
        'modelo': DecisionTreeClassifier(random_state=42, max_depth=10, min_samples_split=20),
        'categoria': 'Baseados em √Årvore',
        'dataset_key': 'Baseados em √Årvore',
        'justificativa': [
            'Modelo de regras interpret√°veis (if-then-else)',
            'Captura intera√ß√µes n√£o-lineares entre features',
            'Sele√ß√£o autom√°tica de features mais importantes',
            'N√£o afetado por outliers e diferentes escalas'
        ],
        'vantagens': ['M√°xima interpretabilidade', 'Sem pr√©-processamento', 'Captura intera√ß√µes'],
        'quando_usar': 'Necessidade de explicabilidade total das decis√µes'
    },
    
    'Random Forest': {
        'modelo': RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10),
        'categoria': 'Baseados em √Årvore',
        'dataset_key': 'Baseados em √Årvore',
        'justificativa': [
            'Ensemble de √°rvores reduz overfitting individual',
            'Robustez atrav√©s de bootstrap aggregating (bagging)',
            'Feature importance autom√°tica e confi√°vel',
            'Excelente performance geral na maioria dos problemas'
        ],
        'vantagens': ['Alta precis√£o', 'Robusto a overfitting', 'Feature importance'],
        'quando_usar': 'Quando performance √© prioridade sobre interpretabilidade'
    }
}

print("Justificativas detalhadas para cada modelo:")

for nome_modelo, config in modelos_config.items():
    necessidade = "REQUER" if config['categoria'] == 'Sens√≠veis √† Escala' else "N√ÉO REQUER"
    
    print(f"\n{nome_modelo.upper()} ({config['categoria']}) - {necessidade} NORMALIZA√á√ÉO:")
    print("   Justificativas t√©cnicas:")
    for just in config['justificativa']:
        print(f"      ‚Ä¢ {just}")
    print(f"   Vantagens: {', '.join(config['vantagens'])}")
    print(f"   Quando usar: {config['quando_usar']}")

resultados_modelos = {}

print(f"\nIniciando treinamento dos modelos...")

for nome_modelo, config in modelos_config.items():
    print(f"\nTreinando: {nome_modelo}")
    
    dataset = datasets_por_categoria[config['dataset_key']]
    X_train_modelo = dataset['X_train'].copy()
    X_test_modelo = dataset['X_test'].copy()
    y_train_modelo = dataset['y_train']
    y_test_modelo = dataset['y_test']
    
    # Verificar e tratar valores NaN
    nan_count_train = X_train_modelo.isnull().sum().sum()
    nan_count_test = X_test_modelo.isnull().sum().sum()
    
    if nan_count_train > 0 or nan_count_test > 0:
        print(f"   Valores NaN encontrados: Train={nan_count_train}, Test={nan_count_test}")
        print("   Aplicando tratamento de valores ausentes (preenchimento com mediana)")
        
        # Preencher NaNs com a mediana para colunas num√©ricas
        from sklearn.impute import SimpleImputer
        imputer = SimpleImputer(strategy='median')
        
        X_train_modelo = pd.DataFrame(
            imputer.fit_transform(X_train_modelo), 
            columns=X_train_modelo.columns, 
            index=X_train_modelo.index
        )
        
        X_test_modelo = pd.DataFrame(
            imputer.transform(X_test_modelo), 
            columns=X_test_modelo.columns, 
            index=X_test_modelo.index
        )
        
        print("   Valores NaN tratados com sucesso")
    
    normalizacao_status = "COM" if dataset['normalizacao_aplicada'] else "SEM"
    print(f"   Dataset: {normalizacao_status} normaliza√ß√£o")
    
    inicio = time.time()
    modelo = config['modelo']
    modelo.fit(X_train_modelo, y_train_modelo)
    fim = time.time()
    tempo_treinamento = fim - inicio
    
    print(f"   Tempo de treinamento: {tempo_treinamento:.3f} segundos")
    
    inicio_pred = time.time()
    y_pred = modelo.predict(X_test_modelo)
    y_pred_proba = modelo.predict_proba(X_test_modelo)[:, 1]
    fim_pred = time.time()
    tempo_predicao = fim_pred - inicio_pred
    
    print(f"   Tempo de predi√ß√£o: {tempo_predicao:.3f} segundos")
    
    accuracy = accuracy_score(y_test_modelo, y_pred)
    precision = precision_score(y_test_modelo, y_pred)
    recall = recall_score(y_test_modelo, y_pred)
    f1 = f1_score(y_test_modelo, y_pred)
    roc_auc = roc_auc_score(y_test_modelo, y_pred_proba)
    
    print("   Executando valida√ß√£o cruzada...")
    # Aplicar mesmo tratamento de NaN para valida√ß√£o cruzada
    X_train_cv = X_train_modelo.copy()
    if X_train_cv.isnull().sum().sum() > 0:
        X_train_cv = pd.DataFrame(
            SimpleImputer(strategy='median').fit_transform(X_train_cv),
            columns=X_train_cv.columns,
            index=X_train_cv.index
        )
    
    cv_scores = cross_val_score(config['modelo'], X_train_cv, y_train_modelo, 
                               cv=5, scoring='f1', n_jobs=-1)
    cv_mean = cv_scores.mean()
    cv_std = cv_scores.std()
    
    resultados_modelos[nome_modelo] = {
        'modelo': modelo,
        'categoria': config['categoria'],
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1,
        'roc_auc': roc_auc,
        'cv_f1_mean': cv_mean,
        'cv_f1_std': cv_std,
        'tempo_treinamento': tempo_treinamento,
        'tempo_predicao': tempo_predicao,
        'y_pred': y_pred,
        'y_pred_proba': y_pred_proba,
        'y_test': y_test_modelo,
        'dataset_usado': config['dataset_key'],
        'normalizacao': dataset['normalizacao_aplicada']
    }
    
    print(f"   M√©tricas no teste:")
    print(f"      ‚Ä¢ Accuracy: {accuracy:.4f}")
    print(f"      ‚Ä¢ F1-Score: {f1:.4f}")
    print(f"      ‚Ä¢ ROC-AUC:  {roc_auc:.4f}")
    print(f"   Valida√ß√£o Cruzada F1: {cv_mean:.4f} (¬±{cv_std:.4f})")
    
    print(f"   {nome_modelo} treinado com sucesso")

print(f"\nTodos os {len(modelos_config)} modelos treinados com sucesso")
print("Prontos para avalia√ß√£o comparativa detalhada")

print(f"\nVari√°veis criadas:")
print(f"   ‚Ä¢ resultados_modelos: {len(resultados_modelos)} modelos treinados")
print(f"   ‚Ä¢ modelos_config: Configura√ß√µes e justificativas")
print(f"   ‚Ä¢ datasets_por_categoria: Datasets espec√≠ficos por tipo")

In [None]:
# Etapa 4: Avalia√ß√£o Comparativa dos Modelos

print("Compara√ß√£o detalhada dos modelos treinados")

df_comparacao = pd.DataFrame({
    nome: {
        'Accuracy': resultado['accuracy'],
        'Precision': resultado['precision'],
        'Recall': resultado['recall'],
        'F1-Score': resultado['f1_score'],
        'ROC-AUC': resultado['roc_auc'],
        'CV F1 Mean': resultado['cv_f1_mean'],
        'CV F1 Std': resultado['cv_f1_std'],
        'Tempo Treino (s)': resultado['tempo_treinamento'],
        'Tempo Pred (s)': resultado['tempo_predicao'],
        'Normaliza√ß√£o': 'Sim' if resultado['normalizacao'] else 'N√£o'
    }
    for nome, resultado in resultados_modelos.items()
}).T

print("Tabela comparativa completa:")
print(df_comparacao.round(4))

print(f"\nMelhores modelos por m√©trica:")

metricas_principais = ['Accuracy', 'F1-Score', 'ROC-AUC', 'CV F1 Mean']
for metrica in metricas_principais:
    melhor_modelo = df_comparacao[metrica].idxmax()
    melhor_valor = df_comparacao[metrica].max()
    print(f"   ‚Ä¢ {metrica:12s}: {melhor_modelo} ({melhor_valor:.4f})")

print(f"\nRanking geral (m√©dia das m√©tricas normalizadas):")

metricas_para_ranking = ['Accuracy', 'F1-Score', 'ROC-AUC', 'CV F1 Mean']
df_normalizado = df_comparacao[metricas_para_ranking].copy()

for metrica in metricas_para_ranking:
    min_val = df_normalizado[metrica].min()
    max_val = df_normalizado[metrica].max()
    df_normalizado[metrica] = (df_normalizado[metrica] - min_val) / (max_val - min_val)

df_normalizado['Score_Geral'] = df_normalizado.mean(axis=1)
ranking_geral = df_normalizado.sort_values('Score_Geral', ascending=False)

for i, (modelo, row) in enumerate(ranking_geral.iterrows(), 1):
    posicao = f"{i}¬∞" 
    print(f"{posicao} {modelo:20s} | Score: {row['Score_Geral']:.4f}")

fig, axes = plt.subplots(2, 3, figsize=(18, 12))
axes = axes.ravel()

metricas_viz = ['Accuracy', 'Precision', 'Recall', 'F1-Score', 'ROC-AUC']
df_viz = df_comparacao[metricas_viz]

ax = axes[0]
df_viz.plot(kind='bar', ax=ax, width=0.8)
ax.set_title('Compara√ß√£o de M√©tricas por Modelo', fontsize=12, fontweight='bold')
ax.set_ylabel('Score')
ax.set_xlabel('Modelos')
ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
ax.grid(axis='y', alpha=0.3)
ax.tick_params(axis='x', rotation=45)

ax = axes[1]
tempos_treino = df_comparacao['Tempo Treino (s)'].sort_values()
cores_tempo = ['green' if x < 0.1 else 'orange' if x < 1 else 'red' for x in tempos_treino]
tempos_treino.plot(kind='bar', ax=ax, color=cores_tempo)
ax.set_title('Tempo de Treinamento por Modelo', fontsize=12, fontweight='bold')
ax.set_ylabel('Segundos')
ax.set_xlabel('Modelos')
ax.tick_params(axis='x', rotation=45)
ax.grid(axis='y', alpha=0.3)

ax = axes[2]
for modelo, resultado in resultados_modelos.items():
    cor = 'blue' if 'Sens√≠veis √† Escala' in resultado['categoria'] else 'red'
    ax.scatter(resultado['accuracy'], resultado['f1_score'], 
              s=100, c=cor, alpha=0.7, label=modelo)
ax.set_xlabel('Accuracy')
ax.set_ylabel('F1-Score')
ax.set_title('Accuracy vs F1-Score', fontsize=12, fontweight='bold')
ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
ax.grid(alpha=0.3)

ax = axes[3]
modelos_nomes = list(resultados_modelos.keys())
cv_means = [resultados_modelos[m]['cv_f1_mean'] for m in modelos_nomes]
cv_stds = [resultados_modelos[m]['cv_f1_std'] for m in modelos_nomes]

bars = ax.bar(range(len(modelos_nomes)), cv_means, yerr=cv_stds, 
              capsize=5, alpha=0.7, color=['blue', 'blue', 'red', 'red'])
ax.set_xticks(range(len(modelos_nomes)))
ax.set_xticklabels([nome[:15] + '...' if len(nome) > 15 else nome for nome in modelos_nomes], rotation=45)
ax.set_ylabel('F1-Score')
ax.set_title('Valida√ß√£o Cruzada (5-fold) - F1-Score', fontsize=12, fontweight='bold')
ax.grid(axis='y', alpha=0.3)

melhor_modelo_nome = ranking_geral.index[0]
melhor_resultado = resultados_modelos[melhor_modelo_nome]

cm = confusion_matrix(melhor_resultado['y_test'], melhor_resultado['y_pred'])
ax = axes[4]
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax,
            xticklabels=['N√£o Cancelou', 'Cancelou'],
            yticklabels=['N√£o Cancelou', 'Cancelou'])
ax.set_title(f'Matriz de Confus√£o\n{melhor_modelo_nome}', fontsize=12, fontweight='bold')
ax.set_xlabel('Predi√ß√£o')
ax.set_ylabel('Real')

ax = axes[5]
colors = ['blue', 'green', 'red', 'orange']
for i, (nome_modelo, resultado) in enumerate(resultados_modelos.items()):
    fpr, tpr, _ = roc_curve(resultado['y_test'], resultado['y_pred_proba'])
    auc_score = auc(fpr, tpr)
    ax.plot(fpr, tpr, color=colors[i], lw=2, 
            label=f'{nome_modelo[:15]}... (AUC={auc_score:.3f})')

ax.plot([0, 1], [0, 1], 'k--', lw=2, label='Random (AUC=0.5)')
ax.set_xlim([0.0, 1.0])
ax.set_ylim([0.0, 1.05])
ax.set_xlabel('Taxa de Falsos Positivos')
ax.set_ylabel('Taxa de Verdadeiros Positivos')
ax.set_title('Curvas ROC - Compara√ß√£o', fontsize=12, fontweight='bold')
ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nAn√°lise por categoria de modelo:")

categorias_performance = {}
for nome_modelo, resultado in resultados_modelos.items():
    categoria = resultado['categoria']
    if categoria not in categorias_performance:
        categorias_performance[categoria] = []
    categorias_performance[categoria].append({
        'nome': nome_modelo,
        'f1': resultado['f1_score'],
        'auc': resultado['roc_auc'],
        'tempo': resultado['tempo_treinamento']
    })

for categoria, modelos in categorias_performance.items():
    print(f"\n{categoria.upper()}:")
    f1_medio = np.mean([m['f1'] for m in modelos])
    auc_medio = np.mean([m['auc'] for m in modelos])
    tempo_medio = np.mean([m['tempo'] for m in modelos])
    
    print(f"   Performance m√©dia: F1={f1_medio:.4f}, AUC={auc_medio:.4f}")
    print(f"   Tempo m√©dio de treino: {tempo_medio:.4f}s")
    print(f"   Melhor modelo: {max(modelos, key=lambda x: x['f1'])['nome']}")

print(f"\nRecomenda√ß√£o final:")

melhor_geral = ranking_geral.index[0]
melhor_resultado_final = resultados_modelos[melhor_geral]

print(f"MODELO RECOMENDADO: {melhor_geral}")
print(f"   F1-Score: {melhor_resultado_final['f1_score']:.4f}")
print(f"   ROC-AUC: {melhor_resultado_final['roc_auc']:.4f}")
print(f"   Tempo treino: {melhor_resultado_final['tempo_treinamento']:.4f}s")
print(f"   Normaliza√ß√£o: {'Sim' if melhor_resultado_final['normalizacao'] else 'N√£o'}")

print(f"\nAvalia√ß√£o comparativa conclu√≠da")
print("Modelo recomendado selecionado para implementa√ß√£o")

In [None]:
# Etapa 5: S√≠ntese da Modelagem Preditiva

print("S√≠ntese completa da modelagem preditiva")

print("Estrat√©gia de modelagem implementada:")

print("1. DIVIS√ÉO DOS DADOS:")
print(f"     ‚Ä¢ Estrat√©gia: {divisao_escolhida} (treino/teste)")
print("     ‚Ä¢ M√©todo: Divis√£o estratificada para manter propor√ß√£o das classes")
print("     ‚Ä¢ Valida√ß√£o: Verifica√ß√£o da distribui√ß√£o em treino e teste")

print("\n2. PREPARA√á√ÉO ESPEC√çFICA POR MODELO:")
print("     ‚Ä¢ Modelos sens√≠veis √† escala: Normaliza√ß√£o com StandardScaler")
print("     ‚Ä¢ Modelos baseados em √°rvore: Dados na escala original")
print("     ‚Ä¢ Justificativa: Otimiza√ß√£o espec√≠fica para cada tipo de algoritmo")

print("\n3. SELE√á√ÉO E TREINAMENTO DOS MODELOS:")
algoritmos_implementados = list(modelos_config.keys())
print(f"     ‚Ä¢ Total de algoritmos: {len(algoritmos_implementados)}")
for algo in algoritmos_implementados:
    print(f"       - {algo}")

print("\n4. VALIDA√á√ÉO E AVALIA√á√ÉO:")
print("     ‚Ä¢ M√©tricas: Accuracy, Precision, Recall, F1-Score, ROC-AUC")
print("     ‚Ä¢ Valida√ß√£o cruzada: 5-fold stratified")
print("     ‚Ä¢ Compara√ß√£o: Ranking baseado em m√©tricas normalizadas")

melhor_modelo_final = ranking_geral.index[0]
resultado_melhor = resultados_modelos[melhor_modelo_final]

print(f"\n5. RESULTADO FINAL:")
print(f"     ‚Ä¢ Modelo vencedor: {melhor_modelo_final}")
print(f"     ‚Ä¢ F1-Score: {resultado_melhor['f1_score']:.4f}")
print(f"     ‚Ä¢ ROC-AUC: {resultado_melhor['roc_auc']:.4f}")
print(f"     ‚Ä¢ Accuracy: {resultado_melhor['accuracy']:.4f}")

estrategia_implementacao = {
    'modelo_final': melhor_modelo_final,
    'metricas_finais': {
        'f1_score': resultado_melhor['f1_score'],
        'roc_auc': resultado_melhor['roc_auc'],
        'accuracy': resultado_melhor['accuracy'],
        'precision': resultado_melhor['precision'],
        'recall': resultado_melhor['recall']
    },
    'preprocessing_necessario': 'StandardScaler' if resultado_melhor['normalizacao'] else 'Sem normaliza√ß√£o',
    'tempo_treinamento': resultado_melhor['tempo_treinamento'],
    'validacao_cruzada': {
        'cv_f1_mean': resultado_melhor['cv_f1_mean'],
        'cv_f1_std': resultado_melhor['cv_f1_std']
    }
}

print(f"\n6. INFORMA√á√ïES PARA IMPLEMENTA√á√ÉO:")
print(f"     ‚Ä¢ Pr√©-processamento: {estrategia_implementacao['preprocessing_necessario']}")
print(f"     ‚Ä¢ Tempo de treinamento: {estrategia_implementacao['tempo_treinamento']:.4f}s")
print(f"     ‚Ä¢ Valida√ß√£o cruzada F1: {estrategia_implementacao['validacao_cruzada']['cv_f1_mean']:.4f} ¬± {estrategia_implementacao['validacao_cruzada']['cv_f1_std']:.4f}")

print(f"\nS√≠ntese da modelagem preditiva conclu√≠da")
print(f"Vari√°vel 'estrategia_implementacao' criada com todos os detalhes")

## 4. Modelagem Preditiva

### Estrat√©gia de Modelagem:

**Modelos Selecionados:**
- **Regress√£o Log√≠stica** - Linear, interpret√°vel
- **K-Nearest Neighbors** - N√£o-param√©trico, fronteiras complexas  
- **√Årvore de Decis√£o** - Regras interpret√°veis
- **Random Forest** - Ensemble de √°rvores, robusto

**Justificativas T√©cnicas:**
- **Normaliza√ß√£o necess√°ria** para modelos baseados em dist√¢ncia/gradiente
- **Sem normaliza√ß√£o** para modelos baseados em √°rvore (decis√µes por limites)
- **Compara√ß√£o justa** entre diferentes abordagens algor√≠tmicas
- **Aproveitamento** das an√°lises de correla√ß√£o e sele√ß√£o de features

In [None]:
# An√°lise de Import√¢ncia das Vari√°veis por Modelo

print("AN√ÅLISE DE IMPORT√ÇNCIA DAS VARI√ÅVEIS")
print("=" * 50)

# 1. Regress√£o Log√≠stica - An√°lise de Coeficientes
if 'Regress√£o Log√≠stica' in resultados_modelos:
    print("\n1. REGRESS√ÉO LOG√çSTICA - An√°lise de Coeficientes")
    print("-" * 50)
    
    modelo_lr = resultados_modelos['Regress√£o Log√≠stica']['modelo']
    
    # Obter coeficientes
    coeficientes = modelo_lr.coef_[0]
    
    # Obter nomes das features do dataset normalizado
    dataset_lr = datasets_por_categoria['Sens√≠veis √† Escala']
    feature_names = dataset_lr['X_train'].columns
    
    # Criar dataframe com coeficientes
    df_coef = pd.DataFrame({
        'Vari√°vel': feature_names,
        'Coeficiente': coeficientes,
        'Coef_Absoluto': np.abs(coeficientes),
        'Odds_Ratio': np.exp(coeficientes),
        'Impacto': ['Aumenta Churn' if c > 0 else 'Reduz Churn' for c in coeficientes]
    })
    
    # Ordenar por import√¢ncia (valor absoluto)
    df_coef = df_coef.sort_values('Coef_Absoluto', ascending=False)
    
    print("Top 10 vari√°veis mais impactantes:")
    for i, row in df_coef.head(10).iterrows():
        print(f"{row.name + 1:2d}. {row['Vari√°vel']:25s} | Coef: {row['Coeficiente']:8.4f} | OR: {row['Odds_Ratio']:6.3f} | {row['Impacto']}")
    
    # Interpreta√ß√£o dos odds ratios
    print("\nInterpreta√ß√£o dos Odds Ratios:")
    for i, row in df_coef.head(5).iterrows():
        if row['Odds_Ratio'] > 1:
            aumento = (row['Odds_Ratio'] - 1) * 100
            print(f"- {row['Vari√°vel']}: Aumenta chance de churn em {aumento:.1f}%")
        else:
            reducao = (1 - row['Odds_Ratio']) * 100
            print(f"- {row['Vari√°vel']}: Reduz chance de churn em {reducao:.1f}%")
    
    # Visualiza√ß√£o
    plt.figure(figsize=(12, 6))
    
    # Gr√°fico dos coeficientes
    plt.subplot(1, 2, 1)
    top_10_coef = df_coef.head(10)
    colors = ['red' if x < 0 else 'blue' for x in top_10_coef['Coeficiente']]
    plt.barh(range(len(top_10_coef)), top_10_coef['Coeficiente'], color=colors, alpha=0.7)
    plt.yticks(range(len(top_10_coef)), [name[:20] for name in top_10_coef['Vari√°vel']])
    plt.xlabel('Coeficiente')
    plt.title('Top 10 Coeficientes - Regress√£o Log√≠stica')
    plt.axvline(x=0, color='black', linestyle='-', alpha=0.3)
    plt.grid(axis='x', alpha=0.3)
    
    # Gr√°fico dos odds ratios
    plt.subplot(1, 2, 2)
    plt.barh(range(len(top_10_coef)), top_10_coef['Odds_Ratio'], 
             color=['green' if x < 1 else 'red' for x in top_10_coef['Odds_Ratio']], alpha=0.7)
    plt.yticks(range(len(top_10_coef)), [name[:20] for name in top_10_coef['Vari√°vel']])
    plt.xlabel('Odds Ratio')
    plt.title('Top 10 Odds Ratios - Regress√£o Log√≠stica')
    plt.axvline(x=1, color='black', linestyle='-', alpha=0.3)
    plt.grid(axis='x', alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Armazenar para relat√≥rio final
    lr_insights = {
        'top_5_vars': df_coef.head(5)['Vari√°vel'].tolist(),
        'strongest_positive': df_coef[df_coef['Coeficiente'] > 0].iloc[0]['Vari√°vel'],
        'strongest_negative': df_coef[df_coef['Coeficiente'] < 0].iloc[0]['Vari√°vel'] if len(df_coef[df_coef['Coeficiente'] < 0]) > 0 else None
    }

In [None]:
# 2. Random Forest - An√°lise de Import√¢ncia das Vari√°veis
if 'Random Forest' in resultados_modelos:
    print("\n2. RANDOM FOREST - Import√¢ncia das Vari√°veis")
    print("-" * 50)
    
    modelo_rf = resultados_modelos['Random Forest']['modelo']
    
    importancias = modelo_rf.feature_importances_
    
    dataset_rf = datasets_por_categoria['Baseados em √Årvore']
    feature_names_rf = dataset_rf['X_train'].columns
    
    df_importancia = pd.DataFrame({
        'Vari√°vel': feature_names_rf,
        'Import√¢ncia': importancias,
        'Import√¢ncia_Pct': importancias * 100
    })
    
    df_importancia = df_importancia.sort_values('Import√¢ncia', ascending=False)
    
    print("Top 10 vari√°veis mais importantes:")
    for i, row in df_importancia.head(10).iterrows():
        print(f"{i+1:2d}. {row['Vari√°vel']:25s} | Import√¢ncia: {row['Import√¢ncia']:6.4f} ({row['Import√¢ncia_Pct']:5.1f}%)")
    
    # Calcular import√¢ncia cumulativa
    df_importancia['Import√¢ncia_Cumulativa'] = df_importancia['Import√¢ncia'].cumsum()
    
    print(f"\nImport√¢ncia cumulativa:")
    print(f"Top 5 vari√°veis: {df_importancia.head(5)['Import√¢ncia_Cumulativa'].iloc[-1]:.1%}")
    print(f"Top 10 vari√°veis: {df_importancia.head(10)['Import√¢ncia_Cumulativa'].iloc[-1]:.1%}")
    
    plt.figure(figsize=(12, 6))
    
    plt.subplot(1, 2, 1)
    top_10_imp = df_importancia.head(10)
    plt.barh(range(len(top_10_imp)), top_10_imp['Import√¢ncia'], color='forestgreen', alpha=0.7)
    plt.yticks(range(len(top_10_imp)), [name[:20] for name in top_10_imp['Vari√°vel']])
    plt.xlabel('Import√¢ncia')
    plt.title('Top 10 Import√¢ncia - Random Forest')
    plt.grid(axis='x', alpha=0.3)
    
    plt.subplot(1, 2, 2)
    plt.plot(range(1, len(df_importancia.head(15)) + 1), 
             df_importancia.head(15)['Import√¢ncia_Cumulativa'], 'o-', color='darkgreen')
    plt.xlabel('N√∫mero de Vari√°veis')
    plt.ylabel('Import√¢ncia Cumulativa')
    plt.title('Import√¢ncia Cumulativa - Top 15')
    plt.grid(alpha=0.3)
    plt.axhline(y=0.8, color='red', linestyle='--', alpha=0.7, label='80%')
    plt.legend()
    
    plt.tight_layout()
    plt.show()
    
    # Armazenar para relat√≥rio final
    rf_insights = {
        'top_5_vars': df_importancia.head(5)['Vari√°vel'].tolist(),
        'most_important': df_importancia.iloc[0]['Vari√°vel'],
        'top_5_cumulative': df_importancia.head(5)['Import√¢ncia_Cumulativa'].iloc[-1]
    }

In [None]:
# 3. K-Nearest Neighbors - An√°lise por Proximidade
if 'K-Nearest Neighbors' in resultados_modelos:
    print("\n3. K-NEAREST NEIGHBORS - An√°lise por Proximidade")
    print("-" * 50)
    
    modelo_knn = resultados_modelos['K-Nearest Neighbors']['modelo']
    dataset_knn = datasets_por_categoria['Sens√≠veis √† Escala']
    X_test_knn = dataset_knn['X_test']
    y_test_knn = dataset_knn['y_test']
    
    print("An√°lise de influ√™ncia das vari√°veis baseada em dist√¢ncias:")

    from sklearn.metrics.pairwise import euclidean_distances

    X_train_knn = dataset_knn['X_train']
    y_train_knn = dataset_knn['y_train']
    
    X_churn = X_train_knn[y_train_knn == 1]
    X_no_churn = X_train_knn[y_train_knn == 0]
    
    # Calcular vari√¢ncias das features (maior vari√¢ncia = maior impacto na dist√¢ncia)
    feature_variance = X_train_knn.var()
    feature_std = X_train_knn.std()
    
    # an√°lise de relev√¢ncia baseada na variabilidade
    df_knn_relevance = pd.DataFrame({
        'Vari√°vel': X_train_knn.columns,
        'Vari√¢ncia': feature_variance,
        'Desvio_Padr√£o': feature_std,
        'Relev√¢ncia_Normalizada': (feature_std - feature_std.min()) / (feature_std.max() - feature_std.min())
    })
    
    df_knn_relevance = df_knn_relevance.sort_values('Relev√¢ncia_Normalizada', ascending=False)
    
    print("Top 10 vari√°veis mais relevantes para c√°lculo de dist√¢ncia:")
    for i, row in df_knn_relevance.head(10).iterrows():
        print(f"{i+1:2d}. {row['Vari√°vel']:25s} | Std: {row['Desvio_Padr√£o']:6.4f} | Relev√¢ncia: {row['Relev√¢ncia_Normalizada']:6.4f}")
    
    # relat√≥rio final
    knn_insights = {
        'top_5_vars': df_knn_relevance.head(5)['Vari√°vel'].tolist(),
        'most_relevant': df_knn_relevance.iloc[0]['Vari√°vel']
    }

# 4. √Årvore de Decis√£o - An√°lise de Import√¢ncia
if '√Årvore de Decis√£o' in resultados_modelos:
    print("\n4. √ÅRVORE DE DECIS√ÉO - Import√¢ncia das Vari√°veis")
    print("-" * 50)
    
    modelo_dt = resultados_modelos['√Årvore de Decis√£o']['modelo']
    
    importancias_dt = modelo_dt.feature_importances_
    
    #  nomes das features
    dataset_dt = datasets_por_categoria['Baseados em √Årvore']
    feature_names_dt = dataset_dt['X_train'].columns
    
    # dataframe com import√¢ncias
    df_dt_importancia = pd.DataFrame({
        'Vari√°vel': feature_names_dt,
        'Import√¢ncia': importancias_dt,
        'Import√¢ncia_Pct': importancias_dt * 100
    })
    
    #por import√¢ncia
    df_dt_importancia = df_dt_importancia.sort_values('Import√¢ncia', ascending=False)
    
    print("Top 10 vari√°veis mais importantes para divis√µes:")
    for i, row in df_dt_importancia.head(10).iterrows():
        print(f"{i+1:2d}. {row['Vari√°vel']:25s} | Import√¢ncia: {row['Import√¢ncia']:6.4f} ({row['Import√¢ncia_Pct']:5.1f}%)")

    from sklearn import tree
    
    print("\nPrincipais regras de decis√£o (primeiros n√≠veis):")
    tree_rules = tree.export_text(modelo_dt, feature_names=list(feature_names_dt), max_depth=3)
    print(tree_rules[:500] + "...")
    
    #  relat√≥rio final
    dt_insights = {
        'top_5_vars': df_dt_importancia.head(5)['Vari√°vel'].tolist(),
        'most_important': df_dt_importancia.iloc[0]['Vari√°vel'],
        'top_3_importance': df_dt_importancia.head(3)['Import√¢ncia'].sum()
    }

In [None]:
# Consolida√ß√£o das An√°lises de Import√¢ncia
print("\n" + "="*60)
print("CONSOLIDA√á√ÉO DAS AN√ÅLISES DE IMPORT√ÇNCIA")
print("="*60)

# Criar dicion√°rio consolidado
all_insights = {}
if 'lr_insights' in locals():
    all_insights['Regress√£o Log√≠stica'] = lr_insights
if 'rf_insights' in locals():
    all_insights['Random Forest'] = rf_insights  
if 'knn_insights' in locals():
    all_insights['K-Nearest Neighbors'] = knn_insights
if 'dt_insights' in locals():
    all_insights['√Årvore de Decis√£o'] = dt_insights

print("\nTOP 5 VARI√ÅVEIS MAIS IMPORTANTES POR MODELO:")
print("-" * 50)

for modelo, insights in all_insights.items():
    print(f"\n{modelo}:")
    for i, var in enumerate(insights['top_5_vars'], 1):
        print(f"  {i}. {var}")

# An√°lise de consenso entre modelos
all_important_vars = []
for insights in all_insights.values():
    all_important_vars.extend(insights['top_5_vars'])

# Contar frequ√™ncia de cada vari√°vel
from collections import Counter
var_frequency = Counter(all_important_vars)

print("\nCONSENSO ENTRE MODELOS - Vari√°veis mais citadas:")
print("-" * 50)
for var, count in var_frequency.most_common(10):
    models_citing = [modelo for modelo, insights in all_insights.items() if var in insights['top_5_vars']]
    print(f"{var:30s} | Citada por {count} modelo(s): {', '.join(models_citing)}")

# Visualiza√ß√£o comparativa
if len(all_insights) > 0:
    plt.figure(figsize=(15, 8))
    
    # Criar matriz de import√¢ncia por modelo
    top_vars_consensus = [var for var, count in var_frequency.most_common(10)]
    
    # Matriz de presen√ßa (1 se est√° no top 5, 0 caso contr√°rio)
    matrix_data = []
    model_names = list(all_insights.keys())
    
    for var in top_vars_consensus:
        row = []
        for modelo in model_names:
            if var in all_insights[modelo]['top_5_vars']:
                # Posi√ß√£o na lista (1 = mais importante)
                pos = all_insights[modelo]['top_5_vars'].index(var) + 1
                row.append(6 - pos)  # Inverter para que 5 = mais importante
            else:
                row.append(0)
        matrix_data.append(row)
    
    # Heatmap
    plt.subplot(1, 2, 1)
    sns.heatmap(matrix_data, 
                xticklabels=model_names,
                yticklabels=[var[:25] for var in top_vars_consensus],
                annot=True, 
                cmap='YlOrRd', 
                cbar_kws={'label': 'Import√¢ncia (5=m√°xima)'})
    plt.title('Consenso de Import√¢ncia entre Modelos')
    plt.xlabel('Modelos')
    plt.ylabel('Vari√°veis')
    
    # Gr√°fico de frequ√™ncia
    plt.subplot(1, 2, 2)
    vars_plot = [var[:20] for var, _ in var_frequency.most_common(8)]
    counts_plot = [count for _, count in var_frequency.most_common(8)]
    
    plt.barh(range(len(vars_plot)), counts_plot, color='steelblue', alpha=0.7)
    plt.yticks(range(len(vars_plot)), vars_plot)
    plt.xlabel('N√∫mero de Modelos que Citam')
    plt.title('Frequ√™ncia de Cita√ß√£o entre Modelos')
    plt.grid(axis='x', alpha=0.3)
    
    plt.tight_layout()
    plt.show()

# Identificar vari√°veis de consenso (citadas por pelo menos 50% dos modelos)
consensus_threshold = len(all_insights) * 0.5
consensus_vars = [var for var, count in var_frequency.items() if count >= consensus_threshold]

print(f"\nVARI√ÅVEIS DE CONSENSO (citadas por >= {consensus_threshold:.0f} modelos):")
print("-" * 55)
for var in consensus_vars:
    count = var_frequency[var]
    print(f"- {var} (citada por {count} modelo(s))")

# Armazenar resultados para relat√≥rio final
consensus_analysis = {
    'top_consensus_vars': consensus_vars[:5] if len(consensus_vars) >= 5 else consensus_vars,
    'var_frequency': dict(var_frequency.most_common(10)),
    'models_analyzed': list(all_insights.keys())
}

print(f"\nAn√°lise de import√¢ncia conclu√≠da para {len(all_insights)} modelos.")

## 5. Relat√≥rio Final e Estrat√©gias de Reten√ß√£o

### An√°lise Detalhada dos Fatores de Evas√£o

In [None]:
# RELAT√ìRIO DETALHADO - FATORES DE EVAS√ÉO E ESTRAT√âGIAS DE RETEN√á√ÉO

print("RELAT√ìRIO FINAL - AN√ÅLISE DE EVAS√ÉO TELECOM X")
print("="*60)

# Recuperar informa√ß√µes dos modelos
melhor_modelo = ranking_geral.index[0] if 'ranking_geral' in locals() else "N√£o definido"
melhor_performance = resultados_modelos[melhor_modelo] if melhor_modelo in resultados_modelos else {}

print(f"\nRESUMO EXECUTIVO")
print("-" * 20)
print(f"‚Ä¢ Dataset analisado: {len(y_modelagem):,} clientes" if 'y_modelagem' in locals() else "‚Ä¢ Dataset: N√£o carregado")
if 'distribuicao_original' in locals():
    churn_rate = distribuicao_original[1] / len(y_modelagem) * 100
    print(f"‚Ä¢ Taxa de evas√£o atual: {churn_rate:.1f}%")
print(f"‚Ä¢ Modelos avaliados: {len(resultados_modelos)}")
if melhor_performance:
    print(f"‚Ä¢ Melhor modelo: {melhor_modelo}")
    print(f"‚Ä¢ F1-Score alcan√ßado: {melhor_performance['f1_score']:.4f}")
    print(f"‚Ä¢ ROC-AUC alcan√ßado: {melhor_performance['roc_auc']:.4f}")

print(f"\n1. PRINCIPAIS FATORES QUE INFLUENCIAM A EVAS√ÉO")
print("-" * 50)

if 'consensus_vars' in locals() and consensus_vars:
    print("Baseado na an√°lise de consenso entre modelos:")
    for i, var in enumerate(consensus_vars[:5], 1):
        models_citing = [modelo for modelo, insights in all_insights.items() if var in insights.get('top_5_vars', [])]
        print(f"  {i}. {var}")
        print(f"     - Identificada por: {', '.join(models_citing)}")
        
        # Adicionar interpreta√ß√£o espec√≠fica por tipo de vari√°vel
        if any(term in var.lower() for term in ['tenure', 'tempo']):
            print("     - Interpreta√ß√£o: Tempo de relacionamento com a empresa")
        elif any(term in var.lower() for term in ['charges', 'total', 'monthly']):
            print("     - Interpreta√ß√£o: Aspecto financeiro do servi√ßo")
        elif any(term in var.lower() for term in ['contract', 'contrato']):
            print("     - Interpreta√ß√£o: Tipo de v√≠nculo contratual")
        elif any(term in var.lower() for term in ['service', 'internet', 'phone']):
            print("     - Interpreta√ß√£o: Tipo de servi√ßo utilizado")
        else:
            print("     - Interpreta√ß√£o: Fator comportamental/demogr√°fico")
else:
    print("Execute as an√°lises de import√¢ncia primeiro.")

print(f"\n2. AN√ÅLISE POR MODELO")
print("-" * 25)

for modelo, insights in all_insights.items():
    print(f"\n{modelo}:")
    performance = resultados_modelos[modelo]
    print(f"  Performance: F1={performance['f1_score']:.3f}, AUC={performance['roc_auc']:.3f}")
    print(f"  Principal fator identificado: {insights.get('most_important', insights.get('top_5_vars', ['N/A'])[0])}")
    
    if modelo == 'Regress√£o Log√≠stica':
        print("  Metodologia: An√°lise de coeficientes e odds ratios")
        print("  Vantagem: Interpretabilidade direta do impacto")
    elif modelo == 'Random Forest':
        print("  Metodologia: Import√¢ncia baseada em redu√ß√£o de impureza")
        print("  Vantagem: Captura intera√ß√µes complexas entre vari√°veis")
    elif modelo == 'K-Nearest Neighbors':
        print("  Metodologia: Relev√¢ncia baseada em variabilidade para dist√¢ncia")
        print("  Vantagem: Identifica padr√µes locais nos dados")
    elif modelo == '√Årvore de Decis√£o':
        print("  Metodologia: Import√¢ncia baseada em divis√µes da √°rvore")
        print("  Vantagem: Regras de decis√£o expl√≠citas")

print(f"\n3. ESTRAT√âGIAS DE RETEN√á√ÉO BASEADAS NOS RESULTADOS")
print("-" * 50)

# Estrat√©gias baseadas nos principais fatores identificados
strategies = []

if 'consensus_vars' in locals():
    for var in consensus_vars[:3]:
        if any(term in var.lower() for term in ['tenure', 'tempo']):
            strategies.append({
                'fator': var,
                'estrategia': 'Programa de Fidelidade Progressiva',
                'acao': 'Criar benef√≠cios crescentes baseados no tempo de relacionamento',
                'implementacao': [
                    'Descontos progressivos por tempo de perman√™ncia',
                    'Upgrades gratuitos ap√≥s per√≠odos espec√≠ficos',
                    'Atendimento priorit√°rio para clientes antigos'
                ]
            })
        elif any(term in var.lower() for term in ['charges', 'total', 'monthly']):
            strategies.append({
                'fator': var,
                'estrategia': 'Otimiza√ß√£o de Pre√ßos e Pacotes',
                'acao': 'Ajustar estrutura de pre√ßos para diferentes perfis',
                'implementacao': [
                    'An√°lise de sensibilidade ao pre√ßo por segmento',
                    'Pacotes personalizados baseados no uso',
                    'Promo√ß√µes direcionadas para clientes em risco'
                ]
            })
        elif any(term in var.lower() for term in ['contract', 'contrato']):
            strategies.append({
                'fator': var,
                'estrategia': 'Flexibiliza√ß√£o Contratual',
                'acao': 'Oferecer op√ß√µes contratuais mais atrativas',
                'implementacao': [
                    'Contratos com flexibilidade de mudan√ßa',
                    'Per√≠odos de teste sem compromisso',
                    'Migra√ß√£o facilitada entre planos'
                ]
            })

# Imprimir estrat√©gias
for i, strategy in enumerate(strategies, 1):
    print(f"\nEstrat√©gia {i}: {strategy['estrategia']}")
    print(f"  Fator relacionado: {strategy['fator']}")
    print(f"  Objetivo: {strategy['acao']}")
    print("  Implementa√ß√µes sugeridas:")
    for impl in strategy['implementacao']:
        print(f"    - {impl}")

print(f"\n4. IMPLEMENTA√á√ÉO DO SISTEMA PREDITIVO")
print("-" * 40)

print("Recomenda√ß√µes para operacionaliza√ß√£o:")
print("\nA. Scoring de Clientes")
print("  - Aplicar modelo preditivo mensalmente")
print("  - Classificar clientes por probabilidade de churn")
print("  - Criar alertas autom√°ticos para casos de alto risco")

print("\nB. Segmenta√ß√£o para A√ß√µes")
if melhor_performance:
    threshold_high = 0.7
    threshold_medium = 0.4
    print(f"  - Alto risco (p > {threshold_high}): Interven√ß√£o imediata")
    print(f"  - M√©dio risco ({threshold_medium} < p < {threshold_high}): Acompanhamento pr√≥ximo") 
    print(f"  - Baixo risco (p < {threshold_medium}): Manuten√ß√£o regular")

print("\nC. Monitoramento e Ajustes")
print("  - Avaliar efetividade das estrat√©gias implementadas")
print("  - Retreinar modelo com novos dados trimestralmente")
print("  - Acompanhar mudan√ßas nos fatores de risco")

print(f"\n5. IMPACTO POTENCIAL")
print("-" * 20)

if 'churn_rate' in locals() and melhor_performance:
    current_churn = churn_rate / 100
    model_precision = melhor_performance.get('precision', 0.5)
    model_recall = melhor_performance.get('recall', 0.5)
    
    print(f"Cen√°rio atual:")
    print(f"  - Taxa de churn: {churn_rate:.1f}%")
    print(f"  - Precis√£o do modelo: {model_precision:.1%}")
    print(f"  - Recall do modelo: {model_recall:.1%}")
    
    potential_reduction = 0.3  # Assumindo 30% de efetividade das a√ß√µes de reten√ß√£o
    print(f"\nCen√°rio otimista (30% de efetividade nas a√ß√µes):")
    new_churn_rate = current_churn * (1 - model_recall * potential_reduction)
    reduction = (current_churn - new_churn_rate) / current_churn * 100
    print(f"  - Nova taxa de churn estimada: {new_churn_rate*100:.1f}%")
    print(f"  - Redu√ß√£o potencial: {reduction:.1f}%")

print(f"\n6. PR√ìXIMOS PASSOS")
print("-" * 18)
print("1. Validar modelo em ambiente de produ√ß√£o")
print("2. Implementar sistema de scoring autom√°tico")  
print("3. Desenvolver campanhas espec√≠ficas por segmento")
print("4. Criar dashboards de monitoramento")
print("5. Treinar equipes comerciais com insights dos modelos")
print("6. Estabelecer m√©tricas de sucesso e ROI")

print("\n" + "="*60)
print("RELAT√ìRIO CONCLU√çDO")
print("="*60)

## 2.5. An√°lise de Correla√ß√£o e Sele√ß√£o de Vari√°veis

### Objetivos desta An√°lise:
1. **Matriz de Correla√ß√£o**: Identificar rela√ß√µes lineares entre vari√°veis num√©ricas
2. **Correla√ß√£o com Target**: Descobrir quais vari√°veis t√™m maior correla√ß√£o com churn
3. **An√°lises Espec√≠ficas**:
   - Tempo de contrato √ó Evas√£o
   - Total gasto √ó Evas√£o
   - Outros padr√µes relevantes
4. **Visualiza√ß√µes Interativas**: Boxplots e scatter plots para insights visuais
5. **Sele√ß√£o de Features**: Identificar vari√°veis mais relevantes para modelagem

In [None]:
# An√°lise 1: Matriz de Correla√ß√£o Geral

print("An√°lise de correla√ß√£o - vari√°veis num√©ricas")

try:
    dados_para_correlacao = pd.concat([X_final, pd.Series(y_encoded, name='Churn')], axis=1)
    print("Usando dados pr√©-processados para an√°lise de correla√ß√£o")
except:
    dados_para_correlacao = dados.copy()
    print("Usando dados originais - execute as c√©lulas de pr√©-processamento primeiro")

dados_numericos = dados_para_correlacao.select_dtypes(include=[np.number])

print(f"\nVari√°veis num√©ricas identificadas: {len(dados_numericos.columns)}")
for i, col in enumerate(dados_numericos.columns):
    print(f"{i+1:2d}. {col}")

matriz_correlacao = dados_numericos.corr()

plt.figure(figsize=(14, 10))

mask = np.triu(np.ones_like(matriz_correlacao, dtype=bool))
sns.heatmap(matriz_correlacao, 
            mask=mask,
            annot=True, 
            fmt='.3f', 
            center=0,
            cmap='RdBu_r', 
            square=True,
            cbar_kws={'label': 'Coeficiente de Correla√ß√£o'})

plt.title('Matriz de Correla√ß√£o - Vari√°veis Num√©ricas', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print(f"\nEstat√≠sticas da matriz de correla√ß√£o:")
print(f"   ‚Ä¢ Dimens√µes: {matriz_correlacao.shape}")
print(f"   ‚Ä¢ Correla√ß√£o m√°xima (excl. diagonal): {matriz_correlacao.where(~np.eye(len(matriz_correlacao), dtype=bool)).max().max():.3f}")
print(f"   ‚Ä¢ Correla√ß√£o m√≠nima: {matriz_correlacao.where(~np.eye(len(matriz_correlacao), dtype=bool)).min().min():.3f}")

correlacoes_fortes = []
for i in range(len(matriz_correlacao.columns)):
    for j in range(i+1, len(matriz_correlacao.columns)):
        corr_val = matriz_correlacao.iloc[i, j]
        if abs(corr_val) > 0.5:
            correlacoes_fortes.append({
                'var1': matriz_correlacao.columns[i],
                'var2': matriz_correlacao.columns[j],
                'correlacao': corr_val
            })

if correlacoes_fortes:
    print(f"\nCorrela√ß√µes fortes (|r| > 0.5):")
    correlacoes_fortes_df = pd.DataFrame(correlacoes_fortes).sort_values('correlacao', key=abs, ascending=False)
    for _, row in correlacoes_fortes_df.iterrows():
        intensidade = "MUITO FORTE" if abs(row['correlacao']) > 0.8 else "FORTE" if abs(row['correlacao']) > 0.7 else "MODERADA"
        print(f"   {intensidade}: {row['var1']} ‚Üî {row['var2']}: {row['correlacao']:+.3f}")
else:
    print(f"\nNenhuma correla√ß√£o muito forte encontrada entre vari√°veis")

print(f"\nAn√°lise de correla√ß√£o geral conclu√≠da")

In [None]:
# An√°lise 2: Correla√ß√£o com Vari√°vel Target (Churn)

print("Correla√ß√£o das vari√°veis com churn (evas√£o)")

coluna_churn = None
for col in dados_numericos.columns:
    if 'churn' in col.lower() or 'evasao' in col.lower():
        coluna_churn = col
        break

if coluna_churn is None:
    print("Coluna de churn n√£o encontrada automaticamente")
    if 'Churn' in dados_numericos.columns:
        coluna_churn = 'Churn'
    else:
        coluna_churn = dados_numericos.columns[-1]
    print(f"Assumindo '{coluna_churn}' como vari√°vel target")

print(f"Vari√°vel target identificada: '{coluna_churn}'")

correlacoes_churn = dados_numericos.corr()[coluna_churn].drop(coluna_churn).sort_values(key=abs, ascending=False)

print(f"\nCorrela√ß√µes com {coluna_churn.upper()}:")

for i, (variavel, correlacao) in enumerate(correlacoes_churn.items()):
    if abs(correlacao) > 0.7:
        intensidade = "MUITO FORTE"
    elif abs(correlacao) > 0.5:
        intensidade = "FORTE"
    elif abs(correlacao) > 0.3:
        intensidade = "MODERADA"
    elif abs(correlacao) > 0.1:
        intensidade = "FRACA"
    else:
        intensidade = "MUITO FRACA"
    
    direcao = "POSITIVA" if correlacao > 0 else "NEGATIVA"
    
    print(f"{i+1:2d}. {variavel:25s} | {correlacao:+.4f} | {intensidade} {direcao}")

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

correlacoes_churn_abs = correlacoes_churn.reindex(correlacoes_churn.abs().sort_values(ascending=True).index)
colors = ['red' if x < 0 else 'blue' for x in correlacoes_churn_abs.values]

axes[0].barh(range(len(correlacoes_churn_abs)), correlacoes_churn_abs.values, color=colors, alpha=0.7)
axes[0].set_yticks(range(len(correlacoes_churn_abs)))
axes[0].set_yticklabels(correlacoes_churn_abs.index, fontsize=10)
axes[0].set_xlabel('Coeficiente de Correla√ß√£o')
axes[0].set_title(f'Correla√ß√£o das Vari√°veis com {coluna_churn}', fontsize=12, fontweight='bold')
axes[0].axvline(x=0, color='black', linestyle='-', alpha=0.3)
axes[0].grid(axis='x', alpha=0.3)

correlacoes_abs_top10 = correlacoes_churn.abs().sort_values(ascending=False).head(10)
axes[1].bar(range(len(correlacoes_abs_top10)), correlacoes_abs_top10.values, 
           color='coral', alpha=0.7)
axes[1].set_xticks(range(len(correlacoes_abs_top10)))
axes[1].set_xticklabels(correlacoes_abs_top10.index, rotation=45, ha='right')
axes[1].set_ylabel('Correla√ß√£o Absoluta')
axes[1].set_title(f'Top 10 Vari√°veis - Correla√ß√£o Absoluta com {coluna_churn}', fontsize=12, fontweight='bold')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

top_features_correlacao = correlacoes_churn.abs().sort_values(ascending=False).head(10)

print(f"\nTop 10 vari√°veis mais correlacionadas com {coluna_churn.upper()}:")
for i, (var, corr_abs) in enumerate(top_features_correlacao.items()):
    corr_original = correlacoes_churn[var]
    print(f"{i+1:2d}. {var:25s} | Correla√ß√£o: {corr_original:+.4f} | |r|: {corr_abs:.4f}")

print(f"\nInsights para modelagem:")
features_relevantes = top_features_correlacao[top_features_correlacao > 0.1]
print(f"   ‚Ä¢ {len(features_relevantes)} vari√°veis t√™m correla√ß√£o relevante (|r| > 0.1) com {coluna_churn}")
features_fortes = top_features_correlacao[top_features_correlacao > 0.3]
print(f"   ‚Ä¢ {len(features_fortes)} vari√°veis t√™m correla√ß√£o moderada/forte (|r| > 0.3) com {coluna_churn}")

if len(features_fortes) > 0:
    print(f"   ‚Ä¢ Features principais: {list(features_fortes.index)}")

print(f"\nAn√°lise de correla√ß√£o com target conclu√≠da")

In [None]:
### ‚è∞ An√°lise 3: Tempo de Contrato √ó Evas√£o

print("‚è∞ AN√ÅLISE: TEMPO DE CONTRATO √ó EVAS√ÉO")
print("=" * 45)

# Identificar coluna relacionada ao tempo de contrato
coluna_tempo = None
poss√≠veis_colunas_tempo = ['tenure', 'tempo', 'contract', 'tempo_contrato', 'customer.tenure']

for col in dados_para_correlacao.columns:
    col_lower = col.lower()
    if any(termo in col_lower for termo in ['tenure', 'tempo', 'contract']):
        coluna_tempo = col
        break

if coluna_tempo is None:
    print("‚ö†Ô∏è Coluna de tempo de contrato n√£o encontrada automaticamente")
    print("üìã Colunas dispon√≠veis:")
    for i, col in enumerate(dados_para_correlacao.columns):
        print(f"  {i+1:2d}. {col}")
    print("üí° Assumindo que existe uma vari√°vel relacionada ao tempo...")
    # Tentar encontrar qualquer coluna que possa representar tempo
    for col in dados_para_correlacao.columns:
        if dados_para_correlacao[col].dtype in ['int64', 'float64']:
            # Verificar se os valores fazem sentido para tempo (ex: 0-100 meses)
            if dados_para_correlacao[col].min() >= 0 and dados_para_correlacao[col].max() <= 200:
                coluna_tempo = col
                break
    
    if coluna_tempo:
        print(f"üîç Assumindo '{coluna_tempo}' como vari√°vel de tempo")
    else:
        print("‚ùå N√£o foi poss√≠vel identificar vari√°vel de tempo")

if coluna_tempo and coluna_churn:
    print(f"\nüìä ANALISANDO: {coluna_tempo} √ó {coluna_churn}")
    
    # Estat√≠sticas b√°sicas por grupo de churn
    stats_tempo = dados_para_correlacao.groupby(coluna_churn)[coluna_tempo].agg([
        'count', 'mean', 'median', 'std', 'min', 'max'
    ]).round(2)
    
    print(f"\nüìà ESTAT√çSTICAS DE {coluna_tempo.upper()} POR GRUPO DE CHURN:")
    print("-" * 55)
    print(stats_tempo)
    
    # Calcular correla√ß√£o espec√≠fica
    correlacao_tempo_churn = dados_para_correlacao[coluna_tempo].corr(dados_para_correlacao[coluna_churn])
    print(f"\nüîó CORRELA√á√ÉO {coluna_tempo} √ó {coluna_churn}: {correlacao_tempo_churn:+.4f}")
    
    # Interpreta√ß√£o da correla√ß√£o
    if abs(correlacao_tempo_churn) > 0.5:
        interpretacao = "FORTE"
    elif abs(correlacao_tempo_churn) > 0.3:
        interpretacao = "MODERADA"
    elif abs(correlacao_tempo_churn) > 0.1:
        interpretacao = "FRACA"
    else:
        interpretacao = "MUITO FRACA"
    
    direcao = "NEGATIVA (‚ÜòÔ∏è)" if correlacao_tempo_churn < 0 else "POSITIVA (‚ÜóÔ∏è)"
    print(f"üí° Interpreta√ß√£o: Correla√ß√£o {interpretacao} {direcao}")
    
    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # 1. Boxplot - Tempo de contrato por grupo de churn
    dados_para_correlacao.boxplot(column=coluna_tempo, by=coluna_churn, ax=axes[0,0])
    axes[0,0].set_title(f'Boxplot: {coluna_tempo} por {coluna_churn}')
    axes[0,0].set_xlabel(f'{coluna_churn} (0=N√£o Cancelou, 1=Cancelou)')
    axes[0,0].set_ylabel(coluna_tempo)
    
    # 2. Histograma comparativo
    churn_0 = dados_para_correlacao[dados_para_correlacao[coluna_churn] == 0][coluna_tempo]
    churn_1 = dados_para_correlacao[dados_para_correlacao[coluna_churn] == 1][coluna_tempo]
    
    axes[0,1].hist(churn_0, bins=30, alpha=0.7, label='N√£o Cancelou', color='lightblue', density=True)
    axes[0,1].hist(churn_1, bins=30, alpha=0.7, label='Cancelou', color='lightcoral', density=True)
    axes[0,1].set_xlabel(coluna_tempo)
    axes[0,1].set_ylabel('Densidade')
    axes[0,1].set_title(f'Distribui√ß√£o de {coluna_tempo} por Grupo')
    axes[0,1].legend()
    axes[0,1].grid(alpha=0.3)
    
    # 3. Scatter plot
    cores = ['lightblue' if x == 0 else 'lightcoral' for x in dados_para_correlacao[coluna_churn]]
    axes[1,0].scatter(dados_para_correlacao[coluna_tempo], dados_para_correlacao[coluna_churn], 
                     c=cores, alpha=0.6)
    axes[1,0].set_xlabel(coluna_tempo)
    axes[1,0].set_ylabel(coluna_churn)
    axes[1,0].set_title(f'Scatter Plot: {coluna_tempo} √ó {coluna_churn}')
    axes[1,0].grid(alpha=0.3)
    
    # 4. Violin plot
    dados_violin = [churn_0.values, churn_1.values]
    parts = axes[1,1].violinplot(dados_violin, positions=[0, 1], showmeans=True, showmedians=True)
    axes[1,1].set_xticks([0, 1])
    axes[1,1].set_xticklabels(['N√£o Cancelou', 'Cancelou'])
    axes[1,1].set_ylabel(coluna_tempo)
    axes[1,1].set_title(f'Violin Plot: {coluna_tempo} por {coluna_churn}')
    axes[1,1].grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # An√°lise de segmenta√ß√£o por quartis de tempo
    quartis = dados_para_correlacao[coluna_tempo].quantile([0.25, 0.5, 0.75])
    print(f"\nüìä AN√ÅLISE POR QUARTIS DE {coluna_tempo.upper()}:")
    print("-" * 40)
    
    def classificar_quartil(valor):
        if valor <= quartis[0.25]:
            return 'Q1 (Baixo)'
        elif valor <= quartis[0.5]:
            return 'Q2 (M√©dio-Baixo)'
        elif valor <= quartis[0.75]:
            return 'Q3 (M√©dio-Alto)'
        else:
            return 'Q4 (Alto)'
    
    dados_para_correlacao['Quartil_Tempo'] = dados_para_correlacao[coluna_tempo].apply(classificar_quartil)
    quartil_analysis = dados_para_correlacao.groupby('Quartil_Tempo')[coluna_churn].agg(['count', 'sum', 'mean'])
    quartil_analysis['taxa_churn_pct'] = (quartil_analysis['mean'] * 100).round(1)
    
    print(quartil_analysis)
    
    print(f"\nüí° INSIGHTS - {coluna_tempo.upper()} √ó EVAS√ÉO:")
    q1_churn = quartil_analysis.loc['Q1 (Baixo)', 'taxa_churn_pct']
    q4_churn = quartil_analysis.loc['Q4 (Alto)', 'taxa_churn_pct']
    
    if q1_churn > q4_churn:
        print(f"   ‚Ä¢ Clientes com MENOR {coluna_tempo} t√™m MAIOR taxa de evas√£o ({q1_churn}% vs {q4_churn}%)")
        print(f"   ‚Ä¢ Reten√ß√£o melhora com o aumento do tempo de relacionamento")
    else:
        print(f"   ‚Ä¢ Clientes com MAIOR {coluna_tempo} t√™m MAIOR taxa de evas√£o ({q4_churn}% vs {q1_churn}%)")
        print(f"   ‚Ä¢ Padr√£o at√≠pico - investigar poss√≠veis causas")
    
    print(f"   ‚Ä¢ Diferen√ßa entre Q1 e Q4: {abs(q1_churn - q4_churn):.1f} pontos percentuais")
    
else:
    print("‚ùå N√£o foi poss√≠vel realizar an√°lise de tempo √ó evas√£o")
    print("üí° Verifique se as colunas de tempo e churn est√£o dispon√≠veis")

print(f"\n‚úÖ An√°lise tempo de contrato √ó evas√£o conclu√≠da!")

In [None]:
### üí∞ An√°lise 4: Total Gasto √ó Evas√£o

print("üí∞ AN√ÅLISE: TOTAL GASTO √ó EVAS√ÉO")
print("=" * 40)

# Identificar coluna relacionada ao gasto total
coluna_gasto = None
poss√≠veis_colunas_gasto = ['total', 'charges', 'gasto', 'valor', 'account.Charges.Total']

for col in dados_para_correlacao.columns:
    col_lower = col.lower()
    if any(termo in col_lower for termo in ['total', 'charges', 'gasto', 'valor']):
        if 'total' in col_lower:  # Priorizar vari√°veis com "total"
            coluna_gasto = col
            break
        elif coluna_gasto is None:  # Se n√£o encontrou "total", aceitar outras
            coluna_gasto = col

if coluna_gasto is None:
    print("‚ö†Ô∏è Coluna de gasto total n√£o encontrada automaticamente")
    print("üîç Procurando por colunas num√©ricas com valores altos (poss√≠vel gasto)...")
    
    for col in dados_para_correlacao.select_dtypes(include=[np.number]).columns:
        if col != coluna_churn:  # N√£o √© a vari√°vel target
            max_val = dados_para_correlacao[col].max()
            if max_val > 1000:  # Assumir que gastos s√£o valores altos
                coluna_gasto = col
                print(f"üí° Assumindo '{col}' como vari√°vel de gasto (max: {max_val:,.2f})")
                break

if coluna_gasto and coluna_churn:
    print(f"\nüìä ANALISANDO: {coluna_gasto} √ó {coluna_churn}")
    
    # Remover outliers extremos para melhor visualiza√ß√£o
    Q1 = dados_para_correlacao[coluna_gasto].quantile(0.25)
    Q3 = dados_para_correlacao[coluna_gasto].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    dados_sem_outliers = dados_para_correlacao[
        (dados_para_correlacao[coluna_gasto] >= limite_inferior) & 
        (dados_para_correlacao[coluna_gasto] <= limite_superior)
    ]
    
    outliers_removidos = len(dados_para_correlacao) - len(dados_sem_outliers)
    print(f"üìä Outliers identificados e removidos para an√°lise: {outliers_removidos} ({outliers_removidos/len(dados_para_correlacao)*100:.1f}%)")
    
    # Estat√≠sticas b√°sicas por grupo de churn
    stats_gasto = dados_para_correlacao.groupby(coluna_churn)[coluna_gasto].agg([
        'count', 'mean', 'median', 'std', 'min', 'max'
    ]).round(2)
    
    print(f"\nüìà ESTAT√çSTICAS DE {coluna_gasto.upper()} POR GRUPO DE CHURN:")
    print("-" * 60)
    print(stats_gasto)
    
    # Calcular correla√ß√£o espec√≠fica
    correlacao_gasto_churn = dados_para_correlacao[coluna_gasto].corr(dados_para_correlacao[coluna_churn])
    print(f"\nüîó CORRELA√á√ÉO {coluna_gasto} √ó {coluna_churn}: {correlacao_gasto_churn:+.4f}")
    
    # Interpreta√ß√£o da correla√ß√£o
    if abs(correlacao_gasto_churn) > 0.5:
        interpretacao = "FORTE"
    elif abs(correlacao_gasto_churn) > 0.3:
        interpretacao = "MODERADA"
    elif abs(correlacao_gasto_churn) > 0.1:
        interpretacao = "FRACA"
    else:
        interpretacao = "MUITO FRACA"
    
    direcao = "NEGATIVA (‚ÜòÔ∏è)" if correlacao_gasto_churn < 0 else "POSITIVA (‚ÜóÔ∏è)"
    print(f"üí° Interpreta√ß√£o: Correla√ß√£o {interpretacao} {direcao}")
    
    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Boxplot - Gasto total por grupo de churn (sem outliers para melhor viz)
    dados_sem_outliers.boxplot(column=coluna_gasto, by=coluna_churn, ax=axes[0,0])
    axes[0,0].set_title(f'Boxplot: {coluna_gasto} por {coluna_churn}\n(Outliers removidos para visualiza√ß√£o)')
    axes[0,0].set_xlabel(f'{coluna_churn} (0=N√£o Cancelou, 1=Cancelou)')
    axes[0,0].set_ylabel(f'{coluna_gasto}')
    
    # 2. Histograma comparativo
    churn_0_gasto = dados_para_correlacao[dados_para_correlacao[coluna_churn] == 0][coluna_gasto]
    churn_1_gasto = dados_para_correlacao[dados_para_correlacao[coluna_churn] == 1][coluna_gasto]
    
    axes[0,1].hist(churn_0_gasto, bins=30, alpha=0.7, label='N√£o Cancelou', color='lightblue', density=True)
    axes[0,1].hist(churn_1_gasto, bins=30, alpha=0.7, label='Cancelou', color='lightcoral', density=True)
    axes[0,1].set_xlabel(coluna_gasto)
    axes[0,1].set_ylabel('Densidade')
    axes[0,1].set_title(f'Distribui√ß√£o de {coluna_gasto} por Grupo')
    axes[0,1].legend()
    axes[0,1].grid(alpha=0.3)
    
    # 3. Scatter plot com jitter para visualizar densidade
    y_jitter = dados_para_correlacao[coluna_churn] + np.random.normal(0, 0.05, len(dados_para_correlacao))
    cores = ['lightblue' if x == 0 else 'lightcoral' for x in dados_para_correlacao[coluna_churn]]
    axes[1,0].scatter(dados_para_correlacao[coluna_gasto], y_jitter, 
                     c=cores, alpha=0.6, s=20)
    axes[1,0].set_xlabel(coluna_gasto)
    axes[1,0].set_ylabel(f'{coluna_churn} (com jitter)')
    axes[1,0].set_title(f'Scatter Plot: {coluna_gasto} √ó {coluna_churn}')
    axes[1,0].set_ylim(-0.5, 1.5)
    axes[1,0].grid(alpha=0.3)
    
    # 4. Violin plot (usando dados sem outliers)
    dados_violin = [
        dados_sem_outliers[dados_sem_outliers[coluna_churn] == 0][coluna_gasto].values,
        dados_sem_outliers[dados_sem_outliers[coluna_churn] == 1][coluna_gasto].values
    ]
    parts = axes[1,1].violinplot(dados_violin, positions=[0, 1], showmeans=True, showmedians=True)
    axes[1,1].set_xticks([0, 1])
    axes[1,1].set_xticklabels(['N√£o Cancelou', 'Cancelou'])
    axes[1,1].set_ylabel(coluna_gasto)
    axes[1,1].set_title(f'Violin Plot: {coluna_gasto} por {coluna_churn}')
    axes[1,1].grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # An√°lise por faixas de gasto
    # Criar faixas de gasto baseadas em quartis
    quartis_gasto = dados_para_correlacao[coluna_gasto].quantile([0, 0.25, 0.5, 0.75, 1.0])
    
    print(f"\nüìä QUARTIS DE {coluna_gasto.upper()}:")
    for i, (q, valor) in enumerate(quartis_gasto.items()):
        print(f"   Q{int(q*4) if q > 0 else 'Min'}: R$ {valor:,.2f}")
    
    def classificar_faixa_gasto(valor):
        if valor <= quartis_gasto[0.25]:
            return 'Baixo Gasto (Q1)'
        elif valor <= quartis_gasto[0.5]:
            return 'Gasto Moderado (Q2)'
        elif valor <= quartis_gasto[0.75]:
            return 'Alto Gasto (Q3)'
        else:
            return 'Muito Alto Gasto (Q4)'
    
    dados_para_correlacao['Faixa_Gasto'] = dados_para_correlacao[coluna_gasto].apply(classificar_faixa_gasto)
    faixa_analysis = dados_para_correlacao.groupby('Faixa_Gasto')[coluna_churn].agg(['count', 'sum', 'mean'])
    faixa_analysis['taxa_churn_pct'] = (faixa_analysis['mean'] * 100).round(1)
    
    print(f"\nüìà TAXA DE EVAS√ÉO POR FAIXA DE GASTO:")
    print("-" * 50)
    print(faixa_analysis[['count', 'taxa_churn_pct']].sort_values('taxa_churn_pct', ascending=False))
    
    # Insights espec√≠ficos
    print(f"\nüí° INSIGHTS - {coluna_gasto.upper()} √ó EVAS√ÉO:")
    
    # Comparar diferen√ßas entre grupos
    media_gasto_nao_churn = stats_gasto.loc[0, 'mean']
    media_gasto_churn = stats_gasto.loc[1, 'mean']
    diferenca_absoluta = abs(media_gasto_churn - media_gasto_nao_churn)
    diferenca_percentual = (diferenca_absoluta / media_gasto_nao_churn) * 100
    
    if media_gasto_churn > media_gasto_nao_churn:
        print(f"   ‚Ä¢ Clientes que CANCELARAM gastam MAIS em m√©dia (R$ {media_gasto_churn:,.2f} vs R$ {media_gasto_nao_churn:,.2f})")
        print(f"   ‚Ä¢ Diferen√ßa de R$ {diferenca_absoluta:,.2f} ({diferenca_percentual:.1f}% a mais)")
        print(f"   ‚Ä¢ Poss√≠vel insatisfa√ß√£o com custo-benef√≠cio ou busca por alternativas mais baratas")
    else:
        print(f"   ‚Ä¢ Clientes que CANCELARAM gastam MENOS em m√©dia (R$ {media_gasto_churn:,.2f} vs R$ {media_gasto_nao_churn:,.2f})")
        print(f"   ‚Ä¢ Diferen√ßa de R$ {diferenca_absoluta:,.2f} ({diferenca_percentual:.1f}% a menos)")
        print(f"   ‚Ä¢ Poss√≠vel baixo engajamento ou uso limitado dos servi√ßos")
    
    # An√°lise das faixas
    maior_evasao_faixa = faixa_analysis['taxa_churn_pct'].idxmax()
    menor_evasao_faixa = faixa_analysis['taxa_churn_pct'].idxmin()
    
    print(f"   ‚Ä¢ Maior taxa de evas√£o: {maior_evasao_faixa} ({faixa_analysis.loc[maior_evasao_faixa, 'taxa_churn_pct']:.1f}%)")
    print(f"   ‚Ä¢ Menor taxa de evas√£o: {menor_evasao_faixa} ({faixa_analysis.loc[menor_evasao_faixa, 'taxa_churn_pct']:.1f}%)")
    
    variacao_faixas = faixa_analysis['taxa_churn_pct'].max() - faixa_analysis['taxa_churn_pct'].min()
    print(f"   ‚Ä¢ Varia√ß√£o entre faixas: {variacao_faixas:.1f} pontos percentuais")
    
else:
    print("‚ùå N√£o foi poss√≠vel realizar an√°lise de gasto √ó evas√£o")
    print("üí° Verifique se as colunas de gasto e churn est√£o dispon√≠veis")

print(f"\n‚úÖ An√°lise total gasto √ó evas√£o conclu√≠da!")

In [None]:
### üéØ An√°lise 5: Sele√ß√£o Final de Vari√°veis

print("üéØ SELE√á√ÉO FINAL DE VARI√ÅVEIS PARA MODELAGEM")
print("=" * 55)

# Compilar todas as an√°lises de correla√ß√£o realizadas
print("üìä RESUMO DAS AN√ÅLISES DE CORRELA√á√ÉO:")
print("-" * 40)

if 'correlacoes_churn' in locals():
    # Classificar vari√°veis por import√¢ncia baseada na correla√ß√£o absoluta
    ranking_features = correlacoes_churn.abs().sort_values(ascending=False)
    
    print(f"üèÜ RANKING COMPLETO - CORRELA√á√ÉO ABSOLUTA COM {coluna_churn}:")
    print("-" * 55)
    
    features_selecionadas = {'muito_importantes': [], 'importantes': [], 'moderadas': [], 'fracas': []}
    
    for i, (feature, corr_abs) in enumerate(ranking_features.items()):
        corr_original = correlacoes_churn[feature]
        
        # Classifica√ß√£o por n√≠vel de import√¢ncia
        if corr_abs >= 0.5:
            categoria = 'muito_importantes'
            emoji = 'üî¥'
            nivel = 'MUITO IMPORTANTE'
        elif corr_abs >= 0.3:
            categoria = 'importantes'
            emoji = 'üü†'
            nivel = 'IMPORTANTE'
        elif corr_abs >= 0.1:
            categoria = 'moderadas'
            emoji = 'üü°'
            nivel = 'MODERADA'
        else:
            categoria = 'fracas'
            emoji = 'üü¢'
            nivel = 'FRACA'
        
        features_selecionadas[categoria].append(feature)
        
        print(f"{i+1:2d}. {emoji} {feature:25s} | r={corr_original:+.4f} | |r|={corr_abs:.4f} | {nivel}")
    
    # Resumo por categoria
    print(f"\nüìà RESUMO POR CATEGORIA DE IMPORT√ÇNCIA:")
    print("-" * 45)
    for categoria, features in features_selecionadas.items():
        if features:
            print(f"{categoria.replace('_', ' ').title():20s}: {len(features):2d} vari√°veis - {features}")
    
    # Recomenda√ß√µes para sele√ß√£o
    total_muito_importantes = len(features_selecionadas['muito_importantes'])
    total_importantes = len(features_selecionadas['importantes'])
    total_moderadas = len(features_selecionadas['moderadas'])
    
    print(f"\nüéØ RECOMENDA√á√ïES PARA SELE√á√ÉO DE FEATURES:")
    print("-" * 45)
    
    if total_muito_importantes > 0:
        print(f"‚úÖ OBRIGAT√ìRIAS ({total_muito_importantes}): {features_selecionadas['muito_importantes']}")
    
    if total_importantes > 0:
        print(f"üî∂ ALTAMENTE RECOMENDADAS ({total_importantes}): {features_selecionadas['importantes']}")
    
    if total_moderadas > 0:
        print(f"üü° CONSIDERAR INCLUIR ({total_moderadas}): {features_selecionadas['moderadas'][:5]}")  # Top 5
        if len(features_selecionadas['moderadas']) > 5:
            print(f"   ... e mais {len(features_selecionadas['moderadas'])-5} vari√°veis moderadas")
    
    # Feature set recomendado
    features_recomendadas = (features_selecionadas['muito_importantes'] + 
                           features_selecionadas['importantes'] + 
                           features_selecionadas['moderadas'][:10])  # Top 10 moderadas
    
    print(f"\nüèÜ CONJUNTO FINAL RECOMENDADO ({len(features_recomendadas)} vari√°veis):")
    print("-" * 55)
    for i, feature in enumerate(features_recomendadas, 1):
        corr_val = correlacoes_churn[feature]
        print(f"{i:2d}. {feature:25s} (r={corr_val:+.4f})")

else:
    print("‚ö†Ô∏è Execute a an√°lise de correla√ß√£o com target primeiro")

# An√°lise de multicolinearidade entre features selecionadas
if 'features_recomendadas' in locals() and len(features_recomendadas) > 1:
    print(f"\nüîç AN√ÅLISE DE MULTICOLINEARIDADE - FEATURES SELECIONADAS:")
    print("-" * 55)
    
    # Matriz de correla√ß√£o apenas das features selecionadas
    features_disponiveis = [f for f in features_recomendadas if f in dados_numericos.columns]
    
    if len(features_disponiveis) > 1:
        matriz_corr_selecionadas = dados_numericos[features_disponiveis].corr()
        
        # Identificar pares com alta correla√ß√£o (multicolinearidade)
        pares_correlacionados = []
        for i in range(len(matriz_corr_selecionadas.columns)):
            for j in range(i+1, len(matriz_corr_selecionadas.columns)):
                corr_val = matriz_corr_selecionadas.iloc[i, j]
                if abs(corr_val) > 0.7:  # Alta correla√ß√£o entre features
                    pares_correlacionados.append({
                        'var1': matriz_corr_selecionadas.columns[i],
                        'var2': matriz_corr_selecionadas.columns[j],
                        'correlacao': corr_val
                    })
        
        if pares_correlacionados:
            print("‚ö†Ô∏è  ALTA CORRELA√á√ÉO ENTRE FEATURES (|r| > 0.7):")
            for par in pares_correlacionados:
                print(f"   üî¥ {par['var1']} ‚Üî {par['var2']}: {par['correlacao']:+.3f}")
            print("üí° Considere remover uma das vari√°veis de cada par para evitar redund√¢ncia")
        else:
            print("‚úÖ N√£o h√° multicolinearidade significativa entre features selecionadas")
        
        # Visualiza√ß√£o da matriz de correla√ß√£o das features selecionadas
        if len(features_disponiveis) <= 15:  # S√≥ plotar se n√£o for muito grande
            plt.figure(figsize=(12, 10))
            mask = np.triu(np.ones_like(matriz_corr_selecionadas, dtype=bool))
            sns.heatmap(matriz_corr_selecionadas, 
                       mask=mask,
                       annot=True, 
                       fmt='.3f', 
                       center=0,
                       cmap='RdBu_r', 
                       square=True,
                       cbar_kws={'label': 'Correla√ß√£o'})
            plt.title('Matriz de Correla√ß√£o - Features Selecionadas', fontsize=14, fontweight='bold')
            plt.tight_layout()
            plt.show()

# Salvar informa√ß√µes para pr√≥ximas etapas
if 'features_recomendadas' in locals():
    print(f"\nüíæ VARI√ÅVEIS CRIADAS PARA PR√ìXIMAS ETAPAS:")
    print("-" * 40)
    print(f"‚Ä¢ features_recomendadas: Lista com {len(features_recomendadas)} vari√°veis selecionadas")
    print(f"‚Ä¢ ranking_features: Ranking completo de import√¢ncia")
    if 'pares_correlacionados' in locals():
        print(f"‚Ä¢ pares_correlacionados: {len(pares_correlacionados)} pares com alta correla√ß√£o")
    
    print(f"\n‚úÖ An√°lise de sele√ß√£o de vari√°veis conclu√≠da!")
    print(f"üéØ {len(features_recomendadas)} vari√°veis selecionadas para modelagem")
    
else:
    print("‚ùå Execute as an√°lises de correla√ß√£o primeiro para gerar as recomenda√ß√µes")

print(f"\n" + "="*60)
print("üéâ AN√ÅLISE COMPLETA DE CORRELA√á√ÉO E SELE√á√ÉO DE VARI√ÅVEIS FINALIZADA!")
print("="*60)

## üîß 2. Prepara√ß√£o dos Dados para Machine Learning

Nesta etapa, vamos preparar os dados para aplicar os algoritmos de Machine Learning:

In [None]:
# Selecionar features (vari√°veis independentes) e target (vari√°vel dependente)

# Remover colunas que n√£o s√£o √∫teis para o modelo
colunas_remover = ['customerID']  # ID n√£o √© predictivo

# Identificar colunas categ√≥ricas e num√©ricas
colunas_categoricas = dados.select_dtypes(include=['object']).columns.tolist()
colunas_numericas = dados.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Remover Churn das listas (√© nossa vari√°vel target)
if 'Churn' in colunas_categoricas:
    colunas_categoricas.remove('Churn')
if 'Churn' in colunas_numericas:
    colunas_numericas.remove('Churn')

print(f"üìä Colunas categ√≥ricas: {len(colunas_categoricas)}")
print(colunas_categoricas)
print(f"\nüî¢ Colunas num√©ricas: {len(colunas_numericas)}")
print(colunas_numericas)

# Preparar dataset final
dados_ml = dados.copy()

# Remover colunas desnecess√°rias
for col in colunas_remover:
    if col in dados_ml.columns:
        dados_ml = dados_ml.drop(columns=[col])

print(f"\n‚úÖ Dataset preparado com {dados_ml.shape[1]} colunas")

In [None]:
# Encoding de vari√°veis categ√≥ricas
print("=== ENCODING DE VARI√ÅVEIS CATEG√ìRICAS ===")

dados_encoded = dados_ml.copy()

# Aplicar LabelEncoder para cada coluna categ√≥rica
label_encoders = {}

for col in colunas_categoricas:
    if col in dados_encoded.columns:
        le = LabelEncoder()
        dados_encoded[col] = le.fit_transform(dados_encoded[col].astype(str))
        label_encoders[col] = le
        
        print(f"‚úÖ {col}: {len(le.classes_)} categorias √∫nicas")

print(f"\nüìä Shape ap√≥s encoding: {dados_encoded.shape}")

# Verificar se h√° valores ausentes ap√≥s encoding
missing_after_encoding = dados_encoded.isnull().sum().sum()
print(f"üîç Valores ausentes ap√≥s encoding: {missing_after_encoding}")

# Remover registros com valores ausentes se houver
if missing_after_encoding > 0:
    dados_encoded = dados_encoded.dropna()
    print(f"üßπ Shape ap√≥s remo√ß√£o de NaN: {dados_encoded.shape}")

dados_encoded.head()

In [None]:
# Divis√£o dos dados em features (X) e target (y)
X = dados_encoded.drop('Churn', axis=1)
y = dados_encoded['Churn']

print(f"üìä Features (X): {X.shape}")
print(f"üéØ Target (y): {y.shape}")
print(f"üìã Colunas features: {X.columns.tolist()}")

# Divis√£o em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y  # Manter propor√ß√£o de classes
)

print(f"\n=== DIVIS√ÉO DOS DADOS ===")
print(f"üèãÔ∏è Treino - X: {X_train.shape}, y: {y_train.shape}")
print(f"üß™ Teste - X: {X_test.shape}, y: {y_test.shape}")

# Verificar distribui√ß√£o das classes no treino e teste
print(f"\nüìä Distribui√ß√£o no treino:")
print(y_train.value_counts(normalize=True))
print(f"\nüìä Distribui√ß√£o no teste:")
print(y_test.value_counts(normalize=True))

In [None]:
# Normaliza√ß√£o dos dados (StandardScaler)
print("=== NORMALIZA√á√ÉO DOS DADOS ===")

scaler = StandardScaler()

# Fit no conjunto de treino e transform em ambos
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"‚úÖ Dados normalizados!")
print(f"üìä M√©dia antes da normaliza√ß√£o (amostra): {X_train.mean().head()}")
print(f"üìä M√©dia ap√≥s normaliza√ß√£o (amostra): {X_train_scaled.mean(axis=0)[:5]}")
print(f"üìä Desvio padr√£o ap√≥s normaliza√ß√£o (amostra): {X_train_scaled.std(axis=0)[:5]}")

# Converter de volta para DataFrame (opcional, para manter nomes das colunas)
X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns)

## ü§ñ 3. Constru√ß√£o dos Modelos Preditivos

Vamos treinar e avaliar diferentes algoritmos de Machine Learning para prever o churn:

In [None]:
# Definir os modelos para compara√ß√£o
modelos = {
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42, n_estimators=100)
}

# Dicion√°rio para armazenar resultados
resultados = {}

print("üöÄ TREINANDO MODELOS...")

for nome_modelo, modelo in modelos.items():
    print(f"\nüìä Treinando: {nome_modelo}")
    
    # Treinar o modelo
    if nome_modelo == 'Logistic Regression':
        # Logistic Regression funciona melhor com dados normalizados
        modelo.fit(X_train_scaled, y_train)
        y_pred = modelo.predict(X_test_scaled)
        y_pred_proba = modelo.predict_proba(X_test_scaled)[:, 1]
    else:
        # Tree-based models n√£o precisam de normaliza√ß√£o
        modelo.fit(X_train, y_train)
        y_pred = modelo.predict(X_test)
        y_pred_proba = modelo.predict_proba(X_test)[:, 1]
    
    # Calcular m√©tricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred_proba)
    
    # Armazenar resultados
    resultados[nome_modelo] = {
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1,
        'roc_auc': roc_auc,
        'y_pred': y_pred,
        'y_pred_proba': y_pred_proba,
        'modelo': modelo
    }
    
    print(f"‚úÖ {nome_modelo} treinado!")
    print(f"   Accuracy: {accuracy:.4f}")
    print(f"   F1-Score: {f1:.4f}")
    print(f"   ROC-AUC: {roc_auc:.4f}")

print("\nüéâ Todos os modelos foram treinados!")

In [None]:
# Compara√ß√£o dos modelos
print("="*60)
print("üìä COMPARA√á√ÉO DOS MODELOS")
print("="*60)

# Criar DataFrame com resultados
df_resultados = pd.DataFrame(resultados).T
df_metricas = df_resultados[['accuracy', 'precision', 'recall', 'f1_score', 'roc_auc']]

print(df_metricas.round(4))

# Identificar melhor modelo por m√©trica
print(f"\nüèÜ MELHORES MODELOS POR M√âTRICA:")
for metrica in df_metricas.columns:
    melhor_modelo = df_metricas[metrica].idxmax()
    melhor_score = df_metricas[metrica].max()
    print(f"   {metrica.upper()}: {melhor_modelo} ({melhor_score:.4f})")

# Visualiza√ß√£o dos resultados
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

metricas = ['accuracy', 'precision', 'recall', 'f1_score', 'roc_auc']
colors = ['skyblue', 'lightgreen', 'coral', 'gold', 'lightpink']

for i, metrica in enumerate(metricas):
    ax = axes[i]
    df_metricas[metrica].plot(kind='bar', ax=ax, color=colors[i])
    ax.set_title(f'{metrica.replace("_", " ").title()}')
    ax.set_ylabel('Score')
    ax.set_xlabel('Modelo')
    ax.tick_params(axis='x', rotation=45)
    ax.grid(axis='y', alpha=0.3)

# Remover o subplot vazio
axes[5].remove()

plt.tight_layout()
plt.show()

## 4. An√°lise Detalhada do Melhor Modelo

In [None]:
# Selecionar melhor modelo baseado no F1-Score (boa m√©trica para dados desbalanceados)
melhor_modelo_nome = df_metricas['f1_score'].idxmax()
melhor_modelo_resultado = resultados[melhor_modelo_nome]

print(f"üèÜ MELHOR MODELO: {melhor_modelo_nome}")
print(f"üìä F1-Score: {melhor_modelo_resultado['f1_score']:.4f}")

# Matriz de Confus√£o
y_pred_melhor = melhor_modelo_resultado['y_pred']
cm = confusion_matrix(y_test, y_pred_melhor)

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Matriz de Confus√£o
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[0],
            xticklabels=['N√£o Cancelou', 'Cancelou'],
            yticklabels=['N√£o Cancelou', 'Cancelou'])
axes[0].set_title(f'Matriz de Confus√£o - {melhor_modelo_nome}')
axes[0].set_xlabel('Predi√ß√£o')
axes[0].set_ylabel('Real')

# Curva ROC
y_pred_proba_melhor = melhor_modelo_resultado['y_pred_proba']
fpr, tpr, _ = roc_curve(y_test, y_pred_proba_melhor)
roc_auc = auc(fpr, tpr)

axes[1].plot(fpr, tpr, color='darkorange', lw=2, 
             label=f'ROC Curve (AUC = {roc_auc:.4f})')
axes[1].plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Random')
axes[1].set_xlim([0.0, 1.0])
axes[1].set_ylim([0.0, 1.05])
axes[1].set_xlabel('Taxa de Falsos Positivos')
axes[1].set_ylabel('Taxa de Verdadeiros Positivos')
axes[1].set_title('Curva ROC')
axes[1].legend(loc="lower right")
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Relat√≥rio detalhado
print(f"\nüìã RELAT√ìRIO DETALHADO - {melhor_modelo_nome}")
print("="*50)
print(classification_report(y_test, y_pred_melhor, 
                          target_names=['N√£o Cancelou', 'Cancelou']))

In [None]:
# An√°lise de Import√¢ncia das Features (se for Random Forest ou Decision Tree)
if melhor_modelo_nome in ['Random Forest', 'Decision Tree']:
    
    modelo_treinado = melhor_modelo_resultado['modelo']
    importancias = modelo_treinado.feature_importances_
    
    # Criar DataFrame com import√¢ncias
    df_importancias = pd.DataFrame({
        'feature': X_train.columns,
        'importancia': importancias
    }).sort_values('importancia', ascending=False)
    
    # Plotar top 10 features mais importantes
    plt.figure(figsize=(10, 6))
    top_10 = df_importancias.head(10)
    
    plt.barh(range(len(top_10)), top_10['importancia'], color='lightcoral')
    plt.yticks(range(len(top_10)), top_10['feature'])
    plt.xlabel('Import√¢ncia')
    plt.title(f'Top 10 Features Mais Importantes - {melhor_modelo_nome}')
    plt.gca().invert_yaxis()  # Maior import√¢ncia no topo
    plt.tight_layout()
    plt.show()
    
    print("üìä TOP 10 FEATURES MAIS IMPORTANTES:")
    for i, row in top_10.iterrows():
        print(f"{row['feature']:30}: {row['importancia']:.4f}")

elif melhor_modelo_nome == 'Logistic Regression':
    
    modelo_treinado = melhor_modelo_resultado['modelo']
    coeficientes = modelo_treinado.coef_[0]
    
    # Criar DataFrame com coeficientes (valores absolutos para ranking)
    df_coeficientes = pd.DataFrame({
        'feature': X_train.columns,
        'coeficiente': coeficientes,
        'abs_coeficiente': np.abs(coeficientes)
    }).sort_values('abs_coeficiente', ascending=False)
    
    # Plotar top 10 coeficientes mais importantes
    plt.figure(figsize=(10, 6))
    top_10 = df_coeficientes.head(10)
    
    colors = ['red' if x < 0 else 'blue' for x in top_10['coeficiente']]
    plt.barh(range(len(top_10)), top_10['coeficiente'], color=colors)
    plt.yticks(range(len(top_10)), top_10['feature'])
    plt.xlabel('Coeficiente')
    plt.title(f'Top 10 Coeficientes Mais Importantes - {melhor_modelo_nome}')
    plt.axvline(x=0, color='black', linestyle='-', alpha=0.3)
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()
    
    print("üìä TOP 10 COEFICIENTES MAIS IMPORTANTES:")
    for i, row in top_10.iterrows():
        sinal = "üìà" if row['coeficiente'] > 0 else "üìâ"
        print(f"{row['feature']:30}: {row['coeficiente']:8.4f} {sinal}")

## 5. Conclus√µes e Recomenda√ß√µes

### Resultados Obtidos

In [None]:
print("="*80)
print("üìä RELAT√ìRIO FINAL - MODELOS PREDITIVOS TELECOM X")
print("="*80)

# Resumo dos resultados
melhor_f1 = df_metricas['f1_score'].max()
melhor_accuracy = df_metricas['accuracy'].max()
melhor_roc_auc = df_metricas['roc_auc'].max()

print(f"\nüéØ PERFORMANCE DOS MODELOS:")
print(f"   ‚Ä¢ Melhor F1-Score: {melhor_f1:.4f} ({df_metricas['f1_score'].idxmax()})")
print(f"   ‚Ä¢ Melhor Accuracy: {melhor_accuracy:.4f} ({df_metricas['accuracy'].idxmax()})")
print(f"   ‚Ä¢ Melhor ROC-AUC: {melhor_roc_auc:.4f} ({df_metricas['roc_auc'].idxmax()})")

print(f"\nüèÜ MODELO RECOMENDADO: {melhor_modelo_nome}")
print(f"   ‚Ä¢ F1-Score: {melhor_modelo_resultado['f1_score']:.4f}")
print(f"   ‚Ä¢ Accuracy: {melhor_modelo_resultado['accuracy']:.4f}")
print(f"   ‚Ä¢ Precision: {melhor_modelo_resultado['precision']:.4f}")
print(f"   ‚Ä¢ Recall: {melhor_modelo_resultado['recall']:.4f}")
print(f"   ‚Ä¢ ROC-AUC: {melhor_modelo_resultado['roc_auc']:.4f}")

print(f"\nüí° INSIGHTS PRINCIPAIS:")
print(f"   ‚Ä¢ Taxa de churn no dataset: {(y.sum()/len(y)*100):.1f}%")
print(f"   ‚Ä¢ O modelo consegue identificar {melhor_modelo_resultado['recall']:.1%} dos clientes que v√£o cancelar")
print(f"   ‚Ä¢ Precis√£o de {melhor_modelo_resultado['precision']:.1%} nas predi√ß√µes de churn")

print(f"\nüéØ RECOMENDA√á√ïES DE NEG√ìCIO:")
print(f"   1. Implementar sistema de scoring de churn usando o {melhor_modelo_nome}")
print(f"   2. Focar nas features mais importantes identificadas pelo modelo")
print(f"   3. Criar campanhas de reten√ß√£o para clientes com alta probabilidade de churn")
print(f"   4. Monitorar continuamente a performance do modelo")
print(f"   5. Coletar feedback dos resultados para melhorar o modelo")

print(f"\nüìà PR√ìXIMOS PASSOS:")
print(f"   ‚Ä¢ Testar t√©cnicas de balanceamento de classes (SMOTE, undersampling)")
print(f"   ‚Ä¢ Realizar feature engineering para criar novas vari√°veis")
print(f"   ‚Ä¢ Experimentar outros algoritmos (XGBoost, SVM)")
print(f"   ‚Ä¢ Implementar valida√ß√£o cruzada mais robusta")
print(f"   ‚Ä¢ Criar pipeline de deploy do modelo")

print(f"\n" + "="*80)
print("üéâ AN√ÅLISE CONCLU√çDA COM SUCESSO!")
print("="*80)