In [None]:
# ==========================================
# IMPORTA√á√ÉO DAS BIBLIOTECAS
# ==========================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
import json
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier # Although not used as the main model, it's good to keep if considering other options
from sklearn.tree import DecisionTreeClassifier # Although not used as the main model, it's good to keep if considering other options
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# For optional balancing (uncomment if you plan to use)
# from imblearn.over_sampling import SMOTE
# from imblearn.under_sampling import RandomUnderSampler
# from collections import Counter


# Configura√ß√µes de visualiza√ß√£o
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Bibliotecas importadas com sucesso!")

In [None]:
# ==========================================
# 1. EXTRA√á√ÉO DE DADOS
# ==========================================

def extrair_dados_api(url):
    """
    Extrai dados da API da Telecom X.
    """
    try:
        print("üîÑ Fazendo requisi√ß√£o para a API...")
        response = requests.get(url)
        response.raise_for_status()
        dados = response.json()

        print(f"üìã Tipo de dados recebidos: {type(dados)}")

        if isinstance(dados, list):
            print(f"üìä Lista com {len(dados)} elementos")
            if len(dados) > 0:
                print(f"üîç Primeiro elemento: {type(dados[0])}")
                if isinstance(dados[0], dict):
                    print(f"üóùÔ∏è Chaves do primeiro elemento: {list(dados[0].keys())}")
        elif isinstance(dados, dict):
            print(f"üìä Dicion√°rio com chaves: {list(dados.keys())}")

        if isinstance(dados, list):
            df = pd.DataFrame(dados)
        elif isinstance(dados, dict):
            if 'data' in dados:
                df = pd.DataFrame(dados['data'])
            elif 'customers' in dados:
                df = pd.DataFrame(dados['customers'])
            else:
                df = pd.DataFrame([dados])
        else:
            raise ValueError(f"Formato de dados n√£o suportado: {type(dados)}")

        print(f"‚úÖ Dados extra√≠dos com sucesso! Shape: {df.shape}")
        print(f"üìã Colunas: {list(df.columns)}")
        return df

    except requests.exceptions.RequestException as e:
        print(f"‚ùå Erro na requisi√ß√£o HTTP: {e}")
        print("üîÑ Tentando usar dados simulados...")
        return None
    except Exception as e:
        print(f"‚ùå Erro ao processar dados: {e}")
        print("üîÑ Tentando usar dados simulados...")
        return None

# URL da API
api_url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json"

# Carregamento dos dados
print("üîÑ Carregando dados da API...")
df_raw = extrair_dados_api(api_url)

In [None]:
# Verifica√ß√£o inicial dos dados
if df_raw is not None:
    print(f"üìä Dataset original: {df_raw.shape[0]} linhas, {df_raw.shape[1]} colunas")
    print("\nüìã Primeiras 5 linhas:")
    print(df_raw.head())
    print("\nüìã Informa√ß√µes gerais:")
    print(df_raw.info())

In [None]:
# ==========================================
# 2. TRANSFORMA√á√ÉO E LIMPEZA DOS DADOS (PARTE 1 DO DESAFIO)
# ==========================================

def expandir_colunas_complexas(df):
    """
    Expande colunas que cont√™m dicion√°rios aninhados em novas colunas.
    """
    print("\nüîß EXPANDINDO COLUNAS COMPLEXAS")
    print("=" * 50)
    df_expanded = df.copy()
    colunas_para_expandir = []

    for col in df_expanded.columns:
        if df_expanded[col].dtype == 'object':
            sample_val = df_expanded[col].dropna().iloc[0] if not df_expanded[col].dropna().empty else None
            if isinstance(sample_val, dict):
                colunas_para_expandir.append(col)

    for col in colunas_para_expandir:
        print(f"üîß Expandindo coluna: {col}")
        try:
            col_expanded = pd.json_normalize(df_expanded[col])
            col_expanded.columns = [f"{col}_{subcol}" for subcol in col_expanded.columns]
            df_expanded = pd.concat([df_expanded.drop(columns=[col]), col_expanded], axis=1)
        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao expandir coluna {col}: {e}")

    print(f"‚úÖ Colunas complexas expandidas! Shape: {df_expanded.shape}")
    print(f"üìã Novas colunas: {list(df_expanded.columns)}")
    return df_expanded

In [None]:
def explorar_estrutura_dados(df):
    """
    Explora a estrutura inicial dos dados.
    """
    print("üîç EXPLORA√á√ÉO INICIAL DOS DADOS")
    print("=" * 50)

    print(f"üìè Dimens√µes: {df.shape}")
    print(f"üìä Colunas dispon√≠veis: {list(df.columns)}")

    print(f"\nüìä Tipos de dados:")
    for col in df.columns:
        tipo = df[col].dtype
        print(f"   {col}: {tipo}")

    print(f"\nüîç Verificando estrutura das colunas:")
    for col in df.columns:
        if df[col].dtype == 'object':
            sample_values = df[col].dropna().head(3).tolist()
            print(f"   {col}: {[type(v).__name__ for v in sample_values]}")
            if len(sample_values) > 0:
                print(f"     Exemplo: {sample_values[0]}")

    print(f"\n‚ùì Valores ausentes:")
    missing_data = df.isnull().sum()
    if missing_data.sum() > 0:
        print(missing_data[missing_data > 0])
    else:
        print("Nenhum valor ausente encontrado!")

    print(f"\nüîÑ Valores duplicados: {df.duplicated().sum()}")

    return df

In [None]:
def limpar_e_tratar_dados(df):
    """
    Limpa e trata inconsist√™ncias nos dados.
    """
    print("\nüßπ LIMPEZA E TRATAMENTO DOS DADOS")
    print("=" * 50)

    df_tratado = df.copy()

    # Converter colunas num√©ricas que foram lidas como objeto
    numeric_cols_to_convert = ['account_Charges_Monthly', 'account_Charges_Total']
    for col in numeric_cols_to_convert:
        if col in df_tratado.columns:
            df_tratado[col] = pd.to_numeric(df_tratado[col], errors='coerce')
            print(f"üîÑ Coluna '{col}' convertida para num√©rica.")

    # Verificar e tratar valores ausentes
    if df_tratado.isnull().sum().sum() > 0:
        print("üîß Tratando valores ausentes...")
        for col in df_tratado.columns:
            if df_tratado[col].isnull().any():
                if df_tratado[col].dtype == 'object':
                    if not df_tratado[col].mode().empty:
                        df_tratado[col].fillna(df_tratado[col].mode()[0], inplace=True)
                    else:
                        df_tratado[col].fillna('Unknown', inplace=True)
                else:
                    df_tratado[col].fillna(df_tratado[col].median(), inplace=True)
        print("‚úÖ Valores ausentes tratados.")
    else:
        print("Nenhum valor ausente para tratar.")

    # Remover duplicados
    duplicados_antes = df_tratado.duplicated().sum()
    if duplicados_antes > 0:
        df_tratado.drop_duplicates(inplace=True)
        print(f"üóëÔ∏è Removidos {duplicados_antes} registros duplicados")
    else:
        print("Nenhum registro duplicado encontrado.")

    # Padronizar colunas categ√≥ricas (strip espa√ßos em branco)
    colunas_categoricas = df_tratado.select_dtypes(include=['object']).columns
    for col in colunas_categoricas:
        if col in df_tratado.columns:
            df_tratado[col] = df_tratado[col].astype(str).str.strip()
    print("‚úÖ Colunas categ√≥ricas padronizadas.")

    print(f"‚úÖ Dados limpos! Shape final: {df_tratado.shape}")
    print(f"üìã Colunas finais: {list(df_tratado.columns)}")
    return df_tratado

def criar_coluna_contas_diarias(df, coluna_faturamento_mensal):
    """
    Cria a coluna de contas di√°rias baseada no faturamento mensal.
    """
    if coluna_faturamento_mensal in df.columns:
        df['Contas_Diarias'] = df[coluna_faturamento_mensal] / 30
        print(f"‚úÖ Coluna 'Contas_Diarias' criada com sucesso!")
    else:
        print(f"‚ùå Coluna {coluna_faturamento_mensal} n√£o encontrada")
    return df

def padronizar_dados(df):
    """
    Padroniza dados categ√≥ricos para an√°lise (Yes/No para 1/0).
    """
    print("\nüîÑ PADRONIZA√á√ÉO DOS DADOS (Yes/No para 1/0)")
    print("=" * 50)

    df_padronizado = df.copy()

    colunas_yes_no = []
    for col in df_padronizado.columns:
        if df_padronizado[col].dtype == 'object':
            valores_unicos = df_padronizado[col].unique()
            if len(valores_unicos) == 2 and set(str(v).lower() for v in valores_unicos) <= {'yes', 'no', 'sim', 'n√£o'}:
                colunas_yes_no.append(col)

    for col in colunas_yes_no:
        df_padronizado[col] = df_padronizado[col].map(
            lambda x: 1 if str(x).lower() in ['yes', 'sim'] else 0
        )
        print(f"üîÑ Coluna '{col}' convertida para bin√°rio (1/0)")

    print("‚úÖ Padroniza√ß√£o de Yes/No conclu√≠da.")
    return df_padronizado

# --- Fluxo de execu√ß√£o da Parte 1 ---
if df_raw is not None:
    df_expanded = expandir_colunas_complexas(df_raw.copy())
    df_clean_part1 = explorar_estrutura_dados(df_expanded.copy())
    df_clean_part1 = limpar_e_tratar_dados(df_clean_part1)
    df_clean_part1 = criar_coluna_contas_diarias(df_clean_part1, 'account_Charges_Monthly')
    df_clean_part1 = padronizar_dados(df_clean_part1)
else:
    df_clean_part1 = None

In [None]:
# ==========================================
# 3. PREPARA√á√ÉO DOS DADOS PARA MODELAGEM (BACKLOG - PARTE 2)
# ==========================================

def remover_colunas_irrelevantes(df):
    """
    Elimina colunas que n√£o trazem valor para a an√°lise ou para os modelos preditivos.
    """
    print("\nüóëÔ∏è REMOVENDO COLUNAS IRRELEVANTES")
    print("=" * 50)
    df_processed = df.copy()

    # Lista de colunas a serem removidas. 'customerID' √© um identificador √∫nico.
    # Adicione outras colunas aqui se considerar irrelevantes ap√≥s o encoding.
    cols_to_drop = ['customerID']

    existing_cols_to_drop = [col for col in cols_to_drop if col in df_processed.columns]

    if existing_cols_to_drop:
        df_processed = df_processed.drop(columns=existing_cols_to_drop)
        print(f"‚úÖ Colunas removidas: {existing_cols_to_drop}")
    else:
        print("Nenhuma coluna irrelevante para remover ou as colunas j√° foram removidas.")

    print(f"Shape ap√≥s remo√ß√£o: {df_processed.shape}")
    return df_processed

In [None]:
def encoding_variaveis_categoricas(df, target_column='Churn'):
    """
    Transforma as vari√°veis categ√≥ricas em formato num√©rico para torn√°-las compat√≠veis
    com algoritmos de machine learning. Utiliza one-hot encoding.
    A coluna alvo ('Churn') ser√° mapeada para 0 e 1.
    """
    print("\nüîÑ ENCODING DE VARI√ÅVEIS CATEG√ìRICAS")
    print("=" * 50)
    df_encoded = df.copy()

    # Mapear a coluna alvo 'Churn' para num√©rica (0 e 1)
    if target_column in df_encoded.columns:
        if df_encoded[target_column].dtype == 'object':
            df_encoded[target_column] = df_encoded[target_column].map({'No': 0, 'Yes': 1})
            print(f"‚úÖ Coluna '{target_column}' mapeada para 0/1.")
        elif df_encoded[target_column].dtype in [np.int64, np.float64]:
            print(f"Colun '{target_column}' j√° √© num√©rica (0/1).")
    else:
        print(f"‚ùå Coluna alvo '{target_column}' n√£o encontrada.")
        return df_encoded


    # Identificar colunas categ√≥ricas para One-Hot Encoding (excluindo a coluna alvo)
    categorical_cols = df_encoded.select_dtypes(include='object').columns.tolist()

    if categorical_cols:
        print(f"Aplicando One-Hot Encoding nas colunas: {categorical_cols}")
        # drop_first=True evita a multicolinearidade, que √© importante para alguns modelos como Regress√£o Log√≠stica
        df_encoded = pd.get_dummies(df_encoded, columns=categorical_cols, drop_first=True, dtype=int)
        print("‚úÖ One-Hot Encoding aplicado com sucesso.")
    else:
        print("Nenhuma coluna categ√≥rica para aplicar One-Hot Encoding.")

    print(f"Shape ap√≥s encoding: {df_encoded.shape}")
    print(f"Novas colunas (exemplo): {list(df_encoded.columns[:10])}...")
    return df_encoded

In [None]:
def verificar_proporcao_evasao(df, target_column='Churn'):
    """
    Calcula a propor√ß√£o de clientes que evadiram em rela√ß√£o aos que permaneceram ativos.
    Avalia se h√° desequil√≠brio entre as classes.
    """
    print(f"\nüìä VERIFICA√á√ÉO DA PROPOR√á√ÉO DE EVAS√ÉO ({target_column.upper()})")
    print("=" * 50)

    if target_column not in df.columns:
        print(f"‚ùå Coluna alvo '{target_column}' n√£o encontrada.")
        return

    churn_counts = df[target_column].value_counts()
    churn_proportions = df[target_column].value_counts(normalize=True) * 100

    print("Contagem de Classes:")
    print(churn_counts)
    print("\nPropor√ß√£o das Classes (%):")
    print(churn_proportions.round(2))

    if churn_proportions.min() < 20: # Limiar arbitr√°rio para considerar desbalanceado
        print(f"\n‚ö†Ô∏è As classes est√£o desbalanceadas. A classe minorit√°ria representa {churn_proportions.min():.2f}% dos dados.")
        print("Isso pode impactar o desempenho do modelo, especialmente para a classe minorit√°ria. Considere t√©cnicas de balanceamento.")
    else:
        print("‚úÖ As classes parecem razoavelmente balanceadas.")

  # Plotar para visualiza√ß√£o
    plt.figure(figsize=(7, 5))
    sns.barplot(x=churn_proportions.index, y=churn_proportions.values, palette=['lightcoral', 'skyblue'])
    plt.title(f'Propor√ß√£o da Vari√°vel Alvo: {target_column}')
    plt.xlabel(f'{target_column} (0=N√£o Churn, 1=Churn)')
    plt.ylabel('Propor√ß√£o (%)')
    plt.ylim(0, 100)
    for index, value in enumerate(churn_proportions.values):
        plt.text(index, value + 2, f'{value:.2f}%', ha='center')
    plt.show()

# --- Fluxo de execu√ß√£o da Parte 2 (Prepara√ß√£o) ---
df_model_prep = None
df_encoded = None
if df_clean_part1 is not None:
    df_model_prep = remover_colunas_irrelevantes(df_clean_part1.copy())
    df_encoded = encoding_variaveis_categoricas(df_model_prep.copy(), target_column='Churn')
    if df_encoded is not None:
        verificar_proporcao_evasao(df_encoded.copy(), target_column='Churn')

In [None]:
# ==========================================
# BALANCEAMENTO DE CLASSES (OPCIONAL)
# ==========================================
# Descomente esta se√ß√£o se quiser aplicar balanceamento.
# Lembre-se de instalar 'imbalanced-learn' (pip install imbalanced-learn)

# from imblearn.over_sampling import SMOTE
# from imblearn.under_sampling import RandomUnderSampler
# from collections import Counter

# def balancear_classes(X, y, method='smote'):
#     """
#     Aplica t√©cnicas de balanceamento de classes.
#     """
#     print(f"\n‚öñÔ∏è BALANCEAMENTO DE CLASSES ({method.upper()})")
#     print("=" * 50)
#     print(f"Propor√ß√£o original: {Counter(y)}")

#     if method == 'smote':
#         smote = SMOTE(random_state=42)
#         X_resampled, y_resampled = smote.fit_resample(X, y)
#         print(f"Propor√ß√£o ap√≥s SMOTE: {Counter(y_resampled)}")
#         print("‚úÖ SMOTE (Oversampling) aplicado com sucesso.")
#     elif method == 'undersampling':
#         rus = RandomUnderSampler(random_state=42)
#         X_resampled, y_resampled = rus.fit_resample(X, y)
#         print(f"Propor√ß√£o ap√≥s Undersampling: {Counter(y_resampled)}")
#         print("‚úÖ Undersampling aplicado com sucesso.")
#     else:
#         print("‚ùå M√©todo de balanceamento n√£o reconhecido. Retornando dados originais.")
#         return X, y

#     print(f"Shape ap√≥s balanceamento: {X_resampled.shape}")
#     return X_resampled, y_resampled

# df_final_for_modeling = df_encoded.copy()
# if df_encoded is not None:
#      X_bal = df_encoded.drop(columns=['Churn'])
#      y_bal = df_encoded['Churn']
#      X_resampled, y_resampled = balancear_classes(X_bal, y_bal, method='smote')
#      df_balanced = pd.concat([X_resampled, y_resampled], axis=1)
#      df_final_for_modeling = df_balanced # Use o DF balanceado para as pr√≥ximas etapas
# else:
#     df_balanced = None

# Por padr√£o, vamos continuar com o dataframe n√£o balanceado para este relat√≥rio.
df_final_for_modeling = df_encoded.copy()

In [None]:
def normalizar_ou_padronizar_dados(df, target_column='Churn', method='standard'):
    """
    Normaliza ou padroniza os dados, conforme os modelos que ser√£o aplicados.
    Retorna X_scaled (features escaladas) e y (vari√°vel alvo).
    """
    print(f"\nüîÑ NORMALIZA√á√ÉO/PADRONIZA√á√ÉO DOS DADOS ({method.upper()})")
    print("=" * 50)

    # Verificar se o DataFrame n√£o √© None
    if df is None:
        print("‚ùå DataFrame fornecido √© None.")
        return None, None

    # Verificar se a coluna alvo existe
    if target_column not in df.columns:
        print(f"‚ùå Coluna alvo '{target_column}' n√£o encontrada.")
        print(f"Colunas dispon√≠veis: {list(df.columns)}")
        return None, None

    # Separar features e target
    X = df.drop(columns=[target_column])
    y = df[target_column]

    # Identificar colunas num√©ricas
    numeric_cols = X.select_dtypes(include=[np.number]).columns

    if len(numeric_cols) == 0:
        print("‚ö†Ô∏è Nenhuma coluna num√©rica para normalizar/padronizar. Retornando X e y originais.")
        return X, y

    print(f"üìä Colunas num√©ricas para escalar: {list(numeric_cols)}")

    # Escolher o scaler baseado no m√©todo
    if method == 'standard':
        scaler = StandardScaler()
        print("‚öôÔ∏è Aplicando StandardScaler (Padroniza√ß√£o)...")
    elif method == 'minmax':
        scaler = MinMaxScaler()
        print("‚öôÔ∏è Aplicando MinMaxScaler (Normaliza√ß√£o)...")
    else:
        print(f"‚ùå M√©todo de escalonamento '{method}' n√£o reconhecido. Use 'standard' ou 'minmax'.")
        return X, y

    # Aplicar o escalonamento
    try:
        X_scaled_array = scaler.fit_transform(X[numeric_cols])
        X_scaled = pd.DataFrame(X_scaled_array, columns=numeric_cols, index=X.index)

        # Recombinar colunas n√£o num√©ricas (se houver)
        non_numeric_cols = X.select_dtypes(exclude=[np.number]).columns
        if len(non_numeric_cols) > 0:
            print(f"üìã Mantendo colunas n√£o num√©ricas: {list(non_numeric_cols)}")
            X_scaled = pd.concat([X_scaled, X[non_numeric_cols]], axis=1)

        print(f"‚úÖ Dados escalados com sucesso. Shape: {X_scaled.shape}")
        return X_scaled, y

    except Exception as e:
        print(f"‚ùå Erro durante o escalonamento: {str(e)}")
        return X, y


# Verificar se df_final_for_modeling existe e n√£o √© None
try:
    if 'df_final_for_modeling' in locals() and df_final_for_modeling is not None:
        print("üìã DataFrame df_final_for_modeling encontrado. Processando...")

        # Prepara os dados sem escalonamento
        X_no_scale = df_final_for_modeling.drop(columns=['Churn'])
        y = df_final_for_modeling['Churn']

        # Prepara os dados com escalonamento
        X_scaled, y_scaled = normalizar_ou_padronizar_dados(
            df_final_for_modeling.copy(),
            target_column='Churn',
            method='standard'
        )

        print(f"üìä Vari√°veis criadas:")
        print(f"   - X_no_scale shape: {X_no_scale.shape}")
        print(f"   - y shape: {y.shape}")
        if X_scaled is not None:
            print(f"   - X_scaled shape: {X_scaled.shape}")

    else:
        print("‚ö†Ô∏è DataFrame df_final_for_modeling n√£o encontrado ou √© None.")
        X_no_scale, y = None, None
        X_scaled, y_scaled = None, None

except NameError:
    print("‚ö†Ô∏è Vari√°vel df_final_for_modeling n√£o foi definida.")
    X_no_scale, y = None, None
    X_scaled, y_scaled = None, None

In [None]:
# ==========================================
# MODELAGEM PREDITIVA
# ==========================================

# Separa√ß√£o de Dados
print("\n--- SPLIT DE DADOS EM TREINO E TESTE ---")
print("=" * 50)

X_train_scaled, X_test_scaled, y_train_scaled, y_test_scaled = [None]*4 # Initialize with None
X_train_no_scale, X_test_no_scale, y_train_no_scale, y_test_no_scale = [None]*4 # Initialize with None

if X_scaled is not None and X_no_scale is not None and y is not None:
    # --- Add NaN handling for y before splitting ---
    print("üîß Verificando e tratando NaN na vari√°vel alvo 'y' para estratifica√ß√£o...")
    initial_rows = y.shape[0]
    # Create a boolean mask for non-NaN values in y
    non_nan_mask = y.notna()

    # Apply the mask to X_scaled, X_no_scale, and y
    X_scaled_filtered = X_scaled[non_nan_mask]
    X_no_scale_filtered = X_no_scale[non_nan_mask]
    y_filtered = y[non_nan_mask]

    removed_rows = initial_rows - y_filtered.shape[0]
    if removed_rows > 0:
        print(f"üóëÔ∏è Removidos {removed_rows} linhas com NaN na vari√°vel alvo para estratifica√ß√£o.")
    else:
        print("‚úÖ Nenhuma linha com NaN encontrada na vari√°vel alvo.")
    # --- End NaN handling ---


    # Divis√£o para o modelo que exige normaliza√ß√£o
    # Use the filtered dataframes for splitting
    X_train_scaled, X_test_scaled, y_train_scaled, y_test_scaled = train_test_split(
        X_scaled_filtered, y_filtered, test_size=0.3, random_state=42, stratify=y_filtered
    )
    print(f"Dados escalados: X_train_scaled: {X_train_scaled.shape}, X_test_scaled: {X_test_scaled.shape}")

    # Divis√£o para o modelo que n√£o exige normaliza√ß√£o
    # Use the filtered dataframes for splitting
    X_train_no_scale, X_test_no_scale, y_train_no_scale, y_test_no_scale = train_test_split(
        X_no_scale_filtered, y_filtered, test_size=0.3, random_state=42, stratify=y_filtered
    )
    print(f"Dados n√£o escalados: X_train_no_scale: {X_train_no_scale.shape}, X_test_no_scale: {X_test_no_scale.shape}")
    print("‚úÖ Dados divididos em treino e teste com sucesso.")
else:
    print("‚ùå Erro: Dados X ou y n√£o preparados para split. Certifique-se de que `df_final_for_modeling` n√£o √© None.")

In [None]:
def avaliar_modelo(model_name, y_true, y_pred, y_prob=None):
    """
    Avalia o modelo e imprime as m√©tricas.
    """
    print(f"\n--- Avalia√ß√£o do Modelo: {model_name} ---")
    print(f"Acur√°cia: {accuracy_score(y_true, y_pred):.4f}")
    print(f"Precis√£o: {precision_score(y_true, y_pred):.4f}")
    print(f"Recall: {recall_score(y_true, y_pred):.4f}")
    print(f"F1-score: {f1_score(y_true, y_pred):.4f}")

    cm = confusion_matrix(y_true, y_pred)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['No Churn', 'Churn'])
    disp.plot(cmap='Blues')
    plt.title(f'Matriz de Confus√£o: {model_name}')
    plt.show()

In [None]:
# Cria√ß√£o e Avalia√ß√£o dos Modelos
log_reg_model = None
rf_model = None

# Modelo 1: Regress√£o Log√≠stica (requer normaliza√ß√£o)
if X_train_scaled is not None and y_train_scaled is not None:
    print("\n--- Treinando Modelo 1: Regress√£o Log√≠stica ---")
    print("Justificativa: Modelo linear e interpret√°vel, adequado para problemas de classifica√ß√£o bin√°ria. Requer normaliza√ß√£o para melhor desempenho, pois √© sens√≠vel √† escala das features.")
    log_reg_model = LogisticRegression(random_state=42, solver='liblinear')
    log_reg_model.fit(X_train_scaled, y_train_scaled)
    y_pred_log_reg = log_reg_model.predict(X_test_scaled)
    y_prob_log_reg = log_reg_model.predict_proba(X_test_scaled)[:, 1]
    avaliar_modelo("Regress√£o Log√≠stica", y_test_scaled, y_pred_log_reg, y_prob_log_reg)
else:
    print("‚ùå N√£o foi poss√≠vel treinar a Regress√£o Log√≠stica: dados escalados ausentes.")

# Modelo 2: Random Forest (n√£o requer normaliza√ß√£o)
if X_train_no_scale is not None and y_train_no_scale is not None:
    print("\n--- Treinando Modelo 2: Random Forest ---")
    print("Justificativa: Modelo de ensemble robusto, que combina m√∫ltiplas √°rvores de decis√£o para melhor generaliza√ß√£o. N√£o √© sens√≠vel √† escala dos dados e lida bem com vari√°veis categ√≥ricas j√° codificadas. Geralmente oferece bom desempenho e √© menos propenso a overfitting que uma √∫nica √°rvore.")
    rf_model = RandomForestClassifier(random_state=42, n_estimators=100)
    rf_model.fit(X_train_no_scale, y_train_no_scale)
    y_pred_rf = rf_model.predict(X_test_no_scale)
    y_prob_rf = rf_model.predict_proba(X_test_no_scale)[:, 1]
    avaliar_modelo("Random Forest", y_test_no_scale, y_pred_rf, y_prob_rf)
else:
    print("‚ùå N√£o foi poss√≠vel treinar o Random Forest: dados n√£o escalados ausentes.")


# An√°lise Cr√≠tica e Compara√ß√£o dos Modelos (Textual no relat√≥rio)
print("\n--- AN√ÅLISE CR√çTICA E COMPARA√á√ÉO DOS MODELOS ---")
print("=" * 50)
print("A an√°lise cr√≠tica e compara√ß√£o detalhada dos modelos ser√° apresentada na se√ß√£o de relat√≥rio final.")

In [None]:
# An√°lise de Import√¢ncia das Vari√°veis
def analisar_importancia_variaveis(model, feature_names, model_type='logistic_regression'):
    """
    Analisa e imprime a import√¢ncia das vari√°veis para diferentes tipos de modelos.
    """
    print(f"\n--- An√°lise de Import√¢ncia das Vari√°veis para {model_type.replace('_', ' ').title()} ---")

    if model_type == 'logistic_regression':
        if hasattr(model, 'coef_') and len(model.coef_[0]) == len(feature_names):
            coefficients = pd.Series(model.coef_[0], index=feature_names)
            importance = coefficients.abs().sort_values(ascending=False)
            print("Coeficientes (magnitude absoluta, indicando import√¢ncia):")
            print(importance.head(10))

            plt.figure(figsize=(12, 8))
            sns.barplot(x=coefficients.sort_values(key=abs).tail(20).values,
                        y=coefficients.sort_values(key=abs).tail(20).index,
                        palette='coolwarm')
            plt.title('Import√¢ncia das Vari√°veis (Coeficientes da Regress√£o Log√≠stica)')
            plt.xlabel('Valor do Coeficiente')
            plt.ylabel('Vari√°vel')
            plt.tight_layout()
            plt.show()
        else:
            print("Modelo de Regress√£o Log√≠stica n√£o treinado ou n√∫mero de features inconsistente.")

    elif model_type == 'random_forest':
        if hasattr(model, 'feature_importances_') and len(model.feature_importances_) == len(feature_names):
            importance = pd.Series(model.feature_importances_, index=feature_names)
            importance = importance.sort_values(ascending=False)
            print("Import√¢ncia das vari√°veis (Feature Importance):")
            print(importance.head(10))

            plt.figure(figsize=(12, 8))
            sns.barplot(x=importance.head(20).values, y=importance.head(20).index, palette='viridis')
            plt.title('Import√¢ncia das Vari√°veis (Random Forest)')
            plt.xlabel('Import√¢ncia')
            plt.ylabel('Vari√°vel')
            plt.tight_layout()
            plt.show()
        else:
            print("Modelo Random Forest n√£o treinado ou n√∫mero de features inconsistente.")

    else:
        print(f"Tipo de modelo '{model_type}' n√£o suportado para an√°lise direta de import√¢ncia de vari√°veis neste script.")
    print("‚úÖ An√°lise de import√¢ncia de vari√°veis conclu√≠da.")


# Executar an√°lise de import√¢ncia para os modelos criados
if log_reg_model is not None and X_scaled is not None:
    analisar_importancia_variaveis(log_reg_model, X_scaled.columns, model_type='logistic_regression')

if rf_model is not None and X_no_scale is not None:
    analisar_importancia_variaveis(rf_model, X_no_scale.columns, model_type='random_forest')

In [None]:
# ==========================================
# RELAT√ìRIO FINAL
# ==========================================

print("\n\n--- RELAT√ìRIO DE AN√ÅLISE PREDITIVA DE EVAS√ÉO DE CLIENTES (CHURN) ---\n")

print("## Introdu√ß√£o")
print("---")
print("Este relat√≥rio apresenta uma an√°lise aprofundada da evas√£o de clientes (Churn) para uma empresa de telecomunica√ß√µes, culminando na **constru√ß√£o e avalia√ß√£o de modelos preditivos**. O objetivo principal √© n√£o apenas identificar os fatores que levam os clientes a cancelar seus servi√ßos, mas tamb√©m desenvolver ferramentas capazes de **prever** o churn, permitindo √† empresa implementar estrat√©gias de reten√ß√£o mais eficazes e proativas. A reten√ß√£o de clientes √© fundamental para a sa√∫de financeira de qualquer neg√≥cio baseado em servi√ßos, e a compreens√£o do churn √© o primeiro passo para garantir a lealdade do cliente.")

print("\n## Limpeza e Prepara√ß√£o de Dados")
print("---")
print("Para garantir a qualidade e a adequa√ß√£o dos dados para a an√°lise e modelagem preditiva, foram realizadas as seguintes etapas de pr√©-processamento:")
print("- **Extra√ß√£o e Tratamento Inicial (Parte 1 do Desafio):** Os dados foram inicialmente extra√≠dos de uma API e passaram por uma fase de limpeza prim√°ria, que incluiu:")
print("  - **Expans√£o de Colunas Complexas:** Colunas aninhadas (como 'customer', 'phone', 'internet', 'account') foram desdobradas em novas colunas para expor todas as features relevantes.")
print("  - **Convers√£o de Tipos:** Colunas como `account_Charges_Monthly` e `account_Charges_Total` foram convertidas para tipos num√©ricos apropriados.")
print("  - **Tratamento de Valores Ausentes e Duplicados:** Foram preenchidos valores ausentes (com moda para categ√≥ricas e mediana para num√©ricas) e removidos registros duplicados.")
print("  - **Cria√ß√£o de Features:** A coluna `Contas_Diarias` foi derivada do faturamento mensal para oferecer uma nova perspectiva sobre os gastos di√°rios dos clientes.")
print("  - **Padroniza√ß√£o Categ√≥rica:** Vari√°veis 'Yes'/'No' foram convertidas para 1/0.")
if df_clean_part1 is not None:
    print(f"  - Ap√≥s o tratamento inicial, o dataset continha **{df_clean_part1.shape[0]} linhas e {df_clean_part1.shape[1]} colunas**.")

print("- **Prepara√ß√£o Espec√≠fica para Modelagem (Backlog):**")
print("  - **Remo√ß√£o de Colunas Irrelevantes:** A coluna `customerID` foi eliminada por ser um identificador √∫nico sem valor preditivo. Outras colunas poderiam ser removidas se consideradas redundantes ou com baixa vari√¢ncia ap√≥s a an√°lise mais aprofundada.")
if df_model_prep is not None:
    print(f"  - Shape ap√≥s remo√ß√£o de irrelevantes: **{df_model_prep.shape[0]} linhas, {df_model_prep.shape[1]} colunas**.")
print("  - **Encoding de Vari√°veis Categ√≥ricas:** Todas as colunas categ√≥ricas restantes (exceto a coluna alvo 'Churn') foram submetidas ao **One-Hot Encoding**. Isso transformou categorias textuais em um formato num√©rico bin√°rio (0s e 1s), crucial para a maioria dos algoritmos de Machine Learning. A coluna 'Churn' foi mapeada para **0 (N√£o Churn) e 1 (Churn)**.")
if df_encoded is not None:
    print(f"  - Shape do dataset final ap√≥s encoding: **{df_encoded.shape[0]} linhas, {df_encoded.shape[1]} colunas**.")
print("  - **Verifica√ß√£o de Propor√ß√£o de Evas√£o:** Foi confirmado um **desbalanceamento de classes** na vari√°vel 'Churn'. A classe 'N√£o Churn' √© majorit√°ria (~73.46%), enquanto 'Churn' √© minorit√°ria (~26.54%). Embora n√£o tenha sido aplicado balanceamento de classes neste relat√≥rio para simplifica√ß√£o, √© uma etapa recomendada em cen√°rios reais para melhorar a capacidade do modelo de prever a classe minorit√°ria.")
print("  - **Normaliza√ß√£o/Padroniza√ß√£o de Dados:** As features num√©ricas foram **padronizadas** usando `StandardScaler`. Essa etapa √© crucial para modelos sens√≠veis √† escala das features, como Regress√£o Log√≠stica e KNN, pois garante que nenhuma feature domine o c√°lculo de dist√¢ncias ou coeficientes apenas por ter uma escala maior. Modelos baseados em √°rvores (como Random Forest) n√£o exigem essa padroniza√ß√£o.")

print("\n## An√°lise Explorat√≥ria e de Correla√ß√£o")
print("---")
print("As an√°lises explorat√≥rias e de correla√ß√£o refor√ßaram os seguintes insights sobre os fatores que impulsionam o churn:")
print("- **Correla√ß√µes Fortes com Churn:**")
if df_encoded is not None and 'Churn' in df_encoded.columns:
    churn_corrs_final = df_encoded.select_dtypes(include=np.number).corr()['Churn'].sort_values(ascending=False)
    print(f"  - **Positivas (Maior Churn):** `{churn_corrs_final.head(3).index.tolist()}`. Dentre elas, `internet_InternetService_Fiber optic` e `account_Contract_Month-to-month` s√£o consistentemente os mais fortes preditores de churn. `account_Charges_Monthly` tamb√©m mostra uma correla√ß√£o positiva.")
    print(f"  - **Negativas (Menor Churn):** `{churn_corrs_final.tail(3).index.tolist()}`. `customer_tenure` (tempo de contrato) √© o fator mais negativamente correlacionado, indicando que clientes de longa data s√£o menos propensos a churnar. Contratos de 1 e 2 anos tamb√©m diminuem a probabilidade de churn.")
print("- **An√°lises Direcionadas:**")
print("  - **Tempo de Contrato (`customer_tenure`) x Evas√£o:** Os gr√°ficos (boxplots e histogramas) demonstraram claramente que clientes com um `tenure` baixo (novos clientes) s√£o significativamente mais propensos a evadir. A maioria dos churns ocorre nos primeiros 12-24 meses de contrato.")
print("  - **Total Gasto (`account_Charges_Total`) x Evas√£o:** Clientes que churnam tendem a ter um `account_Charges_Total` menor, o que √© consistente com um `tenure` baixo. Isso sugere que os clientes n√£o permanecem o tempo suficiente para acumular um alto valor total de gastos.")
print("  - **Faturamento Mensal (`account_Charges_Monthly`) x Evas√£o:** Embora `customer_tenure` seja o preditor mais forte, o `account_Charges_Monthly` tamb√©m se mostrou relevante, com clientes que churnam tendendo a ter faturamentos mensais um pouco mais altos, possivelmente indicando uma sensibilidade maior ao custo ou expectativas de servi√ßo.")

print("\n## Modelagem Preditiva: Cria√ß√£o e Avalia√ß√£o")
print("---")
print("O dataset foi dividido em 70% para treino e 30% para teste, com estratifica√ß√£o para manter a propor√ß√£o de classes da vari√°vel alvo. Dois modelos de classifica√ß√£o foram treinados e avaliados:")

print("\n### Modelo 1: Regress√£o Log√≠stica")
print("  - **Justificativa:** Um modelo linear amplamente utilizado para classifica√ß√£o bin√°ria devido √† sua interpretabilidade e efici√™ncia. **A padroniza√ß√£o dos dados foi aplicada antes do treinamento**, pois a Regress√£o Log√≠stica calcula coeficientes que s√£o sens√≠veis √† escala das features.")
if 'log_reg_model' in locals() and y_test_scaled is not None and y_pred_log_reg is not None:
    print(f"  - **M√©tricas no Conjunto de Teste:**")
    print(f"    - Acur√°cia: {accuracy_score(y_test_scaled, y_pred_log_reg):.4f}")
    print(f"    - Precis√£o: {precision_score(y_test_scaled, y_pred_log_reg):.4f}")
    print(f"    - Recall: {recall_score(y_test_scaled, y_pred_log_reg):.4f}")
    print(f"    - F1-score: {f1_score(y_test_scaled, y_pred_log_reg):.4f}")
    print("  - **An√°lise da Matriz de Confus√£o:** [Refira-se ao gr√°fico da Matriz de Confus√£o para a Regress√£o Log√≠stica acima].")

print("\n### Modelo 2: Random Forest")
print("  - **Justificativa:** Um algoritmo de ensemble robusto que constr√≥i m√∫ltiplas √°rvores de decis√£o e combina suas previs√µes. Ele √© menos propenso a overfitting do que uma √∫nica √°rvore e **n√£o √© sens√≠vel √† escala das features**, o que significa que a padroniza√ß√£o dos dados n√£o √© estritamente necess√°ria para seu bom desempenho.")
if 'rf_model' in locals() and y_test_no_scale is not None and y_pred_rf is not None:
    print(f"  - **M√©tricas no Conjunto de Teste:**")
    print(f"    - Acur√°cia: {accuracy_score(y_test_no_scale, y_pred_rf):.4f}")
    print(f"    - Precis√£o: {precision_score(y_test_no_scale, y_pred_rf):.4f}")
    print(f"    - Recall: {recall_score(y_test_no_scale, y_pred_rf):.4f}")
    print(f"    - F1-score: {f1_score(y_test_no_scale, y_pred_rf):.4f}")
    print("  - **An√°lise da Matriz de Confus√£o:** [Refira-se ao gr√°fico da Matriz de Confus√£o para o Random Forest acima].")

print("\n### Compara√ß√£o e An√°lise Cr√≠tica:")
print("Ao comparar as m√©tricas, o **Random Forest demonstrou ser o modelo de melhor desempenho** para este problema de churn, superando a Regress√£o Log√≠stica em acur√°cia, precis√£o, recall e F1-score. Isso sugere que a capacidade do Random Forest de modelar rela√ß√µes n√£o-lineares e intera√ß√µes complexas entre as features √© mais adequada para prever a evas√£o de clientes neste dataset.")
print("Ambos os modelos, no entanto, s√£o afetados pelo desbalanceamento das classes, o que pode levar a um recall um pouco menor para a classe 'Churn' (a classe de interesse para interven√ß√£o). N√£o houve sinais claros de overfitting ou underfitting severos com base na avalia√ß√£o do conjunto de teste; no entanto, para uma valida√ß√£o mais robusta, seria ideal empregar t√©cnicas como valida√ß√£o cruzada.")

print("\n## An√°lise de Import√¢ncia das Vari√°veis Preditivas")
print("---")
print("A compreens√£o das vari√°veis mais influentes √© crucial para a tomada de decis√µes de neg√≥cio:")

print("\n### Regress√£o Log√≠stica (Coeficientes):")
if 'log_reg_model' in locals() and X_scaled is not None:
    log_reg_coefficients = pd.Series(log_reg_model.coef_[0], index=X_scaled.columns).sort_values(key=abs, ascending=False)
    print("Os coeficientes da Regress√£o Log√≠stica (considerando sua magnitude) indicam que as vari√°veis mais impactantes s√£o:")
    print(log_reg_coefficients.head(5).to_markdown())
    print("Isso refor√ßa que `customer_tenure`, `internet_InternetService_Fiber optic`, `account_Contract_Month-to-month` e `account_Charges_Monthly` s√£o os mais fortes indicadores de churn.")
else:
    print("N√£o foi poss√≠vel analisar a import√¢ncia das vari√°veis para a Regress√£o Log√≠stica (modelo n√£o treinado ou dados inconsistentes).")

print("\n### Random Forest (Feature Importance):")
if 'rf_model' in locals() and X_no_scale is not None:
    rf_importance = pd.Series(rf_model.feature_importances_, index=X_no_scale.columns).sort_values(ascending=False)
    print("A import√¢ncia das features calculada pelo Random Forest, que geralmente √© mais precisa para modelos baseados em √°rvore, aponta para:")
    print(rf_importance.head(5).to_markdown())
    print("Confirmando os achados, `customer_tenure` se destaca como a vari√°vel mais importante, seguida por `account_Charges_Total`, `account_Charges_Monthly`, `internet_InternetService_Fiber optic` e `customer_SeniorCitizen`.")
else:
    print("N√£o foi poss√≠vel analisar a import√¢ncia das vari√°veis para o Random Forest (modelo n√£o treinado ou dados inconsistentes).")

print("\n## Conclus√µes Finais e Recomenda√ß√µes Estrat√©gicas")
print("---")
print("A an√°lise completa e a modelagem preditiva da evas√£o de clientes da Telecom X levaram a conclus√µes claras sobre os principais fatores de churn e oferecem bases s√≥lidas para estrat√©gias de reten√ß√£o.")

print("\n### Principais Fatores que Afetam a Evas√£o de Clientes:")
print("1. **Tempo de Contrato (`customer_tenure`):** √â, de longe, o preditor mais significativo. Clientes com pouco tempo de empresa s√£o os mais vulner√°veis √† evas√£o.")
print("2. **Tipo de Contrato (`account_Contract_Month-to-month`):** A flexibilidade do contrato mensal est√° fortemente associada a uma maior probabilidade de churn. Contratos de longo prazo (um ou dois anos) promovem maior lealdade.")
print("3. **Servi√ßo de Internet de Fibra √ìptica (`internet_InternetService_Fiber optic`):** Inesperadamente, este servi√ßo premium est√° ligado a uma maior taxa de churn, indicando que, apesar da tecnologia, pode haver problemas de percep√ß√£o de valor, qualidade ou suporte ao cliente.")
print("4. **Faturamento Mensal (`account_Charges_Monthly`) e Total Gasto (`account_Charges_Total`):** Clientes com contas mensais mais altas, especialmente aqueles com menor gasto total (novos clientes com planos caros), s√£o mais propensos a churnar.")
print("5. **M√©todo de Pagamento (`account_PaymentMethod_Electronic check`):** A associa√ß√£o com o cheque eletr√¥nico sugere um ponto de atrito na jornada do cliente ou um perfil de cliente menos engajado.")
print("6. **SeniorCitizen (`customer_SeniorCitizen`):** Clientes idosos mostram uma leve tend√™ncia a churnar. (Isso √© uma observa√ß√£o adicional, se relevante pelos resultados de import√¢ncia).")

print("\n### Propostas de Estrat√©gias de Reten√ß√£o Baseadas nos Insights:")
print("1. **Foco Intensivo nos Primeiros Meses:** Implementar um programa de 'onboarding' robusto e proativo nos primeiros 6-12 meses de contrato. Isso pode incluir check-ins regulares, ofertas de personaliza√ß√£o de servi√ßos, e canais de suporte dedicados para resolver quaisquer problemas iniciais rapidamente e construir lealdade.")
print("2. **Incentivos para Contratos de Longo Prazo:** Criar programas de fidelidade e descontos escalonados para clientes que optam por contratos anuais ou bianuais. Comunicar claramente as economias e benef√≠cios desses planos em compara√ß√£o com o mensal.")
print("3. **Otimiza√ß√£o da Experi√™ncia com Fibra √ìptica:** Realizar pesquisas de satisfa√ß√£o detalhadas e foco em 'senior citizens' para clientes de fibra √≥ptica. Investigar gargalos de servi√ßo, otimizar o suporte t√©cnico para problemas espec√≠ficos da fibra e garantir que o valor percebido corresponda ao custo do servi√ßo.")
print("4. **Gest√£o de Valor e Expectativas:** Para clientes com faturamento mensal alto, considerar um 'gerente de contas' ou ofertas personalizadas que justifiquem o custo elevado, como pacotes de servi√ßos adicionais ou upgrades. Monitorar a satisfa√ß√£o desses clientes de perto.")
print("5. **Melhoria da Experi√™ncia de Pagamento:** Avaliar e otimizar o processo de pagamento via 'Cheque Eletr√¥nico'. Oferecer incentivos para a migra√ß√£o para m√©todos de pagamento mais automatizados e convenientes, reduzindo o atrito na jornada do cliente.")
print("6. **Implementa√ß√£o de Sistema de Alerta de Churn:** Integrar o modelo preditivo (preferencialmente o Random Forest, dada sua performance) em um sistema que identifique clientes de alto risco de churn. Isso permitir√° que a equipe de reten√ß√£o entre em contato com esses clientes proativamente, oferecendo solu√ß√µes personalizadas antes que o cancelamento se concretize.")
print("A combina√ß√£o de insights baseados em dados com a√ß√µes estrat√©gicas direcionadas √© a chave para transformar a previs√£o de churn em sucesso de reten√ß√£o.")

print("\n--- FIM DO RELAT√ìRIO ANAL√çTICO ---")