## Importando bibliotecas | obtendo dataset inicial do projeto

In [160]:
# ==============================================================================
# Notebook 1: Análise Exploratória e Pré-processamento de Dados
# ==============================================================================

# ------------------------------------------------------------------------------
# 1. Configuração e Carregamento de Bibliotecas e Dados
# ------------------------------------------------------------------------------
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
import joblib
import os

In [161]:
# --- Definindo o caminho raiz do projeto ---
# Esta linha é crucial para garantir que os caminhos sejam corretos
# A forma mais segura é subir um nível no diretório (se o notebook estiver em 'notebooks/')
# ou ajustar conforme a localização do seu notebook
ROOT_DIR = os.path.abspath(os.path.join(os.getcwd(), '..'))

In [162]:
# --- Definindo os caminhos conforme sua estrutura de diretórios a partir da raiz ---
RAW_DATA_PATH = os.path.join(ROOT_DIR, 'data', 'raw', 'WA_Fn-UseC_-Telco-Customer-Churn.csv')
PROCESSED_DATA_PATH = os.path.join(ROOT_DIR, 'data', 'processed', 'df_final_processado.csv')
PREPROCESSING_PATH = os.path.join(ROOT_DIR, 'models', 'preprocessing')

# Criando os diretórios se não existirem
os.makedirs(os.path.dirname(PROCESSED_DATA_PATH), exist_ok=True)
os.makedirs(PREPROCESSING_PATH, exist_ok=True)

In [163]:
# Obtenção do arquivo inicial para este Notebook
url = 'https://raw.githubusercontent.com/moises-rb/Telecom_X_PrevendoChurn-/refs/heads/main/dados/df_final.csv'

In [164]:
df = pd.read_csv(url)
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,TenureGroup,DailyCharges
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,0-12 Meses,2.186667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,0-12 Meses,1.996667
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,0-12 Meses,2.463333
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,13-24 Meses,3.266667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,0-12 Meses,2.796667


In [165]:
# ------------------------------------------------------------------------------
# 2. Análise Preliminar e Tratamento de Dados
# ------------------------------------------------------------------------------
print("\nIniciando análise e tratamento de dados...")

# Tratamento da coluna 'TotalCharges'
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df.dropna(subset=['TotalCharges'], inplace=True)
df.reset_index(drop=True, inplace=True)
print("✅ Valores ausentes em 'TotalCharges' tratados e linhas removidas.")

# Identificando e removendo colunas irrelevantes/redundantes
df.drop(columns=['customerID', 'DailyCharges'], inplace=True)
print("✅ Colunas 'customerID' e 'DailyCharges' removidas.")


Iniciando análise e tratamento de dados...
✅ Valores ausentes em 'TotalCharges' tratados e linhas removidas.
✅ Colunas 'customerID' e 'DailyCharges' removidas.


In [166]:
# ------------------------------------------------------------------------------
# 2. Análise Preliminar e Tratamento de Dados
# ------------------------------------------------------------------------------
print("\nIniciando análise e tratamento de dados...")

df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df.dropna(subset=['TotalCharges'], inplace=True)
df.reset_index(drop=True, inplace=True)
print("✅ Valores ausentes em 'TotalCharges' tratados e linhas removidas.")

# --- Removendo colunas irrelevantes para utilização no modelo ---
df.drop(columns=['customerID', 'DailyCharges', 'TenureGroup'], inplace=True, errors='ignore')
print("✅ Colunas 'customerID', 'DailyCharges' e 'TenureGroup' removidas.")


Iniciando análise e tratamento de dados...
✅ Valores ausentes em 'TotalCharges' tratados e linhas removidas.
✅ Colunas 'customerID', 'DailyCharges' e 'TenureGroup' removidas.


In [167]:
# ------------------------------------------------------------------------------
# 3. Codificação de Variáveis Categóricas e Variável-Alvo
# ------------------------------------------------------------------------------
print("\nCodificando variáveis categóricas e salvando encoders...")
    
df['gender'] = df['gender'].map({'Female': 0, 'Male': 1})
df['Partner'] = df['Partner'].map({'No': 0, 'Yes': 1})
df['Dependents'] = df['Dependents'].map({'No': 0, 'Yes': 1})
df['PhoneService'] = df['PhoneService'].map({'No': 0, 'Yes': 1})
df['PaperlessBilling'] = df['PaperlessBilling'].map({'No': 0, 'Yes': 1})

le_churn = LabelEncoder()
df['Churn'] = le_churn.fit_transform(df['Churn'])
joblib.dump(le_churn, os.path.join(PREPROCESSING_PATH, 'label_encoder_churn.pkl'))
print("✅ Variável 'Churn' codificada e encoder salvo.")
    
df = pd.get_dummies(df, columns=['MultipleLines', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
                                 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
                                 'PaymentMethod', 'InternetService'], drop_first=True)
print("✅ Variáveis categóricas (com mais de 2 categorias) codificadas com One-Hot Encoding.")



Codificando variáveis categóricas e salvando encoders...
✅ Variável 'Churn' codificada e encoder salvo.
✅ Variáveis categóricas (com mais de 2 categorias) codificadas com One-Hot Encoding.


In [168]:
# ------------------------------------------------------------------------------
# 4. Escalonamento de Variáveis Numéricas
# ------------------------------------------------------------------------------
print("\nEscalonando variáveis numéricas...")
    
numeric_cols = ['tenure', 'MonthlyCharges', 'TotalCharges']
    
scaler = StandardScaler()
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])
    
joblib.dump(scaler, os.path.join(PREPROCESSING_PATH, 'standard_scaler.pkl'))
print("✅ Variáveis numéricas escalonadas e scaler salvo.")


Escalonando variáveis numéricas...
✅ Variáveis numéricas escalonadas e scaler salvo.


In [169]:
# ------------------------------------------------------------------------------
# 5. Salvar os Dados Processados
# ------------------------------------------------------------------------------
print("\nSalvando o DataFrame processado...")
df.to_csv(PROCESSED_DATA_PATH, index=False)
print(f"✅ DataFrame processado salvo em {PROCESSED_DATA_PATH}.")

print("\nProcesso do Notebook 1 concluído com sucesso!")


Salvando o DataFrame processado...
✅ DataFrame processado salvo em c:\temp\Telecom_X_PrevendoChurn\data\processed\df_final_processado.csv.

Processo do Notebook 1 concluído com sucesso!


In [170]:
# ------------------------------------------------------------------------------
# 6. Validação do Arquivo Salvo (NOVA SEÇÃO)
# ------------------------------------------------------------------------------
print("\n\n--- Iniciando Validação ---")
try:
    dados_validados = pd.read_csv(PROCESSED_DATA_PATH)
    print(f"✅ Arquivo '{os.path.basename(PROCESSED_DATA_PATH)}' lido com sucesso.")
    print("\nAs 5 primeiras linhas do DataFrame processado:")
    print(dados_validados.head())
    print("\nColunas do DataFrame processado:")
    print(dados_validados.columns.tolist())
except FileNotFoundError:
    print(f"❌ Erro: O arquivo não foi salvo ou o caminho está incorreto: {PROCESSED_DATA_PATH}")

print("\n--- Validação Concluída ---")
print("\nProcesso do Notebook 1 concluído com sucesso!")



--- Iniciando Validação ---
✅ Arquivo 'df_final_processado.csv' lido com sucesso.

As 5 primeiras linhas do DataFrame processado:
   Churn  gender  SeniorCitizen  Partner  Dependents    tenure  PhoneService  \
0      0       0              0        1           1 -0.954296             1   
1      0       1              0        0           0 -0.954296             1   
2      1       1              0        0           0 -1.158016             1   
3      1       1              1        1           0 -0.791321             1   
4      1       0              1        1           0 -1.198760             1   

   PaperlessBilling  MonthlyCharges  TotalCharges  ...  StreamingTV_Yes  \
0                 1        0.026652     -0.745607  ...             True   
1                 0       -0.162819     -0.768063  ...            False   
2                 1        0.302548     -0.883456  ...            False   
3                 1        1.103642     -0.461240  ...             True   
4           

In [171]:
dados_validados.head()

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,PaperlessBilling,MonthlyCharges,TotalCharges,...,StreamingTV_Yes,StreamingMovies_No internet service,StreamingMovies_Yes,Contract_One year,Contract_Two year,PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check,InternetService_Fiber optic,InternetService_No
0,0,0,0,1,1,-0.954296,1,1,0.026652,-0.745607,...,True,False,False,True,False,False,False,True,False,False
1,0,1,0,0,0,-0.954296,1,0,-0.162819,-0.768063,...,False,False,True,False,False,False,False,True,False,False
2,1,1,0,0,0,-1.158016,1,1,0.302548,-0.883456,...,False,False,False,False,False,False,True,False,True,False
3,1,1,1,1,0,-0.791321,1,1,1.103642,-0.46124,...,True,False,True,False,False,False,True,False,True,False
4,1,0,1,1,0,-1.19876,1,1,0.634952,-0.88939,...,True,False,False,False,False,False,False,True,True,False
