In [10]:
# --- CÓDIGO PARA O INÍCIO DO NOTEBOOK DA PARTE 2 ---

#  Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Bibliotecas de Machine Learning do Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

print("Bibliotecas importadas com sucesso!")

#  Carregamento dos dados tratados
try:
    df = pd.read_csv("dados_tratados.csv")
    print("\nArquivo 'dados_tratados.csv' carregado com sucesso!")
except FileNotFoundError:
    print("\nErro: Arquivo 'dados_tratados.csv' não encontrado.")
    print("Certifique-se de que salvou o arquivo no final do notebook da Parte 1 e que ele está na mesma pasta.")

#  Verificação inicial dos dados
if 'df' in locals():
    print("\nInformações do DataFrame carregado:")
    df.info()
    
    print("\n\nVisualizando as primeiras 5 linhas:")
    display(df.head())

Bibliotecas importadas com sucesso!

Arquivo 'dados_tratados.csv' carregado com sucesso!

Informações do DataFrame carregado:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            7267 non-null   object 
 1   evasao                7267 non-null   int64  
 2   genero                7267 non-null   object 
 3   idoso                 7267 non-null   int64  
 4   possui_parceiro       7267 non-null   int64  
 5   possui_dependentes    7267 non-null   int64  
 6   meses_contrato        7267 non-null   int64  
 7   servico_telefone      7267 non-null   int64  
 8   multiplas_linhas      7267 non-null   int64  
 9   servico_internet      7267 non-null   object 
 10  seguranca_online      7267 non-null   object 
 11  backup_online         7267 non-null   object 
 12  protecao_dispositivo  7267 non-null   int64  
 1

Unnamed: 0,id_cliente,evasao,genero,idoso,possui_parceiro,possui_dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,...,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes,tipo_contrato,fatura_digital,metodo_pagamento,faturamento_mensal,faturamento_total,faturamento_diario
0,0002-ORFBO,0,feminino,0,1,1,9,1,0,DSL,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,0,masculino,0,0,0,9,1,1,DSL,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,1,masculino,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,1,masculino,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,1,feminino,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.8


In [11]:
# Lista de colunas que não serão úteis para o modelo preditivo
colunas_para_remover = ['id_cliente', 'faturamento_diario']


df_modelagem = df.drop(columns=colunas_para_remover)


print("Colunas 'id_cliente' e 'faturamento_diario' removidas com sucesso!")
print("\nDataFrame pronto para a próxima etapa:")
df_modelagem.head()

Colunas 'id_cliente' e 'faturamento_diario' removidas com sucesso!

DataFrame pronto para a próxima etapa:


Unnamed: 0,evasao,genero,idoso,possui_parceiro,possui_dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes,tipo_contrato,fatura_digital,metodo_pagamento,faturamento_mensal,faturamento_total
0,0,feminino,0,1,1,9,1,0,DSL,no,yes,0,1,1,0,One year,1,Mailed check,65.6,593.3
1,0,masculino,0,0,0,9,1,1,DSL,no,no,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4
2,1,masculino,0,0,0,4,1,0,Fiber optic,no,no,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85
3,1,masculino,1,1,0,13,1,0,Fiber optic,no,yes,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85
4,1,feminino,1,1,0,3,1,0,Fiber optic,no,no,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4


In [12]:

df_encoded = df_modelagem.copy()


colunas_categoricas = ['genero', 'servico_internet', 'tipo_contrato', 'metodo_pagamento']


df_encoded = pd.get_dummies(df_encoded, columns=colunas_categoricas, drop_first=True)

print("Variáveis categóricas transformadas em formato numérico!")
print("\nNovas colunas criadas:")
df_encoded.info()

print("\n\nVisualizando o resultado:")
display(df_encoded.head())

Variáveis categóricas transformadas em formato numérico!

Novas colunas criadas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 24 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   evasao                                    7267 non-null   int64  
 1   idoso                                     7267 non-null   int64  
 2   possui_parceiro                           7267 non-null   int64  
 3   possui_dependentes                        7267 non-null   int64  
 4   meses_contrato                            7267 non-null   int64  
 5   servico_telefone                          7267 non-null   int64  
 6   multiplas_linhas                          7267 non-null   int64  
 7   seguranca_online                          7267 non-null   object 
 8   backup_online                             7267 non-null   object 
 9   protecao_dispositivo      

Unnamed: 0,evasao,idoso,possui_parceiro,possui_dependentes,meses_contrato,servico_telefone,multiplas_linhas,seguranca_online,backup_online,protecao_dispositivo,...,faturamento_mensal,faturamento_total,genero_masculino,servico_internet_Fiber optic,servico_internet_No,tipo_contrato_One year,tipo_contrato_Two year,metodo_pagamento_Credit card (automatic),metodo_pagamento_Electronic check,metodo_pagamento_Mailed check
0,0,0,1,1,9,1,0,no,yes,0,...,65.6,593.3,False,False,False,True,False,False,False,True
1,0,0,0,0,9,1,1,no,no,0,...,59.9,542.4,True,False,False,False,False,False,False,True
2,1,0,0,0,4,1,0,no,no,1,...,73.9,280.85,True,True,False,False,False,False,True,False
3,1,1,1,0,13,1,0,no,yes,1,...,98.0,1237.85,True,True,False,False,False,False,True,False
4,1,1,1,0,3,1,0,no,no,0,...,83.9,267.4,False,True,False,False,False,False,False,True


In [13]:
# Contagem de valores absolutos na coluna 'evasao'
# 0 = Permaneceu Ativo | 1 = Evadiu (Churn)
contagem_evasao = df_encoded['evasao'].value_counts()
print("Contagem de clientes por classe:")
print(contagem_evasao)

print("\n" + "="*40 + "\n")

# Proporção (porcentagem) de cada classe
# normalize=True retorna as frequências relativas
proporcao_evasao = df_encoded['evasao'].value_counts(normalize=True) * 100
print("Proporção de clientes por classe (%):")
print(proporcao_evasao)

Contagem de clientes por classe:
evasao
0    5398
1    1869
Name: count, dtype: int64


Proporção de clientes por classe (%):
evasao
0    74.280996
1    25.719004
Name: proportion, dtype: float64


In [14]:
# Separar as variáveis preditoras (X) e a variável-alvo (y)
X = df_encoded.drop(columns='evasao')
y = df_encoded['evasao']

# Dividir os dados em conjuntos de treino e teste
# test_size=0.2 significa que 20% dos dados serão para teste e 80% para treino
# random_state=42 garante que a divisão seja sempre a mesma, para reprodutibilidade
# stratify=y garante que a proporção de evasão/não evasão seja a mesma nos dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y
)

#  Exibir o tamanho dos conjuntos de dados resultantes
print("Dados divididos com sucesso!")
print(f"Formato de X_train (dados de treino): {X_train.shape}")
print(f"Formato de X_test (dados de teste): {X_test.shape}")
print(f"Formato de y_train (alvo de treino): {y_train.shape}")
print(f"Formato de y_test (alvo de teste): {y_test.shape}")

# Verificando a proporção da variável-alvo no conjunto de treino
print("\nProporção de evasão no conjunto de treino (%):")
print(y_train.value_counts(normalize=True) * 100)

Dados divididos com sucesso!
Formato de X_train (dados de treino): (5813, 23)
Formato de X_test (dados de teste): (1454, 23)
Formato de y_train (alvo de treino): (5813,)
Formato de y_test (alvo de teste): (1454,)

Proporção de evasão no conjunto de treino (%):
evasao
0    74.281782
1    25.718218
Name: proportion, dtype: float64


In [15]:
# Identificar as colunas numéricas que precisam de padronização
colunas_numericas = ['meses_contrato', 'faturamento_mensal', 'faturamento_total']

# Inicializar o StandardScaler
scaler = StandardScaler()

#  Ajustar e transformar os DADOS DE TREINO

X_train[colunas_numericas] = scaler.fit_transform(X_train[colunas_numericas])


X_test[colunas_numericas] = scaler.transform(X_test[colunas_numericas])


print("Colunas numéricas padronizadas com sucesso!")
display(X_train.head())

Colunas numéricas padronizadas com sucesso!


Unnamed: 0,idoso,possui_parceiro,possui_dependentes,meses_contrato,servico_telefone,multiplas_linhas,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,...,faturamento_mensal,faturamento_total,genero_masculino,servico_internet_Fiber optic,servico_internet_No,tipo_contrato_One year,tipo_contrato_Two year,metodo_pagamento_Credit card (automatic),metodo_pagamento_Electronic check,metodo_pagamento_Mailed check
562,0,1,1,0.426372,1,1,no internet service,no internet service,0,0,...,-1.338621,-0.571317,False,False,True,True,False,False,False,False
1432,0,1,0,-0.468878,1,1,no,no,0,0,...,0.721149,-0.211001,False,True,False,False,False,False,True,False
641,0,1,1,0.91469,1,1,no,no,0,0,...,0.687954,1.072314,True,True,False,False,False,False,False,False
1543,0,1,1,0.507758,1,0,no internet service,no internet service,0,0,...,-1.486341,-0.618479,False,False,True,False,True,False,False,False
3010,0,1,1,1.240236,1,1,no,yes,0,0,...,0.882146,1.536785,True,True,False,True,False,False,True,False
