#🛠️ Preparação dos Dados

## Extração do Arquivo Tratado

In [155]:
# Importa a biblioteca pandas, usada para análise e manipulação de dados
import pandas as pd

In [156]:
# Lê o arquivo CSV 'dados_tratados.csv' e armazena em um DataFrame chamado 'dados'
dados = pd.read_csv('dados_tratados.csv')

In [157]:
# Mostra as 5 primeiras linhas do DataFrame para inspecionar rapidamente os dados
dados.head()

Unnamed: 0,ID_Cliente,Churn,Genero,Idoso,Parceiro,Dependentes,Meses_Contrato,Servico_Telefonico,Assinatura_Multipla_Linha,Servico_Internet,...,Protecao_Dispositivo,Suporte_Tecnico,TV_Cabo,Streaming_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Gasto_Diario,Gasto_Mensal,Gasto_Total
0,0002-ORFBO,0,feminino,0,1,1,9,1,0,dsl,...,0,1,1,0,1 ano,1,cheque,2.2,65.6,593.3
1,0003-MKNFE,0,masculino,0,0,0,9,1,1,dsl,...,0,0,0,1,mensal,0,cheque,2.01,59.9,542.4
2,0004-TLHLJ,1,masculino,0,0,0,4,1,0,fibra ótica,...,1,0,0,0,mensal,1,cheque eletrônico,2.34,73.9,280.85
3,0011-IGKFF,1,masculino,1,1,0,13,1,0,fibra ótica,...,1,0,1,1,mensal,1,cheque eletrônico,3.17,98.0,1237.85
4,0013-EXCHZ,1,feminino,1,1,0,3,1,0,fibra ótica,...,0,1,1,0,mensal,1,cheque,2.97,83.9,267.4


## Remoção de Colunas Irrelevantes

In [158]:
# Exibe informações gerais sobre o DataFrame: número de linhas, colunas, tipos de dados e valores não nulos
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   ID_Cliente                 7043 non-null   object 
 1   Churn                      7043 non-null   int64  
 2   Genero                     7043 non-null   object 
 3   Idoso                      7043 non-null   int64  
 4   Parceiro                   7043 non-null   int64  
 5   Dependentes                7043 non-null   int64  
 6   Meses_Contrato             7043 non-null   int64  
 7   Servico_Telefonico         7043 non-null   int64  
 8   Assinatura_Multipla_Linha  7043 non-null   int64  
 9   Servico_Internet           7043 non-null   object 
 10  Seguranca_Online           7043 non-null   int64  
 11  Backup_Online              7043 non-null   int64  
 12  Protecao_Dispositivo       7043 non-null   int64  
 13  Suporte_Tecnico            7043 non-null   int64

In [159]:
# Remove a coluna 'ID_Cliente', ele é apenas um identificador e não é relevante para a análise
dados = dados.drop(columns='ID_Cliente')

## Normalização ou Padronização

Avalie a necessidade de normalizar ou padronizar os dados, conforme os modelos que serão aplicados. Modelos baseados em distância, como **KNN, SVM, Regressão Logística e Redes Neurais**, requerem esse pré-processamento. Já modelos baseados em **árvore, como Decision Tree, Random Forest e XGBoost**, não são sensíveis à escala dos dados.

In [160]:
# Mostra a quantidade de valores nulos (NaN) em cada coluna
dados.isnull().sum()

Unnamed: 0,0
Churn,0
Genero,0
Idoso,0
Parceiro,0
Dependentes,0
Meses_Contrato,0
Servico_Telefonico,0
Assinatura_Multipla_Linha,0
Servico_Internet,0
Seguranca_Online,0


In [161]:
# Exibe especificamente a quantidade de valores nulos nas colunas 'Gasto_Diario' e 'Gasto_Total'
print(dados[['Gasto_Diario', 'Gasto_Total']].isnull().sum())

Gasto_Diario    11
Gasto_Total     11
dtype: int64


In [162]:
# Remove todas as linhas que possuem valores nulos em 'Gasto_Diario' ou 'Gasto_Total'
dados = dados.dropna(subset=['Gasto_Diario', 'Gasto_Total'])

In [163]:
# Mostra a quantidade de valores nulos (NaN) em cada coluna
dados.isnull().sum()

Unnamed: 0,0
Churn,0
Genero,0
Idoso,0
Parceiro,0
Dependentes,0
Meses_Contrato,0
Servico_Telefonico,0
Assinatura_Multipla_Linha,0
Servico_Internet,0
Seguranca_Online,0


A **normalização Min-Max**, que transforma os valores para o intervalo **\[0, 1]**. Isso ajuda a garantir que todas as variáveis numéricas contribuam de forma equilibrada para o modelo.

In [164]:
# Importa a classe MinMaxScaler da biblioteca scikit-learn.
# Ela é usada para normalizar valores numéricos em um intervalo específico (por padrão, entre 0 e 1).
from sklearn.preprocessing import MinMaxScaler

In [165]:
# Exibe os nomes de todas as colunas presentes no DataFrame 'dados'.
dados.columns

Index(['Churn', 'Genero', 'Idoso', 'Parceiro', 'Dependentes', 'Meses_Contrato',
       'Servico_Telefonico', 'Assinatura_Multipla_Linha', 'Servico_Internet',
       'Seguranca_Online', 'Backup_Online', 'Protecao_Dispositivo',
       'Suporte_Tecnico', 'TV_Cabo', 'Streaming_Filmes', 'Tipo_Contrato',
       'Fatura_Online', 'Forma_Pagamento', 'Gasto_Diario', 'Gasto_Mensal',
       'Gasto_Total'],
      dtype='object')

In [166]:
# Cria uma lista com os nomes das colunas numéricas que serão normalizadas.
colunas_numericas = ['Meses_Contrato','Gasto_Diario','Gasto_Mensal','Gasto_Total']

In [167]:
# Cria um objeto "scaler" da classe MinMaxScaler, configurado com o intervalo padrão (0 a 1).
scaler = MinMaxScaler()

In [168]:
# Aplica a normalização Min-Max às colunas numéricas selecionadas.
# O método fit_transform() primeiro "aprende" os valores mínimo e máximo de cada coluna (fit)
# e depois transforma os dados para ficarem no intervalo [0, 1] (transform).
# O resultado substitui os valores originais no DataFrame.
dados[colunas_numericas] = scaler.fit_transform(dados[colunas_numericas])

In [169]:
# Exibe as 5 primeiras linhas do DataFrame já com os valores normalizados.
dados.head()

Unnamed: 0,Churn,Genero,Idoso,Parceiro,Dependentes,Meses_Contrato,Servico_Telefonico,Assinatura_Multipla_Linha,Servico_Internet,Seguranca_Online,...,Protecao_Dispositivo,Suporte_Tecnico,TV_Cabo,Streaming_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Gasto_Diario,Gasto_Mensal,Gasto_Total
0,0,feminino,0,1,1,0.112676,1,0,dsl,0,...,0,1,1,0,1 ano,1,cheque,0.48468,0.471144,0.066294
1,0,masculino,0,0,0,0.112676,1,1,dsl,0,...,0,0,0,1,mensal,0,cheque,0.431755,0.414428,0.06042
2,1,masculino,0,0,0,0.042254,1,0,fibra ótica,0,...,1,0,0,0,mensal,1,cheque eletrônico,0.523677,0.553731,0.030239
3,1,masculino,1,1,0,0.169014,1,0,fibra ótica,0,...,1,0,1,1,mensal,1,cheque eletrônico,0.754875,0.793532,0.14067
4,1,feminino,1,1,0,0.028169,1,0,fibra ótica,0,...,0,1,1,0,mensal,1,cheque,0.699164,0.653234,0.028687


## Encoding

In [170]:
# Importa funções do scikit-learn:
# - make_column_transformer: permite aplicar transformações diferentes em colunas específicas de um DataFrame.
# - OneHotEncoder: converte variáveis categóricas em variáveis dummies (0/1), criando uma coluna para cada categoria.
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder

In [171]:
# Cria uma cópia do DataFrame original 'dados' para não alterar os dados originais.
dados_encoded = dados.copy()

In [172]:
# Armazena todos os nomes das colunas do DataFrame na variável 'colunas'.
colunas = dados_encoded.columns
# Exibe a lista de colunas do DataFrame (útil para conferência).
colunas

Index(['Churn', 'Genero', 'Idoso', 'Parceiro', 'Dependentes', 'Meses_Contrato',
       'Servico_Telefonico', 'Assinatura_Multipla_Linha', 'Servico_Internet',
       'Seguranca_Online', 'Backup_Online', 'Protecao_Dispositivo',
       'Suporte_Tecnico', 'TV_Cabo', 'Streaming_Filmes', 'Tipo_Contrato',
       'Fatura_Online', 'Forma_Pagamento', 'Gasto_Diario', 'Gasto_Mensal',
       'Gasto_Total'],
      dtype='object')

In [173]:
# Cria o transformador configurado para aplicar OneHotEncoder nas colunas especificadas.
one_hot = make_column_transformer((OneHotEncoder(drop='if_binary'),                                   # O parâmetro drop='if_binary' evita criar duas colunas para variáveis binárias (mantém apenas uma).
                                   ['Genero', 'Servico_Internet','Tipo_Contrato','Forma_Pagamento']), # Aplica OneHotEncoder nas colunas categóricas selecionadas.
                                  remainder='passthrough',                                            # Mantém as demais colunas do DataFrame sem alterações.
                                  sparse_threshold=0)                                                 # Garante que o resultado final seja um array denso (não esparso), facilitando a conversão para DataFrame.

In [174]:
# Ajusta (fit) o transformador aos dados e aplica (transform) a codificação.
# O resultado será um array NumPy com as colunas categóricas transformadas e as numéricas preservadas.
dados_encoded = one_hot.fit_transform(dados_encoded)

In [175]:
# Retorna os nomes das novas colunas após a transformação, incluindo as criadas pelo OneHotEncoder.
one_hot.get_feature_names_out(colunas)

array(['onehotencoder__Genero_masculino',
       'onehotencoder__Servico_Internet_dsl',
       'onehotencoder__Servico_Internet_fibra ótica',
       'onehotencoder__Servico_Internet_não',
       'onehotencoder__Tipo_Contrato_1 ano',
       'onehotencoder__Tipo_Contrato_2 anos',
       'onehotencoder__Tipo_Contrato_mensal',
       'onehotencoder__Forma_Pagamento_cartão de crédito',
       'onehotencoder__Forma_Pagamento_cheque',
       'onehotencoder__Forma_Pagamento_cheque eletrônico',
       'onehotencoder__Forma_Pagamento_transferência bancária',
       'remainder__Churn', 'remainder__Idoso', 'remainder__Parceiro',
       'remainder__Dependentes', 'remainder__Meses_Contrato',
       'remainder__Servico_Telefonico',
       'remainder__Assinatura_Multipla_Linha',
       'remainder__Seguranca_Online', 'remainder__Backup_Online',
       'remainder__Protecao_Dispositivo', 'remainder__Suporte_Tecnico',
       'remainder__TV_Cabo', 'remainder__Streaming_Filmes',
       'remainder__Fatura_On

In [176]:
# Converte o array transformado de volta para um DataFrame pandas.
# Define os nomes das colunas como os retornados pelo get_feature_names_out(), para manter o DataFrame legível.
pd.DataFrame(dados_encoded, columns=one_hot.get_feature_names_out(colunas))

Unnamed: 0,onehotencoder__Genero_masculino,onehotencoder__Servico_Internet_dsl,onehotencoder__Servico_Internet_fibra ótica,onehotencoder__Servico_Internet_não,onehotencoder__Tipo_Contrato_1 ano,onehotencoder__Tipo_Contrato_2 anos,onehotencoder__Tipo_Contrato_mensal,onehotencoder__Forma_Pagamento_cartão de crédito,onehotencoder__Forma_Pagamento_cheque,onehotencoder__Forma_Pagamento_cheque eletrônico,...,remainder__Seguranca_Online,remainder__Backup_Online,remainder__Protecao_Dispositivo,remainder__Suporte_Tecnico,remainder__TV_Cabo,remainder__Streaming_Filmes,remainder__Fatura_Online,remainder__Gasto_Diario,remainder__Gasto_Mensal,remainder__Gasto_Total
0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.484680,0.471144,0.066294
1,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.431755,0.414428,0.060420
2,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.523677,0.553731,0.030239
3,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,...,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0.754875,0.793532,0.140670
4,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,...,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.699164,0.653234,0.028687
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7027,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,...,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.401114,0.367164,0.083556
7028,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.662953,0.665174,0.214043
7029,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.303621,0.318905,0.008533
7030,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.512535,0.493532,0.531831


#🎯 Correlação e Seleção de Variáveis

#🤖 Modelagem Preditiva

#📋  Interpretação e Conclusões