In [1]:
import pandas as pd

In [2]:
# Importando a base de dados
dados = pd.read_csv('TelecomX_Churn-master.csv')


In [3]:
# Exibe informações sobre o DataFrame
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 31 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   Churn                                          7043 non-null   float64
 1   customer.gender                                7267 non-null   int64  
 2   customer.SeniorCitizen                         7267 non-null   int64  
 3   customer.Partner                               7267 non-null   int64  
 4   customer.Dependents                            7267 non-null   int64  
 5   customer.tenure                                7267 non-null   int64  
 6   phone.PhoneService                             7267 non-null   int64  
 7   account.PaperlessBilling                       7267 non-null   int64  
 8   account.Charges.Monthly                        7267 non-null   float64
 9   account.Charges.Total                          7267 

In [4]:
# Exibe a quantidade de valores nulos em cada coluna
dados.isnull().sum()

Churn                                            224
customer.gender                                    0
customer.SeniorCitizen                             0
customer.Partner                                   0
customer.Dependents                                0
customer.tenure                                    0
phone.PhoneService                                 0
account.PaperlessBilling                           0
account.Charges.Monthly                            0
account.Charges.Total                              0
phone.MultipleLines_No phone service               0
phone.MultipleLines_Yes                            0
internet.InternetService_Fiber optic               0
internet.InternetService_No                        0
internet.OnlineSecurity_No internet service        0
internet.OnlineSecurity_Yes                        0
internet.OnlineBackup_No internet service          0
internet.OnlineBackup_Yes                          0
internet.DeviceProtection_No internet service 

## Tratamento de Valores Ausentes

Antes de iniciar qualquer modelagem preditiva, é essencial verificar se o conjunto de dados possui valores ausentes, principalmente na variável-alvo.

---

### Variável-Alvo: `Churn`

Durante a inspeção inicial, foi identificado que a variável `Churn` (indicador de cancelamento de serviço) apresentava valores ausentes:

- Total de registros no dataset: **7267**
- Registros com `Churn` ausente: **224**
- Registros com `Churn` válido: **7043**

Como essa variável é fundamental para o aprendizado supervisionado (é a resposta que o modelo deve prever), **não é possível utilizá-la com valores nulos**.

---

### Ação Tomada

Optou-se por **remover os 224 registros com `Churn` ausente**, pois:

- Eles não contribuem para o treinamento do modelo.
- A ausência da variável-alvo inviabiliza a classificação correta desses casos.

Após a remoção:

- Total de registros no dataset: **7043**
- Registros com `Churn` ausente: **0**

---

### Conclusão

Agora temos um dataset limpo e pronto para os próximos passos do pipeline, garantindo a integridade dos dados usados no treinamento do modelo.


In [5]:
# Remoção de registros com valores ausentes na variável alvo
dados = dados.dropna(subset=['Churn'])

In [6]:
dados.head()

Unnamed: 0,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,account.PaperlessBilling,account.Charges.Monthly,account.Charges.Total,...,internet.TechSupport_Yes,internet.StreamingTV_No internet service,internet.StreamingTV_Yes,internet.StreamingMovies_No internet service,internet.StreamingMovies_Yes,account.Contract_One year,account.Contract_Two year,account.PaymentMethod_Credit card (automatic),account.PaymentMethod_Electronic check,account.PaymentMethod_Mailed check
0,0.0,0,0,1,1,9,1,1,65.6,593.3,...,True,False,True,False,False,True,False,False,False,True
1,0.0,1,0,0,0,9,1,0,59.9,542.4,...,False,False,False,False,True,False,False,False,False,True
2,1.0,1,0,0,0,4,1,1,73.9,280.85,...,False,False,False,False,False,False,False,False,True,False
3,1.0,1,1,1,0,13,1,1,98.0,1237.85,...,False,False,True,False,True,False,False,False,True,False
4,1.0,0,1,1,0,3,1,1,83.9,267.4,...,True,False,True,False,False,False,False,False,False,True


## Revisão dos Tipos de Variáveis

Após a limpeza dos dados, é fundamental entender a natureza das variáveis presentes no conjunto para preparar o pipeline de Machine Learning. Podemos agrupar as variáveis em dois grandes grupos:

---

### 1. Variáveis Numéricas

Essas variáveis assumem valores contínuos ou inteiros, sendo utilizadas diretamente pelos algoritmos preditivos. No nosso dataset, destacam-se:

- `customer.tenure`: quantidade de meses que o cliente permanece na empresa.
- `account.Charges.Monthly`: valor pago mensalmente pelo cliente.
- `account.Charges.Total`: total acumulado já pago pelo cliente.

Além dessas, outras variáveis numéricas possuem valores binários (0 ou 1), como:

- `customer.gender`
- `customer.SeniorCitizen`
- `customer.Partner`
- `customer.Dependents`
- `phone.PhoneService`
- `account.PaperlessBilling`

> Essas variáveis ajudam a quantificar o comportamento e o perfil do cliente.

---

### 2. Variáveis Booleanas (Binárias)

Essas variáveis indicam **presença ou ausência** de uma característica, e já estão codificadas como `True` ou `False`, facilitando sua interpretação pelo modelo.

Exemplos:

- `internet.TechSupport_Yes`: cliente possui suporte técnico.
- `internet.StreamingMovies_Yes`: cliente usa streaming de filmes.
- `account.Contract_One year`: contrato de 1 ano foi selecionado.
- `account.PaymentMethod_Mailed check`: forma de pagamento por boleto.

Essas colunas já passaram por um processo de codificação chamado **One-Hot Encoding**, que transforma cada categoria em uma variável separada.

> Variáveis booleanas são ideais para representar categorias sem introduzir ordens falsas, sendo úteis para modelos como árvores de decisão e regressão logística.

---

### Conclusão

Essa separação entre tipos de variáveis é essencial para aplicar as técnicas certas de pré-processamento e selecionar os algoritmos mais apropriados.


## Separação dos Dados em Treino e Teste

Antes de treinar qualquer modelo de machine learning, é necessário dividir o conjunto de dados em duas partes principais:

- **Conjunto de Treinamento (Training Set)**: usado para treinar o modelo.
- **Conjunto de Teste (Test Set)**: usado para avaliar o desempenho do modelo em dados nunca vistos.

---

### Por que dividir?

A divisão evita que o modelo “memorize” os dados (overfitting) e permite avaliar sua capacidade de **generalização**, ou seja, prever corretamente quando for aplicado a novos clientes.

---

### Implementação

Utilizamos a função `train_test_split` da biblioteca `sklearn.model_selection` com os seguintes parâmetros:

- `test_size=0.2`: reservamos 20% dos dados para teste.
- `random_state=42`: define uma semente aleatória para garantir reprodutibilidade.

In [7]:
from sklearn.model_selection import train_test_split

# Separando variável alvo (y) das variáveis explicativas (X)
X = dados.drop(columns='Churn')
y = dados['Churn']

# Separação treino/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)