# Cancelamento de Clientes - Telco (dataset criado pela IBM para demonstração da ferramenta IBM Cognos Analytics)

### Contém informações sobre uma empresa fictícia de telecomunicações que forneceu serviços de telefonia residencial e internet para 7043 clientes na Califórnia no 3º trimestre.

### Etapa de separação dos dados para treino e teste - Realizado por Sabrina Otoni da Silva - 2024/01

### Objetivo: Separar os dados em treino e teste preservando a proporção da classe alvo, evitando bias e underfitting dos modelos na hora das transformações (além de data leakege).

In [1]:
from pathlib import Path

import numpy as np
import pandas as pd

from sklearn.model_selection import StratifiedShuffleSplit

In [2]:
datapath = Path('../data')
xlsx_path = Path(f'{datapath}/d02_intermediate')

In [3]:
data = pd.read_excel(f'{xlsx_path}/telco_customer_churn_v2.xlsx')
data.head()

Unnamed: 0,City,Latitude,Longitude,Gender,Senior Citizen,Partner,Dependents,Tenure Months,Phone Service,Multiple Lines,...,Tech Support,Streaming TV,Streaming Movies,Contract,Paperless Billing,Payment Method,Monthly Charges,Total Charges,Churn Value,Churn Reason
0,Los Angeles,33.964131,-118.272783,Male,No,No,No,2,Yes,No,...,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,1,Competitor made better offer
1,Los Angeles,34.059281,-118.30742,Female,No,No,Yes,2,Yes,No,...,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,1,Moved
2,Los Angeles,34.048013,-118.293953,Female,No,No,Yes,8,Yes,Yes,...,No,Yes,Yes,Month-to-month,Yes,Electronic check,99.65,820.5,1,Moved
3,Los Angeles,34.062125,-118.315709,Female,No,Yes,Yes,28,Yes,Yes,...,Yes,Yes,Yes,Month-to-month,Yes,Electronic check,104.8,3046.05,1,Moved
4,Los Angeles,34.039224,-118.266293,Male,No,No,Yes,49,Yes,Yes,...,No,Yes,Yes,Month-to-month,Yes,Bank transfer (automatic),103.7,5036.3,1,Competitor had better devices


In [4]:
X = data.iloc[:, 0:22]
y = data.iloc[:, 22]

In [5]:
stratified_splitter = StratifiedShuffleSplit(test_size=0.3, random_state=42)

In [6]:
for train_index, test_index in stratified_splitter.split(X, y):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

print("Distribuição da classe (dataset original):")
print(f"Classe 0: {np.sum(data['Churn Value'] == 0)}, Classe 1: {np.sum(data['Churn Value'] == 1)}\n")

print("Distribuição da classe nos dados de treino:")
print(f"Classe 0: {np.sum(y_train == 0)}, Classe 1: {np.sum(y_train == 1)}\n")

print("Distirbuição da classe nos dados de teste:")
print(f"Classe 0: {np.sum(y_test == 0)}, Classe 1: {np.sum(y_test == 1)}\n")

Distribuição da classe (dataset original):
Classe 0: 5174, Classe 1: 1869

Distribuição da classe nos dados de treino:
Classe 0: 3622, Classe 1: 1308

Distirbuição da classe nos dados de teste:
Classe 0: 1552, Classe 1: 561



In [7]:
X_train.to_csv(f'{xlsx_path}/X_train.csv', index=False)
X_test.to_csv(f'{xlsx_path}/X_test.csv', index=False)

In [8]:
y_train.to_csv(f'{xlsx_path}/y_train.csv', index=False)
y_test.to_csv(f'{xlsx_path}/y_test.csv', index=False)