# Desafio 5 - Maratona Behind the Code 2021

## Bibliotecas

In [1]:
from pathlib import Path

import pandas as pd
from sklearn.model_selection import train_test_split

## Configurações

In [2]:
seed = 0
data_path = Path("../desafio/assets/data/")
source_url = "https://github.com/maratonadev/desafio-5-2021/raw/main/assets/data/"

## Dados

In [3]:
!mkdir -p {data_path}
!wget -q -N -P {data_path} {source_url}"dataset.csv"
!wget -q -N -P {data_path} {source_url}"ANSWERS.csv"
!ls {data_path}

ANSWERS.csv  dataset.csv


In [4]:
df_all = pd.read_csv(data_path / "dataset.csv")
all_cols = list(df_all.columns)
print(all_cols)

['ID', 'GENDER', 'SENIORCITIZEN', 'PARTNER', 'DEPENDENTS', 'TENURE', 'PHONESERVICE', 'MULTIPLELINES', 'INTERNETSERVICE', 'ONLINESECURITY', 'ONLINEBACKUP', 'DEVICEPROTECTION', 'TECHSUPPORT', 'STREAMINGTV', 'STREAMINGMOVIES', 'CONTRACT', 'PAPERLESSBILLING', 'PAYMENTMETHOD', 'MONTHLYCHARGES', 'TOTALCHARGES', 'CHURN']


In [5]:
answers = pd.read_csv(data_path / "ANSWERS.csv")
assert list(answers.columns) == list(df_all.columns)

### Informações gerais

In [6]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4548 entries, 0 to 4547
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                4548 non-null   int64  
 1   GENDER            4520 non-null   object 
 2   SENIORCITIZEN     4523 non-null   float64
 3   PARTNER           4524 non-null   object 
 4   DEPENDENTS        4526 non-null   object 
 5   TENURE            4533 non-null   float64
 6   PHONESERVICE      4520 non-null   object 
 7   MULTIPLELINES     4523 non-null   object 
 8   INTERNETSERVICE   4524 non-null   object 
 9   ONLINESECURITY    4518 non-null   object 
 10  ONLINEBACKUP      4518 non-null   object 
 11  DEVICEPROTECTION  4524 non-null   object 
 12  TECHSUPPORT       4530 non-null   object 
 13  STREAMINGTV       4523 non-null   object 
 14  STREAMINGMOVIES   4523 non-null   object 
 15  CONTRACT          4525 non-null   object 
 16  PAPERLESSBILLING  4517 non-null   object 


- A maioria das variáveis (colunas) parece não ser numérica e precisará ser tratada antes do uso em modelos de machine learning.
- Com exceção da variável que identifica cada cliente (`ID`) e da variável de destino (`CHURN`), todas têm dados faltantes (nulos).

### Divisão dos dados entre treino e teste

Antes de inspecionar os dados, serão reservados alguns exemplos para teste, que não serão vistos durante a análise ou modelagem dos dados:

In [7]:
test_size = 500
target = "CHURN"
df_train, df_test = train_test_split(
    df_all, test_size=test_size, random_state=seed, stratify=df_all[[target]]
)
print(f"Dimensões dos dados de treino: {df_train.shape}")
print(f"Dimensões dos dados de teste: {df_test.shape}")

Dimensões dos dados de treino: (4048, 21)
Dimensões dos dados de teste: (500, 21)
