## Libs

In [1]:
import pandas as pd
import numpy as np
from utils import( type_cols, 
                  binary_transform, 
                  treat_category, 
                  binary_transform, 
                  create_variables,
                  save_data_frame)

from sklearn.model_selection import train_test_split


In [2]:
# importando a base de dados
df = pd.read_excel('data/raw/Customer_Churn.xlsx',
                    index_col = 'customerID')

numeric_cols, object_cols = type_cols(df)

## Missing values

In [3]:
# como foi visto durante o EDA apenas uma variavel apresenta null
# vamos assumir que esta variavel esta null pois ainda nao teve pagamento
# entao vamos assumir zero para todos
df['TotalCharges'].fillna(0, inplace = True)

## Tratando categoricas

In [4]:
# Algumas variaveis categoricas podem ser combinadas
# tambem algumas sao binarias e vamos transformar em flags
df_treat = treat_category(df, object_cols)
df_treat = binary_transform(df, object_cols)


In [5]:
#confirmar que após os tratamentos precisamos ter o mesmo numero de variaveis
df.shape[1] == df_treat.shape[1]

True

## Feature eng

In [6]:
# criando algumas variaveis
df_treat = create_variables(df_treat)

In [7]:
# transformando as variaveis categorias restantes em dummies
df_final = pd.get_dummies(df_treat)
df_final.select_dtypes(include = ['object']).columns.tolist()

[]

In [13]:
df_final.drop(columns = 'TotalCharges', inplace = True)

## Data set split

In [14]:
# fazer o split entre variaveis explicativas e resposta
y = df_final.flag_Churn
X = df_final.drop(columns = 'flag_Churn')

In [15]:
# split de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y, 
                                                    test_size=0.2,
                                                    stratify = y,
                                                    random_state=123)

In [16]:
# salvando base de dados
version = '20231021'
save_data_frame(X_train, 'X_train',version)
save_data_frame(X_test, 'X_test',version)
save_data_frame(y_train, 'y_train',version)
save_data_frame(y_test, 'y_test',version)