# ---------------------------- Machine Learning - Data Prep --------------------------------------

## O que é Data Prep e para que serve ?
Trata-se do processo de coletar, limpar, normalizar, combinar, estruturar e organizar dados para análise. 
Passo inicial (e fundamental) para que o trabalho com Big Data seja bem-sucedido.
Dados “pobres”, de qualidade ruim, geram resultados incorretos e não-confiáveis ao fim do processo de uso das tecnologias de Data Science.

### Lendo Tabela Original

In [3]:
# Tabela referente ao modelo Titanic disponibilizado no Kaggle(https://www.kaggle.com)
import pandas as pd
df00 = pd.read_csv('titanic_kaggle.csv')

df00.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [94]:
# Vamos renomear as variáveis PassengerId e Survived
df00.rename(columns={'PassengerId': 'id', 'Survived': 'target'}, inplace=True)

### Lendo Tabela de Metadados

In [2]:
metadados = pd.read_csv('metadados_aluno_n.csv')
metadados

Unnamed: 0.1,Unnamed: 0,Features,Role,Level,Keep,Tipo,Cardinality
0,0,id,id,nominal,False,int64,891
1,1,target,target,ordinal,True,int64,2
2,2,Pclass,input,ordinal,True,int64,3
3,3,Name,input,nominal,True,object,891
4,4,Sex,input,nominal,True,object,2
5,5,Age,input,interval,True,float64,88
6,6,SibSp,input,ordinal,True,int64,7
7,7,Parch,input,ordinal,True,int64,7
8,8,Ticket,input,nominal,True,object,681
9,9,Fare,input,interval,True,float64,248


# ------------------------------- Variáveis Numéricas ------------------------------------------------

### Selecionando somente as variáveis explicativas (Ordinal+Interval)

In [19]:
# Filtrando Data Frame 
vars_numericas_df = metadados[((metadados.Level  == 'ordinal')|(metadados.Level == 'interval')) & (metadados.Role == 'input')]
# Selecionando nomes das variáveis a partir do data frame filtrado
vars_numericas_df

Unnamed: 0.1,Unnamed: 0,Features,Role,Level,Keep,Tipo,Cardinality
2,2,Pclass,input,ordinal,True,int64,3
5,5,Age,input,interval,True,float64,88
6,6,SibSp,input,ordinal,True,int64,7
7,7,Parch,input,ordinal,True,int64,7
9,9,Fare,input,interval,True,float64,248


In [23]:
# Selecionando nomes das variáveis a partir do data frame filtrado
lista_vars_numericas = list(vars_numericas_df['Features'])
lista_vars_numericas

['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']

In [26]:
# Vamos montar um data frame com as variáveis que foram filtradas (Note que a tabela ja tem indice)
df01 = df00[lista_vars_numericas]
df01.head()

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
0,3,22.0,1,0,7.25
1,1,38.0,1,0,71.2833
2,3,26.0,0,0,7.925
3,1,35.0,1,0,53.1
4,3,35.0,0,0,8.05


### 1)  Tratamento dos Missings

In [29]:
# Primeiro vamos verificar a quantidade de missings em todas variáveis
df01_missing = df01.isnull().sum()
df01_missing

Pclass      0
Age       177
SibSp       0
Parch       0
Fare        0
dtype: int64

In [36]:
# Salvando quantidade de linhas da tabela em variável
qt_rows = df00.shape[0]

# Gerando data frame com quantidade de missings por variavel
df_pct_missing = pd.DataFrame(df01_missing,columns=['qt_missing'])
df_pct_missing = pd.DataFrame(df01_missing,columns=['qt_missing'])
df_pct_missing['Features'] = df_pct_missing.index
df_pct_missing['pc_miss'] = (100*df_pct_missing['qt_missing'].divide(qt_rows)).astype(int)
df_pct_missing['qt_rows'] = qt_rows
df_pct_missing.reset_index(drop = True, inplace = True)

df_pct_missing

Unnamed: 0,qt_missing,Features,pc_miss,qt_rows
0,0,Pclass,0,891
1,177,Age,19,891
2,0,SibSp,0,891
3,0,Parch,0,891
4,0,Fare,0,891


In [37]:
# Aplicar o tratamento dos missings substituindo por média 
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html

df02 = df01.fillna(df01[lista_vars_numericas].mean())

In [38]:
print('Verificando se ainda tem missings após tratamento:')
df02.isnull().sum()

Verificando se ainda tem missings após tratamento:


Pclass    0
Age       0
SibSp     0
Parch     0
Fare      0
dtype: int64

In [39]:
df02.head(10)

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
0,3,22.0,1,0,7.25
1,1,38.0,1,0,71.2833
2,3,26.0,0,0,7.925
3,1,35.0,1,0,53.1
4,3,35.0,0,0,8.05
5,3,29.699118,0,0,8.4583
6,1,54.0,0,0,51.8625
7,3,2.0,3,1,21.075
8,3,27.0,0,2,11.1333
9,2,14.0,1,0,30.0708


### 2) Normalização 

* O propósito da normalização é minimizar os problemas oriundos do uso de unidades e dispersões distintas entre as variáveis
* As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição  
* Alguns algorítmos de ML são beneficiados com a Normalização (redes neurais, KNN, clustering)

In [47]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://s3.amazonaws.com/treinamento-big-data/imagens/scaler_01.png", width=500, height=500)

### Normalizando por distribuição
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [44]:
from sklearn.preprocessing import StandardScaler

# Classe responável pela normalização
scaler = StandardScaler()

# Convertendo todas variáveis para tipo float (necessário para normalização)
df03 = df02.astype(float)

scaled_features = scaler.fit_transform(df03[lista_vars_numericas])
df04 = pd.DataFrame(scaled_features, columns=lista_vars_numericas)

df04.head(10)

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
0,0.827377,-0.592481,0.432793,-0.473674,-0.502445
1,-1.566107,0.638789,0.432793,-0.473674,0.786845
2,0.827377,-0.284663,-0.474545,-0.473674,-0.488854
3,-1.566107,0.407926,0.432793,-0.473674,0.42073
4,0.827377,0.407926,-0.474545,-0.473674,-0.486337
5,0.827377,0.0,-0.474545,-0.473674,-0.478116
6,-1.566107,1.870059,-0.474545,-0.473674,0.395814
7,0.827377,-2.131568,2.24747,0.76763,-0.224083
8,0.827377,-0.207709,-0.474545,2.008933,-0.424256
9,-0.369365,-1.208115,0.432793,-0.473674,-0.042956


### Normalizando por amplitude
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

In [50]:
from sklearn.preprocessing import MinMaxScaler

# Classe responável pela normalização
scaler_amplitude = MinMaxScaler(feature_range=(0, 1))

scaled_features = scaler_amplitude.fit_transform(df03[lista_vars_numericas])
df05 = pd.DataFrame(scaled_features, columns=lista_vars_numericas)

df05.head(10)

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
0,1.0,0.271174,0.125,0.0,0.014151
1,0.0,0.472229,0.125,0.0,0.139136
2,1.0,0.321438,0.0,0.0,0.015469
3,0.0,0.434531,0.125,0.0,0.103644
4,1.0,0.434531,0.0,0.0,0.015713
5,1.0,0.367921,0.0,0.0,0.01651
6,0.0,0.673285,0.0,0.0,0.101229
7,1.0,0.019854,0.375,0.166667,0.041136
8,1.0,0.334004,0.0,0.333333,0.021731
9,0.5,0.170646,0.125,0.0,0.058694


### Estudo comparativo entre diferentes métodos de normalização disponíveis no Python (Scikit-learn)
https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html
    

# -------------------------- Variáveis Categóricas (String/Char) ---------------------------------

### 1) Filtrar as variáveis do tipo nominal

In [53]:
# Filtrando Data Frame 
vars_char_df = metadados[(metadados.Level  == 'nominal') & (metadados.Role == 'input')]
# Selecionando nomes das variáveis a partir do data frame filtrado
vars_char_df

Unnamed: 0.1,Unnamed: 0,Features,Role,Level,Keep,Tipo,Cardinality
3,3,Name,input,nominal,True,object,891
4,4,Sex,input,nominal,True,object,2
8,8,Ticket,input,nominal,True,object,681
10,10,Cabin,input,nominal,True,object,147
11,11,Embarked,input,nominal,True,object,3


In [54]:
# Selecionando nomes das variáveis a partir do data frame filtrado
lista_vars_char = list(vars_char_df['Features'])
lista_vars_char

['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']

### Criar tabela contendo somente variáveis nominais

In [59]:
df06 = df00[lista_vars_char]
df06.head()

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
0,"Braund, Mr. Owen Harris",male,A/5 21171,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,PC 17599,C85,C
2,"Heikkinen, Miss. Laina",female,STON/O2. 3101282,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,113803,C123,S
4,"Allen, Mr. William Henry",male,373450,,S


### 2) Verificar valores nulos 

In [57]:
df06_missing = df06.isnull().sum()
df06_missing

Name          0
Sex           0
Ticket        0
Cabin       687
Embarked      2
dtype: int64

### 3) Tratar valores nulos (substituir por categoria MISS)
* Não é recomendado substituir uma categoria nula por uma que seja de maior frequência nos dados

In [61]:
df07 = df06.fillna('MISS')
df07.head()

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
0,"Braund, Mr. Owen Harris",male,A/5 21171,MISS,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,PC 17599,C85,C
2,"Heikkinen, Miss. Laina",female,STON/O2. 3101282,MISS,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,113803,C123,S
4,"Allen, Mr. William Henry",male,373450,MISS,S


In [62]:
df07_missing = df07.isnull().sum()
df07_missing

Name        0
Sex         0
Ticket      0
Cabin       0
Embarked    0
dtype: int64

### 3) Criando variaveis Dummies
Uma variável dummy (também conhecida como variável indicadora, variável de design, indicador booleano, variável binária ou variável qualitativa) é aquela que toma o valor 0 ou 1 para indicar a ausência ou presença de algum efeito categórico que pode ser esperado para mudar o resultado.

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html

Sabendo da definição de criação de variáveis dummies, devemos lembrar que a quantidade de 
dummies criadas será igual a quantidade de categoria/dominios - 1, logo devemos nos atentar
para a quantidade de domínios distintos de cada variável antes de iniciar o processo.

#### Selecionar somente variáveis com cardinalidade inferior a n (neste caso faremos n = 10)


In [64]:
# Filtrando Data Frame 
vars_to_dummif_df = metadados[(metadados.Level  == 'nominal') & (metadados.Role == 'input')& (metadados.Cardinality <= 10)]
# Selecionando nomes das variáveis a partir do data frame filtrado
vars_to_dummif_df

Unnamed: 0.1,Unnamed: 0,Features,Role,Level,Keep,Tipo,Cardinality
4,4,Sex,input,nominal,True,object,2
11,11,Embarked,input,nominal,True,object,3


In [65]:
# Selecionando nomes das variáveis a partir do data frame filtrado
lista_vars_dummif = list(vars_to_dummif_df['Features'])
lista_vars_dummif

['Sex', 'Embarked']

In [69]:
df08 = df07[lista_vars_dummif]
df08.head()

Unnamed: 0,Sex,Embarked
0,male,S
1,female,C
2,female,S
3,female,S
4,male,S


In [70]:
# gerando variáveis dummies
df09 = pd.get_dummies(df08, 
                      columns=lista_vars_dummif,
                      drop_first=False, 
                      prefix = lista_vars_dummif,
                      prefix_sep='_')
df09.head()

Unnamed: 0,Sex_female,Sex_male,Embarked_C,Embarked_MISS,Embarked_Q,Embarked_S
0,0,1,0,0,0,1
1,1,0,1,0,0,0
2,1,0,0,0,0,1
3,1,0,0,0,0,1
4,0,1,0,0,0,1


### 4) Criando variaveis tratados por LabelEncoder
Em resumo podemos dizer que esta transformação leva variáveis nominais a ordinais (atenção para o fato de que esta
transformação implica em ordem entre as categorias geradas)

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

#### Para isto devemos selecionar as variáveis que desejamos tratar. Aqui utilizaremos as nominais de alta cardinalidade como exemplo


In [76]:
# Filtrando Data Frame (Retiramos a variável Name)
vars_to_le_df = metadados[(metadados.Level  == 'nominal') & 
                          (metadados.Role == 'input') & 
                          (metadados.Cardinality > 10) & 
                          (metadados.Features != 'Name')]

# Selecionando nomes das variáveis a partir do data frame filtrado
vars_to_le_df

Unnamed: 0.1,Unnamed: 0,Features,Role,Level,Keep,Tipo,Cardinality
8,8,Ticket,input,nominal,True,object,681
10,10,Cabin,input,nominal,True,object,147


In [77]:
# Selecionando nomes das variáveis a partir do data frame filtrado
lista_vars_le = list(vars_to_le_df['Features'])
lista_vars_le

['Ticket', 'Cabin']

In [79]:
df10 = df07[lista_vars_le]
df10.head()

Unnamed: 0,Ticket,Cabin
0,A/5 21171,MISS
1,PC 17599,C85
2,STON/O2. 3101282,MISS
3,113803,C123
4,373450,MISS


In [89]:
from sklearn import preprocessing

le = preprocessing.LabelEncoder()


le_tkt = le.fit_transform(df10['Ticket'])
le_tkt_df = pd.DataFrame(le_tkt, columns=['LE_Ticket'])

le_cbn = le.fit_transform(df10['Cabin'])
le_cbn_df = pd.DataFrame(le_cbn, columns=['LE_Cabin'])

df11 = pd.merge(le_cbn_df,le_tkt_df, left_index=True, right_index=True)

df11.head()

Unnamed: 0,LE_Cabin,LE_Ticket
0,146,523
1,81,596
2,146,669
3,55,49
4,146,472


### 4) Vamos juntar todas as tabelas tratadas

* df04 --> normalizada por distribuição

* df05 --> normal por amplitude

* df09 --> criação de dummies para nominais de baixa cardinalidade

* df11 --> label encoder (estabelecimento de ordem entre as categorias das nominais de alta cardinalidade)

In [92]:
df4_9 = pd.merge(df04,df09, left_index=True, right_index=True)
df_ABT_expl = pd.merge(df4_9,df11, left_index=True, right_index=True)
df_ABT_expl.head()

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_MISS,Embarked_Q,Embarked_S,LE_Cabin,LE_Ticket
0,0.827377,-0.592481,0.432793,-0.473674,-0.502445,0,1,0,0,0,1,146,523
1,-1.566107,0.638789,0.432793,-0.473674,0.786845,1,0,1,0,0,0,81,596
2,0.827377,-0.284663,-0.474545,-0.473674,-0.488854,1,0,0,0,0,1,146,669
3,-1.566107,0.407926,0.432793,-0.473674,0.42073,1,0,0,0,0,1,55,49
4,0.827377,0.407926,-0.474545,-0.473674,-0.486337,0,1,0,0,0,1,146,472


### 5) Vamos trazer o Target para gerar a ABT final (pronta para o treinamento dos modelos de ML)

In [96]:
ABT_df = pd.merge(df_ABT_expl,df00[['target']], left_index=True, right_index=True)
ABT_df.head()

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_MISS,Embarked_Q,Embarked_S,LE_Cabin,LE_Ticket,target
0,0.827377,-0.592481,0.432793,-0.473674,-0.502445,0,1,0,0,0,1,146,523,0
1,-1.566107,0.638789,0.432793,-0.473674,0.786845,1,0,1,0,0,0,81,596,1
2,0.827377,-0.284663,-0.474545,-0.473674,-0.488854,1,0,0,0,0,1,146,669,1
3,-1.566107,0.407926,0.432793,-0.473674,0.42073,1,0,0,0,0,1,55,49,1
4,0.827377,0.407926,-0.474545,-0.473674,-0.486337,0,1,0,0,0,1,146,472,0


### 6) Salvar a tabela ABT final (afinal nao queremos perder todo tratamento feito até aqui !!)
* Utilize formato CSV se tiver menos de 1000 variáveis
* Utilize format PARQUET sempre que for grande volume de dados (linhas e colunas)


In [98]:
# Vamos utilizar o formato csv porque esta tabela é pequena em linhas e colunas 
ABT_df.to_csv('ABT_aluno_n.csv', sep=',', encoding='utf-8',index=True)