<a href="https://colab.research.google.com/github/MathMachado/Python_RFB/blob/master/Projetos/Titanic/3DP_Data%20Transformation_Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 3DP - DATA PREPARATION
> Esta fase é dedicada à preparar, transformar e limpar dados: remover duplicatas, corrigir erros, lidar com Missing Values, normalização, conversões de tipo de dados e etc.

![DataPreparation](https://github.com/MathMachado/Python_RFB/blob/master/Material/DataPreparation.png?raw=true)

Nesta fase vamos estudar:

<input type="checkbox" disabled checked> Missing Values Handling

<input type="checkbox" disabled checked> Outliers Handling

<input type="checkbox" disabled checked> **Data Transformation**

    * StandardScaler
    * MinMaxScaler
    * RobustScaler
    * Normalization
    * Binarization
    * Encoding Categorical (Ordinal & Nominal) Features
    * Custom Transformer

<input type="checkbox" disabled checked> Feature Engineering

    * Polynomial Features

<input type="checkbox" disabled checked> Feature Selection ou Dimensionality Reduction

<input type="checkbox" disabled checked> Data Cleaning;

> "_80% of a Data Scientist's valuable time is spent simply finding, cleansing, and organizing data, leaving only 20% to actually perform analysis..._" IBM Data Analytics.

# DATA TRANSFORMATION
* Objetivo:
    * Aprender sobre rescaling features;
    * Aprender LabelEncode para variáveis categóricas;

## Leitura Recomendada:
* [Why, How and When to Scale your Features](https://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e)
* [Demonstrating the different strategies of KBinsDiscretizer](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization_strategies.html#sphx-glr-auto-examples-preprocessing-plot-discretization-strategies-py);
* [Why do we need feature scaling in Machine Learning and how to do it using SciKit Learn?](https://medium.com/@contactsunny/why-do-we-need-feature-scaling-in-machine-learning-and-how-to-do-it-using-scikit-learn-d8314206fe73)

## Machine Learning com Python (Scikit-Learn)

![Scikit-Learn](https://github.com/MathMachado/Python_RFB/blob/master/Material/scikit-learn-1.png?raw=true)

## Carregar as bibliotecas (genéricas) Python

In [0]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

from sklearn import preprocessing
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
matplotlib.style.use('ggplot')

# remove warnings to keep notebook clean
import warnings
warnings.filterwarnings('ignore')

## Dados

A seguir, as variáveis/atributos do dataframe:

* Dicionário de dados do dataframe Titanic:
    * **PassengerID**: ID do passageiro;
    * **Survived**: Indicador, sendo 1= Passageiro sobreviveu e 0= Passageiro morreu;
    * **Pclass**: Classe em que o passageiro viaja (1 classe, 2 classe, 3 classe, etc);
    * **Age**: Idade do Passageiro;
    * **SibSp**: Número de parentes a bordo (esposa, irmãos, pais e etc);
    * **Parch**: Número de pais/crianças a bordo;
    * **Fare**: Valor pago pela viagem;
    * **Cabin**: Cabine do Passageiro;
    * **Embarked**: A porta pelo qual o Passageiro embarcou.
    * **Name**: Nome do Passageiro;
    * **Sex**: Sexo do Passageiro.

## Carregar Dados

In [0]:
url_train= 'https://raw.githubusercontent.com/MathMachado/Python_RFB/master/Dataframes/Titanic_With_MV.csv?token=AGDJQ6ZOUEOEEU4TX5T2NDK5NLDKU'
url_test= 'https://raw.githubusercontent.com/MathMachado/Python_RFB/master/Dataframes/Titanic_test.csv?token=AGDJQ6YASNFMCF4JUH744C25NLDMQ'

# Carrega os dataframes de treinamento e teste e define 'PassengerId' como chave
df_train= pd.read_csv(url_train, index_col='PassengerId')
df_test= pd.read_csv(url_test, index_col='PassengerId')

# Faz uma cópia dos dados originais da variável resposta 'Survived'
df_train_Survived = df_train["Survived"].copy()

# merge train and test
df = df_train.append(df_test, sort= False)

A seguir, nosso Dataframe:

In [0]:
df.head(10)

Excluir do dataframe os NaN's:

In [0]:
df2= df[['Fare','Age','Embarked','Sex']]
df2.head()

In [0]:
df2.shape

Aqui, por questões de simplicidade, vou excluir os NaN's do dataframe.

In [0]:
df2= df2[df2['Fare'].notnull()]
df2= df2[df2['Age'].notnull()]
df2= df2[df2['Embarked'].notnull()]
df2= df2[df2['Sex'].notnull()]
df2.shape

In [0]:
df2.info()

## Transformar variáveis numéricas

In [0]:
lVarsNum= ['Fare','Age']

In [0]:
StandardScaler = preprocessing.StandardScaler().fit_transform(df2[lVarsNum])
MinMaxScaler = preprocessing.MinMaxScaler((-1, 1)).fit_transform(df2[lVarsNum])
KBinsDiscretizer = preprocessing.KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='kmeans').fit_transform(df2[lVarsNum])
MaxAbsScaler= preprocessing.MaxAbsScaler().fit_transform(df2[lVarsNum])
RobustScaler= preprocessing.RobustScaler(quantile_range = (0.1,0.9)).fit_transform(df2[lVarsNum])
Normalizer= preprocessing.Normalizer().fit_transform(df2[lVarsNum])

Observe que passamos dois atributos (no caso, ['Fare', 'Age']). Então, por exemplo, o vetor StandardScaler possui duas colunas, uma para cada atributo.

In [0]:
StandardScaler

In [0]:
df2[['Fare_StandardScaler', 'Age_StandardScaler']]= pd.DataFrame(StandardScaler)
df2[['Fare_MinMaxScaler','Age_StandardScaler']]= pd.DataFrame(MinMaxScaler)
df2[['Fare_KBinsDiscretizer','Age_StandardScaler']]= pd.DataFrame(KBinsDiscretizer)
df2[['Fare_MaxAbsScaler','Age_StandardScaler']]= pd.DataFrame(MaxAbsScaler)
df2[['Fare_RobustScaler','Age_StandardScaler']]= pd.DataFrame(RobustScaler)
df2[['Fare_Normalizer','Age_StandardScaler']]= pd.DataFrame(Normalizer)

Outra possibilidade é construir classes para as variáveis numéricas:

In [0]:
df2['Fare_Cut']= pd.cut(df2['Fare'], 10) # Constroi 10 classes para a variável 'Fare'

In [0]:
df2.head(10)

A seguir, a distribuição da variável 'Fare_KBinsDiscretizer':

In [0]:
df2.Fare_KBinsDiscretizer.value_counts()

A seguir, a distribuição da variável 'Fare_Cut':

In [0]:
df2.Fare_Cut.value_counts()

## Transformar variáveis Categóricas

Primeiramente, vamos olhar o preenchimento das variáveis:

In [0]:
df2.Sex.value_counts()

Oops... Aqui temos vários problemas... Olhando para estes resultados, você concorda que 'male', 'm', 'MALE', M', 'mALE' e 'Men' se trata da mesma informação?

Da mesma forma, 'female', 'f', 'F', 'Female', 'fEMALE', 'Woman', 'w' e 'W' também se trata da mesma informação?

Então, vamos fazer o seguinte:

Toda vez que eu encontrar um desses valores: ['m', 'MALE', 'M', 'mALE', 'Men'], vou substituir por 'male';
Toda vez que eu encontrar um desses valores: ['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W'], vou substituit por 'female'.
O comando a seguir faz estas substituições:

Definindo o dicionário para fazermos as substituições dos valores inconsistentes:

In [0]:
dSex= {}
dSex.update(dict.fromkeys(['m', 'MALE', 'M', 'mALE', 'Men', 'male'], "male"))
dSex.update(dict.fromkeys(['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W', 'female'], 'female'))
dSex

In [0]:
df2['Sex2']= df['Sex'].map(dSex)
df2.Sex2.value_counts()

Ok, de fato corrigimos os problemas de preenchimento da variável 'Sex'. então, vamos renomear nossa variável para o que tínhamos antes:

In [0]:
# Deleta as variáveis 'Sex':
df2= df2.drop(columns= ['Sex'], axis= 1)

# Renomea a variável auxiliar 'Sex2' para 'Sex':
df2= df2.rename(columns= {'Sex2': 'Sex'})

# Mostra os dados:
df2.head()

In [0]:
sns.catplot(x="Sex", kind="count", data=df2)

**Atenção:** Os comandos abaixo são uma alternativa ao map() aplicado anteriormente para corrigir os atributos da variável 'Sex':

```
df2['Sex2'] = df2['Sex'].replace(['m', 'MALE', 'M', 'mALE', 'Men'], 'male')
df2['Sex3'] = df['Sex2'].replace(['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W'], 'female') 
df_copia1.Sex3.value_counts()
```



Agora ok, temos algo que faz sentido para a variável 'Sex'.

In [0]:
df2.head(10)

Agora, vamos olhar os atributos da variável 'Embarked'

In [0]:
df2.Embarked.value_counts()

Tudo ok.

In [0]:
sns.catplot(x="Embarked", kind="count", data=df2)

In [0]:
lVarsCat= ['Embarked', 'Sex']
df3= df2.copy()

In [0]:
df3.head()

In [0]:
# Create a label (category) encoder object
le= preprocessing.LabelEncoder()

Aplica o LabelEncoder:

In [0]:
for var in lVarsCat:
    df3[var+'_le']= le.fit(df3[var]).transform(df3[var])

No caso do OneHotEncoder, é necessário informar o índice das colunas.

In [0]:
df4 = pd.concat([df3, pd.get_dummies(df3['Sex'], prefix='Sex', dummy_na=True)],axis=1)
df4 = pd.concat([df4, pd.get_dummies(df4['Embarked'], prefix='Embarked', dummy_na=True)],axis=1)

In [0]:
df4.head()