<a href="https://colab.research.google.com/github/jonathanjalles/pandas-zero/blob/master/Transformacoes_em_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preparação para treinamento de algoritmos de Aprendizado de Máquina (Machine Learning)

## Transformações em dados

Até aqui, você já deve ter estudado sobre a biblioteca pandas para tratar dados e conheceu os tipos de dados e como eles são classificados (Caso contrário, veja [esse](https://colab.research.google.com/github/leobezerra/pandas-zero/blob/master/notebooks/PassoPasso.ipynb) repositório git).

Algoritmos de aprendizado de máquina ou machine learning (a partir de aqui tratados apenas por ML), via de regra, são treinados para preverem o resultado de determinada característica de um conjunto de dados, com base no conjunto de dados semelhante, utilizado para treinamento. Porém, alguns algoritmos de ML não consideram unidades de medidas e são sensíveis a diferenças expressivas na magnitude dos dados. o que os faz retornar previsões viesadas caso essas magnitudes diferentes não sejam normalizadas de alguma forma.

Imagine que uma dada característica num conjunto de dados possua valor igual a 100 metros e outra característica seja igual a 5 km. Por mais que o segundo valor seja 50x maior que o primeiro, o algoritmo irá ponderar a previsão na direção do valor 100, devido a sua magnitude. 

Nesse notebook vamos conhecer algumas técnicas de normalização de dados, utilizando python.


## 1. Feature Scaling and Standardization





Feature scaling (ou balanceamento de atributos) é uma técnica de pré processamento de dados para treinamento de algoritmos de ML utilizada para padronizar variáveis independentes com diferentes magnitudes dentro de uma mesma faixa fixa de valores (para maiores detalhes sobre feature scaling, veja esse [post](https://www.geeksforgeeks.org/python-how-and-where-to-apply-feature-scaling/)).

Nesse exemplo, iremos utilizar parte de um conjunto de dados que serviria para treinar um modelo para prever se uma pessoa iria comprar uma casa, dados seu país, sua idade, e seu salário anual.

In [0]:
import pandas as pd

In [0]:
dados = {
   "Pais":["França","Espanha","Alemanha","Espanha","Alemanha","França","Espanha","França","Alemanha","França"],
   "Idade":[44,27,30,38,40,35,29,48,50,37],
   "Salario anual":[72000,48000,54000,61000,70000,58000,52000,79000,83000,67000],
   "Comprou imovel":["N","S","N","N","S","S","N","S","N","S"]
}

Vamos transformar o dicionário *dados* em um dataframe pandas, utilizando a função ***DataFrame()***.

In [0]:
df_dados = pd.DataFrame(dados)
df_dados

Unnamed: 0,Pais,Idade,Salario anual,Comprou imovel
0,França,44,72000,N
1,Espanha,27,48000,S
2,Alemanha,30,54000,N
3,Espanha,38,61000,N
4,Alemanha,40,70000,S
5,França,35,58000,S
6,Espanha,29,52000,N
7,França,48,79000,S
8,Alemanha,50,83000,N
9,França,37,67000,S


É possível perceber que a característica *Idade* está na magnitude de dezenas, enquanto que *Salario anual* possui magnitude de dezenas de milhares. Se utilizarmos os dados dessa forma para treinar o algoritmo de ML, o resultado das previsões será afetado por esta diferença de magnitude.

Existem duas técnicas principais para feature scaling, sendo:

**Normalização de mínimos e máximos:** Essa técnica re-escala o valor da característica "*X*" para uma distribuição com valores entre 0 e 1. O novo valor de cada observação da característica é calculado pela fórmula a seguir.




$$X_{novo} = {X_i - min(X) \over max(X)-min(X)}$$


**Standardization:** Técnica que re-escala os valores da característica "*X*" para valores tais que sua distribuição tem média 0 e variancia 1, através da fórmula:

$$X_{novo} = {X_i - média(X) \over desvio\ padrão}$$


Em python, podemos usar o pacote ***preprocessing*** da biblioteca ***scikit-learn*** para fazer feature scaling nos dados.


Na célula abaixo, vamos importar o pacote  ***preprocessing*** da biblioteca ***scikit-learn***

In [0]:
from sklearn import preprocessing

Agora, vamos criar um novo dataframe, apenas com as colunas que precisam de scaling (Idade e Salario anual):

In [0]:
dados_para_scaling = df_dados[['Idade','Salario anual']]
dados_para_scaling

Unnamed: 0,Idade,Salario anual
0,44,72000
1,27,48000
2,30,54000
3,38,61000
4,40,70000
5,35,58000
6,29,52000
7,48,79000
8,50,83000
9,37,67000


Precisamos criar uma variável que irá ser responsável por fazer o scaling dos dados em mínimo e máximo. Para isso, precisamos da função ***MinMaxScaler()*** do pacote ***preprocessing***. Essa função precisa receber um argumento, que explicita a faixa dos valores após o scaling (no caso, de 0 a 1).

In [0]:
scaling_min_max = preprocessing.MinMaxScaler()

Para obtermos os dados com scaling, basta chamar a função ***fit_transform***, que deve receber os dados a serem tratados. Para isso, vamos utilizar a variável criada na célula anterior. Os dados com Scaling serão salvos no array *dados_com_scaling*.

In [0]:
dados_com_scaling = scaling_min_max.fit_transform(dados_para_scaling)

In [0]:
dados_com_scaling

array([[0.73913043, 0.68571429],
       [0.        , 0.        ],
       [0.13043478, 0.17142857],
       [0.47826087, 0.37142857],
       [0.56521739, 0.62857143],
       [0.34782609, 0.28571429],
       [0.08695652, 0.11428571],
       [0.91304348, 0.88571429],
       [1.        , 1.        ],
       [0.43478261, 0.54285714]])

Nos dados acima, a primeira coluna corresponde a Idade, enquanto que a segunda corresponte a Salario anual. O valor 0 corresponde ao menor valor em cada uma das colunas originais (idade 27, salario 48000), enquanto que o valor 1 corresponte ao maior valor nas colunas originais (idade 50, salario 83000).

Para aplicar o método de standardization, precisamos primeiros separar os dados que deverão ser padronizados.

In [0]:
dados_para_standardization = df_dados.loc[:,['Idade','Salario anual']]
dados_para_standardization

Unnamed: 0,Idade,Salario anual
0,44,72000
1,27,48000
2,30,54000
3,38,61000
4,40,70000
5,35,58000
6,29,52000
7,48,79000
8,50,83000
9,37,67000


Agora, vamos criar uma variável que conterá o método capaz de aplicar o Standardization, nesse caso, a função ***StandardScaler()***, do pacote ***preprocessing***. Vamos chamá-la de padronizador.

In [0]:
padronizador = preprocessing.StandardScaler()

Novamente, utilizaremos a função ***fit_transform()***, e salvaremos os dados padronizados no array *dados_padronizados*.

In [0]:
dados_padronizados = padronizador.fit_transform(dados_para_standardization)

In [0]:
pd.DataFrame(dados_padronizados).describe()

Unnamed: 0,0,1
count,10.0,10.0
mean,4.038436e-16,4.996004e-17
std,1.054093,1.054093
min,-1.443726,-1.473715
25%,-0.8755933,-0.8446901
50%,-0.04010351,-0.03594426
75%,0.6951275,0.6380106
max,1.630876,1.671408


## 2. Feature clipping



Em casos onde os dados possuem outliers (valores muito distantes das medidas de tendência central) muito acentuados, faz sentido utilizar a técnica de feature clipping (ou recorte de atributo, em tradução livre), que basicamente consiste em substituir valores acima ou abaixo de certo valor por um valor específico. Como exemplo, podemos substituir todas as idades acima de 100 anos em um conjunto de dados sobre idades pelo valor 100. 

Em python, é possível fazer o feature clipping utilizando o método ***clip()*** da biblioteca ***numpy***, informando o array dos dados a serem 'clipados' e os valores máximos e mínimos a serem adotados, conforme exemplo a seguir:



```
dados_clipados = clip(dados_para_clipar, valor_max, valor_min)
```


Para este exemplo, vamos utilizar o mesmo conjunto de dados, com o acréscimo de um outlier. Para conjuntos grandes de dados, faz sentido antes de tudo plotar a distribuição e verificar quais os valores mais adequados para serem utilizados como máximos e mínimos.

In [0]:
dados_com_outliers = {
   "Pais":["França","Espanha","Alemanha","Espanha","Alemanha","França","Espanha","França","Alemanha","França", "Espanha"],
   "Idade":[44,27,30,38,40,35,29,48,50,37,19],
   "Salario anual":[72000,48000,54000,61000,70000,58000,52000,79000,83000,67000,120000],
   "Comprou imovel":["N","S","N","N","S","S","N","S","N","S","N"]
}

In [0]:
df_com_outliers = pd.DataFrame(dados_com_outliers)
df_com_outliers

Unnamed: 0,Pais,Idade,Salario anual,Comprou imovel
0,França,44,72000,N
1,Espanha,27,48000,S
2,Alemanha,30,54000,N
3,Espanha,38,61000,N
4,Alemanha,40,70000,S
5,França,35,58000,S
6,Espanha,29,52000,N
7,França,48,79000,S
8,Alemanha,50,83000,N
9,França,37,67000,S


Importando o método ***clip()*** da biblioteca **numpy**

In [0]:
from numpy import clip

Agora, vamos fazer o feature clipping dos dados da coluna (feature) *Idade*, utilizando 20 e 90 como valores extremos, ou seja, qualquer idade abaixo de 20 anos irá ser substituida por 20, e qualquer idade acima de 90 será substituida por 90.

In [0]:
df_com_outliers = clip(df_com_outliers['Idade'],20,90)
dados_clipados_idade

Unnamed: 0,Pais,Idade,Salario anual,Comprou imovel
0,França,44,72000,N
1,Espanha,27,48000,S
2,Alemanha,30,54000,N
3,Espanha,38,61000,N
4,Alemanha,40,70000,S
5,França,35,58000,S
6,Espanha,29,52000,N
7,França,48,79000,S
8,Alemanha,50,83000,N
9,França,37,67000,S


In [0]:
dados_clipados_idade = dados_clipados_idade[df_com_outliers['Idade'].between(20, 90)]
dados_clipados_idade

0    44
1    27
2    30
3    38
4    40
5    35
6    29
7    48
8    50
9    37
Name: Idade, dtype: int64

No resultado anterior, é possível ver que o valor na linha 10 correspondia a 19 anos no conjunto de dados original. A seguir, faremos o clipping da feature *Salario anual*, limitando os dados ao intervalo 50000 - 100000.

In [0]:
dados_clipados_salario = clip(df_com_outliers['Salario anual'],50000,100000)
dados_clipados_salario

0      72000
1      50000
2      54000
3      61000
4      70000
5      58000
6      52000
7      79000
8      83000
9      67000
10    100000
Name: Salario anual, dtype: int64

Não podemos esquecer que os dados de idade e salario serão utilizadas para alimentar o modelo de ML e também passarão pelo processo de scaling ou standardization. Assim, precisamos juntar os dados que sofreram feature clipping, já que é a partir deles que faremos as demais operações. Na célula abaixo fazemos a junção dos dados, no dataframe **dados_clipados**.

In [0]:
dados_clipados = pd.DataFrame({'idade':dados_clipados_idade,'salario':dados_clipados_salario})
dados_clipados

Unnamed: 0,idade,salario
0,44.0,72000
1,27.0,50000
2,30.0,54000
3,38.0,61000
4,40.0,70000
5,35.0,58000
6,29.0,52000
7,48.0,79000
8,50.0,83000
9,37.0,67000


## 3. Transformação logarítmica




Essa técnica é utilizada para dados em que algumas poucas variáveis categóricas possuem muitas observações, enquanto muitas outras possuem poucas observações (como ocorre em avaliações de filmes, onde a maioria deles possui poucas avaliações, enquanto alguns poucos possuem muitas avaliações). A transformação logarítmica calcula o log dos valores para comprimir uma faixa larga de valores para uma faixa mais estreita, mudando a distribuição dos dados (geralmente dados com distribuição exponencial), o que permite melhorar a performance de modelos lineares de ML.

Como exemplo, vamos fazer a transformação logarítmica dos dados de salário do nosso conjunto de dados. Para isso, vamos importar a função ***log()*** da biblioteca numpy.
Antes, vamos avaliar a distribuição dos dados de salário:

In [0]:
dados_salario = df_dados['Salario anual']
dados_salario

0    72000
1    48000
2    54000
3    61000
4    70000
5    58000
6    52000
7    79000
8    83000
9    67000
Name: Salario anual, dtype: int64

Importando a função **log()**

In [0]:
from numpy import log

Aplicando a função log aos dado de salario e salvando o resultado na variável *dados_transformados*.

In [0]:
dados_transformados = log(dados_salario)
dados_transformados

0    11.184421
1    10.778956
2    10.896739
3    11.018629
4    11.156251
5    10.968198
6    10.858999
7    11.277203
8    11.326596
9    11.112448
Name: Salario anual, dtype: float64

## 4. One-Hot encoding



Alguns algoritmos de ML não trabalham com dados categóricos. Por isso, se faz necessário transformar dados categóricos em numéricos antes de alimentar os modelos. Assim, substituindo os valores categóricos por números inteiros, por exemplo, teremos uma codificação aceita pelo algoritmo. Porém, a substituição direta de uma variável categórica por um número inteiro pode gerar outros problemas. Por exemplo, o modelo pode acabar atribuindo pesos diferentes para os números (aprendendo que 4 é maior que 3), quando na verdade os números não representam nada, se não variáveis categóricas. Para corrigir esse problema, a técnica de one-hot encoding permite fazer essa transformação gerando vetores binários únicos para cada número inteiro gerado pela variável categórica.

Relembrando nosso conjunto de dados, temos a coluna *País* com dados categóricos. Assim, precisaremos aplicar o one-hot encoding nos dados dessa coluna.

In [0]:
df_dados.head()

Unnamed: 0,Pais,Idade,Salario anual,Comprou imovel
0,França,44,72000,N
1,Espanha,27,48000,S
2,Alemanha,30,54000,N
3,Espanha,38,61000,N
4,Alemanha,40,70000,S


Temos os seguintes valores na coluna *País*:

In [0]:
df_dados['Pais'].values

array(['França', 'Espanha', 'Alemanha', 'Espanha', 'Alemanha', 'França',
       'Espanha', 'França', 'Alemanha', 'França'], dtype=object)

Para iniciar o processo, precisamos primeiro transformar os dados categóricos em números inteiros. Para isso, vamos importar a classe **LabelEncoder** do pacote ***preprocessing*** da biblioteca ***scikit-learn***.

In [0]:
from sklearn.preprocessing import LabelEncoder


Agora vamos instanciar um objeto do da classe **LabelEncoder**.

In [0]:
label_encoder = LabelEncoder()

Com a função ***fit_transform()*** vamos fazer a transformação de dados categóricos para numéricos, salvando o resultado no array *paises_para_numeros*.

In [0]:
paises_para_numeros = label_encoder.fit_transform(df_dados['Pais'])

In [0]:
paises_para_numeros

array([2, 1, 0, 1, 0, 2, 1, 2, 0, 2])

Podemos ver que a substituição foi feita da seguinte forma:


*   Alemanha: 0
*   Espanha: 1
*   França: 2



Agora precisamos importar a classe **OneHotEnconder** do pacote ***preprocessing*** da biblioteca ***scikit-learn***.

In [0]:
from sklearn.preprocessing import OneHotEncoder

Instanciamos um objeto do tipo **OneHotEnconder**, com parâmetro sparse=False para criar uma matrix de vetores.

In [0]:
onehot_encoder = OneHotEncoder(sparse=False, categories='auto')

Antes de transformar os dados, precisamos mudar nossa lista para um vetor de somente uma coluna. Na célula a seguir salvamos esse vetor na variável *lista_unidimensional*.

In [0]:
lista_unidimensional = paises_para_numeros.reshape(len(paises_para_numeros),1)

In [0]:
lista_unidimensional

array([[2],
       [1],
       [0],
       [1],
       [0],
       [2],
       [1],
       [2],
       [0],
       [2]])

Agora sim, com a função ***fit_transform()*** chamada pelo objeto **onehot_encoder** vamos transformar os números inteiros em vetores binários:

In [0]:
vetores_binarios = onehot_encoder.fit_transform(lista_unidimensional)

In [0]:
vetores_binarios

array([[0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.]])

Temos então nossa feature de países preparadas para ser utilizada em algoritmos de Machine Learning.