# Métodos de pré-processamento de dados com Scikit-Learn


O pré-processamento de dados é uma das principais etapas da análise de dados e do machine learning.<br>
O pré-processamento de dados eficaz é crucial para obter o maior número possível de insights e também pode nos ajudar a obter maior precisão com modelos de ML.<br>
O Scikit-Learn é uma biblioteca de de machine learning de software livre para Python.<br>
O Scikit-Learn é definitivamente uma das bibliotecas mais úteis e amplamente utilizadas para machine learing, mas neste artigo, focaremos apenas no 'pré-processamento'.<br>
No entanto, alguns dos métodos básicos de pré-processamento, como descartar valores nulos, não serão abordados neste artigo. Em vez disso, serão discutidos os métodos de pré-processamento que podemos executar efetivamente com o Scikit-Learn, como codificação de dados e dimensionamento de recursos.

#### 1. Data Encoding

Alguns dos métodos de codificação de dados amplamente utilizados são Label Encoding e One Hot Encoding. Vamos passar por esses métodos com breves explicações e exemplos em Python.<br>

###### Para usar scikit você precisa primeiro instalar e depois importar o módulo scikit no seu programa<br>
pip install scikit-learn

### a) Codificação de Labels<br>
A codificação de labels é basicamente uma maneira de codificar variáveis categóricas para variáveis numéricas. Por exemplo, vamos considerar uma cesta que contém frutas.

In [2]:
basket = ['apple', 'orange', 'grape', 'strawberry', 'melon', 'plum', 'banana', 
          'melon', 'plum', 'plum', 'grape', 'watermelon', 'melon', 'orange']

Existem oito frutas únicas – maçã, laranja, uva, morango, melão, ameixa, banana e melancia, e algumas delas estão contidas mais de uma vez na cesta. Agora vamos tentar converter esses dados categóricos para a forma numérica com a função skleran.preprocessing.LabelEncoder.

In [3]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
labels = encoder.fit_transform(basket)
print(labels) 

[0 4 2 6 3 5 1 3 5 5 2 7 3 4]


Usando LabelEncoder, podemos ver que as variáveis categóricas, frutas, são convertidas em variáveis numéricas.
Para entender qual número representa qual fruta, podemos usar a operação .classes_ da seguinte forma:

In [4]:
for i in range(len(encoder.classes_)):
    print(f'{i} : {encoder.classes_[i]}')

0 : apple
1 : banana
2 : grape
3 : melon
4 : orange
5 : plum
6 : strawberry
7 : watermelon


Também podemos converter os rótulos numéricos de volta aos valores categóricos originais usando a função inverse_transform().

In [5]:
encoder = LabelEncoder()
encoder.fit(basket)
labels = encoder.fit_transform(basket)
encoder.inverse_transform(labels)

array(['apple', 'orange', 'grape', 'strawberry', 'melon', 'plum',
       'banana', 'melon', 'plum', 'plum', 'grape', 'watermelon', 'melon',
       'orange'], dtype='<U10')

Como vimos, a codificação de labels permitem-nos converter valores categóricos em valores numéricos. No entanto, a codificação de labels deve ser usada apenas em casos apropriados. Por exemplo, usar a codificação de labels em modelos de regressão pode resultar em erros críticos porque os modelos de regressão identificarão 2 como um valor maior que 1. Isso significa que os modelos de regressão identificarão uva(2) como mais importante que banana(1), o que definitivamente não é verdade porque as frutas não são dados ordinais neste caso.<br>
Portanto, apresentamos outro método de codificação de rótulo, que é chamado de codificação one-hot.

### b) Codificação One-Hot<br>
![](Picture%201.png)<br>
A codificação one-hot pode ser melhor explicada com um pouco de visualização.
No diagrama acima, à esquerda está o conjunto de dados original e à direita está o conjunto de dados codificado one-hot. Como visto, no conjunto de dados codificado one-hot, novos recursos (ou colunas) são adicionados para cada variável categórica e o valor binário (0 ou 1) foi atribuído na coluna dependendo do valor. Por exemplo, na primeira linha, há apenas 'Apple' e é por isso que 0 foi atribuído para as colunas 'Banana' e 'Orange' no conjunto de dados codificado one-hot, enquanto 1 foi atribuído para 'Apple'.<br>
Vamos trazer de volta a mesma cesta do exemplo anterior. Usar OneHotEncoder() do Scikit-Learn para codificar dados one-hot é uma opção, mas isso exige que usemos o LabelEncoder novamente.


In [6]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import numpy as np

basket = ['apple', 'orange', 'grape', 'strawberry', 
          'melon', 'plum', 'banana', 'melon', 'plum', 'plum', 'grape', 'watermelon', 'melon', 'orange']
encoder = LabelEncoder()
labels = encoder.fit_transform(basket).reshape(-1, 1)
onehot_encoder = OneHotEncoder()
onehot_labels = onehot_encoder.fit_transform(labels)
onehot_labels.toarray()


array([[1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.]])

Podemos ver que os dados são codificados com OneHotEncoder() do Scikit-Learn.<br>
Embora o Scikit-Learn seja uma biblioteca realmente conveniente e eficaz para muitos aspectos de análise de dados e aprendizado de máquina, para codificação one-hot, há uma maneira muito mais fácil de fazer o mesmo trabalho usando o Pandas.<br>
Pandas fornece a função pd.get_dummies() que pega um dataframe e retorna um dataframe codificado one-hot imediatamente.

In [7]:
import pandas as pd

basket_df = pd.DataFrame(basket, columns = ['Fruit'])
pd.get_dummies(basket_df)

Unnamed: 0,Fruit_apple,Fruit_banana,Fruit_grape,Fruit_melon,Fruit_orange,Fruit_plum,Fruit_strawberry,Fruit_watermelon
0,True,False,False,False,False,False,False,False
1,False,False,False,False,True,False,False,False
2,False,False,True,False,False,False,False,False
3,False,False,False,False,False,False,True,False
4,False,False,False,True,False,False,False,False
5,False,False,False,False,False,True,False,False
6,False,True,False,False,False,False,False,False
7,False,False,False,True,False,False,False,False
8,False,False,False,False,False,True,False,False
9,False,False,False,False,False,True,False,False


In [8]:
basket_df

Unnamed: 0,Fruit
0,apple
1,orange
2,grape
3,strawberry
4,melon
5,plum
6,banana
7,melon
8,plum
9,plum


Em vez de passar pelo LabelEncoder e OneHotEncoder do Scikit-Learn, usar pd.get_dummies() pode economizar seu tempo e esforço!

#### 2. Feature Scaling

O dimensionamento de recursos é um método para "normalizar" variáveis ou recursos de dados. O dimensionamento de recursos pode ser necessário no aprendizado de máquina por vários motivos. Ele pode tornar o treinamento mais rápido e também é capaz de tornar o fluxo de descida do gradiente suave.
Veremos dois métodos diferentes de dimensionamento de recursos do Scikit-Learn, que são os dados StandardScale e MinMaxScaler Iris, um conjunto de dados fornecido pelo Scikit-Learn, que será usado em toda esta seção para entender vários dimensionadores.

In [9]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


### a) StandardScaler<br>
StandardScaler() no Scikit-Learn dimensiona os valores para que sua média seja 0 e a variância seja 1 — distribuição gaussiana.<br>
É muito importante converter o conjunto de dados para que ele siga a distribuição gaussiana em alguns algoritmos de ML. Por exemplo, modelos de regressão linear ou regressão logística assumem que os dados seguem a distribuição gaussiana.

In [10]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
standard_iris = scaler.fit_transform(iris_df)
standard_iris = pd.DataFrame(standard_iris, columns = iris.feature_names)
standard_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444
...,...,...,...,...
145,1.038005,-0.131979,0.819596,1.448832
146,0.553333,-1.282963,0.705921,0.922303
147,0.795669,-0.131979,0.819596,1.053935
148,0.432165,0.788808,0.933271,1.448832


Usando StandardScaler(), podemos ver que os valores dos dados da íris foram convertidos de alguma forma. Como StandardScaler() deve converter os dados para que eles sigam a distribuição gaussiana, vamos verificar isso.

In [11]:
standard_iris.mean()

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

In [12]:
standard_iris.var()

sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64

We can clearly see that the mean is very much close to 0 and the variance is nearly 1, indicating that the data have been successfully scaled.

### b) MinMaxScaler<br>
MinMaxScaler() é um método de dimensionamento de dados e converte os dados em algum valor no intervalo [0, 1], ou então no intervalo [-1, 1] se houver valores negativos.<br>
Com os dados da íris, como não há valores negativos, o intervalo dos dados deve estar entre 0 e 1.

In [13]:
from sklearn.preprocessing import MinMaxScaler

minmax = MinMaxScaler()
minmax_iris = minmax.fit_transform(iris_df)
minmax_iris = pd.DataFrame(minmax_iris, columns = iris.feature_names)
minmax_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [14]:
minmax_iris.min(), minmax_iris.max()

(sepal length (cm)    0.0
 sepal width (cm)     0.0
 petal length (cm)    0.0
 petal width (cm)     0.0
 dtype: float64,
 sepal length (cm)    1.0
 sepal width (cm)     1.0
 petal length (cm)    1.0
 petal width (cm)     1.0
 dtype: float64)

Podemos ver que os dados foram muito bem dimensionados com minmax usando MinMaxScaler(), uma vez que o valor mínimo e máximo para cada característica é 0 e 1, respectivamente. <br>
Utilizando estes métodos de codificação de dados e de dimensionamento de características, podemos preparar-nos melhor para treinar o conjunto de dados e executar modelos de ML. No entanto, é também muito importante utilizar um método de pré-processamento apropriado, em vez de utilizar qualquer método. Vermos mais métodos de pré-processamento e dimensionamento de dados com Python no futuro que podem melhorar o seu desempenho de ML.