<a href="https://colab.research.google.com/github/TailUFPB/Tutorials/blob/main/Tutorials_book/1_Preprocessing/test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1 Pré-processamento de dados

O pacote de pré-processamento do scikit-learn fornece várias funções que ajudam na conversao de atributos em uma representação que é mais adequada para os estimadores de aprendizagem de máquina.  

## 1.1 Padronização

A padronização do conjunto de dados e um pré requisitos comum para
vários estimadores de aprendizagem de máquina implementados no
scikit-learn. Ela é util principalmente quando os valores de entrada de dados tem uma grande diferença entre seus intervalos.

Ela se dá a partir da reescala do conjunto de dados para ter a média 0 e o desvio padrão de 1. Na prática, o valor da média é removido de cada atributo, então é realizada a divisão dos atributos que não são constantes pelo seu desvio padrão.

Vamos falar de 4 escalares importantes do scikit-learn:
- Scalar
- StandarScalar
- MinMaxScalar
- RobustScaler

In [17]:
from sklearn import preprocessing
import numpy as np

### 1.1.1 Scalar

In [18]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [19]:
X_scaled = preprocessing.scale(X_train)

X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [20]:
X_scaled.mean(axis=0)

array([0., 0., 0.])

In [21]:
X_scaled.std(axis=0)

array([1., 1., 1.])

### 1.1.2 StandardScalar



$$\frac{x_i - mean(x)}{stdev(x)}$$

In [22]:
X_scaled = preprocessing.StandardScaler().fit_transform(X_train)

X_scaled 

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

### 1.1.3 MinMaxScalar

$$\frac{x_i - min(x)}{max(x) - min(x)}$$

In [23]:
X_scaled = preprocessing.MinMaxScaler().fit_transform(X_train)

X_scaled 

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

### 1.1.4 RobustScaler

$$\frac{x_i - Q_i(x)}{Q_3(x) - Q_1(x)}$$

In [24]:
X_scaled = preprocessing.RobustScaler().fit_transform(X_train)

X_scaled 

array([[ 0.        , -1.        ,  1.33333333],
       [ 1.        ,  0.        ,  0.        ],
       [-1.        ,  1.        , -0.66666667]])

## 1.2 Normalização

In [25]:
X_normalized = preprocessing.Normalizer().fit_transform(X_train)

X_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

##1.3 Codificando atributos categóricos

### 1.3.1 Ordinal Encoder

In [35]:
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox'], ['male', 'from Europe', 'uses Safari']]
enc = preprocessing.OrdinalEncoder().fit_transform(X)
enc

array([[1., 1., 1.],
       [0., 0., 0.],
       [1., 0., 1.]])

### 1.3.2 OneHotEncoder

In [40]:
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox'], ['male', 'from Europe', 'uses Safari']]
enc = preprocessing.OneHotEncoder().fit_transform(X).toarray()
enc

array([[0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0.],
       [0., 1., 1., 0., 0., 1.]])