**Pré-processamento com o sklearn**

Para um aspirante a cientista de dados, às vezes pode ser difícil encontrar o caminho através da floresta de técnicas de pré-processamento. O Sklearn, sua biblioteca de pré-processamento, forma uma base sólida para guiá-lo nessa importante tarefa do pipeline de ciência de dados. Embora o Sklearn a tenha uma documentação bastante sólida, muitas vezes perde a racionalização e a intuição entre diferentes conceitos.

- Categorical features
- Feature scaling

## **Categorical features**

In [None]:
import pandas as pd
import numpy as np

X = pd.DataFrame(
    np.array(['M', 'O-', 'medium',
             'M', 'O-', 'high',
              'F', 'O+', 'high',
              'F', 'AB', 'low',
              'F', 'B+', 'low'])
              .reshape((5,3)))
X.columns = ['sex', 'blood_type', 'edu_level']
X

Unnamed: 0,sex,blood_type,edu_level
0,M,O-,medium
1,M,O-,high
2,F,O+,high
3,F,AB,low
4,F,B+,low


In [None]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder()

X_new = pd.DataFrame(encoder.fit_transform(X))
X_new

Unnamed: 0,0,1,2
0,1.0,3.0,2.0
1,1.0,3.0,0.0
2,0.0,2.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,1.0


In [None]:
from sklearn.preprocessing import OneHotEncoder

onehot = OneHotEncoder()

X_new = onehot.fit_transform(X).toarray()
X_new

array([[0., 1., 0., 0., 0., 1., 0., 0., 1.],
       [0., 1., 0., 0., 0., 1., 1., 0., 0.],
       [1., 0., 0., 0., 1., 0., 1., 0., 0.],
       [1., 0., 1., 0., 0., 0., 0., 1., 0.],
       [1., 0., 0., 1., 0., 0., 0., 1., 0.]])

**Lembre-se: *fit* para train e *transform* para test**

**Data Leakage = Vazamento de informações**

Uma violação de dados é liberada ou não de forma intencional de informações seguras ou privadas / confidenciais para um ambiente não confiável. Outros termos para este fenômeno não-intencional incluem a divulgação de informações, vazamento de dados, vazamento de informações e também vazamento de dados.

 ## **Feature scaling**

 O próximo passo lógico do nosso pipeline de pré-processamento é dimensionar nossos recursos. Antes de aplicar qualquer transformação de dimensionamento, é muito importante dividir seus dados em um conjunto de treino e um conjunto de testes. Se você começar a escalar antes, seus dados de treinamento (e teste) poderão acabar sendo escalados em torno de um valor médio (veja abaixo) que não é realmente a média dos dados de treino ou teste e passar por toda a razão pela qual você está escalando o primeiro lugar.

In [None]:
from sklearn.datasets import load_breast_cancer

data = load_breast_cancer()

In [None]:
X = data.data
y = data.target

In [None]:
from sklearn.model_selection import train_test_split

train, test, train_labels, test_labels = train_test_split(X,
                                                          y,
                                                          test_size=0.3,
                                                          random_state=12,
                                                          stratify=y)

**Standard Scaler**

A padronização de conjuntos de dados é um requisito comum para muitos estimadores de aprendizado de máquina implementados no scikit-learn; eles podem se comportar mal se os recursos individuais não parecerem mais ou menos com dados padrão normalmente distribuídos: gaussiano com média zero e variação unitária.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

new_train = scaler.fit_transform(train)
new_test = scaler.transform(train)

In [None]:
train

array([[1.916e+01, 2.660e+01, 1.262e+02, ..., 1.872e-01, 3.258e-01,
        9.720e-02],
       [9.742e+00, 1.912e+01, 6.193e+01, ..., 4.589e-02, 3.196e-01,
        8.009e-02],
       [1.113e+01, 1.662e+01, 7.047e+01, ..., 4.044e-02, 2.383e-01,
        7.083e-02],
       ...,
       [1.422e+01, 2.785e+01, 9.255e+01, ..., 8.219e-02, 1.890e-01,
        7.796e-02],
       [1.453e+01, 1.934e+01, 9.425e+01, ..., 9.594e-02, 2.471e-01,
        7.463e-02],
       [1.801e+01, 2.056e+01, 1.184e+02, ..., 1.489e-01, 3.251e-01,
        7.625e-02]])

In [None]:
new_train

array([[ 1.45041015,  1.65685386,  1.42194618, ...,  1.07560322,
         0.57843261,  0.68091826],
       [-1.25540938, -0.04517138, -1.24279824, ..., -1.02169394,
         0.47653869, -0.25431278],
       [-0.85663283, -0.61403009, -0.88871519, ..., -1.10258184,
        -0.85958651, -0.76046353],
       ...,
       [ 0.03113339,  1.94128322,  0.02675947, ..., -0.48293598,
        -1.66980758, -0.37073838],
       [ 0.12019732,  0.00488818,  0.09724439, ..., -0.278861  ,
        -0.71496288, -0.55275588],
       [ 1.12001171,  0.28249123,  1.09854481, ...,  0.50716163,
         0.56692846, -0.46420683]])

**MinMaxScaler**

Uma padronização alternativa é dimensionar os recursos para ficar entre um valor mínimo e o máximo, geralmente entre zero e um, ou para que o valor absoluto máximo de cada recurso seja dimensionado para o tamanho da unidade. Isso pode ser alcançado usando MinMaxScaler ou MaxAbsScaler, respectivamente.

In [None]:
from sklearn.preprocessing import MinMaxScaler

MinMax = MinMaxScaler()

new_train = MinMax.fit_transform(train)
new_test = MinMax.transform(train)

In [None]:
test

array([[1.018e+01, 1.753e+01, 6.512e+01, ..., 5.575e-02, 3.055e-01,
        8.797e-02],
       [1.193e+01, 2.153e+01, 7.653e+01, ..., 7.247e-02, 2.438e-01,
        8.541e-02],
       [1.288e+01, 2.892e+01, 8.250e+01, ..., 6.493e-02, 2.372e-01,
        7.242e-02],
       ...,
       [8.734e+00, 1.684e+01, 5.527e+01, ..., 0.000e+00, 2.445e-01,
        8.865e-02],
       [8.671e+00, 1.445e+01, 5.442e+01, ..., 0.000e+00, 2.592e-01,
        7.848e-02],
       [1.387e+01, 1.621e+01, 8.852e+01, ..., 5.556e-02, 2.362e-01,
        7.113e-02]])

In [None]:
new_test

array([[0.59587064, 0.57118701, 0.57585074, ..., 0.64329897, 0.42399199,
        0.27653155],
       [0.13508489, 0.31822793, 0.12675564, ..., 0.15769759, 0.40846481,
        0.16430539],
       [0.20299428, 0.23368279, 0.18643002, ..., 0.13896907, 0.2048585 ,
        0.10356815],
       ...,
       [0.35417584, 0.61345959, 0.34071693, ..., 0.28243986, 0.08139244,
        0.15033451],
       [0.36934292, 0.32566791, 0.35259591, ..., 0.32969072, 0.22689707,
        0.12849272],
       [0.53960566, 0.36692594, 0.52134722, ..., 0.51168385, 0.42223892,
        0.13911846]])

**MaxAbs Scaler**

O MaxAbsScaler funciona de maneira muito semelhante ao MinMaxScaler, mas dimensiona automaticamente os dados para um intervalo [-1,1] com base no máximo absoluto.

In [None]:
from sklearn.preprocessing import MaxAbsScaler

scaler = MaxAbsScaler()

new_train = scaler.fit_transform(train)
new_test = scaler.transform(train)

In [None]:
train

array([[1.916e+01, 2.660e+01, 1.262e+02, ..., 1.872e-01, 3.258e-01,
        9.720e-02],
       [9.742e+00, 1.912e+01, 6.193e+01, ..., 4.589e-02, 3.196e-01,
        8.009e-02],
       [1.113e+01, 1.662e+01, 7.047e+01, ..., 4.044e-02, 2.383e-01,
        7.083e-02],
       ...,
       [1.422e+01, 2.785e+01, 9.255e+01, ..., 8.219e-02, 1.890e-01,
        7.796e-02],
       [1.453e+01, 1.934e+01, 9.425e+01, ..., 9.594e-02, 2.471e-01,
        7.463e-02],
       [1.801e+01, 2.056e+01, 1.184e+02, ..., 1.489e-01, 3.251e-01,
        7.625e-02]])

In [None]:
new_train

array([[0.69876003, 0.67718941, 0.67522739, ..., 0.64329897, 0.58618208,
        0.46843373],
       [0.35528811, 0.48676171, 0.33135367, ..., 0.15769759, 0.57502699,
        0.3859759 ],
       [0.4059081 , 0.42311609, 0.37704655, ..., 0.13896907, 0.42875135,
        0.3413494 ],
       ...,
       [0.51859956, 0.70901222, 0.49518459, ..., 0.28243986, 0.34005038,
        0.37571084],
       [0.52990518, 0.49236253, 0.50428036, ..., 0.32969072, 0.44458438,
        0.35966265],
       [0.65681984, 0.52342159, 0.63349385, ..., 0.51168385, 0.58492263,
        0.36746988]])

## **Usando as técnicas com cross-validation**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

data = load_breast_cancer()
X = data.data
y = data.target

pipeline = Pipeline(steps=[
    ('scaler', StandardScaler()),   
    ('classifier', RandomForestClassifier())])

cv_scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv = 10)

print("Cross-val accuracy: %f" % cv_scores.mean())

Cross-val accuracy: 0.963158
