### Prepare seus dados para aprendizado de máquina

Muitos algoritmos de aprendizado de máquina fazem suposições sobre seus dados. Muitas vezes é muito bom idéia de preparar seus dados de forma a melhor expor a estrutura do problema para a máquina lgoritmos de aprendizado que você pretende usar. Neste capítulo, você descobrirá como preparar seus dados para aprendizado de máquina em Python usando o scikit-learn. 

1. Redimensione os dados.
2. Padronize os dados.
3. Normalize os dados.
4. Binarize os dados.

#### Necessidade de pré-processamento de dados

Você quase sempre precisa pré-processar seus dados. É uma etapa necessária. Uma dificuldade é que algoritmos diferentes fazem suposições diferentes sobre seus dados e podem exigir transforma. Além disso, quando você segue todas as regras e prepara seus dados, às vezes os algoritmos pode fornecer melhores resultados sem pré-processamento.

Geralmente, eu recomendaria criar muitas exibições e transformações diferentes de seus dados, em seguida, exercite alguns algoritmos em cada exibição de seu conjunto de dados. Isso irá ajudá-lo a ush descubra quais transformações de dados podem ser melhores para expor a estrutura do seu problema em geral.

#### Transformações de dados

Nesta lição, você trabalhará com 4 receitas diferentes de pré-processamento de dados para aprendizado de máquina. O conjunto de dados de diabetes Pima Indian é usado em cada receita. Cada receita segue a mesma estrutura: Carregue o conjunto de dados de um URL. Divida o conjunto de dados nas variáveis de entrada e saída para aprendizado de máquina. Aplique uma transformação de pré-processamento às variáveis de entrada. Resumir os dados para mostrar a alteração.

A biblioteca scikit-learn fornece dois idiomas padrão para transformar dados. cada um é útil em diferentes circunstâncias. As transformações são calculadas de forma que possam ser aplicadas aos seus dados de treinamento e quaisquer amostras de dados que você possa ter no futuro. O scikit-learn A documentação contém algumas informações sobre como usar vários métodos diferentes de pré-processamento:

- Ajuste e transformação múltipla.
- Ajuste e transformação combinados.

O método Fit and Multiple Transform é a abordagem preferida. Você chama o fit() função para preparar os parâmetros da transformação uma vez em seus dados. Então mais tarde você pode usar a função transform() nos mesmos dados para prepará-los para modelagem e novamente no teste ou conjunto de dados de validação ou novos dados que você pode ver no futuro. A combinação de ajuste e transformação é uma conveniência que você pode usar para uma ou outras tarefas. Isso pode ser útil se você estiver interessado em plotar ou resumir os dados transformados. Você pode revisar a API de pré-processamento em scikit-learn aqui1.

#### Redimensionar dados

Quando seus dados são compostos de atributos com escalas variadas, muitos algoritmos de aprendizado de máquina pode se beneficiar do redimensionamento dos atributos para que todos tenham a mesma escala. Muitas vezes isso é referido como normalização e atributos são frequentemente redimensionados no intervalo entre 0 e 1. Isso é útil para algoritmos de otimização usados no núcleo de algoritmos de aprendizado de máquina como gradiente descida. Também é útil para algoritmos que ponderam entradas como regressão e redes neurais e algoritmos que usam medidas de distância como k-Nearest Neighbors. Você pode redimensionar seus dados usando scikit-learn usando o MinMaxScaler class.

In [1]:
# Rescale data (between 0 and 1)
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler

filename = 'datasets/diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass', 
         'pedi', 'age', 'class']

dataframe = read_csv(filename, 
                     names=names)
array = dataframe.values

# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]

scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)

# summarize transformed data
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[0.353 0.744 0.59  0.354 0.    0.501 0.234 0.483]
 [0.059 0.427 0.541 0.293 0.    0.396 0.117 0.167]
 [0.471 0.92  0.525 0.    0.    0.347 0.254 0.183]
 [0.059 0.447 0.541 0.232 0.111 0.419 0.038 0.   ]
 [0.    0.688 0.328 0.354 0.199 0.642 0.944 0.2  ]]


#### Padronizar dados

A padronização é uma técnica útil para transformar atributos com uma distribuição Gaussiana e médias diferentes e desvios padrão para uma distribuição Gaussiana padrão com uma média de 0 e um desvio padrão de 1. É mais adequado para técnicas que assumem uma Gaussiana distribuição nas variáveis de entrada e funcionam melhor com dados reescalonados, como regressão linear, regressão logística e análise linear discriminada. Você pode padronizar dados usando o scikit-learn com a classe StandardScaler.

In [2]:
# Standardize data (0 mean, 1 stdev)
from sklearn.preprocessing import StandardScaler
from pandas import read_csv
from numpy import set_printoptions

filename = 'datasets/diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass', 
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]

scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)

# summarize transformed data
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[ 0.64   0.848  0.15   0.907 -0.693  0.204  0.468  1.426]
 [-0.845 -1.123 -0.161  0.531 -0.693 -0.684 -0.365 -0.191]
 [ 1.234  1.944 -0.264 -1.288 -0.693 -1.103  0.604 -0.106]
 [-0.845 -0.998 -0.161  0.155  0.123 -0.494 -0.921 -1.042]
 [-1.142  0.504 -1.505  0.907  0.766  1.41   5.485 -0.02 ]]


#### Normalizar Dados

A normalização no scikit-learn refere-se ao redimensionamento de cada observação (linha) para ter um comprimento de 1 (chamado uma norma unitária ou um vetor com o comprimento de 1 em álgebra linear). Este método de pré-processamento pode ser útil para conjuntos de dados esparsos (muitos zeros) com atributos de escalas variadas ao usar algoritmos que ponderam valores de entrada, como redes neurais e algoritmos que usam distância medidas como k-vizinhos mais próximos. Você pode normalizar dados em Python com scikit-learn usando o normalizador class.

In [3]:
# Normalize data (length of 1)
from sklearn.preprocessing import Normalizer
from pandas import read_csv
from numpy import set_printoptions

filename = 'datasets/diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass', 
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]

scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)

# summarize transformed data
set_printoptions(precision=3)
print(normalizedX[0:5,:])

[[0.034 0.828 0.403 0.196 0.    0.188 0.004 0.28 ]
 [0.008 0.716 0.556 0.244 0.    0.224 0.003 0.261]
 [0.04  0.924 0.323 0.    0.    0.118 0.003 0.162]
 [0.007 0.588 0.436 0.152 0.622 0.186 0.001 0.139]
 [0.    0.596 0.174 0.152 0.731 0.188 0.01  0.144]]


#### Binarizar Dados (Tornar Binário)

Você pode transformar seus dados usando um limite binário. Todos os valores acima do limite são marcados como 1 e todos iguais ou abaixo são marcados como 0. Isso é chamado de binarização de seus dados ou limitando seus dados. Pode ser útil quando você tem probabilidades de querer fazer nítidos valores. Também é útil na engenharia de recursos e você deseja adicionar novos recursos que indicam algo significativo. Você pode criar novos atributos binários em Python usando scikit-learn com a classe binarizador.

In [4]:
# binarization
from sklearn.preprocessing import Binarizer
from pandas import read_csv
from numpy import set_printoptions

filename = 'datasets/diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass', 
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]

binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)

# summarize transformed data
set_printoptions(precision=3)
print(binaryX[0:5,:])

[[1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 0. 0. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [0. 1. 1. 1. 1. 1. 1. 1.]]


In [5]:
%reload_ext watermark
%watermark -gu "caiquemiranda" -iv

Github username: caiquemiranda



### End.