1- Importando os pacotes úteis: Se estivermos usando Python, então seria o primeiro passo para converter os dados em um determinado formato, ou seja, pré-processamento. 

In [7]:
import numpy as np 
import sklearn.preprocessing 

Numpy = Numpy é uma biblioteca do python que fornece um objeto array multidimensional, vários objetos derivados e uma variante de rotinas para operações rápidas em arrays, incluindo operações matemáticas, lógicas, manipulação de formas, classificação, seleção, E/S, etc. 

Skylearn.preprocessing = Faz parte da bibclioteca Scikit-learn de aprendizado de máquina que oferece suporte ao aprendizado supervisionado e não supervisionado, além de várias ferramentas para ajustes de modelos, pré-processamento de dados, seleção de modelos, entre outras. Especificamente, o pacote skylearn.preprocessing transforma os vetores de recursos brutos em uma representação mais adequada para algoritmos de aprendizado de máquina. 

In [8]:
input_data = np.array([[2.1, -1.9, 5.5], 
                      [-1.5, 2.4, 3.5],
                      [0.5, -7.9, 5.6],
                      [5.9, 2.3, -5.8]])

Após importar as bibliotecas necessárias, no código acima definimos os dados da amostra para que possamos aplicar as técnicas de pré-processamento da biblioteca skylearn.preprocessing. A técnica que aplicaremos abaixo é chamada de Binarization, onde os valores do array, que são numéricos, serão convertidos para valores booleanos usando um limite de 0,5 onde valores acima de 0,5 serão convertidos para 1 e valores abaixo de 0,5 serão convertidos para 0. 

In [9]:
data_binarized = sklearn.preprocessing.Binarizer(threshold = 0.5).transform(input_data)
print("\nBinarized data:\n", data_binarized)


Binarized data:
 [[1. 0. 1.]
 [0. 1. 1.]
 [0. 0. 1.]
 [1. 1. 0.]]


A próxima técnica de pré-processamento é a Mean Removal, em que é usada para eliminar a média do vetor para que todos os valores sejam centrados em zero. O código abaixo exibirá a média e o desvio padrão dos dados de entrada por coluna do array. 

In [10]:
print("Média = ",input_data.mean(axis=0))
print("Desvio Padrão = ", input_data.std(axis=0))

Média =  [ 1.75  -1.275  2.2  ]
Desvio Padrão =  [2.71431391 4.20022321 4.69414529]


O código abaixo removerá a média e o desvio padrão dos dados de entrada (do array input_data)

In [11]:
data_scaled = sklearn.preprocessing.scale(input_data)
print("Média = ", data_scaled.mean(axis=0))
print("Desvio Padrão = ", data_scaled.std(axis=0))

Média =  [1.11022302e-16 0.00000000e+00 0.00000000e+00]
Desvio Padrão =  [1. 1. 1.]


A próxima técnica de pré-processamento é a scale que tem como objetivo padronizar o conjunto de dados de entrada ao longo de qualquer eixo. No código abaixo, a primeira linha, transforma os dados utilizando um determinado intervalo, que no caso é 0 ou 1, modificando cada valor no array para um que esteja no intervalo 0,1. Na segunda linha, com o comando fit-transform, ele ajusta os dados em uma matriz. 

In [12]:
data_scaled_minmax = sklearn.preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaled_minmax.fit_transform(input_data)
print("\n Min Max scaled data: \n", data_scaled_minmax)


 Min Max scaled data: 
 [[0.48648649 0.58252427 0.99122807]
 [0.         1.         0.81578947]
 [0.27027027 0.         1.        ]
 [1.         0.99029126 0.        ]]


A próxima técnica de pré-processamento é a normalization. É o processo de dimensionar amostras individuais para ter uma norma unitária. Existem 3 tipos de normas que podem ser aplicadas, a primeira delas e descrita abaixo, é a L1. Seu objetivo é modificar os valores do vetor de entrada para que a soma dos valores absolutos seja sempre 1 em cada linha. 

In [14]:
X_normalized_l1 = sklearn.preprocessing.normalize(input_data, norm='l1')
print("\n Normalização L1 do vetor de entrada: ", X_normalized_l1)


 Normalização L1 do vetor de entrada:  [[ 0.22105263 -0.2         0.57894737]
 [-0.2027027   0.32432432  0.47297297]
 [ 0.03571429 -0.56428571  0.4       ]
 [ 0.42142857  0.16428571 -0.41428571]]


A segunda técnica de normalização é L2, que consiste em modificar os valores para que a soma dos quadrados seja sempre até 1 em cada linha. 

In [15]:
X_normalized_l2 = sklearn.preprocessing.normalize(input_data, norm='l2')
print("\n Normalização L2: \n", X_normalized_l2)


 Normalização L2: 
 [[ 0.33946114 -0.30713151  0.88906489]
 [-0.33325106  0.53320169  0.7775858 ]
 [ 0.05156558 -0.81473612  0.57753446]
 [ 0.68706914  0.26784051 -0.6754239 ]]


Outro requisito importanto quando se trabalha com machine learning é a rotulação dos dados para que algoritmos de classificação consiga aprender com os rótulos dos treinamentos. O código abaixo mostra como podemos definir rótulos de amostra.

In [16]:
input_labels = ['red', 'black', 'red', 'green', 'black', 'yellow', 'white']

Agora, iremos codificar esses rótulos utilizando o comando LabelEncoder, que normaliza os rótulos de forma que eles contenham apenas valores entre 0 e n_classes - 1. Nesse caso, os rótulos definidos no código acima, seriam normalizados entre 0 e 5-1, onde 5 é o número de classes (black, red, green, yellow e white). 

In [17]:
encoder = sklearn.preprocessing.LabelEncoder()
encoder.fit(input_labels)


In [18]:
test_label = ['green', 'red', 'black']
encoded_values = encoder.transform(test_label)
print(encoded_values)


[1 2 0]


Também é possível de realizar o inverso, ou seja, a partir do conjunto de valores o algoritmo identificar a que classe pertence. 

In [21]:
encoded_values = [3, 0, 4, 1]
decoded_list = encoder.inverse_transform(encoded_values)
print("\nEncoded values =", decoded_list)


Encoded values = ['white' 'black' 'yellow' 'green']


Nesse caso, o comando retornou que rótulo representava 3, 0, 4 e 1, respectivamente. 