# Preprocesamiento utilizando scikit-learn

Esta librería de python nos permite realizar las mismas funciones del preprocesamiento de características que ya revisamos manualmente. A continuación podrás encontrar un resumen de las mismas, pero utilizando esta herramienta

In [1]:
import numpy as np 
from sklearn import preprocessing  # esta es la librería que nos permite realizar estas funciones

In [4]:
#Definimos igualmente nuestra matriz de datos de nxp
X = np.array([[5.1, -2.9, 3.3],[-1.2, 7.8, -6.1], [3.9, 0.4, 2.1],[7.3, -9.9, -4.5]]) 

## Binarización


In [5]:
datos_binarizados = preprocessing.Binarizer(threshold=2.1).transform(X) 
print("Los datos binarizados son:\n", datos_binarizados) 

Los datos binarizados son:
 [[ 1.  0.  1.]
 [ 0.  1.  0.]
 [ 1.  0.  0.]
 [ 1.  0.  0.]]


## Remoción de la media

In [6]:
datos_centralizados = preprocessing.scale(X) 
print("Los datos centralizados son: \n", datos_centralizados) 

Los datos centralizados son: 
 [[ 0.42462551 -0.2748757   1.13244172]
 [-1.59434861  1.40579288 -1.18167831]
 [ 0.04005901  0.24346134  0.83702214]
 [ 1.12966409 -1.37437851 -0.78778554]]


## Escalamiento

In [8]:
escalador = preprocessing.MinMaxScaler(feature_range=(0, 1)) 
datos_escalados = escalador.fit_transform(X) 
print("Los datos escalados son:\n", datos_escalados) 

Los datos escalados son:
 [[ 0.74117647  0.39548023  1.        ]
 [ 0.          1.          0.        ]
 [ 0.6         0.5819209   0.87234043]
 [ 1.          0.          0.17021277]]


## Normalización

In [9]:
datos_normalizados_l1 = preprocessing.normalize(X, norm='l1') 
datos_normalizados_l2 = preprocessing.normalize(X, norm='l2') 
print("Los datos normalizados en L1 son:\n", datos_normalizados_l1) 
print("Los datos normalizados en L2 son:\n", datos_normalizados_l2) 

Los datos normalizados en L1 son:
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]
Los datos normalizados en L2 son:
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]


## Codificación de la etiqueta

In [12]:
etiquetas= ['red', 'black', 'red', 'green', 'black', 'yellow', 'white']
codificador = preprocessing.LabelEncoder() 
codificador.fit(etiquetas) 

LabelEncoder()

In [14]:
etiquetas = ['green', 'red', 'black'] 
etiquetas_codificadas = codificador.transform(etiquetas) 
print("Las etiquetas originales son:\n", etiquetas) 
print("Las etiquetas codificadas son: \n", etiquetas_codificadas)

Las etiquetas originales son:
 ['green', 'red', 'black']
Las etiquetas codificadas son: 
 [1 2 0]
