# Metodos de preprocesamiento de datos
Métodos de preparacion de nuestros ejemplos para alimentar nuestros modelos.
___

# Min Max Scaler

In [1]:
# Todas las herramientas están dentro del submodulo preprocessing de sklearn
import numpy as np
from sklearn import preprocessing

In [2]:
# Creamos una matriz de datos
x = np.array([[1, 2,  3], [4,  5, 6], [7, 8, 9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Imaginemos que estos datos los queremos escalar
Pixel de una imagen en blanco y negro: 0-255 es un rango relativamente alto para una imagen en escala de grises muchas veces queremos entrenar el modelo en un rango acotado ==> tiene beneficios a nivel de convergencia de nuestro modelo para los datos entrenados.

Es de importancia en modelos más complejo como redes neuronales. Para mejorar el tiempo de convergencia ==> queremos que nuestros datos estén acotados

In [18]:
minmax = preprocessing.MinMaxScaler(feature_range = (0, 1))

# primero fiteamos y después usamos la erramienta de transformación
minmax.fit(x).transform(x)

# funciona por columnas.


array([[0. , 0. , 0. ],
       [0.5, 0.5, 0.5],
       [1. , 1. , 1. ]])

In [4]:
# Para primera columna
x_std_0 = (1 - 1)/(7 - 1)
print(x_std_0)

x_std_4 = (4 - 1)/(7 - 1) 
print(x_std_4)

x_std_7 = (7 - 1)/(7 - 1) 
print(x_std_7)

# al valor de la columna se le resta el mínimo de la columna
# luego se lo divide por el rango máx-min

0.0
0.5
1.0


# Scaler/ Estandarización
A cada uno de los valores de la matriz de entrada x, se le resta la **media global**, y lo dividimos por el **desvío estandar** de la muestra. 

Transformamos nuestros datos para: media de 0, desvío estandar de 1.

In [5]:
standar = preprocessing.StandardScaler().fit(x)
standar.transform(x) 

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

In [6]:
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [7]:
#np.std(x[:,0]) = np.std([1,4,7]) = desviación standard
x_std_0 = (1 - 4)/np.std(x[:,0])
print(x_std_0)

x_std_4 = (4 - 4)/np.std(x[:,0])
print(x_std_4)

x_std_7 = (7 - 4)/np.std(x[:,0])
print(x_std_7)

# desvío estandar: std

-1.2247448713915892
0.0
1.2247448713915892


In [8]:
np.std(x[:,0])

2.449489742783178

In [9]:
x2 = np.array([[1, 2,  3], [4,  5, 6], [7, 8, 9]])
x2
standar = preprocessing.StandardScaler().fit(x2)
standar.transform(x2) 

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

# Binarización
Transformamos nuestra matriz de entrada en datos binarizados. Son de clase 0 o clase 1.

In [10]:
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [11]:
# threshold: umbral.
# todos los datos <=6 van a la etiqueta 0, los mayores van a la etiqueta 1
datosb = preprocessing.Binarizer(threshold = 6).transform(x)
datosb

array([[0, 0, 0],
       [0, 0, 0],
       [1, 1, 1]])

# Normalización
todas las componentes del vector son normalizadas para que la longitud del vector sea 1.

In [12]:
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [13]:
# la norma l1: norma euclidea de distancia. Es la distancia en su forma más intuitiva
datos_n = preprocessing.normalize(x, norm = 'l1', axis = 0)
datos_n

array([[0.08333333, 0.13333333, 0.16666667],
       [0.33333333, 0.33333333, 0.33333333],
       [0.58333333, 0.53333333, 0.5       ]])