# Normalización

La normalización de un conjunto de datos consiste en transformar los valores de sus atributos numéricos al rango continuo `[0, 1]` mediante una operación matemática llamada `homotecia`. Esta transformación se lleva  a cabo para cada columna (atributo) de forma independiente.
Nótese que la normalización hace que a cada valor de un atributo se le reste el mínimo de dicho atributo (columna) y se divida por la diferencia entre máximo y mínimo. La operación de resta se denomina `centrado`, mientras que la división se denomina `escalado`. Por tanto, diremos que la normalización, al igual que otras transformaciones como la estandarización (que veremos a continuación), centra y escala los datos.
`La normalización es una transformación muy recomendable cuando se pretenden usar cálculos de distancias o productos escalares entre ejemplos`. En caso de no aplicar normalización, la diferencia de escalas de valores entre los atributos puede hacer que uno tenga más influencia que otro.

>Note: Para ello se toma el mínimo y se lo divide por la diferencia entre el max y el min.

In [1]:
from sklearn import preprocessing
import numpy as np

In [2]:
# Carga de datos.
X_train = np.array([[ 4., -200.,  2.],
                    [ 5.,  4.,  6.],
                    [ 3.,  1., -8.]])

display(X_train)

array([[   4., -200.,    2.],
       [   5.,    4.,    6.],
       [   3.,    1.,   -8.]])

In [3]:
# Limpieza de datos: normalización.
normalizer = preprocessing.MinMaxScaler() #Normalización - Instanciamos normalizador
X_train_norm = normalizer.fit_transform(X_train) #Al normalizador le aplico el método fit_transform para poder normalizar los datos.

In [4]:
# Salida de resultados.
print(X_train_norm) #Aquí podemos observar como pone todos los valores entre 0 y 1

[[0.5        0.         0.71428571]
 [1.         1.         1.        ]
 [0.         0.98529412 0.        ]]


In [10]:
from sklearn.preprocessing import MinMaxScaler

# Crear el objeto MinMaxScaler
scaler = MinMaxScaler()

# Aplicar la función fit al objeto scaler
scaler.fit(X_train_2)

# Aplicar la función transform al objeto X_train_2
X_train_norm_2 = scaler.transform(X_train_2)

# Comprueba si "X_train_norm" y "X_train_norm_2" son iguales
print(np.array_equiv(X_train_norm, X_train_norm_2))
print(X_train_norm_2)


True
[[0.5        0.         0.71428571]
 [1.         1.         1.        ]
 [0.         0.98529412 0.        ]]


## Datos de test

Normalizar los datos de `X_test`???

En este caso, para los datos de test solo hay que transformar, no utilizar el fit. Es error grave de interpretación y afecta el experimento.

Si usa `fit_transform()` con el conjunto de datos de prueba, básicamente ajustaría su modelo/escalador para aprender también de los datos de prueba, lo que provoca una fuga de datos. Recuerde, se supone que el conjunto de datos de prueba es un conjunto de datos invisible.

In [12]:
# Normalizar un nuevo conjunto de datos de test (SOLO HAY QUE APLICAR EL MÉTODO "transform", NO EL "fit")
X_test = np.array([[ 1., -24.,  2.],
                    [ 4.,  0.,  0.],
                    [ 0.,  1., -1.]])

# Normalizar los datos de "X_test"
# Aplicar la función transform al objeto X_test
X_test_norm = scaler.transform(X_test)

#X_test_norm = fitted_normalizer.transform(X_test)
print(X_test_norm)

[[-1.          0.8627451   0.71428571]
 [ 0.5         0.98039216  0.57142857]
 [-1.5         0.98529412  0.5       ]]
