# Normalización de features

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets, preprocessing

In [None]:
# Cargamos el dataset de Boston

boston = datasets.load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df.head()

## Normalizamos los datos

Veamos el efecto de escalar los datos eligiendo un par de variables que tienen una gran diferencia en escala.

In [None]:
xs = df["NOX"]
ys = df["TAX"]

plt.scatter(xs, ys)
plt.xlabel("NOX")
plt.ylabel("TAX");

### Estandarización

Apliquemos estandarización, transformando las variables para que tengan media 0 $(\mu = 0)$ y desvío estándar 1 $(\sigma = 1)$, aplicando la fórmula:

$$ x' = \frac{x - \mu}{\sigma}$$

In [None]:
xs = df["NOX"]
ys = df["TAX"]
plt.scatter(xs, ys, color='b')
plt.xlabel("NOX")
plt.ylabel("TAX")
plt.show()

xs = df["NOX"]
mean = np.mean(xs)
std = np.std(xs)
xs = [(x - mean) / std for x in xs]

ys = df["TAX"]
mean = np.mean(ys)
std = np.std(ys)
ys = [(y - mean) / std for y in ys]

plt.scatter(xs, ys, color='r')
plt.xlabel("NOX standardized")
plt.ylabel("TAX standardized")
plt.show()

Si observamos la forma del histograma de una variable individual, vemos que tampoco varía, únicamente cambia la escala en la que la variable está expresada.

In [None]:
plt.figure(figsize=(12,4))
ax1 = plt.subplot(121)
ax1.set_title("Variable estandarizada")
ax1.hist(xs,bins=30);

ax2 = plt.subplot(122)
ax2.set_title("Variable sin estandarizar")
ax2.hist(df["NOX"],bins=30);

Como pueden ver, no cambiamos la forma de los datos, sino simplemente su escala. 

También podemos usar scikit-learn para estandarizar variables:

In [None]:
xs = preprocessing.scale(df["NOX"])
ys = preprocessing.scale(df["TAX"])

plt.scatter(xs, ys, color='r')
plt.xlabel("NOX standardized")
plt.ylabel("TAX standardized");

### Normalización min - max

Probemos ahora esta otra forma de normalización, aplicando la siguiente fórmula:

$$x' = \frac{x - x_{min}}{x_{max} - x_{min}}$$

In [None]:
xs = df["NOX"]
ys = df["TAX"]
plt.scatter(xs, ys, color='b')
plt.xlabel("NOX")
plt.ylabel("TAX")
plt.show()

xs = df["NOX"]
xmin = np.min(xs)
xmax = np.max(xs)
xs = [(x - xmin) / (xmax - xmin) for x in xs]

ys = df["TAX"]
ymin = np.min(ys)
ymax = np.max(ys)
ys = [(y - ymin) / (ymax - ymin) for y in ys]

plt.scatter(xs, ys, color='r')
plt.xlabel("NOX Min-Max Scaled")
plt.ylabel("TAX Min-Max Scaled");

In [None]:
#Verificamos el histógrama de una de las variables reescaladas

plt.figure(figsize=(12,4))
ax1 = plt.subplot(121)
ax1.set_title("Variable escalada Min-Max")
ax1.hist(ys,bins=30);

ax2 = plt.subplot(122)
ax2.set_title("Variable sin reescalar")
ax2.hist(df["TAX"],bins=30);

Esta tipo de normalización también se puede lograr usando scikit-learn:

In [None]:
scaler = preprocessing.MinMaxScaler()

xs = scaler.fit_transform(df[["NOX"]])
ys = scaler.fit_transform(df[["TAX"]])

plt.scatter(xs, ys, color='r')
plt.xlabel("NOX Min-Max Scaled")
plt.ylabel("TAX Min-Max Scaled");

## Otras formas de normalizar

En algunos casos, normalizamos los datos dividiendo por algún tipo de sumatoria. Por ejemplo, es habitual normalizar diviendo por la sumatoria del valor absoluto x (norma L1):

$|X| = \sum_{}{|x|}$

o por la raíz de la suma de los cuadrados de x (norma L2)

$||X|| = \sqrt{\sum_{}{x^2}}$. 

Aplicaremos una normalización usando la norma L1 y L2 y grafiquen como lo hicimos con los otros métodos de normalización.

Luego, repetiremos el ejercicio, esta vez usando la librería de [scikit-learn](http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-normalization).

In [None]:
xs = df["NOX"]
ys = df["TAX"]
plt.scatter(xs, ys, color='b')
plt.xlabel("NOX")
plt.ylabel("TAX")
plt.show()

xs = df["NOX"]
ys = df["TAX"]

# Normalizar xs e ys con norma L1

df["xs_l1"] = df["NOX"]/np.sum(np.abs(df["NOX"]))
df["ys_l1"] = df["TAX"]/np.sum(np.abs(df["TAX"]))

# La escala del scatterplot se ve demasiado pequeña con l1 y es imposible de visualizar.
# Se puede probar multiplicar cada vector por 100 para verificar que la forma de los datos permanece inalterada.

plt.scatter(df["xs_l1"]*100, df["ys_l1"]*100, color='r')

plt.xlabel("NOX Norma L1")
plt.ylabel("TAX Norma L1");

In [None]:
#Verificamos el histógrama de una de las variables reescaladas

plt.figure(figsize=(12,4))
ax1 = plt.subplot(121)
ax1.set_title("Variable escalada con norma L1")
ax1.hist(df["xs_l1"],bins=30);

ax2 = plt.subplot(122)
ax2.set_title("Variable sin reescalar")
ax2.hist(df["NOX"],bins=30);

In [None]:
xs = df["NOX"]
ys = df["TAX"]

# Normalizar xs e ys con norma L2

xs_l2 = df["NOX"]/np.sqrt(np.sum(df["NOX"]**2))
ys_l2 = df["TAX"]/np.sqrt(np.sum(df["TAX"]**2))

plt.scatter(xs_l2, ys_l2, color='g')
plt.xlabel("NOX Norma L2")
plt.ylabel("TAX Norma L2");

In [None]:
#Verificamos el histógrama de una de las variables reescaladas.

plt.figure(figsize=(12,4))
ax1 = plt.subplot(121)
ax1.set_title("Variable escalada con norma L2")
ax1.hist(ys_l2,bins=30);

ax2 = plt.subplot(122)
ax2.set_title("Variable sin reescalar")
ax2.hist(df["TAX"],bins=30);

Esta tipo de normalización también se puede lograr usando scikit-learn:

In [None]:
# Usando preprocessing.normalize sobre xs y ys

X = df[["TAX","NOX"]]

X = preprocessing.normalize(X, norm='l2', axis=0)
plt.scatter(X[:,1], X[:,0], color='r')
plt.xlabel("NOX Norma L2")
plt.ylabel("TAX Norma L2");

In [None]:
# Usando preprocessing.normalize sobre xs y ys

X = df[["TAX","NOX"]]

X = preprocessing.normalize(X, norm='l1', axis=0)
plt.scatter(X[:,1]*100, X[:,0]*100, color='r')
plt.xlabel("NOX Norma L1")
plt.ylabel("TAX Norma L1");