## Normalización de las variables

Discutimos previamente que la magnitud or rango de valores en una variables es una consideración importante cuando estamos construyendo modelos de machine learning. Brevemente:


### La magnitud de las variables importa porque:

- Los coeficientes de regresión de los modelos lineales estan influenciados directamente por la magnitud de las variables
- Las variables con mayor escala / mayor rango de valores dominan sobre aquellas con escala más pequeña / menor rango de valores .
- El algoritmo del Gradiente Descendente converge más rápido cuando las variables tienen rangos de valores similares.
- El escalamiento de las variables ayuda a reducir el tiempo para encontrar los vectores de soporte en las Máquinas de vectores de soporte (SVMs)
- La distancia euclidiana son sensibles a la escala de las variables
- Algunos algoritmos, como el Análisis de Componentes Principales - PCA  requieren que las variables esten centradas alrededor de 0.


### Los modelos de machine learning que se ven afectados por la escala de las variables son:

- Regresión Lineal y Logística 
- Redes Neuronales
- Máquinas de vectores de soporte (SVMs)
- K vecinos más cercanos (KNN)
- Agrupamiento K-medias
- Análisis discriminante lineal (LDA)
- Análisis de Componentes Principales (PCA)


### Normalización de las variables

Discutimos previamente que para que funcionen mejor muchos algoritmos de Machine Learning usados en Data Science, hay que normalizar las variables de entrada al algoritmo, es decir, **antes del entrenamiento del modelo de aprendizaje de máquina (machine learning)**.

**Normalizar** significa, en este caso, comprimir o extender los valores de la variable para que estén en un rango definido. 

Hay varios métodos de normalización , las cuales discutiremos en esta sección: 


- Escalado estándar (Standard Scaler)
- Normalización promedio 
- Escalado valores mínimumo y máximo - MinMaxScaling
- Escalado valor máximo - MaxAbsScaling
- Escalado cuantiles y mediana - RobustScaling
- Normalización vector de unidad


En este notebook discutiremos  **Escalado estándar**.

=================================================================

## Escalado estándar

En la técnica conocida como escalado estándar, a cada dato se le resta la media de la variable y se le divide por la desviación estándar. Con esta ténnica los datos quedan centrados alredor de zero y su varianza es igual a 1. 

**z = (x - x_media) /  std**

El resultado de la transformación anterior es  **z**, conocido como los puntaje z ( ó z-score en inglés) , y estos representan la distancia de cada observación con respecto a la media, expresándolas en unidades de desviación estándar.

Un puntaje z especifica la posición de la observación en una distribución (en unidades de desviación estándar) respecto a la media de la distribución. El signo de el puntaje z (+ ó - ) indican si la observación está por encima (+) o por debajo ( - ) de la media.

La forma de una distribución estandarizada  (o normalizada a su puntaje z) es idéntica que la distribución de la variable original. Si la distribución de la variable es normal, la distribución estandarizada será normal. Pero si la distribución original está sesgada, la distribución estandarizada también estará sesgada. En otras palabras,  **estandarizando una variable no normaliza la distribución de los datos** y si este es el resultado deseado, debemos implementar alguna de las técnias que discutimos en la sección 7 de este curso.

Para resumir, el escalado estándar:

- centraliza la media alrededor de 0
- escala la varianza de la variable a la unidad
- prepresva la forma original de la distribución 
- los valores mínimos y máximos de la variable varían.
- preserva los valores extremos

Este tipo de escalamiento es apropiada para los algoritmos que requiren las variables centradas alrededor de cero.

## En este demo

Aprenderás como estandarizar variables utilizando los datos del Boston House Prices disponible en Scikit-learn

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# conjunto de datos para el demo
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# clase para estandarización 
from sklearn.preprocessing import StandardScaler

In [None]:
# cargar datos del Boston House price de sklearn
boston_dataset = load_boston()

# crea un dataframe con las variables independientes
data = pd.DataFrame(boston_dataset.data,
                      columns=boston_dataset.feature_names)

# añadir la variable target
data['MEDV'] = boston_dataset.target

data.head()

In [None]:
# Información acerca del conjunto de datos
# Boston House Prices: Precios de casas en Boston

# El objectivo es predecir 
# "el valor mediano de las casas en Boston" 
# esta es la columna MEDV en los datos

# el resto de las variables representan características
# acerca de las casas y de los vencidarios

#imprimir la descripción de los datos
print(boston_dataset.DESCR)

In [None]:
# Miremos los pamámetros estadísticos principales de cada
# variable para darnos una idea del rango de valores

data.describe()

Diferentes variables tienen diferentes rangos de valores representados por la media (mean), max, min y desviación estandar, etc. En otras palabras, tienen diferentes magnitudes o escalas. Pon atención como en este demo,   **los valores promedio no están centrados alrededor de zero y la desviación estadar no esta escalada al valor unitario**.

Cuando estandarizamos el conjunto de datos, primero necesitamos indentificar la media o la desviación estándar de las variables. Estos parámetros necesitan ser aprendidos en el set de entrenamiento, guardados y luego usados para escalar el set de prueba y cualquier datos futuros. Por lo tanto, primero dividiremos los datos en los sets de entrenamiento y prueba, como hemos hecho a lo largo del curso.

In [None]:
# separaemos los datos en los sets de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data.drop('MEDV', axis=1),
                                                    data['MEDV'],
                                                    test_size=0.3,
                                                    random_state=0)

X_train.shape, X_test.shape

### Estandarización

La clase StandardScaler de scikit-learn estándariza los datos eliminando la media y escalándolos de forma que su varianza sea igual a 1.  Además, aprende y guarda los parámetros que se necesitan para la estandarización. Por lo tanto, esta clase es una excelente selección cuando queremos aplicar esta ténica.

Una de las desventajas es que no puedes seleccionar directamente cual variable escalar; de hecho, escala todas las variables en los datos, y returna un arreglo NumPy, sin los nombres de las variables.

In [None]:
# Estandarización: con el StandardScaler de sklearn

# inicializa el escalador
scaler = StandardScaler()

# entrena el escalador en el set de entrenamiento
# aprende los parámetros 
scaler.fit(X_train)

# transforma los sets de entrenamiento y prueba 
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# el escalador guarda la media de las variables
# aprendidas del set de entrenamiento

scaler.mean_

In [None]:
# el escalador guarda la desviación estándar
# de las variables aprendidas del set de entrenamiento
scaler.scale_

In [None]:
# ahora transformemos los arreglos NumPy resultantes 
# en dataframes para el resto del demo

X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns)

In [None]:
# miremos el set de entrenamiento original:
# media y desviación estándar 
# Aqui usamos np.round para reducir el número 
# de decimalaes a 1 
np.round(X_train.describe(), 1)

In [None]:
# miremos el set de entrenamiento normalizado:
# media y desviación estándar 
# Aqui usamos np.round para reducir el número 
# de decimalaes a 1 

np.round(X_train_scaled.describe(), 1)

Como era de esperarse, la media de cada variable, que originalmente no estaban centradas alrededor de zero, ahora si lo están y la desviación estandar es 1.
Fíjate, que sin embargo, los valores mínimos y máximos varían de acuerdo al rango de valores originales en las variables y es altamente influenciado por la presencia de valores extremos.


In [None]:
# comparemos la distribución de las variables 
# antes y despues del escalamiento
fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12, 5))

# antes de la normalización
ax1.set_title('Antes del escalamiento')
sns.kdeplot(X_train['RM'], ax=ax1)
sns.kdeplot(X_train['LSTAT'], ax=ax1)
sns.kdeplot(X_train['CRIM'], ax=ax1)

# después de la normalización
ax2.set_title('Después del escalamiento estándar')
sns.kdeplot(X_train_scaled['RM'], ax=ax2)
sns.kdeplot(X_train_scaled['LSTAT'], ax=ax2)
sns.kdeplot(X_train_scaled['CRIM'], ax=ax2)
plt.show()

Fíjate en las gráficas anteriores como la estandarización centra las distribuciones alrededor de zero, pero preserva la distribución original. El rango de valores no es idéntico, pero es más o menos homogéneo en las variables. 

Ahora, pon atención a las gráficas siguientes, algo interesante sucede:

In [None]:
# comparemos la distribución de las variables 
# antes y despues del escalamiento

fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12, 5))

# antes de la normalización
ax1.set_title('Antes del escalamiento')
sns.kdeplot(X_train['AGE'], ax=ax1)
sns.kdeplot(X_train['DIS'], ax=ax1)
sns.kdeplot(X_train['NOX'], ax=ax1)


# después de la normalización
ax2.set_title('Después del escalamiento estándar')
sns.kdeplot(X_train_scaled['AGE'], ax=ax2)
sns.kdeplot(X_train_scaled['DIS'], ax=ax2)
sns.kdeplot(X_train_scaled['NOX'], ax=ax2)
plt.show()

In [None]:
X_train['AGE'].min(), X_train['AGE'].max(), 

En los gráficos anteriores, podemos ver, que al normalizar, la variable NOX, que tenía una escala de valores pequeña [0-1], y la variable AGE que tenía valores entre [0-100], ahora  están distribuidas en un rango más homogéneo de valores. De esta manera, ahora  podemos compararlas directamente en una gráfica, mientras que antes hubiése sido muy difícil. En un modelo lineal, AGE dominaría el resultado, pero luego luego de la normalización, ambas variables tienen la posiblidad de influenciar el resultado (asumiendo que ambas tienen poder predictivo).  

In [None]:
plt.scatter(X_train['AGE'], X_train['NOX'])

In [None]:
plt.scatter(X_train_scaled['AGE'], X_train_scaled['NOX'])