## Normalización de las variables o características

Discutimos previamente que la magnitud o rango de valores en una variable o característica es un factor importante que debemos tener en cuenta cuando estamos construyendo modelos de aprendizaje de máquina o machine learning. Brevemente:


### La magnitud de las variables importa porque:

- Los coeficientes de regresión de los modelos lineales están influenciados directamente por la magnitud de las variables
- Las variables con mayor escala / mayor rango de valores dominan sobre aquellas con escala más pequeña / menor rango de valores .
- El descenso por gradiente convergerá mucho más rápido si todas las variables tienen rangos de valores similares.
- El escalamiento de las variables ayuda a reducir el tiempo para encontrar los vectores de soporte en las Máquinas de vectores de soporte (SVMs) 
- De igual forma, muchos de los algoritmos usan medidas de distancia entre dos puntos - por ejemplo la distancia euclidiana, KNeighbors or SVMs-  y son sensibles a la escala de las variables. Si una de las variables tiene valores grandes, entonces la distancia será influenciada de gran manera por esta variable. 
- Algunos algoritmos, como el Análisis de Componentes Principales - PCA  requieren que las variables estén centradas alrededor de 0.
- Las redes neuronales dan diferente importancia a una característica o a otra en función de la escala que tengan sus valores (además de poder suponer otras dificultades al entrenamiento)

### Los modelos de machine learning que se ven afectados por la escala de las variables son:

- Regresión Lineal y Logística 
- Redes Neuronales
- Máquinas de vectores de soporte (SVMs)
- K vecinos más cercanos (KNN o KNeighbors)
- Agrupamiento K-medias
- Análisis discriminante lineal (LDA)
- Análisis de Componentes Principales (PCA)


### Normalización de las variables


Discutimos previamente que para mejorar el desempeño de muchos algoritmos de Machine Learning, es necesario normalizar las variables de entrada al algoritmo **antes del entrenamiento del modelo **.

El escalamiento de las variables es un paso importante del pre-procesamiento de datos. Las variables pueden tener cualquier valor con diferentes escalas, y el normalizar permite estandarizar estos rangos de valores independientes.
 
Por lo tanto **normalizar**, en este contexto, significa comprimir o extender los valores de una variable para que estén en un rango definido. 

Hay varios métodos de normalización , las cuales discutiremos en esta sección: 

- Escalamiento estándar (Standard Scaler)
- Escalamiento por la media 
- Escalamiento por valores mínimo y máximo - MinMaxScaling
- Escalamiento por valor máximo - MaxAbsScaling
- Escalamiento por cuantiles y mediana - RobustScaling
- Normalización vector unitario


En este notebook discutimos el  **Escalamiento por el Máximo Valor Absoluto**.

=================================================================

## Escalamiento por el Máximo Valor Absoluto - MaxAbsScaling

El Escalamiento por el Máximo Valor Absoluto, normaliza los datos al valor máximo:

X_scaled = X / X.max

El resultado de la transformación es una distribución sus valores en el rango de -1 a 1. La media de la variable NO está centrada alrededor del zero y la desviación estándar varía para cada una de las variables.


Scikit-learn suggests que este transformador se debe usar para datos que están centrados alrededor de zero, o por datos que están dispersos.

Para resumir, MaxAbsScaling:

- NO centraliza la media alrededor de 0 ( pero es recomendable centrarla usando otro método)
- la varianza es diferente en cada variable
- puede cambiar forma de la distribución original 
- sensible a los valores extremos


## En este demo

Aprenderás cómo normalizar las variables a su valor máximo utilizando los datos del Boston House Prices (Precio de casas en Boston) disponible en Scikit-learn


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# conjunto de datos para el demo
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# el escalador - para escalamiento MaxAbsScaling
# con centralización
from sklearn.preprocessing import MaxAbsScaler, StandardScaler

In [3]:
# cargar datos del Boston House price de sklearn
boston_dataset = load_boston()

# crea un dataframe con las variables independientes
data = pd.DataFrame(boston_dataset.data,
                      columns=boston_dataset.feature_names)

# añadir la variable target
data['MEDV'] = boston_dataset.target

data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [4]:
# Información acerca del conjunto de datos
# Boston House Prices: Precios de casas en Boston

# El objectivo es predecir 
# "el valor mediano de las casas en Boston" 
# esta es la columna MEDV en los datos

# el resto de las variables representan características
# acerca de las casas y de los vencidarios

#imprimir la descripción de los datos
print(boston_dataset.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [5]:
# Miremos los pamámetros estadísticos principales de cada
# variable para darnos una idea del rango de valores

data.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


Diferentes variables tienen diferentes rangos de valores representados por la media (mean), max, min y desviación estandar, etc. En otras palabras, tienen diferentes magnitudes o escalas. Pon atención como en este demo, **los valores máximos varían significativamente para cada variable**


Cuando estandarizamos el conjunto de datos con esta técnica, primero necesitamos indentificar los valores máximos de las variables. Estos parámetros necesitan ser aprendidos en el set de entrenamiento, guardados y luego usados para escalar el set de prueba y cualquier datos futuros. Por lo tanto, primero dividiremos los datos en los sets de entrenamiento y prueba, como hemos hecho a lo largo del curso.


In [6]:
# separemos los datos en los sets de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data.drop('MEDV', axis=1),
                                                    data['MEDV'],
                                                    test_size=0.3,
                                                    random_state=0)

X_train.shape, X_test.shap

AttributeError: 'DataFrame' object has no attribute 'shap'

### MaxAbsScaling

El MaxAbsScaler de scikit-learn re-escala las variables a su valor máximo, de manera que al nuevo valor máximo es 1. 

In [None]:
# inicializa el escalador
scaler = MaxAbsScaler()

# entrena el escalador en el set de entrenamiento
# aprende los parámetros 
scaler.fit(X_train)

# transforma los sets de entrenamiento y prueba 
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# el escalador guarda los valores máximos de las variables
# aprendidas del set de entrenamiento
scaler.max_abs_

In [None]:
# ahora transformemos los arreglos NumPy resultantes 
# en dataframes para el resto del demo

X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns)

In [None]:
# miremos el set de entrenamiento original:
# en particular los valores máximos
# Aquí usamos np.round para reducir el número 
# de decimalaes a 1

np.round(X_train.describe(), 1)

In [None]:
# miremos el set de entrenamiento normalizado:
# en particular los valores máximos
# Aquí usamos np.round para reducir el número 
# de decimalaes a 1 

np.round(X_train_scaled.describe(), 1)

Los valores máximos están re-escalados al valor de 1. Cualquier otro parámetro, cambia dependiendo de las variables.

In [None]:
# comparemos la distribución de las variables 
# antes y después del escalamiento

fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12, 5))

# antes de la normalización
ax1.set_title('Antes del escalamiento')
sns.kdeplot(X_train['RM'], ax=ax1)
sns.kdeplot(X_train['LSTAT'], ax=ax1)
sns.kdeplot(X_train['CRIM'], ax=ax1)

# después de la normalización
ax2.set_title('Después del escalamiento Valor Absoluto Máximo')
sns.kdeplot(X_train_scaled['RM'], ax=ax2)
sns.kdeplot(X_train_scaled['LSTAT'], ax=ax2)
sns.kdeplot(X_train_scaled['CRIM'], ax=ax2)
plt.show()

In [None]:
# comparemos la distribución de las variables 
# antes y después del escalamiento

fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12, 5))

# antes de la normalización
ax1.set_title('Antes del escalamiento')
sns.kdeplot(X_train['AGE'], ax=ax1)
sns.kdeplot(X_train['DIS'], ax=ax1)
sns.kdeplot(X_train['NOX'], ax=ax1)

# después de la normalización
ax2.set_title('Después del escalamiento Valor Absoluto Máximo')
sns.kdeplot(X_train_scaled['AGE'], ax=ax2)
sns.kdeplot(X_train_scaled['DIS'], ax=ax2)
sns.kdeplot(X_train_scaled['NOX'], ax=ax2)
plt.show()

## Centralizar + MaxAbsScaling

Podemos centralizar las distribuciones alrededor de zero y luego escalarlas por su valor máximo, como recomienda Scikit-learn. Lo podemos hacer combiando dos de los escaladores.

In [None]:
# El StandardScaler remueve la media 
# pero sin dividir por la desviación estándar
scaler_mean = StandardScaler(with_mean=True, with_std=False)

# usa el MaxAbsScaler normalmente
scaler_maxabs = MaxAbsScaler()

# entrena los escaladores en el set de entrenamiento
# aprende los parámetros 

scaler_mean.fit(X_train)
scaler_maxabs.fit(X_train)

# transforma los sets de entrenamiento y prueba 
X_train_scaled = scaler_maxabs.transform(scaler_mean.transform(X_train))
X_test_scaled = scaler_maxabs.transform(scaler_mean.transform(X_test))

In [None]:
# ahora transformemos los arreglos NumPy resultantes 
# en dataframes para el resto del demo
X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns)

In [None]:
# comparemos la distribución de las variables 
# antes y después del escalamiento

fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12, 5))

# antes de la normalización
ax1.set_title('Antes del escalamiento')
sns.kdeplot(X_train['AGE'], ax=ax1)
sns.kdeplot(X_train['DIS'], ax=ax1)
sns.kdeplot(X_train['NOX'], ax=ax1)

# después de la normalización
ax2.set_title('Después del escalamiento Valor Absoluto Máximo')
sns.kdeplot(X_train_scaled['AGE'], ax=ax2)
sns.kdeplot(X_train_scaled['DIS'], ax=ax2)
sns.kdeplot(X_train_scaled['NOX'], ax=ax2)
plt.show()

Vemos que el resultado es un efecto similar a la normalización por la media, pero en este caso, los valores varían en un rango más pequeño. 