## Escala de variables

### Que tan importante es la magnitud de una variable?

En modelos de regresión lineal, la escala o magnitud de una variable es importante. Los modelos lineales de la forma **y = w x + b**, donde el coeficiente de regresion w representa el cambio esperado en y por una unidad de cambio in x ( el predictor). Por lo tanto, la magnitud de w es parcialmente determinada por la magniuded de las unidades en x. Si x es una variable de distancia, simplemente cambiando la escala de kilometros a millas causara un cambio en la magnitud del coeficiente. 

Adicionalmente, en situaciones donde se busca estimar y utilizando multiples predictores x1, x2, ...xn, los predictores la escala de valores mas grande dominarán sobre aquellos que tengan un rango más pequeño.

Por otro lado, el algoritmo del descenso de gradiente converge más rápido cuando todos los predictores (x1 a xn) tienen una escala de valores similar, por lo tanto tener variables con magnitudes similares es tambien bastante util para las Redes Neuronales.

Con las Máquinas de Soporte Vectorial o Máquinas de Vectores de Soporte (Support Vector Machines SVM), la normalización de la escala de las variables puede reducir el tiempo requerido para encontrar los vectores de soporte. 

Finalmente, métodos que usan Distancias Euclidianas o distancias en general, tambien son sensibles a las variaciones en la magnitud o escala de los predictores, ya que intrinsicamente afectan el cálculo de las distancias. Por lo tanto, el escalamiento de las variables es necesario para métodos que utilicen distancias como   K-vecinos más cercanos o K-NN (K Nearest Neighbours) y segmentos   k-means.

En resumen:

#### La magnitud o escala de las variables es importance porque:

- El coeficiente de regresión es directamente influenciado por la escala de la variable.
- Variables con mayor magnitud/rango de valores dominan sobre aquellas con un rango menor.
- El algoritmo del descenso de gradiente converge cuando las variables tienen escalas similares.
- El escalamiento de las variables ayuda a reducir el tiempo para encontrar los vectores soporte para SVMs.
- Medidas de distancia como la Euclidiana son sensibles a las escalas de magnitud de las variables.

#### Los modelos de machine learning que se afectan más por la escala o magnitud de las variables son:

- Regresiones Lineales y Logísticas
- Redes Neuronales 
- Máquinas de Soporte Vectorial
- KNN
- Agrupación K-means 
- Análisis Discriminante Lineal (LDA)
- Análisis Principales Componenentes (PCA)

#### Los modelos de machine learning menos sensibles a  la escala o magnitud de las variables son aquellos basados en árboles:

- Árboles de Clasificación y Regresión. 
- Bosques Aleatorios (Random Forest) 
- Árboles de Potenciación del gradiente

===================================================================================================

## En este Demo

Vamos a estudiar el efector de la magnitud de las variables en el desempeño de los diferentes modelos de machine learning.

Usaremos los datos del Titanic.

- Para descargar los datos por favor referise a la lección **Datasets** en la **Sección 1** del curso.

In [1]:
import pandas as pd
import numpy as np

# importar varios modelos de machine learning 
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier

# para escalar las variables
from sklearn.preprocessing import MinMaxScaler

# para evaluar el desempeño y separar datos en entrenamiento y prueba
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split

### Cargar los datos con las variables numéricas únicamente

In [5]:
# Cargar las variables numéricas del Titanic

data = pd.read_csv('../titanic.csv',
                   usecols=['pclass', 'age', 'fare', 'survived'])
data.head()

Unnamed: 0,pclass,survived,age,fare
0,1,1,29.0,211.3375
1,1,1,0.9167,151.55
2,1,0,2.0,151.55
3,1,0,30.0,151.55
4,1,0,25.0,151.55


In [6]:
# miremos los valores de cada una de las variables
# para darnos una idea de la mgnitud/escala de las variables
data.describe()

Unnamed: 0,pclass,survived,age,fare
count,1309.0,1309.0,1046.0,1308.0
mean,2.294882,0.381971,29.881135,33.295479
std,0.837836,0.486055,14.4135,51.758668
min,1.0,0.0,0.1667,0.0
25%,2.0,0.0,21.0,7.8958
50%,3.0,0.0,28.0,14.4542
75%,3.0,1.0,39.0,31.275
max,3.0,1.0,80.0,512.3292


Podemos ver que la variable fare varia entre 0 y 512, age entre 0 y 80, y class entre 0 y 3. Las variables tienen claramente diferentes escalas de magnitud.

In [10]:
# calculemos el rango

for col in ['pclass', 'age', 'fare']:
    print('rango:',col, data[col].max() - data[col].min())

rango: pclass 2
rango: age 79.8333
rango: fare 512.3292


El rango de valores que puede tomar cada una de las variables es diferente.

In [12]:
#  separemos los datos en entrenamiento y prueba
# los datos del titanic contienen datos ausentes
# para este demo, los sustituiremos con 0s.

X_train, X_test, y_train, y_test = train_test_split(
    data[['pclass', 'age', 'fare']].fillna(0),
    data.survived,
    test_size=0.3,
    random_state=0)

X_train.shape, X_test.shape

((916, 3), (393, 3))

### Escalamiento de las variables

Para este demo, normalizaremos las variables entre 0 y 1, usando  el MinMaxScaler de scikit-learn. Para aprender más acerca de este escalamiento por favor visita la página de internet de Scikit-Learn [website](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)

La transformación: 

X_rescaled = X - X.min() / (X.max - X.min()

y para transformar de vuelta las variables normalizadas a su escala original:

X = X_rescaled * (max - min) + min

**Hay una sección dedicada al escalamiento de las variables más adelante en el curso, donde explicaremos esta y otras técnicas de normalización en detalle**. Por ahora, continuemos con el demo.

In [13]:
# escalemos las variables entre 0 y 1.

# scaler
scaler = MinMaxScaler()

# ajustar el scaler
scaler.fit(X_train)

# re escaler los datos
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [14]:
#vamos los datos normalizados

print('Media: ', X_train_scaled.mean(axis=0))
print('Desviación Estandard: ', X_train_scaled.std(axis=0))
print('Valor Mínimo: ', X_train_scaled.min(axis=0))
print('Valor Máximo: ', X_train_scaled.max(axis=0))

Media:  [0.64628821 0.33048359 0.06349833]
Desviación Estandard:  [0.42105785 0.23332045 0.09250036]
Valor Mínimo:  [0. 0. 0.]
Valor Máximo:  [1. 1. 1.]


Ahora, los valores máximos de todas las variables es 1, y el valor mínimo es 0, como era de esperarse después de la normalización. Ahora todas las variables tienen una variable similar.

### Regresión Logística 

Evaluemos el efecto del escalamiento de las variables en una regresión logística.

In [15]:
# modelo construido con variables sin escalar

# Definición del Modelo
logit = LogisticRegression(
    random_state=44,
    C=1000,  # valor alto para prevenir regularización
    solver='lbfgs')

# entrenamiento del modelo 
logit.fit(X_train, y_train)

# evaluación del desempeño 
print('Segmento de entrenamiento')
pred = logit.predict_proba(X_train)
print('Regresión logística roc-auc: {}'.format(
    roc_auc_score(y_train, pred[:, 1])))
print('Segmento de prueba')
pred = logit.predict_proba(X_test)
print('Regresión logística roc-auc: {}'.format(
    roc_auc_score(y_test, pred[:, 1])))

Segmento de entrenamiento
Regresión logística roc-auc: 0.6793181006244372
Segmento de prueba
Regresión logística roc-auc: 0.7175488081411426


In [16]:
# miremos los  coeficientes
logit.coef_

array([[-0.71428242, -0.00923013,  0.00425235]])

In [17]:
# modelo construido con variables normalizadas

# Definición del Modelo
logit = LogisticRegression(
    random_state=44,
    C=1000,  # valor alto para prevenir regularización
    solver='lbfgs')

# entrenamiento del modelo con los datos re-escalados
logit.fit(X_train_scaled, y_train)

# evaluación del desempeño 
print('Segmento de entrenamiento')
pred = logit.predict_proba(X_train)
print('Regresión logística roc-auc: {}'.format(
    roc_auc_score(y_train, pred[:, 1])))
print('Segmento de prueba')
pred = logit.predict_proba(X_test)
print('Regresión logística roc-auc: {}'.format(
    roc_auc_score(y_test, pred[:, 1])))


# evaluación del desempeño 
print('Segmento de entrenamiento')
pred = logit.predict_proba(X_train_scaled)
print('Regresión logística roc-auc: {}'.format(
    roc_auc_score(y_train, pred[:, 1])))
print('Segmento de prueba')
pred = logit.predict_proba(X_test_scaled)
print('Regresión logística roc-auc: {}'.format(
    roc_auc_score(y_test, pred[:, 1])))

Segmento de entrenamiento
Regresión logística roc-auc: 0.6475025032832007
Segmento de prueba
Regresión logística roc-auc: 0.7138570875504674
Segmento de entrenamiento
Regresión logística roc-auc: 0.6793281640744896
Segmento de prueba
Regresión logística roc-auc: 0.7175488081411426


In [18]:
logit.coef_

array([[-1.42875872, -0.68293349,  2.17646757]])

Vemos que el desempeño de la regresión logística no cambio cuando usamos los datos normalizados ( comparando el roc-auc para el segmento de prueba y entrenamiento para modelos con y sin variables escaladas).

Sin embargo, cuando vemos los coeficientes vemos una gran diferencia en sus valores. Esto es porque la magnitud de las variables estaba afectando los coeficientes. Despues del escalamiento, todas las 3 variables tienen relativamente el mismo efecto (coeficientes) con respecto a 'survival', mientras que sin el escalamiento, estariamos más inclinados a pensar que pclass dominaba en la predicción de la tasa de supervivencia survival 


### Máquinas de Soporte Vectorial SVMs

In [19]:
# Modelo con variables sin normalizar

# definición del modelo
SVM_model = SVC(random_state=44, probability=True, gamma='auto')

#  entrenamiento del modelo
SVM_model.fit(X_train, y_train)

# evaluación del desempeño
print('Segmento de entrenamiento')
pred = SVM_model.predict_proba(X_train)
print('SVM roc-auc: {}'.format(roc_auc_score(y_train, pred[:, 1])))
print('Segmento de prueba')
pred = SVM_model.predict_proba(X_test)
print('SVM roc-auc: {}'.format(roc_auc_score(y_test, pred[:, 1])))

Segmento de entrenamiento
SVM roc-auc: 0.8824161337231242
Segmento de prueba
SVM roc-auc: 0.6618135058901611


In [20]:
# Modelo con variables normalizadas

# definición del modelo
SVM_model = SVC(random_state=44, probability=True, gamma='auto')

# entrenamiento del modelo
SVM_model.fit(X_train_scaled, y_train)

# evaluación del desempeño
print('Segmento de entrenamiento')
pred = SVM_model.predict_proba(X_train_scaled)
print('SVM roc-auc: {}'.format(roc_auc_score(y_train, pred[:, 1])))
print('Segmento de prueba')
pred = SVM_model.predict_proba(X_test_scaled)
print('SVM roc-auc: {}'.format(roc_auc_score(y_test, pred[:, 1])))

Segmento de entrenamiento
SVM roc-auc: 0.6781306135182325
Segmento de prueba
SVM roc-auc: 0.6841159227918809


El escalamiento de las variables mejoró el desempeño de SVMs . Luego de la normalización el modelo no está sobre-ajustando los datos de entrenamiento ( comparando el roc-auc 0.901 para el modelo sin escalar vs el roc-auc de 0.704 con normalización). Adicionamente, el roc-auc para el segmento de prueba se incrementó también (0.67 vs 0.69).

### Redes Neuronales 

In [22]:
# Modelo con variables sin normalizar

# definición del modelo
NN_model = MLPClassifier(random_state=44, solver='sgd')

# entrenamiento del modelo
NN_model.fit(X_train, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = NN_model.predict_proba(X_train)
print('Red Neuronal roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Segmento de prueba')
pred = NN_model.predict_proba(X_test)
print('Red Neuronal roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))

Segmento de entrenamiento
Red Neuronal roc-auc: 0.6766814767106608
Segmento de prueba
Red Neuronal roc-auc: 0.7161246612466123


In [24]:
# Modelo con variables normalizadas

# definición del modelo
NN_model = MLPClassifier(random_state=44, solver='sgd')

# entrenamiento del model
NN_model.fit(X_train_scaled, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = NN_model.predict_proba(X_train_scaled)
print('Red Neuronal roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Segmento de prueba')
pred = NN_model.predict_proba(X_test_scaled)
print('Red Neuronal roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))



Segmento de entrenamiento
Red Neuronal roc-auc: 0.6754939896044562
Segmento de prueba
Red Neuronal roc-auc: 0.7080913666279519


El escalamiento de las variables mejoró el desempeño de las redes neuronales para el segmento de entranamiento y prueba (comparando  roc-auc para embos modelos). El roc-auc incremento en ambos segementos cuando el modelo se entrenó con las variables normalizadas.

### K-vecinos cercanos (KNN) 

In [29]:
# Modelo con variables sin normalizar

# definición del modelo
KNN = KNeighborsClassifier(n_neighbors=3)

# entrenamiento del model
KNN.fit(X_train, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = KNN.predict_proba(X_train)
print('KNN roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Segmento de prueba')
pred = KNN.predict_proba(X_test)
print('KNN roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))


Segmento de entrenamiento
KNN roc-auc: 0.855810887646612
Segmento de prueba
KNN roc-auc: 0.6655467064874732


In [28]:
# Modelo con variables normalizadas

# definición del modelo
KNN = KNeighborsClassifier(n_neighbors=3)

# entrenamiento del model
KNN.fit(X_train_scaled, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = KNN.predict_proba(X_train_scaled)
print('KNN roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Segmento de prueba')
pred = KNN.predict_proba(X_test_scaled)
print('KNN roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))



Segmento de entrenamiento
KNN roc-auc: 0.8600954015064985
Segmento de prueba
KNN roc-auc: 0.6998644986449865


Podemos ver que para KNN el escalamiento tambien ha mejorado el desempeño del modelo. El modelo construido con las variables normalizadas tiene una mejor generalización, ya que el roc-auc es mas alto en el segmento de prueba (0.70 vs 0.62 para el modelo sin escalamiento).

Ambos modelos KNN estan sobre-ajustando el segmento de entrenamiento. Esto es un indicativo que es necesario cambiar los parámetros del modelo o utilizar menos variables para intentar mininzar el sobre-ajuste, pero esta por fuera del alcance de este demo.


### Random Forests

In [30]:
# Modelo con variables sin normalizar

# definición del modelo
rf = RandomForestClassifier(n_estimators=200, random_state=39)

# entrenamiento del model
rf.fit(X_train, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = rf.predict_proba(X_train)
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_train, pred[:, 1])))
print('Segmento de prueba')
pred = rf.predict_proba(X_test)
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_test, pred[:, 1])))

Segmento de entrenamiento
Random Forests roc-auc: 0.9866810238554083
Segmento de prueba
Random Forests roc-auc: 0.7326751838946961


In [31]:
# Modelo con variables normalizadas

# definición del modelo
rf = RandomForestClassifier(n_estimators=200, random_state=39)

# entrenamiento del model
rf.fit(X_train_scaled, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = rf.predict_proba(X_train_scaled)
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Segmento de prueba')
pred = rf.predict_proba(X_test_scaled)
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))

Segmento de entrenamiento
Random Forests roc-auc: 0.9867917218059866
Segmento de prueba
Random Forests roc-auc: 0.7312510370001659


Como era de esperarse, el desempeño de Random Forest fue el mismo independientemente de la normalización de las variables. Este modelo en particular, esta sobre-ajustando el segemento de entrenamiento. Por lo tanto es necesario ajustar los parámetros del modelo para mejorar la generalización, sin embargo esto esta por fuera del alcance de este demo.

In [32]:
# train adaboost on non-scaled features

# call the model
ada = AdaBoostClassifier(n_estimators=200, random_state=44)

# entrenamiento del model
ada.fit(X_train, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = ada.predict_proba(X_train)
print('AdaBoost roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Test set')
pred = ada.predict_proba(X_test)
print('AdaBoost roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))

Segmento de entrenamiento
AdaBoost roc-auc: 0.7970629821021541
Test set
AdaBoost roc-auc: 0.7473867595818815


In [33]:
# Modelo con variables normalizadas

# definición del modelo

ada = AdaBoostClassifier(n_estimators=200, random_state=44)

# entrenamiento del model
ada.fit(X_train_scaled, y_train)

# evaluación de desempeño
print('Segmento de entrenamiento')
pred = ada.predict_proba(X_train_scaled)
print('AdaBoost roc-auc: {}'.format(roc_auc_score(y_train, pred[:,1])))
print('Test set')
pred = ada.predict_proba(X_test_scaled)
print('AdaBoost roc-auc: {}'.format(roc_auc_score(y_test, pred[:,1])))

Segmento de entrenamiento
AdaBoost roc-auc: 0.7970629821021541
Test set
AdaBoost roc-auc: 0.7475250262706707


Como era de esperarse,  el desempeño de AdaBoost no cambio con la  normalización de las variables.

**Eso es todo por este demo. Esperamos que lo hayan disfrutado y nos vemos en el siguiente.**