<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Normalización-y-Estandarización" data-toc-modified-id="Normalización-y-Estandarización-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Normalización y Estandarización</a></span><ul class="toc-item"><li><span><a href="#Normalización-con-Scikit---Learn" data-toc-modified-id="Normalización-con-Scikit---Learn-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Normalización con Scikit - Learn</a></span><ul class="toc-item"><li><span><a href="#Fundamentos" data-toc-modified-id="Fundamentos-1.1.1"><span class="toc-item-num">1.1.1&nbsp;&nbsp;</span>Fundamentos</a></span></li><li><span><a href="#Normalización-con-Scikit---learn" data-toc-modified-id="Normalización-con-Scikit---learn-1.1.2"><span class="toc-item-num">1.1.2&nbsp;&nbsp;</span>Normalización con Scikit - learn</a></span></li></ul></li><li><span><a href="#Inclusión-de-la-Normalización-en-el-flujo-de-Machine-Learning" data-toc-modified-id="Inclusión-de-la-Normalización-en-el-flujo-de-Machine-Learning-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Inclusión de la Normalización en el flujo de Machine Learning</a></span></li><li><span><a href="#Estandarización" data-toc-modified-id="Estandarización-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Estandarización</a></span></li><li><span><a href="#Estandarización-con-Scikit---Learn-con-StandardScaler" data-toc-modified-id="Estandarización-con-Scikit---Learn-con-StandardScaler-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Estandarización con Scikit - Learn con StandardScaler</a></span></li><li><span><a href="#Inclusión-de-la-&quot;estandarización&quot;en-el-flujo-de-Machine-Learning" data-toc-modified-id="Inclusión-de-la-&quot;estandarización&quot;en-el-flujo-de-Machine-Learning-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Inclusión de la "estandarización"en el flujo de Machine Learning</a></span></li></ul></li><li><span><a href="#La-pregunta-del-millón:-normalizar-o-estandarizar?" data-toc-modified-id="La-pregunta-del-millón:-normalizar-o-estandarizar?-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>La pregunta del millón: normalizar o estandarizar?</a></span></li></ul></div>

![IES21](img/logo_ies.png)

# SP04 Preprocesamiento - Cambio de Escala de las variables numéricas: Normalización y Estandarización

In [1]:
import numpy as np
import pandas as pd

## Normalización y Estandarización

Algunos modelos de Machine Learning, principalmente los que se basan en el cálculo de alguna distancia como kNN y sus derivados, y otros que calculan parámetros asociados a las variables, como por ejemplo los de Regresión Lineal y Logística o SVM, son muy sensibles a las escalas en que se han medido las variables.  Otros, como los de Árbol y sus derivados, no.

Para comprender este efecto, supongamos que en un dataset tenemos una variable, x1, que toma sus valores entre 0 y 1 y otra, x2, que toma sus valores entre 0 y 1000.   


Supongamos que estamos usando kNN y queremos determinar qué vectores están más cerca de una nueva observación $ o=[0.1,900] $ , 

y queremos calcular la distancia con respecto a estas dos observaciones:

$ o1=[0.9, 900] ]$  y $ o2=[0.1, 905] $ 

Fíjese que entre o y o1 "están muy lejanas" en lo que respecta a la  primer variable (porque tomaba valores entre 0 y 1), pero sin embargo o se encontrará más lejos de o2 que tiene el mismo valor en la primer variable y una diferencia 'pequeña' (5 entre 1000) en la segunda: pequeñas variaciones en la variable que asume valores más grandes "enmascaran" grandes diferencias en las más pequeñas. 

Estos problemas pueden solucionarse de dos maneras: **normalización** o **estandarización** de las variables.  

Antes que nada: 
    
> Tanto la normalización como la estandarización deben hacer basándose **sólo en los valores del X_train** y luego aplicarse al X_train y X_test y a las nuevas observaciones.   

> Sólo se aplican a las variables numéricas, no a las categóricas. 

> Por otro lado la variable target (generalmente) no se normaliza ni estandariza.

### Normalización con Scikit - Learn

#### Fundamentos

Si tenemos una variable que toma sus valores en un rango entre [xmin, xmax], normalizarla significa transformarla para que sus valores estén en otro rango, generalmente [0,1].  

Por ejemplo, supongamos que tenemos una variable como x1: 

In [4]:
df=pd.DataFrame([[10],[90],[80],[70],[100],[10]], columns=['x1'])
df

Unnamed: 0,x1
0,10
1,90
2,80
3,70
4,100
5,10


El valor más pequeño es:

In [78]:
df.x1.min()

10

y el valor más grande es:

In [79]:
df.x1.max()

100

Es decir que sus valores se encuentran entre xmin=10 y xmax=100

Si quisiéramos que sus valores se encontraran entre 0 y 1, deberíamos hacer dos cosas:  

1- Restar xmin a todos sus valores

In [80]:
x1_1=df.x1-df.x1.min()
x1_1

0     0
1    80
2    70
3    60
4    90
5     0
Name: x1, dtype: int64

De esta forma ahora el valor más pequeño es 0, pero el más grande todavía no es 1 (en nuestro caso es 90). 

2- Dividir sus valores por el "rango" (xmax - xmin).  

En nuestro caso el rango es (100-10) = 90, entonces

In [81]:
x1_2=x1_1/90
x1_2

0    0.000000
1    0.888889
2    0.777778
3    0.666667
4    1.000000
5    0.000000
Name: x1, dtype: float64

Ahora sí, sus valores están entre 0 y 1

En definitiva la fórmula para normalizar al intervalo [0,1] sería:  

$$ x_{inormalizado}=\frac{x_i -x_{min}} {x_{max} - x_{min}}$$

- No nos olvidemos que si nuestro objetivo es pronosticar **los valores de x<sub>min</sub> y  x<sub>max</sub> son los del X_train** ya que no podemos aprender del X_test.  

Esto implica que cuando apliquemos la normalización al X_train, todos los valores obtenidos estárán entre 0 y 1, pero **cuando apliquemos la normalización al X_test podríamos obtener valores por fuera de este intervalo**.

#### Normalización con Scikit - learn

Afortunadamente no tendremos que realizar estas cuentas, ya que sklearn nos provee de una opción para Normalizar: **MinMaxScaler**.   

La documentación oficial se encuentra en https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

Su sintaxis es la siguiente:  

~~~
sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), *, copy=True)
~~~  

Sus opciones son:  

- **feature_range**=(0, 1). El rango de valores al que queremos normalizar, generalmente será el valor por defecto que es el intervalo [0,1]  

- **copy**=True Para indicar si queremos que el reemplazo se efectúe sobre el mismo array que al que transformamos o sobre una copia. Por defecto crea una copia, si queremos que cambie los valores sobre el array original debemos pasar el valor False.   


Para que funcione, se debe aplicar sobre un array bidimensional y el resultado será un array de numpy. 


Apliquémoslo al caso anterior:

In [2]:
from sklearn.preprocessing import MinMaxScaler

In [5]:
scaler = MinMaxScaler(feature_range=(0, 1), copy=False)
scaler.fit(df)
scaler.transform(df)


array([[0.        ],
       [0.88888889],
       [0.77777778],
       [0.66666667],
       [1.        ],
       [0.        ]])

### Inclusión de la Normalización en el flujo de Machine Learning



- Asumamos que ya hemos imputado los _missing values_.
- Supongamos que tenemos el siguiente Dataset, ya dividido en X_train y X_test

In [85]:
X_train=pd.DataFrame([[50,'pequeño','normal','alto','Si'],[73,'medio','alto','medio','No'],[68,'medio','normal','bajo','No'],
                 [65,'pequeño','alto','alto', 'Si'],[76,'medio','normal','medio', 'Si'],[77,'medio','normal','medio', 'No'],
                 [52, 'pequeño','alto','bajo','Si']], 
                columns=[ 'peso','envergadura', 'globulos_blancos','altura', 'otras_enfermedades'])
X_train

Unnamed: 0,peso,envergadura,globulos_blancos,altura,otras_enfermedades
0,50,pequeño,normal,alto,Si
1,73,medio,alto,medio,No
2,68,medio,normal,bajo,No
3,65,pequeño,alto,alto,Si
4,76,medio,normal,medio,Si
5,77,medio,normal,medio,No
6,52,pequeño,alto,bajo,Si


In [86]:
X_test=pd.DataFrame([[93,'grande','alto','medio','No'],[65,'medio','normal','bajo','No'],
                 [43,'pequeño','alto','alto', 'Si'],[86,'grande','bajo','medio', 'Si']], 
                columns=[ 'peso','envergadura', 'globulos_blancos','altura', 'otras_enfermedades'])
X_test

Unnamed: 0,peso,envergadura,globulos_blancos,altura,otras_enfermedades
0,93,grande,alto,medio,No
1,65,medio,normal,bajo,No
2,43,pequeño,alto,alto,Si
3,86,grande,bajo,medio,Si


Sus variables son:

In [132]:
X_train.columns

Index(['peso', 'envergadura', 'globulos_blancos', 'altura',
       'otras_enfermedades'],
      dtype='object')

- peso: numérica. La vamos a **normalizar**  

- envergadura: ordinal. Vamos a **asignar su orden manualmente**.  
- globulos_blancos: ordinal. Vamos a **asignar su orden manualmente**.  
- altura: ordinal. Vamos a **asignar su orden manualmente**.  

- otras_enfermedades: nominal. La transformaremos en **dummy variables** con OneHotEncoder.

In [87]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder

In [88]:
t_norm=("normalizador",MinMaxScaler(feature_range=(0, 1)),['peso'])

In [89]:
# Dummy para otras_enfermedades:
t_nominal=("onehot",OneHotEncoder(sparse=False),['otras_enfermedades'])

In [91]:
# Ordinal con asignación de orden para envergadura,altura y globulos_blancos
t_ordinal_enc=("ordinal_enc", OrdinalEncoder(categories=[['pequeño','medio','grande'],
                                                         ['bajo','medio','alto'],['bajo','normal','alto']]), 
               ['envergadura','altura','globulos_blancos'])

In [124]:
from sklearn.compose import ColumnTransformer
transformador_columnas= ColumnTransformer(transformers=[t_norm,t_nominal,t_ordinal_enc],
                                                       remainder='passthrough')

In [125]:
transformador_columnas.fit(X_train)
;

''

In [126]:
X_train_transformado=transformador_columnas.transform(X_train)
X_train_transformado

array([[0.        , 0.        , 1.        , 0.        , 2.        ,
        1.        ],
       [0.85185185, 1.        , 0.        , 1.        , 1.        ,
        2.        ],
       [0.66666667, 1.        , 0.        , 1.        , 0.        ,
        1.        ],
       [0.55555556, 0.        , 1.        , 0.        , 2.        ,
        2.        ],
       [0.96296296, 0.        , 1.        , 1.        , 1.        ,
        1.        ],
       [1.        , 1.        , 0.        , 1.        , 1.        ,
        1.        ],
       [0.07407407, 0.        , 1.        , 0.        , 0.        ,
        2.        ]])

Para transformar el Test Set debemos utilizar el transformador "entrenado" en el Train Set (no nos olvidemos que no debemos aprender del Test Set antes de evaluar el modelo!).

In [127]:
X_test_transformado=transformador_columnas.transform(X_test)
X_test_transformado

array([[ 1.59259259,  1.        ,  0.        ,  2.        ,  1.        ,
         2.        ],
       [ 0.55555556,  1.        ,  0.        ,  1.        ,  0.        ,
         1.        ],
       [-0.25925926,  0.        ,  1.        ,  0.        ,  2.        ,
         2.        ],
       [ 1.33333333,  0.        ,  1.        ,  2.        ,  1.        ,
         0.        ]])

Ahora tenemos listos nuestros datos para pasar a cualquier modelo de Machine Learning. 

### Estandarización

Cuando se hace análisis estadístico, algunos algoritmos necesitan ciertas condiciones para funcionar correctamente, típicamente dos:

- Que la media sea 0  
- Que el  desvío standard sea 1,  $\sigma = 1$.  
- En algunos casos también es necesario que cada una de las variables X tenga una distribución normal o gaussiana.  

Para pronosticar, no suele ser necesario ser tan estricto y generalmente conseguir que nuestras variables numéricas cumplan las dos primeras pueden, incluso,  mejorar la velocidad de procesamiento, y  algunos algoritmos como SVM y Regresión Lineal (con regularización) funcionan mejor cuando las cumplen.   

Scikit-Learn nos provee de herramientas para conseguir las tres cosas, pero por ahora veremos las dos primeras:

- Que la media sea 0  
- Que el  desvío standard sea 1,  $\sigma = 1$.  

Cómo se consigue? Es muy sencillo:  

- Si queremos que la media de una variable sea 0, simplemente restamos la media a cada uno de sus valores. De esta manera la "nueva media" será 0; se suele decir que ahora la variable "está centrada en 0" 

- Si queremos que el desvío standard sea 1, entonces simplemente dividimos cada uno de sus valores por el valor del desvío standard obtenido para todos sus valores. De esta manera el desvío standard de la variable transformada valdrá 1.  

En definitiva el algoritmo para estandarizar será:  


$$ x_{iestandarizado}=\frac{x_i -x_{media}} {\sigma}$$


- Es de notar que la variable así transformada, tendrá media = 0 y $\sigma = 1$, pero sus valores **no** estarán en el intervalo [0,1].  

Afortunadamente Scikit-Learn nos provee de una herramienta para **estandarizar** sin que tengamos que efectuar las cuentas.   


Por las dudas aclaramos que si nuestro propósito es pronosticar:  

> **Estandarizaremos usando la media y el $\sigma$ del X_train** y luego aplicaremos la estandarización al X_train y al X_test.

### Estandarización con Scikit - Learn con StandardScaler

La documentación de StandardScaler se encuentra en: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html  


Su sintaxis es la siguiente:  

~~~
sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)
~~~

Las opciones principales son las siguientes:  

- with_mean=True, la opción por defecto, significa que resta la media a cada uno de los valores, si se establece en False no lo hace. 

- with_std=True, la opción por defecto, significa que divide por el desvío standard $\sigma$, si se establece en False, no lo hace.  

En general dejaremos estas opciones en sus valores por defecto.  

Veamos su uso básico:


In [97]:
df

Unnamed: 0,x1
0,10
1,90
2,80
3,70
4,100
5,10


In [98]:
from sklearn.preprocessing import StandardScaler

# creamos el "estandarizador"
estandard = StandardScaler()

# lo entrenamos con fit. Simplmente calcula la media y el desvio de los datos que le pasamos
estandard.fit(df)

# lo aplicamos

estandard.transform(df)

array([[-1.36930639],
       [ 0.82158384],
       [ 0.54772256],
       [ 0.27386128],
       [ 1.09544512],
       [-1.36930639]])

### Inclusión de la "estandarización"en el flujo de Machine Learning

Se utiliza de la misma manera que el normalizador visto anteriormente.   
Repitamos el mismo ejemplo anterior, pero ahora estandaricemos la variable numérica:

In [114]:
t_estandard=("estandarizador",StandardScaler(),['peso'])

Lo demás es igual:

In [115]:
# Dummy para otras_enfermedades:
t_nominal=("onehot",OneHotEncoder(sparse=False),['otras_enfermedades'])
# Ordinal con asignación de orden para envergadura,altura y globulos_blancos
t_ordinal_enc=("ordinal_enc", OrdinalEncoder(categories=[['pequeño','medio','grande'],
                                                         ['bajo','medio','alto'],['bajo','normal','alto']]), 
               ['envergadura','altura','globulos_blancos'])

In [120]:
transformador_columnas = ColumnTransformer(transformers=[t_estandard,t_nominal,t_ordinal_enc],
                                                       remainder='passthrough')

In [121]:
# entrenamos en el X_train
transformador_columnas.fit(X_train)
;

''

In [122]:
# Aplicamos sobre el X_train
X_train_transformado=transformador_columnas.transform(X_train)
X_train_transformado

array([[-1.55614273,  0.        ,  1.        ,  0.        ,  2.        ,
         1.        ],
       [ 0.70096519,  1.        ,  0.        ,  1.        ,  1.        ,
         2.        ],
       [ 0.21028956,  1.        ,  0.        ,  1.        ,  0.        ,
         1.        ],
       [-0.08411582,  0.        ,  1.        ,  0.        ,  2.        ,
         2.        ],
       [ 0.99537057,  0.        ,  1.        ,  1.        ,  1.        ,
         1.        ],
       [ 1.0935057 ,  1.        ,  0.        ,  1.        ,  1.        ,
         1.        ],
       [-1.35987247,  0.        ,  1.        ,  0.        ,  0.        ,
         2.        ]])

In [123]:
# Aplicamos sobre el X_test
X_test_transformado=transformador_columnas.transform(X_test)
X_test_transformado

array([[ 2.66366773,  1.        ,  0.        ,  2.        ,  1.        ,
         2.        ],
       [-0.08411582,  1.        ,  0.        ,  1.        ,  0.        ,
         1.        ],
       [-2.24308862,  0.        ,  1.        ,  0.        ,  2.        ,
         2.        ],
       [ 1.97672184,  0.        ,  1.        ,  2.        ,  1.        ,
         0.        ]])

Ahora tenemos listos nuestros datos para pasar a cualquier modelo de Machine Learning. 

## La pregunta del millón: normalizar o estandarizar?

Qué conviene más normalizar o estandarizar para pronosticar?   

Lamentablemente no existe una respuestas única, en algunos casos será mejor una técnica y en otros casos, la otra. Depende tanto del modelo que pensemos utilizar como de los mismos datos.    

Algunos tips:  

- Si vamos a usar algún modelo que se base en la medida de distancias, como kNN y sus derivados, **normalizar** puede funcionar mejor.  

  
- Si el proceso de minimización de la función de costo J se hará con el método de **Gradient Descent**, **normalizar** puede funcionar mejor. El problema es que hay muchos métodos que pueden usar tanto Gradient Descent como otros métodos para minimizar, así que habrá que leer la documentación de la implementación del algoritmo, pero:  

- las **Redes Neuronales** generalmente se implementan con Gradient Descent, así que puuede ser que funcionen mejor **normalizando**.   
- Lo mismo ocurre con SVM.   
- En cambio Regresión Lineal generalmente se minimiza con un método matricial, asi que posiblemente convenga **estandarizar** ( por ejemplo Scikit-Learn por defecto minimiza de esta manera, pero se puede configurar para que use Gradient Descent).  

- Los árboles y sus derivados son inmunes a los problemas de escala, así que quizá convenga **estandarizar** o no transformar.


En la práctica y según la disponibilidad de tiempo, es bueno probar las 3 posibilidades: sin modificar, normalizando y estandarizando, por ejemplo eligiendo un modelo cualquiera y corriéndolo en un Validation Set para ver si hay diferencias a favor de algunos de los procedimientos.  

