# 36 - Normalizacion de Datos


* En este Notebook vamos a ver como ***Normalizar las variables*** de un Dataset.


* ***La Normalización es un proceso que consiste en convertir el rango de valores de una variable numérica, a un rango estandar como por ejemplo entre [-1,1], [0,1], etc.***


* Una de las maneras más comunes para normalizar los datos sería la siguiente conocida como el **"Min Max Scaler"**:
<span></span><br><br>
<span style="font-size:20px">$$\overline{X}^{(i)} = \frac{x^{(i)} - min^{(i)}}{max^{(i)} - min^{(i)}}$$</span>
    
    
* Donde $min^{(j)}$ y $max^{(j)}$ son respectivamente, el valor mínimo y máximo de la variable $j$ en el conjunto de datos.


* ***¿Por qué es bueno normalizar?*** - No es necesario normalizar los datos, pero en la práctica la normalización de los datos permite a los Algoritmos de Aprendizaje generar un modelo más rápido. Por ejemplo cuando hacemos uso del gradiente descendente para la obtención de un modelo, este lo hacemos actualizando unos parámetros (los parámetros $\beta_n$) y lo hacemos utilizando derivadas parciales del error cuadrático medio con respecto a los parámetros ($\beta_n$). Si $x^{(1)}$ se encuentra en un rando de valores de [0, 10000] y $x^{(2)}$ se encuentra en un rando de [0,5], hace que la derivada con respecto a la característica más grande domine la actualización.


<hr>


## Carga de Datos


* Veamos a continuación un ejemplo de normalización, utilizando el siguiente DataFrame:

In [1]:
from sklearn.preprocessing import MinMaxScaler

import pandas as pd

df_origin = pd.DataFrame(data={'X1': [0.0, 1.0,    2.0,    3.0,    4.0,    5.0],
                               'X2': [0.0, 10.0,   20.0,   30.0,   40.0,   50.0],
                               'X3': [0.0, 100.0,  200.0,  300.0,  400.0,  500.0],
                               'X4': [0.0, 1000.0, 2000.0, 3000.0, 4000.0, 5000.0],
                               'y' : [0.0, 4.0,    8.0,    12.0,   16.0,   20.0]
                              })

df_origin

Unnamed: 0,X1,X2,X3,X4,y
0,0.0,0.0,0.0,0.0,0.0
1,1.0,10.0,100.0,1000.0,4.0
2,2.0,20.0,200.0,2000.0,8.0
3,3.0,30.0,300.0,3000.0,12.0
4,4.0,40.0,400.0,4000.0,16.0
5,5.0,50.0,500.0,5000.0,20.0


<hr>


# Normalización: Min Max Scaler

* Para normalizar los datos, lo podemos hacer con la clase **"MinMaxScaler()"** de scikit-learn de la siguiente manera, obteniendo el nuevo DataFrame Normalizado

In [2]:
from sklearn.preprocessing import MinMaxScaler

df_norm = df_origin.copy()

min_max_scaler = MinMaxScaler()

df_norm[['X1','X2','X3','X4']] = min_max_scaler.fit_transform(df_norm[['X1','X2','X3','X4']].values)
df_norm

Unnamed: 0,X1,X2,X3,X4,y
0,0.0,0.0,0.0,0.0,0.0
1,0.2,0.2,0.2,0.2,4.0
2,0.4,0.4,0.4,0.4,8.0
3,0.6,0.6,0.6,0.6,12.0
4,0.8,0.8,0.8,0.8,16.0
5,1.0,1.0,1.0,1.0,20.0


<hr>


# Ejemplo: Regresión Lineal


* Vamos a ver a continuación un ejemplo de como resolver un problema de Regresión lineal con los datos normalizados y sin normalizar:


### 1. Cargamos los datos

In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv("./data/calorias_running/calories_time_weight_speed.csv")
df.sample(5)

Unnamed: 0,Calorias,Tiempo,Peso,Velocidad
164,242.2,13.4,73.9,14.2
4947,586.8,51.0,52.0,12.8
2799,1069.1,82.3,70.6,10.7
2325,299.3,21.1,66.8,12.3
4592,417.5,24.5,73.8,13.4


### 2. Normalizamos los datos:

In [4]:
from sklearn.preprocessing import MinMaxScaler


df_calorias_norm = df.copy()
min_max_scaler = MinMaxScaler()
df_calorias_norm[['Tiempo', 'Peso', 'Velocidad']] = min_max_scaler.fit_transform(df[['Tiempo', 'Peso', 'Velocidad']].values)
df_calorias_norm.sample(5)

Unnamed: 0,Calorias,Tiempo,Peso,Velocidad
1699,1050.8,0.737722,0.576816,0.3
1379,68.9,0.018809,0.310056,0.542857
3688,621.1,0.535005,0.163408,0.828571
2052,83.5,0.026123,0.307263,0.7
3829,715.6,0.340648,0.587989,0.885714


### 3. Generamos los modelos

* Vamos a generar dos Modelos, uno con los datos noralizados y otro con los datos sin normalizar:

In [5]:
from sklearn import linear_model

# Creamos un objeto de la clase LinearRegression
reg_original = linear_model.LinearRegression()
reg_normalizado = linear_model.LinearRegression()

X_orginal = df[['Tiempo', 'Peso', 'Velocidad']].values
y_orginal = df['Calorias'].values
X_normalizado = df_calorias_norm[['Tiempo', 'Peso', 'Velocidad']].values
y_normalizado = df_calorias_norm['Calorias'].values

# Entrenamos el modelo pasandole las variables independientes y dependiente
reg_original.fit(X_orginal, y_orginal)
reg_normalizado.fit(X_normalizado, y_normalizado)

# Obtenemos los modelos
betas_original = reg_original.coef_
beta_0_original = reg_original.intercept_
betas_normalizado = reg_normalizado.coef_
beta_0_normalizado = reg_normalizado.intercept_

### 4. Imprimimos los modelos

* Vamos a imprimir los dos modelos que como podemos observar son diferentes, pero aplicando los datos bien normalizalizados o no (dependiendo del modelo) vamos a obtener la predicción:


In [6]:
# Imprimimos los modelos
print("Modelo Sin Datos Normalizados:"\
      "\nCalorias = {b0:0.2f} + {b1:0.2f}·Tiempo + {b2:0.2f}·Velocidad + {b3:0.2f}·Peso"
      .format(b0=beta_0_original, b1=betas_original[0], b2=betas_original[1], b3=betas_original[2]))

print("\nModelo Con Datos Normalizados:"\
      "\nCalorias = {b0:0.2f} + {b1:0.2f}·Tiempo + {b2:0.2f}·Velocidad + {b3:0.2f}·Peso"
      .format(b0=beta_0_normalizado, b1=betas_normalizado[0], b2=betas_normalizado[1], b3=betas_normalizado[2]))

Modelo Sin Datos Normalizados:
Calorias = -1164.85 + 14.26·Tiempo + 8.55·Velocidad + 46.66·Peso

Modelo Con Datos Normalizados:
Calorias = -411.26 + 1364.95·Tiempo + 612.49·Velocidad + 326.62·Peso


### 5. Transformación de Parámetros


* Si transformamos los parámetros del modelo normalizado usando la "desnormalización", podemos ver como obtenemos unos parámetros del modelo parecidos a los del modelo sin normalizar:

In [21]:
betas_transformadas = min_max_scaler.transform([betas_normalizado])[0]
betas_transformadas

array([14.22199795,  8.10039003, 45.37477962])

* El temino independiente lo obtengo calculando el valor medio de todos los terminos independientes calculados para cada unos de los elementos, restando el valor de 'y' original menos la suma producto de los valores de los elementos por las variables independientes:


$$\beta_{0} = \frac{1}{N} \cdot \sum_{i=1}^{N} (y^{(i)} - (X^{(i)}_{1} \cdot \beta_{1} + .... + X^{(i)}_{n} \cdot \beta_{n}))$$

In [23]:
termino_independiente_transformado = np.mean(y_orginal - np.sum(X_orginal * betas_transformadas, axis=1))
termino_independiente_transformado

-1115.347652615701

In [22]:
print("Modelo \"Des-normalizado\": \nCalorias = {b0:0.2f} + {b1:0.2f}·Tiempo + {b2:0.2f}·Velocidad + {b3:0.2f}·Peso"
      .format(b0=termino_independiente_transformado, 
              b1=betas_transformadas[0], 
              b2=betas_transformadas[1], 
              b3=betas_transformadas[2]))

Modelo "Des-normalizado": 
Calorias = -1115.35 + 14.22·Tiempo + 8.10·Velocidad + 45.37·Peso


<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">