# 24 -Regresion Lineal Multiple


* El objetivo de este Notebook es el de resolver un problema de regresión con unos ***datos de entrenamiento*** y **testear el modelo o hipótesis obtenido con los datos de test.**


* Para ello, dado un Dataset, vamos a particionar los datos con la técnica de particionado ***Hold Out*** y vamos a:

    1. Entrenar el modelo con los datos de Entrenamiento
    2. Evaluar el modelo con los datos de Entrenamiento
    3. Evaluar el modelo con los datos de Test
    4. Conclusiones: Comparativa de las evaluaciones del modelo con los datos de Entrenamiento y Test


* El ejemplo que vamos a realizar consiste en predecir cuantas calorías voy a quemar en función de los minutos que voy a estar corriendo, la velocidad media a la que corro y mi peso. Por ello tenemos un conjunto de datos tomados de forma empírica que nos dan esa relación. Por tanto el objetivo es encontrar los parámetros de la recta que mejor se ajustan a esos datos.


* El ejemplo que vamos a realizar, consiste en predecir cuantas ***calorías quema una persona en función de los minutos que corre, la velocidad a la que corre y su peso corporal***. Por ello tenemos un conjunto de datos tomados de forma empírica que nos dan esa relación.


* El objetivo es encontrar los parámetros $\beta_0, \beta_1, \beta_2, \beta_3$ que ***mejor se ajustan a los datos de entrenamiento***.

<span style="font-size:18px">$$Calorias = \beta_0 + \beta_1 \cdot Tiempo + \beta_3 \cdot Velocidad + \beta_3 \cdot Peso$$</span>


* Para ello vamos a realizar los siguientes pasos:

    1. Carga de Datos
    2. Cambio de estructura de datos a numpy
    3. Particionado de datos en Entrenamiento y Test
    4. Generación del modelo con los datos de Entrenamiento
    5. Evaluación del modelo con los datos de Entrenamiento
    6. Evaluación del modelo con los datos de Test
    7. Conclusiones: Comparativa de resultados

<hr>


* En primer lugar importemos las librerías necesarias:

In [1]:
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error

<hr>


## 1. Carga de Datos


* El primer paso que vamos a realizar es el de cargar los datos que los tenemos en los siguientes ficheros:
    - ***DataSet***: "./data/calorias_running/calories_time_weight_speed.csv"


* Para ello ***leeremos el csv con pandas*** (pasandolo a un dataframe), teniendo las siguientes columnas:
    - Calorias
    - Tiempo
    - Peso
    - Velocidad

In [2]:
df = pd.read_csv("./data/calorias_running/calories_time_weight_speed.csv")
df.sample(5)

Unnamed: 0,Calorias,Tiempo,Peso,Velocidad
4549,102.1,8.4,59.2,12.0
2230,578.4,33.5,71.9,13.9
1951,772.3,66.6,68.9,9.7
3111,711.4,68.8,60.1,10.0
76,488.7,32.4,84.7,10.3


<hr>


## 2. Cambio de estructura de datos a numpy


* Vamos a pasar los datos de las calorias y el tiempo a una nueva estructura de datos para que scikit-learn puedan trabajar con los datos:
<span></span><br><br>
    - Las ***columna Tiempo, Peso y Velocidad*** representan las variables independientes 'x<sub>n</sub>' y las vamos a pasar a un array de array (***numpy array***)
<span></span><br><br>
    - La ***columna calorias*** que representa la variable dependiente 'y', la vamos a pasar a un ***numpy array***

In [3]:
X = df[['Tiempo', 'Velocidad', 'Peso']].values
y = df['Calorias'].values

<hr>


## 3. Particionado de datos en Entrenamiento y Test


* En este punto vamos a dividir el dataset en un conjunto de datos de entrenamiento y datos de test.


* Para ello vamos a llamar a la función ***train_test_split()*** y dividimos los datos en entrenamiento y test. Para este ejemplo vamos a coger un ***20% de datos de test y un 80% de datos de entrenamiento.***


In [4]:
np.random.seed(2)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

<hr>


## 4. Generación del modelo con los datos de Entrenamiento

* A continuación pasamos a crear un objeto de la clase "***LinearRegression()***" para la resolución del problema de regresión.


* Una vez instanciado, procedemos a ajustar (entrenar) el modelo (o hipótesis) llamando al método ***fit(X,y)*** que recibe como parámetros el conjunto de datos de entrenamiento de las variables independientes 'X' y la variable dependiente 'Y'.


* Una vez ajustado (o entrenado) el modelo (o hipótesis), tendremos ajustados los parámetros ***$\beta_n$*** de la siguiente manera:

<span style="font-size:16px">$$Calorias = \beta_0 + \beta_1 \cdot Tiempo + \beta_3 \cdot Velocidad + \beta_3 \cdot Peso$$</span>


In [5]:
# Creamos un objeto de la clase LinearRegression
reg_mul = linear_model.LinearRegression()

# Entrenamos el modelo pasandole las variables independientes y dependiente
reg_mul.fit(X_train, y_train)

LinearRegression()

<hr>


## 5. Evaluación del modelo con los datos de Entrenamiento


* Llegados a este punto podemos medir el ***error que comete el modelo***, en este caso con los datos de entrenamiento, que son datos que se han utilizado para generar el modelo (o hipótesis).


* Para ello vamos a utilizar 2 medidas de ***Accuracy***:

    1. ***MAE***: Mean Absolute Error (Error Absoluto Medio)
    2. ***MSE***: Mean Squared Error (Error Cuadrático Medio) 
    
    
* Para calcular esta medidas, necesitamos tener el valor real de la salida y la predicción del modelo.


* Para obtener la predicción del modelo, utilizamos el método ***.predict(X)*** pasándole los datos a predecir y obteniendo el resultado.


In [6]:
# Obtenemos las predicciones del modelo con los datos de entrenamiento
y_predict = reg_mul.predict(X_train)

# Calculamos los errores
mae_train = mean_absolute_error(y_true=y_train, y_pred=y_predict)
mse_train = mean_squared_error(y_true=y_train, y_pred=y_predict)

print("Error Absoluto Medio (MAE): {error}".format(error=mae_train))
print("Error Cuadrático Medio (MSE): {error}".format(error=mse_train))

Error Absoluto Medio (MAE): 48.14348666783389
Error Cuadrático Medio (MSE): 4425.892283745691


<hr>


## 6. Evaluación del modelo con los datos de Test


* Vamos a realizar los mismos pasos que en el punto anterior, pero en este caso vamos a ver el error cometido con los datos de test.


* Para ello necesitamos predecir cual es la salida del modelo con los datos de test y esto lo hacemos llamando al método ***.predict(X)***.


* Con las predicciones y los resultados reales calculamos los errores:

In [7]:
# Obtenemos las predicciones del modelo con los datos de test
y_predict = reg_mul.predict(X_test)

# Calculamos los errores
mae_test = mean_absolute_error(y_true=y_test, y_pred=y_predict)
mse_test = mean_squared_error(y_true=y_test, y_pred=y_predict)

print("Error Absoluto Medio (MAE): {error}".format(error=mae_test))
print("Error Cuadrático Medio (MSE): {error}".format(error=mse_test))

Error Absoluto Medio (MAE): 48.44305689079678
Error Cuadrático Medio (MSE): 4508.549637473969


<hr>


## 7. Conclusiones: Comparativa de resultados


* Podemos observar que los errores cometidos con los datos de entrenamiento y test son muy similares.


* El ***error absoluto medio*** nos dice el ***error medio que cometemos en la predicción de las calorias quemadas***; es decir, que al hacer las predicciones nos equivocamos de media en 48 calorias.


* Si nos fijamos ***el MAE es practicamente igual*** evaluándolo tanto ***con los datos de entrenamiento como con los de test***, lo que significa que el modelo generado es un ***modelo muy estable*** que generaliza bastante bien.


* ***Si los errores cometidos con los datos de entrenamiento y test fuesen muy dispares podria significar que***:

    - Tenemos pocos datos de los que aprender.
    - Hay mucha varianza en los datos.
    - Estamos particionando mal los datos en entrenamiento y test (mucho sesgo en cada partición)
    - Estamos entrenando mall nuestro modelo
    - Etc.