# 3.1.4 - Regresion Lineal: Modelo Matricial


* En este Notebook vamos resolver los problemas de Regresión Lineal (Simple y/o múltiple) con el modelo matricial.


<hr>


* La Regresión Lineal pretende ***modelar la relación*** que existe ***entre*** una ***variable dependiente Y*** y ***dos o más variables independientes X<sub>n</sub>***:

    <span style="font-size:20px">$$y = \beta_0 + X_1 \cdot \beta_1 + X_2 \cdot \beta_2 + ... + X_n \cdot \beta_n$$</span>


* Donde las ***$\beta_x$*** son los coeficientes o parámetros del modelo lineal.


* La manera formal de ***expresar la Regresión Lineal*** es la siguiente:

<span style="font-size:16px">$$y = \beta_0 + X_{1t} \cdot \beta_1 + X_{2t} \cdot \beta_2 + ... + X_{nt} \cdot \beta_n + \in_t \left\{\begin{matrix}
T \rightarrow Tamaño\;muestral
\\ 𝑌_𝑡 \rightarrow Regresando (Varable dependiente)
\\ 𝑋_{𝑛𝑡} \rightarrow Regresores\;(Variables\;Independientes)
\\ \beta_n \rightarrow Parámetro\;(Coeficientes)
\\ 𝜖_𝑡 \rightarrow Termino\;de\;Permutación\;\sim \;0
\end{matrix}\right.$$</span>



* La ***Regresión Lineal*** la podemos plantear ***en forma matricial*** de la siguiente manera:

<span style="font-size:16px">$$\begin{pmatrix}
y_1
\\y_2 
\\ \vdots 
\\ \vdots 
\\ y_t
\end{pmatrix} = 
\begin{pmatrix}
1 & x_{11} & \cdots  & x_{1n} \\ 
1 & x_{21} &\cdots   & x_{2n}\\ 
\vdots  & \vdots & \ddots  & \vdots \\ 
\vdots  & \vdots & \ddots  & \vdots \\ 
1 & x_{t1} & \cdots  & x_{tn}
\end{pmatrix}
\cdot
\begin{pmatrix}
\beta_0
\\ \beta_1 
\\ \vdots 
\\ \beta_n
\end{pmatrix}
+
\begin{pmatrix}
\in_0
\\ \in_1 
\\ \vdots 
\\ \in_n
\end{pmatrix} \; Donde \left\{\begin{matrix}
n \rightarrow Número\;de\;variables\;independientes
\\ t \rightarrow Número\;de\;elementos\;del\;Dataset
\end{matrix}\right.$$</span>


##### NOTA: La primera columna de la matriz X tiene valor 1 porque es el valor por el que habría que multiplicar la $\beta_0$ que "siempre se multiplica por 1"

* En ***notación matricial*** lo describimos como:

<span style="font-size:20px">$$Y = X \beta + \in$$</span>


* Asumiento que el termino de permutación $\in$ es cero, tendríamos el siguiente problema a resolver:

<span style="font-size:16px">$$\begin{pmatrix}
y_1
\\y_2 
\\ \vdots 
\\ \vdots 
\\ y_t
\end{pmatrix} = 
\begin{pmatrix}
1 & x_{11} & \cdots  & x_{1n} \\ 
1 & x_{21} &\cdots   & x_{2n}\\ 
\vdots  & \vdots & \ddots  & \vdots \\ 
\vdots  & \vdots & \ddots  & \vdots \\ 
1 & x_{t1} & \cdots  & x_{tn}
\end{pmatrix}
\cdot
\begin{pmatrix}
\beta_0
\\ \beta_1 
\\ \vdots 
\\ \beta_n
\end{pmatrix}$$</span>


* Donde todos los valores de las matrices ***Y*** y ***X*** son conocidos y ***nuestras incognitas son las $\beta_n$***.


* Para estimar el vector de parámetros ***$\beta$*** podemos aplicar el método de mínimos cuadrados teniendo como resultado:

<span style="font-size:20px">$$\beta = (X^{t} \cdot X)^{-1} \cdot X^{t} \cdot Y$$</span>


<hr>


## Ejemplo Regresión Lineal Simple


* Vamos a ver como resolver el problema de regresión del número de calorías quemadas por tiempor corriendo, siendo el problema de la siguiente forma:

<span style="font-size:16px">$$Calorias = \beta_0 + Tiempo \cdot \beta_1$$</span>
    
    
* De manera matricial tendríamos:

<span style="font-size:16px">$$\begin{pmatrix}
Calorias_1
\\Calorias_2 
\\ \vdots 
\\ \vdots 
\\ Calorias_n
\end{pmatrix} = 
\begin{pmatrix}
1 & Tiempo_{1}  \\ 
1 & Tiempo_{2} \\ 
\vdots  & \vdots  \\ 
\vdots  & \vdots \\ 
1 & Tiempo_{n} 
\end{pmatrix}
\cdot
\begin{pmatrix}
\beta_0
\\ \beta_1 
\end{pmatrix}$$</span>


* Para hacer este cálculo vamos a proceder en primer lugar a cargar los datos:

In [1]:
import pandas as pd
df = pd.read_csv("../../data/calorias_running/calories_time_weight_speed.csv")
df.sample(5)

Unnamed: 0,Calorias,Tiempo,Peso,Velocidad
4415,722.3,39.1,68.8,15.6
4213,513.0,41.3,68.8,10.4
3810,408.4,22.8,65.3,15.9
2696,358.4,31.9,56.9,11.4
1075,394.8,25.3,74.3,12.2


* Creamos las matrices ***Y*** y ***X*** con las calorías y el tiempo respectivamente.


* Tenemos que añadir a la matriz ***X*** la columna de unos:

In [2]:
# Añadimos la columna de unos
df['b0'] = 1

# Creamos las matrices X e Y
X = df[['b0', 'Tiempo']].values
y = df['Calorias'].values

* Aplicamos el cálculo matricial y vemos los resultados:

In [3]:
import numpy as np

betas = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

print('Calorias = {b0:0.2f} + Tiempo · {b1:0.2f}'.format(b0=betas[0], b1=betas[1]))

Calorias = 71.14 + Tiempo · 12.92


<hr>


## Ejemplo Regresión Lineal Múltiple


* Vamos a ver como resolver el problema de regresión del número de calorías quemadas por tiempor corriendo, siendo el problema de la siguiente forma:

<span style="font-size:16px">$$Calorias = \beta_0 + Tiempo \cdot \beta_1 + Velocidad \cdot \beta_2 + Peso \cdot \beta_3$$</span>
    
    
* De manera matricial tendríamos:

<span style="font-size:16px">$$\begin{pmatrix}
Calorias_1
\\Calorias_2 
\\ \vdots 
\\ \vdots 
\\ Calorias_n
\end{pmatrix} = 
\begin{pmatrix}
1 & Tiempo_{1}  & Velocidad_{1} & Peso_{1}\\ 
1 & Tiempo_{2} & Velocidad_{2} & Peso_{2}\\ 
\vdots  & \vdots  \\ 
\vdots  & \vdots \\ 
1 & Tiempo_{n} & Velocidad_{n} & Peso_{n} 
\end{pmatrix}
\cdot
\begin{pmatrix}
\beta_0
\\ \beta_1
\\ \beta_2
\\ \beta_3
\end{pmatrix}$$</span>


* Como ya tenemos los datos cargados, creamos las matrices ***Y*** y ***X*** con las calorías como variable dependiente y el tiempo, velocidad y peso como variables independientes.


* Tenemos que añadir a la matriz ***X*** la columna de unos:

In [4]:
X = df[['b0', 'Tiempo', 'Velocidad', 'Peso']].values
y = df['Calorias'].values

* Aplicamos el cálculo matricial y vemos los resultados:

In [5]:
import numpy as np

betas = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

print('Calorias = {b0:0.2f} + Tiempo · {b1:0.2f} + Velocidad · {b2:0.2f} + Peso · {b3:0.2f}'.
      format(b0=betas[0], b1=betas[1], b2=betas[2], b3=betas[3]))

Calorias = -1164.85 + Tiempo · 14.26 + Velocidad · 46.66 + Peso · 8.55


<hr>


Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.


<img src="../../imgs/CC_BY-NC-SA.png" alt="CC BY-NC">