# Regresión lineal múltiple

La regresión lineal múltiple consiste en la aplicación de dos posibles métodos. En el primer método vamos añadiendo variables a nuestro modelo y comprobamos como los parámetros cambian, mientras que el segundo método vamos quitando variables.

## Backward elimination

Método en el cual incluimos todas las variables y vamos eliminando aquellas que sean menos significativas en nuestro modelo.

1. Seleccionamos un nivel de significancia, por ejemplo $\alpha = 0.05$
2. Entrenamos el modelo completo, con todos los posibles predictores.
3. Consideramos el predictor con el **p-valor** más **alto** que el nivel de significancia. En caso de no haber ningún valor más alto habríamos terminado.
4. Eliminamos dicho predictor.
5. Entrenamos el modelo con dicha variable y volvemos al punto 3.

## Forward selection

Método en el cual vamos incluyendo variables conforme estas aportan un mejor ajuste al modelo.

1. Seleccionamos un nivel de significancia, por ejemplo $\alpha = 0.05$
2. Entrenamos todos los modelos regresivos simples, $y - x_{n}$ Seleccionamos aquel que tenga el **p-valor** más bajo.
3. Guardamos esta variable y entrenamos todos los posibles modelos con un predictor extra al que ya tenemos.
4. Consideramos el predictor con el **p-valor** más bajo. Si es así, vamos al punto 3, sino hemos terminado.


## Posibles combinaciones de las variables

* Sales ~ TV
* Sales ~ Newspaper
* Sales ~ Radio
* Sales ~ TV + Newspaper
* Sales ~ TV + Radio
* Sales ~ Newspaper + Radio
* Sales ~ TV + Newspaper + Radio

In [1]:
# bibliotecas
import pandas as pd
import numpy as np
from statsmodels.regression import linear_model
import statsmodels.formula.api as sm
import seaborn as sns

# ggplot2 style
sns.set(font='ggplot')

In [2]:
# data
df = pd.read_csv('../data/Advertising.csv')
df.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


## Método Forward selection

In [27]:
modelo1 = sm.ols(formula="Sales~Newspaper", data = df).fit()
modelo2 = sm.ols(formula="Sales~TV", data = df).fit()
modelo3 = sm.ols(formula="Sales~Radio", data = df).fit()

# Modelos combinados
modelo4 = sm.ols(formula="Sales~Newspaper+TV", data = df).fit()
modelo5 = sm.ols(formula="Sales~TV+Radio", data = df).fit()
modelo6 = sm.ols(formula="Sales~TV+Radio+Newspaper", data = df).fit()

In [32]:

print("Modelo1 R2: ", modelo1.rsquared)
print(modelo1.params)
print("Modelo2 R2: ", modelo2.rsquared)
print(modelo2.params) 
print("Modelo3 R2: ", modelo3.rsquared)
print(modelo3.params)
print("Modelo4 R2: ", modelo4.rsquared)
print(modelo4.params)
print("Modelo5 R2: ", modelo5.rsquared)
print(modelo5.params)
print("Modelo6 R2: ", modelo6.rsquared)
print(modelo6.params)

Modelo1 R2:  0.05212044544430516
Intercept    12.351407
Newspaper     0.054693
dtype: float64
Modelo2 R2:  0.611875050850071
Intercept    7.032594
TV           0.047537
dtype: float64
Modelo3 R2:  0.33203245544529536
Intercept    9.311638
Radio        0.202496
dtype: float64
Modelo4 R2:  0.6458354938293271
Intercept    5.774948
Newspaper    0.044219
TV           0.046901
dtype: float64
Modelo5 R2:  0.8971942610828957
Intercept    2.921100
TV           0.045755
Radio        0.187994
dtype: float64
Modelo6 R2:  0.8972106381789522
Intercept    2.938889
TV           0.045765
Radio        0.188530
Newspaper   -0.001037
dtype: float64


Los modelos que tienen mayores valores de $r^2$ son los modelos denominados `modelo5` y `modelo6`, los cuales corresponden a las variables `TV` y `Radio` en el primer caso y `TV`, `Radio` y `Newspaper`. Veamos un resumen detallado de los parámetros de cada modelo.

In [33]:
modelo5.summary()

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,859.6
Date:,"Tue, 10 Jul 2018",Prob (F-statistic):,4.83e-98
Time:,13:57:21,Log-Likelihood:,-386.2
No. Observations:,200,AIC:,778.4
Df Residuals:,197,BIC:,788.3
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.9211,0.294,9.919,0.000,2.340,3.502
TV,0.0458,0.001,32.909,0.000,0.043,0.048
Radio,0.1880,0.008,23.382,0.000,0.172,0.204

0,1,2,3
Omnibus:,60.022,Durbin-Watson:,2.081
Prob(Omnibus):,0.0,Jarque-Bera (JB):,148.679
Skew:,-1.323,Prob(JB):,5.19e-33
Kurtosis:,6.292,Cond. No.,425.0


In [34]:
modelo6.summary()

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,570.3
Date:,"Tue, 10 Jul 2018",Prob (F-statistic):,1.58e-96
Time:,13:57:29,Log-Likelihood:,-386.18
No. Observations:,200,AIC:,780.4
Df Residuals:,196,BIC:,793.6
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.9389,0.312,9.422,0.000,2.324,3.554
TV,0.0458,0.001,32.809,0.000,0.043,0.049
Radio,0.1885,0.009,21.893,0.000,0.172,0.206
Newspaper,-0.0010,0.006,-0.177,0.860,-0.013,0.011

0,1,2,3
Omnibus:,60.414,Durbin-Watson:,2.084
Prob(Omnibus):,0.0,Jarque-Bera (JB):,151.241
Skew:,-1.327,Prob(JB):,1.44e-33
Kurtosis:,6.332,Cond. No.,454.0


Apreciamos que el **p-valor** aumenta en el segundo modelo estudiado para la variable `Newspaper`, a su vez el coeficiente de **AIC** aumenta ligeramente, siendo este un defecto. Esto nos lleva a pensar que el mejor modelo es el primero, que contiene las variables `TV` y `Radio`.

Hagamos un análisis de los errores en ambos modelos y veamos que diferencias existen.

## Errores en los modelos

In [35]:
sales_pred1 = modelo5.predict(df[['TV', 'Radio']])
sales_pred2 = modelo6.predict(df[['Newspaper', 'TV', 'Radio']])

In [36]:
# Desviación típica de los residuos y error cometido
SSD = np.sum((df['Sales'] - sales_pred1)**2)
RSE = np.sqrt(SSD / (len(df) - 2 - 1))
error = RSE / np.mean(df['Sales'])

(SSD,RSE,error)

(556.9139800676182, 1.681360912508001, 0.11990450436855059)

In [37]:
# Desviación típica de los residuos y error cometido
SSD = np.sum((df['Sales'] - sales_pred2)**2)
RSE = np.sqrt(SSD / (len(df) - 2 - 1))
error = RSE / np.mean(df['Sales'])

(SSD,RSE,error)

(556.8252629021872, 1.6812269856174873, 0.11989495351167673)

Los errores mejoran levemente en el segundo modelo, pero la diferencia no es palpable. Si al incluir una variable no tenemos cambios en nuestro modelo, es que esta variable no introduce mejoras. Es por ello que la variable `Newspaper` se puede deshechar.