### Regresion lineal simple en Python
#### Usando el paquete stasmodel para regresion lineal

In [None]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

In [None]:
#se carga nuevamente el datasets de advertising
data = pd.read_csv("../datasets/ads/Advertising.csv")

In [None]:
data.head()

In [None]:
#creamos un modelo de regresion lineal, indicamos que variables queremos analizar, en este caso, Sales (y), y TV(x)
lm = smf.ols(formula = "Sales~TV", data = data).fit()

In [None]:
lm.params

### El modelo lineal predictivo seria Sales = 7.032594 + 0.047537 * TV

In [None]:
#vemos todos los parametros del modelo
lm.summary()

In [None]:
#usamos el modelo para hacer prediciones sobre las ventas, usando la columna TV del dataset
sales_pred = lm.predict(pd.DataFrame(data["TV"]))
sales_pred

In [None]:
#graficamos los valores de la prediccion
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline
data.plot(kind = "scatter", x = "TV", y ="Sales")
plt.plot(pd.DataFrame(data["TV"]), sales_pred, c="red", linewidth =2)

In [None]:
#calculamos el error residual
data["sales_pred"] = 7.032594 + 0.047537*data["TV"]

In [None]:
data["RSE"] = (data["Sales"] - data["sales_pred"])**2

In [None]:
SSD = sum(data["RSE"])
SSD

In [None]:
#desviacion tipica del modelo
RSE = np.sqrt(SSD/(len(data)-2))
RSE

In [None]:
#ventas promedio
sales_m = np.mean(data["Sales"])
sales_m

In [None]:
#que porcentaje de los datos no quedan explicados, varianza del modelo
error = RSE/sales_m
error


In [None]:
#histograma de los errores, vemos que siguen una distribucion normal
plt.hist(data["Sales"] - data["sales_pred"])

### Ahora crearemos un modelo lineal multiple para intentar reducir el error
### Statsmodel para regresion multiple
* Sales -> TV
* Sales -> Newspaper
* Sales -> Radio
* Sales -> TV+Newspaper
* Sales -> TV+Radio
* Sales -> Newspaper+Radio
* Sales -> TV+Newspaper+Radio

Pero todo esto es muy complejo, se debe usar aquellos que tengan por ejemplo un p-valor alto para filtrar los modelos o que aumenten el valor de R2
empezaremos por le modelo que ya tenemos de Sales->TV y le añadiremos variables, para una regresion fastfoward

In [None]:
#añadir el newspaper al modelo existente
lm2 = smf.ols(formula="Sales~TV+Newspaper",data = data).fit()

In [None]:
lm2.params

In [None]:
#comparamos los p-valores, son todos pequeños, los 3 parametros son no nulos y buenos para el modelo
lm2.pvalues

#### Sales = 5.774948 + 0.046901*TV + 0.044219*Newspaper

In [None]:
#obtenemos los R
lm2.rsquared

In [None]:
lm2.rsquared_adj

In [None]:
#hacemos algunas predicciones, al modelo le damos un subconjunto del dataset original
sales_pred = lm2.predict(data[["TV","Newspaper"]])
sales_pred

In [None]:
#desviación estantar residuos
SSD = sum((data["Sales"] - sales_pred)**2)
SSD

In [None]:
#notar que ahora restamos -2 -1 porque hay dos variables predictoras, el RSE ha bajado un poco
RSE = np.sqrt(SSD/(len(data)-2-1))
RSE

In [None]:
#calculamos el error, que tambien ha bajado , pero solo un poco, ahora el modelo no explica el 22.2% de los datos
error = RSE/sales_m
error

In [None]:
lm2.summary()

#### en resumen añadir el periodico no ayudo casi nada a mejorar el modelo, seguiremos agregando variables

In [None]:
lm3 = smf.ols(formula="Sales~TV+Radio",data = data).fit()

In [None]:
lm3.summary() #vemos como sube el valor de R2 y R2 ajustado, el p-valor es mucho mas pequeño, el estadistico F es mucho mas grande

In [None]:
#hacemos una prediccion
sales_pred = lm3.predict(data[["TV","Radio"]])
SSD = sum((data["Sales"]-sales_pred)**2)
RSE = np.sqrt(SSD/(len(data)-2-1))

In [None]:
RSE

In [None]:
#ahora el modelo deja de explicar solo el 12% de los datos, y comprobamos que agregar la variable Radio se mejora ya que juntas
#TV y Radio explican mucho mejor las ventas del producto, que por separado ninguna variable podia explicar de forma mas precisa
RSE/sales_m


In [None]:
#ahora vemos que pasa si se agregan mas variables al modelo, d
lm4 = smf.ols(formula="Sales~TV+Radio+Newspaper",data = data).fit()

In [None]:
#vemos que agregar Newspaper no mejora en nada el modelo lm3 e hecho ha subido el p-valor mucho, que casi hace aceptar
#la hipotesis nula, R2 y R2adj, son casi iguales, ver los valores negativos y contraproducentes de añadir Newspaper
lm4.summary()

In [None]:
#ahora vemos el error, -3-1, porque tenemos 3 variables
sales_pred = lm4.predict(data[["TV","Radio","Newspaper"]])
SSD = sum((data["Sales"]-sales_pred)**2)
RSE = np.sqrt(SSD/(len(data)-3-1))


In [None]:
RSE

In [None]:
#el error ha subido
RSE/sales_m

### Multicolinealidad: 
por esto añadir una variable antes, empeoro el modelo, es la correlacion entre las variables predictoras del modelo, problema de la multicolinealidad, en el ejemplo si miramos el cuadro de correlaciones, se ve que Newspaper esta correlacionado de forma importante con Radio, y de hecho Newspaper esta mas correlacionado con Radio que con la propia Sales que es la variable que intentamos explicar, por lo tanto Newspaper interfiere con el modelo, identificar los pares de variables predictoras con alta correlacion entre si, usando una matriz de correlacion y eliminarlas del modelo, usando el factor de inflacion de la varianza, para detectar la multicolinealidad, a traves de un estadistico
* Factor de inflacion de la varianza VIF, escribir la variables problematica en funcion de las otras variables predictoras, 
* Si el VIF es 1 las variables son independientes y no estan correlacionadas, 
* Entre 1 y 5 estan correlacionadas de forma moderada, y se pueden quedar en el modelo 
* VIF > 5, las variables tienen una alta correlacion y deben ser eliminadas del modelo


In [None]:
#Newspaper -> TV + Radio ->R2 VIF = 1/(1-R2)
lm_n = smf.ols(formula = "Newspaper~TV+Radio",data = data).fit()
rsquared_n = lm_n.rsquared
VIF = 1/(1-rsquared_n)
VIF

In [None]:
#TV -> Newspaper + Radio ->R2 VIF = 1/(1-R2)
lm_tv = smf.ols(formula = "TV~Newspaper+Radio",data = data).fit()
rsquared_tv = lm_tv.rsquared
VIF = 1/(1-rsquared_tv)
VIF #la TV no esta correlacionada con nadie 

In [None]:
#Radio -> TV + Newspaper ->R2 VIF = 1/(1-R2)
lm_r = smf.ols(formula = "Radio~Newspaper+TV",data = data).fit()
rsquared_r = lm_r.rsquared
VIF = 1/(1-rsquared_r)
VIF #newpaper y Radio estan correlacionadas, sus VIF son casi iguales

In [None]:
#por lo anterior se saca Newspaper del modelo y nos quedamos con el modelo 3 que incluye TV y Radio
lm3.summary()