# Regresión Lineal

## $$h_\beta(x) = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n$$

- $h_\beta(x)$ es la respuesta
- $\beta_0$ es el intercepto
- $\beta_1$ coeficiente para $x_1$ (el primer feature)
- $\beta_n$ coeficiente para $x_n$ (el nth feature)

Los valores $\beta$ con llamados **model coefficients**:

- Estos valores se obtienen en el entramiento del algoritmo a través de la técnica Mínimos Cuadrados o **least squares criterion**.
- La línea de estimación que se encuentra reduce la suma de erroes al cuadrados **sum of squared residuals** (SSR).
- Con los coeficientes se puede hacer la estimación.
![0](https://upload.wikimedia.org/wikipedia/commons/3/3a/Linear_regression.svg)

![1](https://raw.githubusercontent.com/justmarkham/DAT8/master/notebooks/images/estimating_coefficients.png)

En este diagrama:

- Los puntos negros son los valores observados **observed values** de x e y.
- La línea azul es la línea de estimación de Mínimos Cuadrados **least squares line**.
- Las líneas rojas son los errores **residuals**, es la distancia entre la línea de estimación y los valores observados.

# Modelos de Regresión Lineal
## 1) Modelo con datos simulados
* $y = a + b * x$
* $X$ : 100 valores distribuídos según una N(1.5, 2.5)
* $Y_\epsilon = 5 + 1.9 * x + \epsilon $
* $\epsilon$ estará distribuído según una N(0, 0.8)

In [None]:
import pandas as pd
import numpy as np

In [None]:
x = 1.5 + 2.5 * np.random.randn(100)

In [None]:
res = 0 + 0.8 * np.random.randn(100)

In [None]:
y_pred = 5 + 0.3 * x

In [None]:
y_act = 5 + 0.3 * x + res

In [None]:
x_list = x.tolist()
y_pred_list = y_pred.tolist()
y_act_list = y_act.tolist()

In [None]:
data = pd.DataFrame(
    {
        "x":x_list,
        "y_actual":y_act_list,
        "y_prediccion":y_pred_list
    }
)

In [None]:
data.head()

In [None]:
import matplotlib.pyplot as plt

In [None]:
y_mean = [np.mean(y_act) for i in range(1, len(x_list) + 1)]

In [None]:
%matplotlib inline
plt.plot(data["x"],data["y_prediccion"])
plt.plot(data["x"], data["y_actual"], "ro")
plt.plot(data["x"],y_mean, "g")
plt.title("Valor Actual vs Predicción")

## ¿Cuan precisa es la predicción?
* SST = SSD + SSR
* SST : Variabilidad de los datos con respecto de su media
* SSD : Diferencia entre los datos originales y las predicciones que el modelo no es capaz de explicar (errores que deberían seguir una distribución normal)
* SSR : Diferencia entre la regresión y el valor medio que el modelo busca explicar
* R2 = SSR / SST, coeficiente de determinación entre 0 y 1

In [None]:
y_m = np.mean(y_act)
data["SSR"]=(data["y_prediccion"]-y_m)**2
data["SSD"]=(data["y_prediccion"]-data["y_actual"])**2
data["SST"]=(data["y_actual"]-y_m)**2

In [None]:
data.head()

In [None]:
SSR = sum(data["SSR"])
SSD = sum(data["SSD"])
SST = sum(data["SST"])

In [None]:
SSR

In [None]:
SSD

In [None]:
SST

In [None]:
SSR+SSD

In [None]:
R2 = SSR/SST
R2

In [None]:
plt.hist(data["y_prediccion"]-data["y_actual"],bins=50)

## Obteniendo la recta de regresión 

* $y = \hat{\alpha} + \hat{\beta} * x$
$$\hat{\beta} = \frac{\sum(xi - x_m)*(y_i-y_m)}{\sum(xi-x_m)^2}$$
* $\hat{\alpha} = y_m - \hat{\beta} * x_m$

In [None]:
x_mean = np.mean(data["x"])
y_mean = np.mean(data["y_actual"])
x_mean, y_mean

In [None]:
data["beta_n"] = (data["x"]-x_mean)*(data["y_actual"]-y_mean)
data["beta_d"] = (data["x"]-x_mean)**2

In [None]:
beta = sum(data["beta_n"])/sum(data["beta_d"])

In [None]:
alpha = y_mean - beta * x_mean

In [None]:
alpha, beta

In [None]:
data["y_model"] = alpha + beta * data["x"]

In [None]:
data.head()

In [None]:
SSR = sum((data["y_model"]-y_mean)**2)
SSD = sum((data["y_model"]-data["y_actual"])**2)
SST = sum((data["y_actual"]-y_mean)**2)

In [None]:
SSR, SSD, SST

In [None]:
R2 = SSR / SST
R2

In [None]:
y_mean = [np.mean(y_act) for i in range(1, len(x_list) + 1)]

%matplotlib inline
plt.plot(data["x"],data["y_prediccion"])
plt.plot(data["x"], data["y_actual"], "ro")
plt.plot(data["x"],y_mean, "g")
plt.plot(data["x"], data["y_model"])
plt.title("Valor Actual vs Predicción")

## Error estándar de los residuos (RSE)

In [None]:
RSE = np.sqrt(SSD/(len(data)-2))
RSE

In [None]:
np.mean(data["y_actual"])

In [None]:
RSE / np.mean(data["y_actual"])

# Regresión lineal simple en Python
## 2) El paquete statsmodel para regresión lineal

In [None]:
main="F:/LAMBDA/Software Python/Clase 3/Data/"

In [None]:
data = pd.read_csv(main+"Advertising.csv")
data.__class__

In [None]:
from __future__ import print_function
from statsmodels.compat import lzip
import statsmodels
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt

In [None]:
lm = smf.ols(formula="Sales~TV", data = data).fit()

In [None]:
lm.summary()

In [None]:
lm.params

In [None]:
lm.pvalues

In [None]:
lm.rsquared

In [None]:
lm.rsquared_adj

In [None]:
lm.cov_HC0

In [None]:
pd.DataFrame(lm.params)

In [None]:
print(lm.summary())

In [None]:
sales_pred = lm.predict(pd.DataFrame(data["TV"]))
sales_pred

In [None]:
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline
data.plot(kind = "scatter", x = "TV", y ="Sales")
plt.plot(pd.DataFrame(data["TV"]), sales_pred, c="red", linewidth = 2)

In [None]:
data["sales_pred"] = 7.032594 + 0.047537*data["TV"]

In [None]:
data["RSE"] = (data["Sales"]-data["sales_pred"])**2

In [None]:
SSD = sum(data["RSE"])
SSD

In [None]:
RSE = np.sqrt(SSD/(len(data)-2))
RSE

In [None]:
sales_m = np.mean(data["Sales"])
sales_m

In [None]:
error = RSE/sales_m
error

In [None]:
plt.hist((data["Sales"]-data["sales_pred"]), bins=50)

# Regresión lineal múltiple en Python
## El paquete statsmodel para regresión múltiple
* Sales ~TV
* Sales ~Newspaper
* Sales ~Radio
* Sales ~TV+Newspaper
* Sales ~TV+Radio
* Sales ~Newspaper+Radio
* Sales ~TV+Newspaper+Radio

In [None]:
#Añadir el Newspaper al modelo existente
lm2 = smf.ols(formula="Sales~TV+Newspaper", data = data).fit()

In [None]:
print(lm2.summary())

In [None]:
sales_pred = lm2.predict(data[["TV", "Newspaper"]])

In [None]:
#Añadir la Radio al modelo existente
lm3 = smf.ols(formula="Sales~TV+Radio", data = data).fit()

In [None]:
print(lm3.summary())

In [None]:
#Añadir la Radio al modelo existente
lm4 = smf.ols(formula="Sales~TV+Radio+Newspaper", data = data).fit()

In [None]:
print(lm4.summary())

In [None]:
sales_pred = lm4.predict(data[["TV", "Radio","Newspaper"]])
SSD = sum((data["Sales"]-sales_pred)**2)
RSE = np.sqrt(SSD/(len(data)-3-1))

In [None]:
RSE

In [None]:
RSE/sales_m

# Modelo de regresión lineal con Python
## 3) Validación de los supuestos

In [None]:
import statsmodels.stats.api as sms

### a) Bondad de ajuste

In [None]:
# Mayores valor en los R2
lm2.rsquared, lm2.rsquared_adj

In [None]:
## Menores criterios de información
lm2.aic, lm2.bic

### b) Multicolinealidad 
#### Factor Inflación de la Varianza
* VIF = 1 : Las variables no están correlacionadas
* VIF < 5 : Las variables tienen una correlación moderada y se pueden quedar en el modelo
* VIF >5 : Las variables están altamente correlacionadas y deben desaparecer del modelo.

In [None]:
# Newspaper ~ TV + Radio -> R^2 VIF = 1/(1-R^2)
lm_n = smf.ols(formula="Newspaper~TV+Radio", data = data).fit()
rsquared_n = lm_n.rsquared
VIF = 1/(1-rsquared_n)
VIF

In [None]:
# TV ~ Newspaper + Radio -> R^2 VIF = 1/(1-R^2)
lm_tv = smf.ols(formula="TV~Newspaper+Radio", data=data).fit()
rsquared_tv = lm_tv.rsquared
VIF = 1/(1-rsquared_tv)
VIF

In [None]:
# Radio ~ TV + Newspaper -> R^2 VIF = 1/(1-R^2)
lm_r = smf.ols(formula="Radio~Newspaper+TV", data=data).fit()
rsquared_r = lm_r.rsquared
VIF = 1/(1-rsquared_r)
VIF

### c)Test de linealidad

Test del Multiplicador de Harvey-Collier para la H0: la especificación lineal es correcta

In [None]:
name = ['t value', 'p value']
test = sms.linear_harvey_collier(lm3)
lzip(name, test)

### d) Test de Heteroscedasticidad

In [None]:
# Test de Breush-Pagan:
name = ['Lagrange multiplier statistic', 'p-value', 
        'f-value', 'f p-value']
test = sms.het_breuschpagan(lm3.resid, lm3.model.exog)
lzip(name, test)

In [None]:
# Test de Goldfeld-Quandt
name = ['F statistic', 'p-value']
test = sms.het_goldfeldquandt(lm3.resid, lm3.model.exog)
lzip(name, test)

### e) Test de Normalidad de los residuos

In [None]:
# Test de Jarque Bera
name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis']
test = sms.jarque_bera(lm3.resid)
lzip(name, test)

In [None]:
# Test de Omni
name = ['Chi^2', 'Two-tail probability']
test = sms.omni_normtest(lm3.resid)
lzip(name, test)

# Modelo linear con Python
## 4) Enfoque Data Science 

#### a) Dividir el conjunto en entrenamiento y de testing

In [None]:
a = np.random.randn(len(data))
plt.hist(a)

In [None]:
check = (a<0.8)
training = data[check]
testing = data[~check]
len(training), len(testing)

#### b) Estimación

In [None]:
lm = smf.ols(formula="Sales~TV+Radio", data=training).fit()
print(lm.summary())

#### c) Validación del modelo con el conjunto de testing

In [None]:
sales_pred = lm.predict(testing)
sales_pred

In [None]:
SSD = sum((testing["Sales"]-sales_pred)**2)
SSD
RSE = np.sqrt(SSD/(len(testing)-2-1))
RSE
SSD,RSE

In [None]:
sales_mean = np.mean(testing["Sales"])
error = RSE/sales_mean
error

In [None]:
%matplotlib inline
fig, ax = plt.subplots()
ax.set_xlim(-10,300)
ax.scatter(testing["TV"], testing["Sales"])
ax.scatter(testing["TV"], sales_pred, c="red")

#### d)  El paquete scikit-learn para regresión lineal y la selección de rasgos

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [None]:
data = pd.read_csv(main+"Advertising.csv")

In [None]:
feature_cols = ["TV", "Radio", "Newspaper"]

In [None]:
X = data[feature_cols]
Y = data["Sales"]

In [None]:
X_pred = X[["TV", "Radio"]]

In [None]:
lm = LinearRegression()
lm.fit(X_pred, Y)

In [None]:
lm.intercept_

In [None]:
lm.coef_

In [None]:
lm.score(X_pred, Y)