# Regresión Lineal.

Es un modelo matemático usado para aproximar la relación entre una variable independiente $\gamma$, las variables dependientes $X_i$ y en término aleatorio $\epsilon$.<br>
$\gamma$=$\beta_0+\beta_1$*$X_1$+...+$\beta_n+*X_n$+$\epsilon$.

Es un modelo de aprendizaje supervisado, dentro de los clasificadores es el más sencillo.

## Ejemplo:

In [1]:
%matplotlib notebook
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
import matplotlib.pyplot as plt

#Creamos los datos sobre los que trabajar:
X,y=make_regression(n_samples=300,n_features=1,n_informative=1,noise=30,random_state=0)

#Dibujamos nuestro conjunto de datos:
plt.figure()
plt.plot(X,y,'ro')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1d24dc81e10>]

Como podemos ver, a simple vista vemos que una aproximación mediante una regresión lineal puede ser muy apropiada.

In [2]:
#Creamos nuestro modelo:
lr=LinearRegression()

#Creamos un conjunto de datos train y test, aproximadamente suele ser un 75%-25%.
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

#Entrenamos nuestro modelo:
lr.fit(X_train,y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

Los coeficientes se obtienen con: lr.coef_.<br>
La variable aleatoria $\epsilon$ se obtiene con: lr.intercept_.<br>
La fórmula del error $R^2$ es: 
\begin{equation*}
    R^2=\frac{\sigma^2_{xy}}  {\sigma^2_x\sigma^2_y}.
\end{equation*}

In [3]:
#Veamos la salida de nuestro modelo:
print('Intercept del modelo lineal: {:.3f}.'.format(lr.intercept_))
print('Coef del modelo lineal: {}.'.format(lr.coef_))
print('R-squared train: {:.3f}.'.format(lr.score(X_train,y_train)))
print('R-squared test: {:.3f}.'.format(lr.score(X_test,y_test)))

Intercept del modelo lineal: -5.011.
Coef del modelo lineal: [64.78606412].
R-squared train: 0.833.
R-squared test: 0.813.


Podemos ver el resultado de la predicción usando la funcion predict.

In [4]:
print(lr.predict(X_test))

[ -30.88941268  -31.57618797  -88.7697929   -50.00900015  120.9088845
  -30.74835949   38.54464898 -136.57073639   79.33081104  119.9961051
  -46.30771826    7.21954002    2.87216316  -34.52284024  -33.37531975
  -53.26041591  -11.69782541 -130.45462991  -18.79328769   -6.58667611
  -46.10591409   56.49855502   56.35804446  -52.82480006  135.13686065
  -31.13092979   21.05544911   29.92515043  -35.04524079   71.95709204
   68.64403446   58.26191698  -13.61949187   20.64503402   21.03262642
  -53.09263285   -2.04616802   58.39789954   38.81276856  -12.17217636
   44.2939566   117.81651546   25.15775442    0.66141808   19.48897899
 -107.56303076   53.95622684  -46.70818537   -1.37195079 -184.63605434
  141.36105228  -69.81069788 -149.05622143  -35.22813976   89.20597441
 -109.76690022   94.2920502   -18.30207869  -16.12449387   19.37644634
   -6.11336788   66.23193483   28.74706024   37.33469398    1.32053377
  -36.97093585   49.69227167  144.25101264   10.03141324  -94.08836491
  -80.68

Ahora veamos el modelo junto a su recta de regresión.

In [5]:
plt.figure()
plt.plot(X,y,'ro')
plt.plot(X,lr.coef_*X+lr.intercept_,'k-')
#También podemos usar los resultados de predict.

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1d24df5ea58>]

Al ser el modelo más simple, no tiene ningún parámetro para controlar la complejidad del modelo.

Nuestra labor es reducir lo máximo posible el error medido por: 
\begin{equation*}
    RSS_{(w,b)}=\sum_{i=1}^N(\gamma_i-(w*x_i+b))^2.
\end{equation*}