# Regresión lineal

La regresión lineal es un algoritmo de aprendizaje supervisado que se utiliza en Machine Learning y en estadística. En su versión más sencilla, lo que haremos es “dibujar una recta” que nos indicará la tendencia de un conjunto de datos continuos.

Su objetivo generar la mejor aproximación y modelar la relación entre una variable escalar dependiente “y” y una variable explicativas nombradas con “X”.

Este modelo puede ser expresado como:

$$Y_i = \beta_0 + \beta_1 X_i$$ 

Donde:
* $Y_i$: Variable dependiente
* $X_i$: VAriable independiente
* $\beta_0 y \beta1$: parámetros del modelo.

## sklearn

Para todos los modelos usaremos el módulo _sklearn_, este posee una gran variedad de modelos ya implementados. 

La siguiente imágen es un mapa que contiene algunos de los modelos incluidos en el módulo además de ser una guía para la selección de modelos.

<img src="http://scikit-learn.org/stable/_static/ml_map.png" height=750px width=750px>

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

## Ejemplo simple

Usaremos los siguientes datos para entrenar a un módelo.

$$ X = [ -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5 ] $$
$$ Y = [ 1, 5, 4, 7, 10, 8, 9, 13, 14, 13, 18 ] $$

A simple vista se puede apreciar su tendencia lineal


In [None]:
#Preparamos los datos

data_x = np.array([ -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5 ]).reshape(-1, 1)
data_y = np.array([ 1, 5, 4, 7, 10, 8, 9, 13, 14, 13, 18 ])

plt.scatter(data_x, data_y,  color='red');

In [None]:
# Cargamos el modelo
regr = linear_model.LinearRegression()

# Entrenamiento
regr.fit(data_x, data_y)

# Los resultados
print('Parámetos beta: \n', regr.intercept_, regr.coef_[0])

In [None]:
# Nuevas entradas para predecir
test_x = np.array([ -6,  -3.5, -1.5, 1,  3, 4.5 ]).reshape(-1, 1)
test_y = np.array([ 2,  6, 8, 9,  14, 15 ])

# Luego de entrenar podemos predecir
pred_y = regr.predict(test_x)


# Metrica para la regresión
print("Error cuadrado: %.2f"
      % mean_squared_error(test_y, pred_y))
print('r2: %.2f' % r2_score(test_y, pred_y))

# Plots
plt.scatter(test_x, test_y,  color='blue')

plt.plot(test_x, pred_y, color='green', linewidth=3)


plt.show()

## Usando datos reales

A continuación usaremos los datos de progresión de la enferdad contra diferentes variables como edad, sexo, indice de masa muscular, presión sanguinea y seis mediciones de suero sanguineo. 

In [None]:
diabetes = datasets.load_diabetes()
print(diabetes.DESCR)

In [None]:
# Preparamos los datos
# Usamos solo la primera variable
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Dividimos los datos para entrenar y probar nuestro modelo
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

### Regresión

In [None]:
#Respuestas en diabetes_y_pred

In [None]:
# Los resultados
print('Parámetos beta: \n', regr.intercept_, regr.coef_[0])

# Metrica para la regresión
print("Error cuadrado: %.2f"
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))
print('r2: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))

# Plots
plt.scatter(diabetes_X_test, diabetes_y_test,  color='red')
plt.plot(diabetes_X_test, diabetes_y_pred, color='green', linewidth=3)


plt.show()

Ahora intente realizar una regresión lineal para otro atributo de los datos y compare los errores