# Regresión lineal

La regresión lineal es la técnica muy común utilizada para predecir un valor continuo, su ventaja es que presenta una alta interpretabilidad de sus coeficientes. Ejemplos de la aplicación de esta técnica son: predecir el valor de una casa según el lugar donde se encuentra, el sueldo aproximado de un trabajador según sus años de experiencia. En la regresión lineal tenemos muchos puntos representados en el espacio, y se quiere encontrar la mejor línea de ajuste que pase cerca a estos puntos. La idea es la de establecer la relación entre variables independientes (también llamadas regresores, predictores, o X) y la variable dependiente (llamada también resultado, predicción, o simplemente Y), por medio de ajustar la mejor línea respecto a los puntos. A esta línea de mejor ajuste se conoce como regresión, la cual se representa de la siguiente manera por una ecuación lineal:

<b>Y=β0+β1X</b>

Donde:

<b>Y</b> es la respuesta o el valor predicho

<>X</b>: es la variable o característica

<b>β0</b> es el intercepto

<b>β1</b> es el coeficiente para X1(primera variable)

<b>β0</b> y <b>β1</b>, se denominan los coeficientes del modelo, para crear el modelo, primero debe “aprender” los valores del coeficiente. Una vez que hayamos aprendido estos coeficientes, se puede utilizar el modelo para predecir. La anterior ecuación representa una regresión lineal simple, el cual es el enfoque para predecir un valor continuo o cuantitativo utilizando una sola variable, no obstante, una variante de la regresión lineal que permite predecir dicho valor, con mas de una variable se denomina regresión lineal múltiple y se denota de la siguiente manera:

<b>Y=β0+β1X1+β2X2+...+βnXn</b>

Donde:

<b>Y</b>: es la respuesta o el valor predicho

<b>β0</b> es el intercepto

<b>β1</b> es el coeficiente para X1(primera variable)

<b>βn</b> es el coeficiente para Xn(la n variable)

## Estimando (aprendiendo) coeficientes del modelo

Los coeficientes se estiman utilizando el criterio de los mínimos cuadrados, lo que significa que se encuentra la línea (matemáticamente) que minimiza la suma de los residuos cuadrados (o "suma de los errores cuadrados"):

![Coeficientes regresion](img/coeficientes_regresion.png)

Cuales son los elementos presentes en el grafico
<br>
- Los puntos negros son los valores observados de X y Y<br>
- La línea azul es la línea de mínimos cuadrados<br>
- Las líneas rojas son los residuales, que representa la distancia entre los valores observados y la línea de mínimos cuadrados<br><br>

Como se relacionan los coeficientes del modelo con la línea de mínimos cuadrados<br>
- <b>β0</b> es el intercepto (es el valor de y cuando x = 0)<br>
- <b>β1</>: es la pendiente (es el cambio en y dividido por el cambio en x)


Esta es la representación gráfica de estos cálculos:

![Calculo](img/calculo_coeficientes.png)

Ventajas de la regresión lineal:<br>
- Es rápida, no requiere mucha capacidad de procesamiento
- Es bien comprensible
- No requiere parametrización o “tuning”
- Altamente interpretable<br>

Desventajas
- Es poco probable que produzca la mejor predicción (el supuesto de la regresión lineal es la existencia de una relación lineal entre las variables independientes y la variable dependiente)


Ejemplo regresión lineal con scikit-learn

Vamos a predecir los valores de una casa, utilizando el conjunto de datos (Dataset) que viene incluido con la librería

In [11]:
#Permite embeber gráficos en Jupyter
%matplotlib inline

Se importan las librerias, pandas, numpy y matplotlib

In [12]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

luego importamos el conjunto de datos

In [13]:
from sklearn import datasets

Cargamos y visualizamos los primeros registros del conjunto de datos

In [14]:
boston = datasets.load_boston()
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)
boston_df['TARGET'] = boston.target
boston_df.head() # estructura de nuestro dataset.

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,TARGET
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


### Crear el modelo de regresión lineal

Importamos la clase LinearRegression de la librería scikit-learn

In [15]:
from sklearn.linear_model import LinearRegression

Luego creamos una instancia de la clase, o para nuestro propósito el modelo llamado el estimador

In [16]:
regresionLinealCasa = LinearRegression()

seguido, entrenamos el modelo con nuestros datos, con el método fit

In [17]:
regresionLinealCasa.fit(boston.data, boston.target)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

después de ejecutar la línea de entrenamiento nos debe arrojar lo siguiente:<br>
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

Podemos observar unos valores por defecto, revisaremos que significa cada uno de ellos:
<br>
copy_X=True: significa que las variables que pasamos al estimador se copiaran, mas no se sobrescribirán<br>
fit_intercept=True: la regresión lineal implica el ajuste de la línea utilizando una pendiente, asi como una intercepción, por lo cual se estable en verdadero.<br>
normalize=False: indica que no queremos normalizar los datos


coeficientes del modelo, es decir cada B para cada x

In [19]:
list(zip(boston.feature_names, regresionLinealCasa.coef_))

[('CRIM', -0.1080113578367946),
 ('ZN', 0.04642045836687875),
 ('INDUS', 0.020558626367081122),
 ('CHAS', 2.6867338193449415),
 ('NOX', -17.766611228300487),
 ('RM', 3.809865206809234),
 ('AGE', 0.0006922246403421586),
 ('DIS', -1.475566845600251),
 ('RAD', 0.3060494789851679),
 ('TAX', -0.012334593916574113),
 ('PTRATIO', -0.9527472317072904),
 ('B', 0.009311683273793898),
 ('LSTAT', -0.524758377855493)]

### Predicción 

In [20]:
predicciones = regresionLinealCasa.predict(boston.data)
predicciones_df = pd.DataFrame(predicciones, columns=['Pred'])
predicciones_df.head() # predicciones de las primeras 5 lineas

Unnamed: 0,Pred
0,30.003843
1,25.025562
2,30.567597
3,28.607036
4,27.943524


Calcular cuánto se desvía la predicción respecto al valor de la casa

In [22]:
np.mean(boston.target - predicciones)

4.296958046296258e-15

Interpretación del modelo

Si observamos los coeficientes del modelo la lectura que se puede hacer es la siguiente: para cada coeficiente, si todas las demás variables se mantienen fijas, este está asociada con un aumento del valor del coeficiente respecto a la variable dependiente por el incremento en una unidad.
Importante resaltar que asociación es diferente a causación.
También es de resaltar que, si cualquiera de los coeficientes tiene signo negativo, es un indicador de que por cada unidad que se incremente estará asociado a una disminución en el valor de Y.


Ahora realizaremos un pequeño ajuste al modelo, ya que hemos entrenado el modelo con la totalidad de los datos, no obstante, esto no es una buena practica ya que podemos incurrir en sobre ajuste del modelo, mas adelante revisaremos mas en detalle de que trata, vamos a subdividir el conjunto de datos en dos conjuntos: un conjunto para el entrenamiento y otra para validar.

Importamos el método para crear los subconjuntos de prueba y entrenamiento

In [25]:
from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.4, random_state=1)


El método recibe como primer parámetro, las variables independientes, el segundo parámetro la variable dependiente, el porcentaje del conjunto de datos que destinaremos al conjunto de pruebas, el random_state, se recomienda separar mínimo un 20%, es para reproducibilidad del modelo.

Se crea una nueva instancia del estimador

In [26]:
lm = LinearRegression()

In [27]:
lm.fit(X_train,y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

Hacer una nueva predicción 

In [29]:
y_pred = lm.predict(X_test)

### Métricas de evaluación para modelos de regresión

Las métricas de evaluación de modelos de regresión son diseñadas para comparar valores continuos, a continuación se presentan tres comunes métricas de evaluación de problemas de regresión:

El error absoluto medio (MAE) es la media del valor absoluto de los errores
<br>
Con el siguiente ejemplo podemos ver su cálculo:

In [31]:
true = [100, 50, 30, 20]
pred = [90, 50, 50, 30]


In [32]:
#Calculo de forma manual
print((10 + 0 + 20 + 10)/4.)

#Utilizando sklearn

from sklearn import metrics
print(metrics.mean_absolute_error(true, pred))


10.0
10.0


La media del error al cuadrado (MSE) es la media de los errores al cuadrado

In [33]:
#Calculo de forma manual
print((10**2 + 0**2 + 20**2 + 10**2)/4.)

#Calculo utilzando la libreria
print(metrics.mean_squared_error(true, pred))


150.0
150.0


El error cuadrado medio de la raíz (RMSE) es la raíz cuadrada de la media de los errores cuadrados

In [35]:
#Calculo manual
import numpy as np
print(np.sqrt((10**2 + 0**2 + 20**2 + 10**2)/4.))

#calculo con la libreria

print(np.sqrt(metrics.mean_squared_error(true, pred)))


12.24744871391589
12.24744871391589


Comparando las métricas <br>
- MAE es el más fácil de entender, porque es el error promedio.
- MSE es más popular que MAE, porque MSE "castiga" los errores más grandes.
- RMSE es aún más popular que la MSE, porque la RMSE es interpretable en las unidades "y". <br>

Todas estas son funciones de pérdida, porque queremos minimizarlas.


### Sobreajuste

Es la tendencia de construir un modelo tan ajustado a los datos del conjunto de entrenamiento que los patrones obtenidos no son generalizables a datos que no se encuentran en los datos de entrenamiento. <br>

Es importante anotar que el sobreajuste imposibilita generalizar nuestro modelo, es decir no tendrá un buen desempeño a observaciones desconocidas.


In [1]:
from IPython.core.display import HTML
def css_styling():
    styles = open("estilos/custom.css", "r").read()
    return HTML(styles)
css_styling()