Regresión Lineal
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

# Definición del problema real

Uno de los problemas fundamentales en *customer analytics* es el pronóstico del consumo del cliente a partir de información histórica con el fin de tomar decisiones relacionada con políticas como planes de fidelización. 

# Definición del problema en términos de los datos

Se desea construir un modelo que permita pronósticar el valor de $y$ a partir del valor de $x$. Se tiene un conjunto de 30 observaciones para construir el modelo de pronóstico. La información recolectada es la siguiente:

     #       x       y
    --------------------
     1   -2.22   -4.69
     2   -1.50   -2.94
     3   -1.37   -1.67
     4   -0.88   -1.10
     5   -0.73   -0.19
     6   -0.67   -1.29
     7   -0.66   -1.06
     8   -0.60    9.43
     9   -0.30    0.52
    10   -0.18   -1.03
    11   -0.15    0.26
    12   -0.16    0.64
    13   -0.14   -0.49
    14   -0.02    0.42
    15    0.18    7.92
    16    0.65    0.47
    17    0.66    1.11
    18    0.73    6.58
    19    0.81    1.43
    20    0.90    0.85
    21    0.92    1.31
    22    0.97    1.49
    23    1.03    1.11
    24    1.29    2.23
    25    1.41    1.17
    26    1.56    2.40
    27    1.79    2.05
    28    1.93    3.48
    29    2.10    2.95
    30    2.45    4.68     
     

# Solución

## Definición del modelo de regresión lineal

En un modelo de regresión, la variable dependiente $y$ es una función lineal de las variables independientes $x$, tal que:


$$y = w_0 + b * w_1 + e$$


Donde: 


* $y$ es la variable explicada.


* $x$ es la variable explicativa del comportamiento de $y$.


* $w_0$ es el intercepto del modelo.


* $w_1$ es el coeficiente de $x$.


* $e$ es el error del modelo. Se parte del supuesto de que siguiendo una distribución normal con media cero y varianza $\sigma^2$ constante y desconocida.

## Estimación

En la siguiente figura se presenta de forma general la regresión de $y_i = e + w_0 + w_1 * x_i$ para $i$ = 1, ..., 5. Los puntos negros representan los datos (las observaciones), y la línea negra representa la ecuación de regresión. Las líneas rojas representan el error $e$ entre el valor observado de $y_i$ y el pronósticado por el modelo para cada valor  $x_i$. 

<img src="images/regxy.jpg" width=300>

La estimación de los parámetros $w_0$ y $w_1$ del modelo se realiza por mínimos cuadrados ordinarios (OLS), o lo que es lo mismo, minimizando la suma de los errores al cuadrado (SSE)

$$\text{SSE} = \sum_{i=1}^N e_i^2$$

Esto es, se deben encontrar los valores de $w_0$ y $w_1$ que minimicen:

$$\text{SSE} =\sum_{i=1}^N (y_i - w_0 - w_1 x_i)^2$$

para los $N$ puntos conocidos.

---
**Ejercicio.--** Estime los parámetros del modelo de regresión usando Microsoft Excel.

---

## Diagnóstico

En la especificación de un modelo se debe verificar lo siguiente:


* Los parámetros del modelo $w_0$ y $w_1$ deben ser estadísticamente diferentes de cero.


* La distribución de los errores $e$ debe ser normal.


* La varianza de los errores $\sigma^2$ debe ser constante.


El no cumplimiento de estos supuestos indica que pueden haber problemas en la especificación del modelo.

A continuación se detallan los resultados obtenidos en Microsoft Excel.

**Estadísticas de la regresión.**

              Estadísticas de la regresión	
    ---------------------------------------------
     Coeficiente de correlación múltiple 0.5196
     Coeficiente de determinación R^2    0.2700
     R^2  ajustado                       0.2439
     Error típico                        2.5773
     Observaciones                      30

El coeficiente de correlación $r$ mide la dependencia entre los movimientos de $x$ y $y$; un valor de $+1$ indica correlación perfecta positiva, mientras que un valor de $-1$ señala correlación perfecta negativa. Un valor de cero indica que no hay relación entre $x$ y $y$. Se define como:

$$r=\frac{\sum_{i=1}^N  (x_i - \bar{x}) (y_i - \bar{y})} {(N-1)\; s_X \; s_Y}$$
         
         
El coeficiente de determinación mide cuanta de la variación de $y$ es explicada por el modelo. Se calcula como:

$$R^2 = 1 - \frac{\sigma_e^2}{\sigma_y^2}$$

Si la varianza de los errores o residuales $\sigma_e^2$ es cero, el modelo explica el 100% de la variable $y$. Si $\sigma_e^2$ es igual a la varianza de $y$ el modelo no explica nada y $R^2$ vale cero.

El coeficiente de correlación ajustado $\bar{R}^2$ corrige el valor de $R^2$ por la cantidad de variables $k$ (igual a 2 para el caso analizado) y la cantidad de datos $N$:

$$R^2_{\text{Ajustado}} = 1 - \frac{N-1}{N-k-1}(1-R^2)$$


**Análisis de varianza.**

     ANÁLISIS DE VARIANZA
     ---------------------------------------------------------------------
             Grados de    Suma de    Promedio de        F  Valor crítico 
              libertad  cuadrados  los cuadrados                    de F
     --------------------------------------------------------------------- 
      Regresión      1    68.7788        67.7788  10.3542         0.0033
      Residuos      28   185.9930         6.6426		
      Total         29   254.7718			
     ---------------------------------------------------------------------
     
En esta tabla, es de particular interés el estadístico F. La hipótesis nula es que todos los parámetros del modelo ($w_0$ y $w_1$) son diferentes de cero, versus la hipótesis alterna en que se indica que al menos uno de ellos no es significativamente de cero.     
     

**Coeficientes de la regresión.**

    ------------------------------------------------------------
	           Coeficientes    Error  Estadístico  Probabilidad
                              típico            t
    ------------------------------------------------------------
     Intercepción    0.8303   0.4898       1.6951         0.1012
     x               1.3478   0.4188       3.2178         0.0033
    ------------------------------------------------------------
    
En esta fase se verifica los coeficientes sean significativamente diferentes de cero. Ya que el valor esperado de cada parámetro $w_i$ es desconocido, se verifica contra el supuesto de que su valor sea cero; así, se plantea la siguiente prueba de hipótesis:

* $H_0$: $w_i=0$
* $H_a$: $w_i \ne 0$

suponiendo que la distribución de $w_i$ es normal. Ya que en la práctica hay pocos datos, se reemplaza la normal por una t de Student. La última columna representa la probabilidad de que el valor del parámetro sea cero; es decir, es una prueba de hipótesis usando valores-$p$.

Para los resultados obtenidos, se observa que solo $x_1$ tiene un valor significativamente diferente de cero; sin embargo, el resultado puede estar viciado por la presencia de outliers.

**Análisis de los residuales.**

<img src="images/09-linreg-residuales.jpg" width=800>

En la gráfica anterior se presentan los residuales obtenidos para el modelo. En la parte izquierda se grafican los residuales versus el valor de $x$. Se observan tres residuales con valores positivos muy grandes en comparación con el resto de la muestra. Estos pueden indicar observaiones atípicas.

En la gráfica central se observa como el pronóstico (línea roja) se ajusta con cierta precisión a los datos observados, excepto por los tres posibles outliers que aparecen en la parte superior.

La figura derecha presenta el gráfico cuartil-cuartil para los residuales y una distribución normal. Si los residuales siguen una distribución normal, la secuencia de puntos forman aproximadamente una línea recta. Nótese que la la parte derecha de esta figura muestra que los últimos tres residuales son inusualemente grandes. En otras palabras, mientras que la parte izquierda de esta figura tiene valores cercanos a $-4$, la parte derecha tiene valores cercanos a $+10$, corroborando observaciones atípicas.

**Conclusión.** El modelo obtenido tiene dos objeciones para su aceptación:

* El valor de $w_0$ aparentemente no es significativamente diferente de cero.
* Hay tres posibles outliers.

## Efecto del ruído cuando hay pocos datos

Cuando existen pocos datos, la estimación del modelo es altamente sensible a los datos usados para su ajuste. En la figura de abajo, se tiene los datos sin ruido (puntos rojos) y la predicción de varios modelos lineales que difieren en los datos de entrenamiento; para variar los datos, se tomaron los valores de $X$ de los puntos rojos y se adicionó ruido aleatorio. Una vez se estimó el nuevo modelo se procedio a graficar su predicción (líneas grises). Como se observa, pequeñas variaciones en $X$ causan cambios muy importantes en el modelo estimado y consecuentemente cambios no despeciables en los pronósticos realizados.

<img src="images/lm-1.jpg" width=400>

## Efecto de outliers

Uno de los principales problemas de la regresión lineal es el efecto de los outliers. En la figura de abajo se presenta la recta de regresión lineal estimada para una muestra de diez puntos. En ella se observa que la recta de regresión sigue la tendencia de los puntos.

<img src="images/lm-2.jpg" width=400>

En la siguiente figura se presenta el mismo caso anterior, pero se adicionó un punto en las coordenadas (0, 1), que corresponde a un outlier. En la figura que sigue se observa como la recta de regresión gira hacia el punto.

<img src="images/lm-3.jpg" width=400>

Esto se debe a que en la estimación de los parámetros del modelo de regresión lineal se minimiza la suma de errores al cuadrado:

$$\text{SSE} =\sum_{i=1}^N (y_i - w_0 - w_1 x_i)^2$$

la cual se ve influenciada por valores del error muy grandes, como en el caso de los outliers.

Para resolver este problema, los parámetros del modelo pueden ser estimados minimizando otras medidas de error, como por ejemplo, la desviación media absoluta:

$$\text{MAD} = \frac{1}{N} \sum_{i=1}^N |y_i - w_0 - w_1 x_i|$$

---
**Ejercicio.--** Estime nuevamente el modelo minimizando la desviación media absoluta.

---

## Ridge regression

En la regresión ridge, se adiciona una penalización asociada al tamaño de los coeficientes de la regresión:

$$ \sum_{i=1}^N (y_i - w_0 - w_1 x_i)^2 + \alpha * (w_0^2 + w_1^2) $$


donde $\alpha$ es el peso de la penalización.

---
**Ejercicio.--** Para los datos del ejercicio planteado, grafique el pronóstico de diferentes modelos que difieren en el valor usado para $\alpha$. Explique el efecto de $\alpha$.

---

## LASSO

En este modelo, el término de penalización es el valor absoluto de los coeficientes del modelo de regresión. Mientras que en la regresión ridge, los coeficientes $w_i$ tienden a ser pequeños, LASSO tiende a llevarlos a cero:


$$ \sum_{i=1}^N (y_i - w_0 - w_1 x_i)^2 + \alpha * (|w_0| + |w_1|) $$


## Elastic Net

Este modelo combina las penalizaciones de ridge y LASSO en un solo modelo:

$$ \sum_{i=1}^N (y_i - w_0 - w_1 x_i)^2 + \alpha \rho * (|w_0| + |w_1|) + \frac{\alpha (1 - \rho)}{2}(w_0^2 + w_1^2)$$


---
**Ejercicio.--** Para los datos del ejercicio planteado, grafique el pronóstico de diferentes modelos que difieren en el valor usado para $\alpha$ y $\rho$ usando Elastic Net.

---

Regresión Lineal
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---