<img src="logo.png">

# Regresión lineal simple

El problema de la regresión consiste en hallar la mejor relación funcional entre dos variables $X$ e $Y$. Más concretamente, dada una muestra de los variables $X$, $Y$, $\{(x_i,y_i)_{i=1}^n\}$, queremos estudiar cómo depende el valor de $Y$ en función de $X$.

La variable aleatoria $Y$ es la variable dependiente o de respuesta.

La variable (no necesariamente aleatoria) $X$ es la variable de control, independiente o de regresión. Pensemos por ejemplo, en un experimento donde la variable $X$ es la que controla el experimentados y la variable $Y$ es el valor que se obtiene del experimento. 

Si la relación funcional una recta, $Y=\beta_0+\beta_1X$, la regresión se denomina regresión lineal.

En la regresión lineal, se hace la suposición siguiente: $\mu_{Y|x}=\beta_0+\beta_1x$


Los estimadores de los parámetros $\beta_0$ y $\beta_1$ se llamarán $b_0$ y $b_1$, respectivamente, y se obtienen a partir de la muestra. Una vez halladas las estimaciones, obtendremos la recta de regresión para nuestra muestra: $$\widehat{y}=b_0+b_1x,$$ que dado un valor $x_0$ de $X$, estimará el valor $\widehat{y_0}=b_0+b_1x_0$ de $Y$. 



## Mínimos cuadrados

Vamos a explicar el método para hallar las estimaciones $b_0$ y $b_1$. Dicho métrodo se conoce como **mínimos cuadrados**.

Dada una observación cualquiera de la muestra, $(x_i,y_i)$, podremos separar la componente $y_i$ como la suma de su valor predicho por el modelo y el error cometido: $$y_i=\beta_0+\beta_1x_i+\epsilon_i,\,\mbox{de donde }\epsilon_i=y_i-(\beta_0+\beta_1x_i).$$

Llamamos **error cuadrático teórico** de este modelo a la suma al cuadrado de todos los errores cometidos por los valores de la muestra: $$SS_E=\sum_{i=1}^n\epsilon_i^2=\sum_{i=1}^n(y_i-(\beta_0+\beta_1x_i))^2$$

La regresión lineal por mínimos cuadrados consiste en hallar los estimadores $b_0$ y $b_1$ que minimicen el error cuadrático teórico. Es sencillo demostrar que los valores que optimizan son 

$$\begin{array}{ccl}b_0&=&\frac{\displaystyle n\displaystyle\sum_{i=1}^nx_iy_i-\sum_{i=1}^nx_i\sum_{i=1}^ny_i}{\displaystyle n\displaystyle\sum_{i=1}^nx_i^2-\left(\displaystyle\sum_{i=1}^nx_i\right)^2}\\&&\\b_1&=&\frac{\displaystyle n\displaystyle\sum_{i=1}^ny_i-b_1\sum_{i=1}^nx_i}{\displaystyle n}\\\end{array}$$



Hagamos uso ahora de las medias, varianzas y covarianzas muestrales. En particular. 

$$\tilde{S}_X^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2=\frac{n}{n-1}\left(\frac{1}{n}\sum_{i=1}^nx_i^2-\overline{x}^2\right)$$

$$\tilde{S}_Y^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2=\frac{n}{n-1}\left(\frac{1}{n}\sum_{i=1}^ny_i^2-\overline{x}^2\right)$$

$$\tilde{S}_{XY}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})=\frac{n}{n-1}\left(\frac{1}{n}\sum_{i=1}^nx_iy_i-\overline{x}\,\overline{y}\right)$$

son las varianzas y covarianza muestrales.

**Teorema.**

Los estimadores $b_0$ y $b_1$ del método de los mínimos cuadrados se reescriben como $$b_1=\frac{\tilde{S}_{XY}}{\tilde{S}_X^2}\mbox{ y }b_0=\overline{y}-b_1\overline{x}.$$

Dado un valor $x$ de $X$, llamaremos **valor estimado de $Y$ cuando $X=x$** a $\widehat{y}$ de la expresión $\widehat{y}=b_0+b_1x$. Dada una observación $(x_i,y_i)$, llamamos error de la observación, denotado por $e_i$, a la expresión $e_i=y_i-\widehat{y_i}=y_i-(b_0+b_1x_i)$.

**Ejemplo.**

En un experimento donde se quería estudiar la asociación entre consumo de sal y presión arterial, se asignó aleatoriamente a algunos individuos una cantidad diaria constante de sal en su dieta, y al cabo de un mes se les midió la tensión arterial media. Algunos resultados fueron los siguientes:

|Sal (g)| Presión (mm de Hg)|
|:--:|:--:|
|1.8|100|
|2.2|98|
|3.5|110|
|4.0|110|
|4.3|112|
|5.0|120|


### Función lm en R

En R, podemos hacer los cálculos de $b_0$ y $b_1$ utilizando la función lm. Esta tiene la sintaxis:

``lm(Y~X,datos)$coefficients``

donde 

Y es la variable de respuesta.
X es la variable de control.
datos es la tabla donde se encuentra la información.

Además, para observar el gráfico junto con la recta de la regresión lineal podemos usar el siguiente plot:

``ggplot(data = datos) +
  geom_point(mapping = aes(x = X,y = Y)) +
  geom_abline(mapping = aes(intercept = lm(Y~X,datos)$coefficients[1],
                            slope = lm(Y~X,datos)$coefficients[2]
                            )
             )``


## Propiedades de la recta de regresión.


* La recta de regresión siempre pasa por el punto $(\overline{x},\overline{y})$ de la muestra. Es decir $$\overline{y}=b_0+b_1\overline{x}.$$


* La media de los valores estimados a partir de la recta de regresión es igual a la media de los valores observados. Es decifr $$\overline{\widehat{y}}=\overline{y}.$$


* Los errores tienen media 0:
$$\overline{e}=\frac{1}{n}\sum_{i=1}^ne_i=0$$


Llamaremos **suma de cuadrados de los errores** a $$SS_E=\sum_{i=1}^ne_i^2.$$

Usando que los errores tienen media cero, su varianza será:
$$S^2_e=\frac{SS_E}{n}$$


Definimos las variables aleatorias $E_{x_i}$ como $E_{x_i}=y_i-(b_0+b_1x_i)$, donde $(x_i,y_i)$ es un valor de la muestra y $b_0,b_1$ son loes estimadores obtenidos por el método de los mínimos cuadrados. Entonces:

**Teorema.** Si las variables aleatorias $E_{x_i}$ tienen todas media 0 y la misma varianza $\sigma^2_E$ y, dos a dos, tienen covarianza 0, entonces $b_0$ y $b_1$ son los estimadores lineales insesgados óptimos de $\beta_0$ y $\beta_1$, y un estimador insesgado de $\sigma_E^2$ es $S^2=\frac{SS_E}{n-2}.$

Si además las variables $E_{x_i}$ son normales, entonces $b_0$ y $b_1$ son los estimadores de máxima verosimilitud de $\beta_0$ y $\beta_1$.



## Coeficiente de determinación

Llegados a este punto, nos preguntamos lo efectiva que es la recta de regresión. Es decir, cómo medir si la aproximación hallada a la nube de puntos ha sido suficientemente buena.

Una forma de realizar dicha medición es através del coeficiente de determinación $R^2$ que estima cuánta variabilidad de los valores $y_i$ heredan los valores estimados $\widehat{y_i}$.

Para ver su definición, necesitamos introducir las variabilidades siguientes:

* **Variabilidad total** o suma total de los cuadrados: $$SS_T=\sum_{i=1}^n(y_i-\overline{y})^2=(n-1)\tilde{S}^2_Y$$


* **Variabilidad de la regresión** o suma de los cuadrados de la regresión: $$SS_R=\sum_{i=1}^n(\widehat{y}_i-\overline{y})^2=(n-1)\tilde{S}^2_\widehat{Y}$$


* **Variabilidad del error** o suma de los cuadrados del error: $$SS_E=\sum_{i=1}^n(y_i-\widehat{y}_i)^2=(n-1)\tilde{S}_e^2$$

**Teorema.** En una regresión lineal usando el método de los mínimos cuadrados se cumple la siguiente relación entre las variabilidades: $SS_T=SS_R+SS_E$, o equivalentemente $$\tilde{S}_Y^2=\tilde{S}_\widehat{Y}^2+\tilde{S}_e^2$$

Entonces, cuantas más "próximas" estén las variabilidades $SS_T$ y $SS_R$, más efectiva habrá sido la regresión, ya que habrá heredado mucha variabilidad de los datos y la variabilidad del error será pequeña.

Se define el **coeficiente de determinación $R^2$** en la regresión por el método de los mínimos cuadrados como $$R^2=\frac{SS_R}{SS_T}$$

$R^2$ es una cantidad entre 0 y 1. Cuanto más próximo a 1 esté dicho coeficiente, más precisa será la recta de regresión.


Se define el **coefienciente de correlación lineal $r_{xy}$** como $$r_{xy}=\frac{\tilde{s}_{xy}}{\tilde{s}_{x}\tilde{s}_{y}}$$


Entonces $$R^2=r^2_{xy}$$ 

En R, el coeficiente de determinación se halla con ``summary(lm(y~x,datos))$r.squared``

## El cuarteto de Anscombe

Usar solamente el coeficiente de determinación para medir la calidad de la regresión es un error. Tenemos que observar mas información para poder afirmar que la regresión obtenida es adecuada y se ajusta a nuestros datos.

En R existe una tabla llamada anscombe que pone de manifiesto este hecho. Para mandarla a llamar, basta con hacer data(anscombe).




**Ejercicio.** Calcular las regresiones lineales posibles de la tabla de Anscombe y su coeficiente de determinación.

## Intervalos de confianza

Para poder hallar los intervalos de confianza al $100\cdot(1-\alpha)\%$ sobre los parámetros $\beta_0$ y $\beta_1$, necesitamos los supuestos siguientes:

Para cada valor $x_i$ de la variable $X$, las variables aleatorias $E_{x_i}$ siguen una distribución $N(0,\sigma^2_E)$, donde la desviación es constante. También supondremos que dados $x_i$ y $x_j$, la covarianza es nula.

Bajo estas suposiciones:

**Teorema.** Los errores estandar de los estimadores $b_0$ y $b_1$ son $$\frac{\sigma_E}{\tilde{S}_X\sqrt{n-1}}\mbox{ y }\sigma_E\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{(n-1)\tilde{S}^2_X}}$$ donde para estimar $\sigma_E$ usamos la desviación muestral de los errores $S$.

**Teorema** Las variables aleatorias $$\frac{b_1-\beta_1}{\frac{S}{\tilde{S}_X\sqrt{n-1}}}\mbox{ y }\frac{b_0-\beta_0}{S\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{(n-1)\tilde{S}^2_X}}}$$ son $t$ de Student con $n-2$ grados de libertad.

Por lo tanto, los intervalos de confianza para $\beta_0$ y $\beta_1$ al $100(1-\alpha)\%$ son los siguientes:
$$\begin{array}{l}\beta_1:\,\left(b_1-t_{n-2,1-\frac{\alpha}{2}}\frac{S}{\tilde{S}_X\sqrt{n-1}},b_1+t_{n-2,1-\frac{\alpha}{2}}\frac{S}{\tilde{S}_X\sqrt{n-1}}\right)\\
\beta_0:\,\left(b_0-t_{n-2,1-\frac{\alpha}{2}}S\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{(n-1)\tilde{S}_X^2}},b_0+t_{n-2,1-\frac{\alpha}{2}}S\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{(n-1)\tilde{S}_X^2}}\right)
\end{array}$$



## La función lm

Cuando hacemos summary(lm(...)) nos dará mucha información acerca del modelo lineal. Para los intervalos de confianza anteriores, usamos confint(lm(...),level=0.95)

<img src="lm.png">