![imagenes](logo.png)

Las regresiones son maneras de \emph{modelar} una característica medida utilizando otras, también medidas, de la misma muestra con el objetivo de crear predicciones. Esto es: si $X_1,X_2,...,X_n,X_{n+1}$ son algunas de las columnas de la tabla, encontrar una función $f$ tal que $X_{n+1}=f(X_1,X_2,...,X_n)$. En cristiano: **¿será posible explicar el comportamiento de una de las características a través del conocimiento de otras?**

Bajo la idea anterior, decimos que las características $X_1,X_2,...,X_n$ son **explicativas** o **predictoras** y la característica $X_{n+1}$ es la **variable objetivo** o **a predecir**.  


# Regresión lineal simple

En esta sección platicaremos de un problema de regresión muy sencillo conocido como **regresión lineal**. Observemos la siguiente nube de puntos: 

![imagenes](im016.png)

Debido a su forma, vale preguntarse cuál será la recta que mejor se aproxime, en algún sentido, a todos los puntos al mismo tiempo.

Observemos varias rectas graficadas con la nube de puntos. ¿Cuál dirías que es la que más se *ajusta* a todos los puntos al mismo tiempo?

![imagenes](im017.png)

De esta manera, sean $X$ y $Y$ dos características de tu población. Decimos que el modelo que explica a $Y$ a través de $X$ es lineal si tenemos razones para pensar que existen números $\beta_0$ y $\beta_1$ tales que $Y=\beta_0+\beta_1X+\varepsilon$ donde $\varepsilon$ es una variable aleatoria gaussiana con media 0 (un ruido blanco).

## Geometría analítica

Antes de avanzar, recordemos nuestros cursos de Geometría Analítica: toda recta en el plano es una ecuación de la forma $$y=mx+b$$ donde 

* $b$ se conoce como *ordenada al origen* y es el valor sobre el eje Y en que en la recta lo atraviesa. En regresión lineal se le llama *intercepto*.

* $m$ se conoce como *pendiente de la recta* y se identifica como la tangente inversa del ángulo que hace la recta con el eje X. En cristiano: $m$ mide la inclinación de la recta. También en regresión lineal se llama pendiente. Si $m>0$ la recta va hacia arriba; si $m<0$ la recta va hacia abajo; si $m=0$, la recta es horizontal.

Observa la interacción del archivo **geogebra-recta_pendiente_origen.ggb** de nuestro repositoria [que mostramos aquí con GeoGebra](https://github.com/scidatmath2020/Inferencia-Estad-stica-2022/blob/main/geogebra-recta_pendiente_origen.ggb)

Por lo tanto, **hallar la ecuación de una recta equivale a hallar los valores de $m$ y $b$**.

## Mínimos cuadrados



Recordemos nuestro objetivo: tenemos una lista de parejas de puntos $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$. Los graficamos como nube de puntos y buscamos la recta que mejor aproxime, en cierto sentido, a todos los puntos al mismo tiempo. 

En principio, cualquier recta $y=mx+b$ es una recta que podemos tomar como aproximación. Por lo tanto, a cada $x_i$ se le asignan dos números: el $y_i$ (que es un valor que conocemos) y el $\hat{y_i}=mx_i+b$, que es el valor que nos da la recta para ese número $x_i$.

* **Predicciones.** Son los valores $\hat{y_1},\hat{y_2},...,\hat{y_n}$. Es decir, los valores que *la recta predice*.

* **Residuos.** ¿Qué tanto se equivocó la recta? Recordemos: la recta le asigna a $x_i$ el valor $\hat{y_i}$. Pero el valor verdadero que acompaña a $x_i$ es $y_i$. Los residuos son los errores que la recta cometió: $\varepsilon_i=y_i-\hat{y_i}$.

Dicho esto, lo que buscamos es minimizar los residuos al mismo tiempo. Esto es: hallar $m$ y $b$ tales que $$\sum_{i=1}^n(y_i-\hat{y_i})^2$$ es lo menor posible.

Es decir, dadas tus observaciones $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ hallar $m$ y $b$ tales $$\sum_{i=1}^n(y_i-mx_i-b)^2$$ sea mínima. 

Esto es lo que se conoce como **problema de los mínimos cuadrados.**

Se puede demostrar fácilmente que el $m$ y $b$ que resuelven este problema son $$m=\frac{\sum(x_i-\overline{x})(y_i-\overline{y})}{\sum(x_i-\overline{x})^2}\mbox{ y }b=\overline{y}-m\overline{x}$$

Por lo tanto tenemos el siguiente resultado:

Si $(X_1,Y_1),(X_2,Y_2),...,(X_n,Y_n)$ son una muestra de tamaño $n$ de la característica $(X,Y)$ (es decir, $n$ renglones de tu tabla tomando solo las columnas $X$ y $Y$), entonces los estimadores para $\beta_0$ y $\beta_1$ de la recta de mínimos cuadrados son $$b_1=\frac{\sum(X_i-\overline{X})(Y_i-\overline{Y})}{\sum(X_i-\overline{X})^2}\,\,\mbox{ y 
}\,\,b_0=\overline{Y}-b_1\overline{X}$$

***
***
**Ejemplo 1. Datos**

En un experimento donde se quería estudiar la asociación entre consumo de sal y presión arterial, se asignó aleatoriamente a algunos individuos una cantidad diaria constante de sal en su dieta, y al cabo de un mes se los midió la tensión arterial media. Algunos resultados fueron los siguientes:

$X$(sal, en g)|$Y$(Presión, en mm de Hg)
:--:|:--:
1.8	|100
2.2	|98
3.5	|110
4.0	|110
4.3	|112
5.0	|120

En **R** esto es

``presion <- data.frame(sal=c(1.8,2.2,3.5,4.0,4.3,5.0),tension=c(100,98,110,110,112,120))``

Observemos la siguiente gráfica de los datos:

![imagenes](im018.png)

***
***

## Regresión lineal simple en R

En **R**, existe la función ``lm("nombre de la variable a predecir"~"nombre de la variable predictora",data=tabla)`` para realizar regresiones lineales. 

Haciendo ``summary(resultados_regresion_lineal)`` veremos un resumen general de los resultados obtenidos. Los coeficientes $b_0$ y $b_1$ se obtienen, en ese orden, mediante ``coefficients(resultados_regresion_lineal)``

***
***
**Ejemplo 1. Coeficientes**

De esta manera, en el **Ejemplo 1** tenemos:

``resultados_regresion_lineal  <- lm(tension~sal,data=presion)
coefficients(resultados_regresion_lineal)``

***
***

## Efectividad de la recta de regresión

En general, dadas las características $X$ y $Y$ y al menos dos observaciones (es decir, dos renglones de la tabla), **siempre será posible hallar la recta de regresión lineal**. Sin embargo, esto no nos dice si la recta es un buen modelo o no. Es decir, si la inferencia que hagamos a partir de ella será confiable o no.

Una forma de verificar si nuestras características $X$ y $Y$ obedecen a un modelo lineal es el **coeficiente de determinación $R^2$**

Este se define a través de la **identidad de suma de cuadrados** (muy parecida a la del ANOVA):

$$\underbrace{\sum_{i=1}^n(Y_i-\overline{Y})^2}_{SS_{Total}}=\underbrace{\sum_{i=1}^n(\hat{Y_i}-\overline{Y})^2}_{SS_{Regresión}}+\underbrace{\sum_{i=1}^n(Y_i-\hat{Y_i})^2}_{SS_{Error}}$$

Como hemos dicho, la filosofía es que $SS_{Error}$ sea lo mínimo posible y, si es chica entonces la variación total de los datos originales viene fuertemente explicada por la variación de los datos de nuestas predicciones.

Se define el **coeficiente de determinación** como $$R^2=\frac{SS_{Regresión}}{SS_{Total}}$$

Cuanto más cerca esté el $R^2$ a 1, es mejor nuestra regresión. Y si $R^2$ es próximo a 0, entonces no existe modelo lineal que relacione a $X$ con $Y$ y por lo tanto la recta de regresión lineal no nos sirve para nada.

## R^2 en R

En **R**, simplemente hacemos ``summary(resultados_regresion_lineal)$r.squared`` para obtener el coeficiente de determinación.

***
***

**Ejemplo 1. Coeficiente de determinación**

``summary(resultados_regresion_lineal)$r.squared``

***
***

## Intervalos de confianza de los coeficientes en la regresión lineal simple

Recordemos que $b_0$ y $b_1$ dependen de la muestra, por lo que a su vez son variables aleatorias que nos siven para estimar $\beta_0$ y $\beta_1$. Bajo ciertos supuestos que veremos en la siguiente sección (Regresión múltiple), podemos encontrar intervalos de confianza para $\beta_0$ y $\beta_1$:

$$\beta_0:\,\,\,\left(b_0-t_{n-2,1-\alpha/2}S\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{(n-1)S_X ^2}},b_0+t_{n-2,1-\alpha/2}S\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{(n-1)S_X ^2}}\right)$$

$$\beta_1:\,\,\,\left(b_1-t_{n-2,1-\alpha/2}\frac{S}{S_X\sqrt{n-1}},b_1-t_{n-2,1+\alpha/2}\frac{S}{S_X\sqrt{n-1}}\right)$$

donde $S$ es la desviación muestral de los errores y $S_X$ es la desviación muestral de la variable $X$.

## Intervalos de confianza de los coeficientes en R

En **R** los intervalos de confianza al $100*(1-\alpha)$% vienen dados por ``confint(resultados_regresion_lineal,level=1-alpha)``

***
***
**Ejemplo 1. Intervalos de confianza de los coeficientes**

``confint(resultados_regresion_lineal,level=0.95)``

***
***

## Significancia de la pendiente $\beta_1$

Cuando decimos que $Y$ se explica linealmente por $X$, implícitamente estamos diciendo que en el modelo $$Y=\beta_0+\beta_1X+\varepsilon$$ tenemos $\beta_1\neq0$ (ya que si $\beta_1=0$ entonces $Y$ no dependería de $X$ y por lo tanto la variación de $Y$ únicamente depende de $\varepsilon$ que es totalmente azar).

Por lo tanto se plante el contraste $$\begin{array}{l}H_0:\beta_1=0\\H_1:\beta_1\neq0\end{array}$$

En este caso, una vez calculado el $p$-valor correspondiente, tenemos la regla de decisión:

$p$-valor|Descripción|Significado
:--:|:--|:--
$<0.05$|Tenemos evidencia suficiente para rechazar $H_0$|Sí hay efectos de $X$ sobre $Y$
$>0.1$|No tenemos evidencia suficiente para rechazar $H_0$|No hay efectos de $X$ sobre $Y$
en otro caso||Necesitamos mas información|

El $p$-valor viene dado en ``summary(resultados_regresion_lineal)``

## Predicciones en la regresión lineal simple

Nuevamente, bajo ciertos supuestos que veremos en la siguiente sección (Regresión múltiple), la utilidad de las regresiones lineales radica en que nos sirven para realizar predicciones. Es decir, si llega un nuevo dato de la variable $X$, digamos $x_0$, podemos utilizar el modelo calculado a partir de la tabla original para encontrar el valor de $Y$ en $x_0$: $$Y|_{x_0}=b_0+b_1x_0$$

En otras palabras, nos puede interesar el valor medio de la variable de respuesta cuando un valor $x_0$ no ha sido considerado en la muestra, o el valor de la variable respuesta también cuando un valor $x_0$ no ha sido considerado en la muestra.

Para ambos valores usamos como estimación a $b_0+b_1x_0$.

## Predicciones en la regresión lineal simple en R

Para hallar estos intervalos de confianza cuando $X=x_0$ al $100(1-\alpha)$% de confianza debemos usar la función ``predict.lm`` de la siguiente manera:

``new.data = data.frame(x=x0)
predict.lm(resultados_regresion_lineal,newdata,interval="confidence",level=1-alpha)
predict.lm(resultados_regresion_lineal,newdata,interval="prediction",level=1-alpha)`` 

***
***
**Ejemplo 1. Predicciones**

Suponiendo que a un paciente se le administra una dosis de sal de 4.5, ¿cuál va a ser su presión promedio y el intervalo de confianza de su presión promedio al 95%? ¿Cuál va a ser su presión y el intervalo de confianza para su presión?

``new.data = data.frame(sal=4.5)
predict.lm(resultados_regresion_lineal,newdata,interval="confidence",level=0.95)
predict.lm(resultados_regresion_lineal,newdata,interval="prediction",level=0.95)``


***
***

