<img style="float: right;" src="img/logo.png" width="500">

# Análisis de Regresión (2022-1)
## Especialización en Estadística Aplicada
#### Prof. [Sébastien Lozano Forero](https://www.linkedin.com/in/sebastienlozanoforero/) (slozanof@libertadores.edu.co)

## <font color='red'> Ejemplos de Modelos Lineales Simples</font>

### Tabla de contenidos

* [Ejemplo 1](#ej1)
* [Ejemplo 2](#ej2)
* [Ejemplo 3](#ej3)
* [Ejemplo 4](#ej4) 

### Ejemplo 1 <a class="anchor" id="ej1"></a>

Los datos del fichero $\texttt{EdadPesoGrasas.txt}$ corresponden a tres variables medidas en 25 individuos: edad, peso y cantidad de grasas en sangre. Para leer el fichero de datos y saber los nombres de las variables:

In [None]:
grasas <- read.table('http://verso.mat.uam.es/~joser.berrendero/datos/EdadPesoGrasas.txt', header = TRUE)
names(grasas)

In [None]:
options(repr.plot.width=5, repr.plot.height=5)
pairs(grasas)

In [None]:
cor(grasas)

In [None]:
regresion <- lm(grasas ~ edad, data = grasas)
summary(regresion)

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es: $y = 102.575 + 5.321 x$

In [None]:
options(repr.plot.width=4, repr.plot.height=4)
plot(grasas$edad, grasas$grasas, xlab='Edad', ylab='Grasas')
abline(regresion)


El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.701

In [None]:
nuevas.edades <- data.frame(edad = seq(30, 50))
predict(regresion, nuevas.edades)

Suponemos ahora que los datos proceden de un modelo de regresión simple de la forma:
$$
y_i=\beta_0+\beta_1 x_i+\epsilon_i,\hspace{1cm} i=1,\cdots,n,
$$
donde los errores aleatorios ϵi son independientes con distribución normal de media 0 y varianza $σ^2$. Bajo este modelo,

- Los errores típicos de los estimadores de los parámetros $\beta_0$ y $\beta_1$ se encuentran en la columna Std Error de la salida anterior. En el ejemplo, sus valores son 29.638 y 0.724 respectivamente.

- La columna t value contiene el estadístico t, es decir, cociente entre cada estimador y su error típico. Estos cocientes son la base para llevar a cabo los contrastes $H_0:\beta_0=0$ y $H_0:\beta_1=0$ . Los correspondientes p-valores aparecen en la columna $Pr(>|t|)$. En este caso son muy pequeños por lo que se rechazan ambas hipótesis para los niveles de significación habituales.

- El estimador de la desviación típica de los errores σ aparece como Residual standard error y su valor en el ejemplo es 43.5

- Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95):

### Ejemplo 2 <a class="anchor" id="ej2"></a>

Los siguientes ejemplos de regresión simple y múltiple se han obtenido del libro **Introduction to Statistical Learning** (Recomendado). El objetivo es mostrar los principales comandos en R para generar modelos lineales. Para obtener un modelo final robusto se tiene que analizar con más detalle cada una de las condiciones que se requieren para estos métodos.

El dataset Boston del paquete MASS recoge la mediana del valor de la vivienda en 506 áreas residenciales de Boston. Junto con el precio, se han registrado 13 variables adicionales.



In [None]:
# install.packages("MASS")
library(MASS)
library(ISLR)
data("Boston")

- **crim**: ratio de criminalidad per cápita de cada ciudad.
- **zn**: Proporción de zonas residenciales con edificaciones de más de 25.000 pies cuadrados.
- **indus**: proporción de zona industrializada.
- **chas**: Si hay río en la ciudad (= 1 si hay río; 0 no hay).
- **nox**: Concentración de óxidos de nitrógeno (partes per 10 millón).
- **rm**: promedio de habitaciones por vivienda.
- **age**: Proporción de viviendas ocupadas por el propietario construidas antes de 1940.
- **dis**: Media ponderada de la distancias a cinco centros de empleo de Boston.
- **rad**: Índice de accesibilidad a las autopistas radiales.
- **tax**: Tasa de impuesto a la propiedad en unidades de $\$10,000.$
- **ptratio**: ratio de alumnos/profesor por ciudad.
- **black**: $1000(Bk - 0.63)^2$ donde Bk es la proporción de gente de color por ciudad.
- **lstat**: porcentaje de población en condición de pobreza.
- **medv**: Valor mediano de las casas ocupadas por el dueño en unidades de $\$1000$s.

In [None]:
# install.packages("psych")
library(psych)
# La variable chas es una variable categórica por lo que se transforma a factor
Boston$chas <- as.factor(Boston$chas)
summary(Boston)

In [None]:
Boston

In [None]:
# Dado que hay muchas variables, se grafican por grupos de 4, excluyendo las
# categóricas
multi.hist(x = Boston[,1:3], dcol = c("blue","red"), dlty = c("dotted", "solid"),
           main = "")

In [None]:
multi.hist(x = Boston[,5:9], dcol = c("blue","red"), dlty = c("dotted", "solid"),
           main = "")

In [None]:
multi.hist(x = Boston[,10:14], dcol = c("blue","red"),
           dlty = c("dotted", "solid"), main = "")

In [None]:
modelo_simple <- lm(formula = medv ~ lstat, data = Boston)
summary(modelo_simple)

En la información devuelta por el summary se observa que el $p$-value del estadístico $F$ es muy pequeño, indicando que al menos uno de los predictores del modelo está significativamente relacionado con la variable respuesta. Al tratarse de un modelo simple, el $p-$value de estadístico $F$ es el mismo que el $p$-value del estadístico $t$ del único predictor incluido en el modelo (lstat). La evaluación del modelo en conjunto puede hacerse a partir de los valores RSE o del valor $R^2$ devuelto en el summary.

Residual standar error (RSE): En promedio, cualquier predicción del modelo se aleja 6.216 unidades del verdadero valor. Teniendo en cuenta que el valor promedio de la variable respuesta medv es de 22.53, RSE es de $6.21622.53=27\%$.

$R^2$: El predictor lstatus empleado en el modelo es capaz de explicar el $54.44\%$ de la variabilidad observada en el precio de las viviendas.

La ventaja de $R^2$ es que es independiente de la escala en la que se mida la variable respuesta, por lo que su interpretación es más sencilla.

Los dos coeficientes de regresión ($\beta_0$ y $\beta_1$) estimados por el modelo son significativos y se pueden interpretar como:

- Intercept($\beta_0$): El valor promedio del precio de la vivienda cuando el lstatus es 0 es de 34.5538 unidades.
- Predictor lstat($\beta_1$): por cada unidad que se incrementa el predictor lstat el precio de la vivienda disminuye en promedio 0.9500 unidades.
- La estimación de todo coeficiente de regresión tiene asociada un error estándar, por lo tanto todo coeficiente de regresión tiene su correspondiente intervalo de confianza.

In [None]:
predict(object = modelo_simple, newdata = data.frame(lstat = c(10)),
        interval = "prediction", level = 0.95)

In [None]:
options(repr.plot.width=5, repr.plot.height=5)
attach(Boston)
plot(x = lstat, y = medv, main = "medv vs lstat", pch = 20, col = "grey30")
abline(modelo_simple, lwd = 3, col = "red")

$\text{precio medio vivienda} = 34.55-0.95\text{lstat}$

### Ejemplo 3 <a class="anchor" id="ej3"></a>

Se desea ajustar un modelo de regresión lineal simple para explicar la Resistencia de una soldadura en función de la Edad de la soldadura.

In [None]:
file <- "https://raw.githubusercontent.com/fhernanb/datos/master/propelente"
datos <- read.table(file=file, header=TRUE)
head(datos) # shows the first 6 rows

In [None]:
library(ggplot2)
ggplot(datos, aes(x=Edad, y=Resistencia)) + 
  geom_point() + theme_light()

El modelo que se quiere montar

\begin{align}
Resistencia_i &\sim N(\mu_i, \sigma^2), \\ 
\mu_i &= \beta_0 + \beta_1 Edad_i, \\
\sigma^2 &= \text{constante}
\end{align}

In [None]:
mod1 <- lm(Resistencia ~ Edad, data=datos)
summary(mod1) # Para imprimir el objeto mod1

Queda finalmente estimado como 
\begin{align}
\widehat{Resistencia}_i &\sim N(\hat{\mu}_i, \hat{\sigma}^2), \\ 
\hat{\mu}_i &= 2627.822 -37.154 \, Edad_i, \\
\hat{\sigma} &= 96.11
\end{align}

In [None]:
ggplot(datos, aes(x=Edad, y=Resistencia)) + 
  geom_point() +
  geom_smooth(method='lm', formula=y~x, se=FALSE, col='dodgerblue1') +
  theme_light()

In [None]:
datos$predicciones <- predict(mod1)

In [None]:
ggplot(datos, aes(x=Edad, y=Resistencia)) +
  geom_smooth(method="lm", se=FALSE, color="lightgrey") +
  geom_segment(aes(xend=Edad, yend=predicciones), col='red', lty='dashed') +
  geom_point() +
  geom_point(aes(y=predicciones), col='red') +
  theme_light()

### Ejemplo 4 <a class="anchor" id="ej4"></a>

In [None]:
# install.packages("tidyverse")
library(tidyverse)
data("Orange")

In [None]:
# problema/pregunta
# Cuanto medir? la circunferencias, en promedio, de un arbol de naranjas en a los 800 dias de plantarlo
Orange %>% 
  ggplot(aes(x = age,
             y = circumference)) +
  geom_point() 