<div style="text-align: center; font-size: 30px;">
Prácticas de Estadística<br/>
</div>
<div style="text-align: center; font-size: 30px;">
Análisis bidimensional y Regresión
</div>
<div style="text-align: center; font-size: 16px; font-style: italic">
Material elaborado por M. Dolores Frías, Jesús Fernández y Carmen M. Sordo profesores del Departamento de Matemática Aplicada y Ciencias de la Computación de la Universidad de Cantabria.
</div>

# Objetivos

R permite realizar estudios de más de una variable. En particular en esta práctica nos centraremos
en el caso de 2 variables con el fin de estudiar el comportamiento de una de ellas a partir de otra.

# Análisis descriptivo de variables bidimensionales

## Tablas de doble entrada

En primer lugar construimos la tabla de doble entrada con dos variables no numéricas que seleccionamos del fichero *Pulsaciones.rda* como son *Actividad* que debemos ordenar de menos a más actividad y *Fumar*.

In [None]:
# Establecemos el directorio donde se almacenan los ficheros de datos en GitHub
setwd("data/") 
# Carga de lo datos del fichero
load("Pulsaciones.rda") 
attach(Pulsaciones)
# Ordenamos Actividad
actividad.order <- ordered(Actividad, levels=c( "baja", "media", "alta"))
# Tabla de doble entrada
table("Actividad fisica"=actividad.order, "Tabaco"=Fumar)

Del resultado de la tabla podemos ver por ejemplo, que hay 16 personas que realizaron una actividad alta que son no fumadoras.

Los valores que se muestran son frecuencias absolutas, pero podríamos obtener las frecuencias relativas sin más que dividir entre el tamaño de la muestra. Vemos en la siguiente tabla que esas 16 personas representan el 17.4% de la muestra.

Notar que se ha aplicado la función `round` a la salida de `table` para obtener los resultados con 3 decimales. 

In [None]:
n <- sum(table("Actividad fisica"=actividad.order, "Tabaco"=Fumar))
round(table("Actividad fisica"=actividad.order, "Tabaco"=Fumar)/n, 3)

Como ocurría en el caso unidimensional, si queremos agrupar los datos de variables continuas o discretas con muchos valores posibles debemos agrupar primero los valores en intervalos con la función `cut` indicando de donde a donde va cada uno de los intervalos y si estos se deben cerrar por la derecha o por la izquierda. Así, sabiendo que el criterio de Sturges nos indica que debemos definir 8 intervalos, la tabla de doble entrada para las variables *Pulso1* y *Pulso2* se puede obtener como:

In [None]:
n <- length(Pulso1)
# Criterio de Sturges
floor(3/2+log(n)/log(2)) 
range(Pulso1)
range(Pulso2)
# Tabla de doble entrada
table("Pulso 1"=cut(Pulso1, seq(44, 105, 7)), "Pulso 2"=cut(Pulso2, seq(50, 150, 12), right=FALSE))

Vemos por ejemplo que hay 16 personas con una pulso antes de la prueba entre (65,72] y un pulso después de la actividad entre [62,74).

## Diagrama de dispersión

Con el fin de analizar la relación entre dos variables también resulta
interesante la realización de distintos tipos de gráficos como es el
diagrama de dispersión analizado en clase. En este caso vamos a estudiar la
relación que existe entre las variables *Peso* y *Altura* del fichero *Pulsaciones.rda*:

In [None]:
plot(Altura, Peso, main="Diagrama de dispersion", pch=19, xlab="Altura (cm)", ylab="Peso (Kg)")

Podemos mejorar la representación anterior utilizando la función `scatterplot`
de la librería `car` que debemos instalar (este proceso solo se realiza una
vez con la orden `install.packages("car")`) y cargar con la función `library`. Recordar que debemos cargar esta
librería cada vez que iniciemos R y queramos utilizar alguna función
contenida en este paquete. 

In [None]:
library(car)
scatterplot(Peso~Altura, smooth=FALSE, xlab="Altura (cm)", ylab="Peso (Kg)")

La función `scatterplot` dibuja la recta de
regresión que mejor se ajuste a la nube de puntos considerando el criterio de
mínimos cuadrados. Además también dibuja los boxplots de cada variable en
su eje correspondiente. Consultar la ayuda de la función `scatterplot` para
ver todas las opciones que ofrece.

A la vista de la figura, se deduce que existe una relación lineal directa entre ambas variables. Lineal porque la nube de puntos se concentra alrededor de una recta y directa porque cuando una variable aumenta la otra también (pendiente de la recta positiva). Para cuantificar
esta relación lineal entre las dos variables vamos a calcular el coeficiente de correlación lineal. La función `cor.test` o `cor` nos proporcionan este valor:

In [None]:
# Coeficiente de correlacion lineal
cor(Altura, Peso)

que por defecto calcula el coeficiente de correlación de Pearson aunque como se indica en la ayuda de esta función también puede calcular el de Kendall o Spearman.

Como ya esperábamos el coeficiente de correlación lineal es relativamente alto y positivo (0.77) lo que confirma la relación lineal directa entre las variables que ya observábamos en el diagrama de dispersión.

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

- Representar un diagrama de dispersión de *Pulso1* frente al *Pulso2*.
  1. Añadir un título apropiado.
  2. ¿Qué sugiere el gráfico sobre la relación entre estas dos variables? 
  3. Añadir *Correr* como variable de agrupamiento.
  4. ¿Difiere mucho la relación entre *Pulso1* y *Pulso2* entre los que corrieron y los que no?

</n>

- Hacer un diagrama de dispersión de la *Altura* frente al *Peso* separando por sexos y responder a las siguientes preguntas:
  1. ¿Aumenta en la misma proporción la altura con el peso en los hombres y en las mujeres?
  2. ¿Cuál de los dos grupos presenta un valor de la correlación mayor? Indicar el valor en cada caso. Nota: En este caso se necesita filtrar los datos por *Sexo* antes de calcular el coeficiente de correlación.
</div>

# Regresión lineal

La función `lm` de R es la que nos permite ajustar un modelo de regresión
lineal ya sea simple ($\hat{y}=a+bx$) con la orden `lm(y~x)` o
múltiple ($\hat{y}=\beta_0+\beta_1x_1+...+\beta_px_p$) con la orden
`lm(y~x1+x2+...+xp)`. 

A modo de ejemplo podemos aplicar un modelo de regresión lineal simple
considerando la variable *Peso* en función de la *Altura*. La
relación lineal entre estas variables ya la estudiamos con el gráfico de
dispersión  y el coeficiente de
correlación, considerando que este tipo de modelo es adecuado. En primer
lugar se indica la variable dependiente (*Peso*), seguido de la variable
independiente (*Altura*), separadas por el carácter `~`. 

In [None]:
# Regresion lineal
lm(Peso~Altura)

como resultado obtenemos los valores de los parámetros a y b:

$\hat{y}=-93.89492 + 0.91516x$ 

Para trabajar mejor con esos valores podemos guardar la salida de `lm` en una variable. Eso nos permite obtener distintos resultados calculados en el ajuste de la forma:

In [None]:
# Regresion lineal
RegMod <- lm(Peso~Altura)
# Parametros del ajuste
coef(RegMod)
# Estadistica del modelo lineal
summary(RegMod)

La orden `summary` que se ha ejecutado nos da información adicional
sobre los residuos (su mínimo, máximo y cuartiles), los valores del corte con el eje y la pendiente, el error estándar de la estimación ($S_e=\sqrt{\frac{E^2}{n-2}}$), el coeficiente de determinación (*R-squared*) y el coeficiente de determinación ajustado (*Adjusted R-squared*), entre otros. 

Como ya sabemos, el valor del coeficiente de determinación está confinado en el intervalo [0,1] y da información de la bondad del ajuste. Cuanto más próximo esté el valor a 1 mejor se ajusta el modelo a los datos. Normalmente este valor se da en tanto por ciento. En este caso, al tratarse de un modelo de regresión lineal simple, el dato del coeficiente de determinación *R-squared*, se puede calcular como $r^2=\frac{S^2_n(\hat y)}{S^2_n(y)}$, e indica la proporción de la variación total de la variable dependiente Y que es explicada por el modelo de regresión o que se debe a la variación en la variable independiente X. 

En R, el coeficiente de determinación ajustado se calcula como:

$R^2_{ajustado} = 1 - \frac{n-1}{n-(p+1)} (1 - R^2)$

siendo n el tamaño de la muestra y p el número de predictores considerados en el modelo. Es decir, penaliza la bondad del ajuste en aquellos casos en los que haya más predictores y el tamaño de la muestra sea pequeño. La diferencia entre ambos coeficientes indica por tanto que hay demasiados predictores en relación con el tamaño de la muestra considerado y por tanto el ajuste del modelo es peor si se considera otro conjunto de datos. 

Al haber guardado la salida de la función `lm` en una variable, también es posible obtener las series de los residuos $\epsilon=(y_i-\hat{y}_i)$ y de los datos ajustados $(\hat{y}_i)$ con el modelo lineal ejecutando los comandos:

In [None]:
# Residuos
residuals(RegMod)

In [None]:
# Valores estimados de la variable dependiente
fitted(RegMod)

Con esas series sería posible analizar el ajuste del modelo estudiando el comportamiento de los residuos. Para ello podemos dibujar los residuos frente a los datos estimados y ver como se comporta su media y varianza. 

In [None]:
# Analsis de los residuos
plot(RegMod$fitted.values, RegMod$residuals, xlab="Peso estimado (Kg)", ylab="Residuos (Kg)")

Recordar que el caso ideal es que la media de los residuos sea cero y la varianza constante. Además la distribución de los puntos debe ser totalmente aleatoria, es decir no debe aparecer ningún patrón en ese gráfico ya que sino indicaría que no hemos modelizado bien los datos. En este caso en particular vemos que los datos no se ajustan a una recta y podemos considerar también que la media de los residuos es cero y su varianza constante. Por tanto el análisis de los residuos también nos indica que el modelo lineal es adecuado en este caso. 

R nos proporciona una serie de gráficos de ajuste del modelo (incluido el anterior) a través de las siguientes órdenes:

In [None]:
# Divimos la ventana de graficos en 4 partes: 2 filas y 2 columnas
layout(matrix(c(1,2,3,4),2,2))
# Graficos de ajuste del modelo lineal
plot(RegMod)

Por ejemplo la primera figura muestra el gráfico de los residuos frente a los valores ajustados que hemos analizado antes. También nos muestra en la parte inferior izquierda un gráfico Q-Q, que es útil para determinar si los residuos siguen una distribución normal. Si los valores de los datos en ese gráfico caen a lo largo de una línea aproximadamente recta en un ángulo de 45 grados, entonces los datos se distribuyen normalmente. 

Una vez analizada la bondad de ajuste del modelo y estudiado el comportamiento de los residuos, si consideramos que el modelo es adecuado podemos predecir el valor de la variable dependiente (Ŷ) para un valor concreto de la variable independiente (X). En este caso, podemos obtener el valor del peso para un valor de la altura de 185.7 cm con la orden `predict`:

In [None]:
# Data frame con el valor de la variable independiente
newdata <- data.frame(Altura=185.7)
# Prediccion de la variable dependiente
predict(RegMod, newdata)

A partir del modelo ajustado obtenemos que el valor estimado del peso para una
altura de 185.7 cm es de 76.05 Kg. 

En la ayuda de la función `predict`, se indica que es preciso pasarle los
datos que se quieren usar para predecir como un data frame con el mismo nombre de la variable que el usado para ajustar el modelo. En otro caso la sentencia
anterior dará un error. 

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

- Calcular la ecuaciones de la recta de ajuste del *Peso* en función de la *Altura* agrupados por *Sexo* y contestar a las siguientes preguntas:
  1. Escribir la ecuación resultante para las mujeres.
  2. ¿Cuál es la pendiente de la recta obtenida en el caso de los hombres?
  3. ¿Para que *Sexo* el modelo se ajusta mejor? ¿Por qué? 

</n>

- Un ciclista se desplaza en línea recta con un movimiento uniforme para el
cual según las leyes de la mecánica su posición x en un instante t
vendrá dada por la ecuación $x=x_0+vt$ donde $x_0$ es la posición inicial
y v la velocidad.</n>

  Se han tomado los siguientes valores de su posición x en metros y el tiempo t en segundos:
  
    x (metros)  14 26.2 37.7 51 61.8 76 84.2
  
    t (segundos) 2 4 6 8 10 12 14
  </n>

    A partir de estos datos estimar:
  1. el coeficiente de correlación
  2. los valores de la posición inicial y la velocidad del ciclista por medio de una regresión lineal.
  3. el espacio recorrido por el ciclista transcurridos 9 segundos.
  4. el error estandar de la estimación y la fracción de varianza explicada por el modelo.

</div>