<div style="text-align: center; font-size: 30px;">
Prácticas de Estadística<br/>
</div>
<div style="text-align: center; font-size: 30px;">
Inferencia y Contraste de Hipótesis
</div>
<div style="text-align: center; font-size: 16px; font-style: italic">
Material elaborado por M. Dolores Frías, Jesús Fernández y Carmen M. Sordo profesores del Departamento de Matemática Aplicada y Ciencias de la Computación de la Universidad de Cantabria.
</div>

# Objetivos

En esta práctica vamos a utilizar las opciones de R para aplicar el análisis inferencial ya sea para calcular intervalos de confianza o resolver contraste de hipótesis. Como ya hemos visto en clase, vamos a estudiar una muestra pequeña y representativa de la población, para extraer conclusiones sobre parámetros de la población. En particular nos vamos a centrar en obtener información de las principales características de la
población como son la proporción, la media y la varianza.

En cuanto a la forma de calcular intervalos de confianza, en R no hay una función  específica para calcularlos sino que forman parte de la información que se general al programar un contraste de hipótesis.

# Significado del intervalo de confianza

Comenzaremos analizando el significado del intervalo de confianza. El objetivo del  intervalo de confianza es dar una cierta garantía de la presencia del parámetro de la población dentro de un intervalo construido a partir de una muestra.

Podemos plantearnos la siguiente pregunta: ¿Es 0.5 la probabilidad de obtener cara al lanzar una moneda?

Para contestar esta cuestión vamos a realizar el siguiente experimento:

Lanzamos una moneda 30 veces, y estimamos el valor de la proporción de obtener caras al lanzar una moneda (P) a partir de la proporción de caras obtenidas (p=pest) en esos 30 lanzamientos. Como ya sabemos de prácticas anteriores, podemos simular el lanzamiento de las 30 monedas con la función `rbinom` ya que tenemos 30 sucesos de Bernouilli, todos independientes entre si y con la misma probabilidad de éxito (P=0.5):


In [None]:
n <- 30 # 30 lanzamientos de una moneda
P <- 0.5 # Probabilidad de obtener cara en un lanzamiento
pest <- rbinom(1,n,P)/n; pest # Proporcion muestral

Repetimos el experimento de lanzar 30 veces la moneda 50 veces (m=50) y calculamos la proporción de caras obtenidas para cada una de los m experimentos.

In [None]:
m <- 50  # veces que se repite el experimento
pest <- rbinom(m,n,P)/n; pest # Proporcion muestral para cada experimento

En la variable `pest` se guarda la proporción de caras obtenidas al lanzar 30 monedas en cada uno de los 50 experimentos realizados.

Fijamos el nivel de confianza $1-\alpha = 0.95$ y, asumiendo que la distribución de  proporciones muestrales sigue una Normal ya que n es suficientemente grande, calculamos el intervalo de confianza correspondiente a  cada una de las 50 muestras de la forma:

$p \pm z_{\alpha/2} \sqrt {{{p(1-p)} \over n}}$ 

In [None]:
# Nivel de significacion
alfa <- 0.05 
z <- qnorm(1-alfa/2)
e <- z*sqrt(pest*(1-pest)/n); e # Valor del error para cada experimento

Representamos los m = 50 intervalos de confianza resultantes con el comando:

In [None]:
# Intervalos de confianza
matplot(rbind(pest-e, pest+e),rbind(1:m,1:m),type="l",lty=1, xlim=c(0,1),
        ylab="m", xlab="[p-e, p+e]", main="Confidence intervals of P")

Marcamos con una línea vertical el valor P=0.5

In [None]:
# Intervalos de confianza
matplot(rbind(pest-e, pest+e),rbind(1:m,1:m),type="l",lty=1, xlim=c(0,1),
        ylab="m", xlab="[p-e, p+e]", main="Confidence intervals of P")
# Añadimos linea vertical 
abline(v=P)

¿Qué observas? ¿El intervalo de confianza depende de la muestra elegida? 

¿Todos los intervalos de confianza dibujados atrapan a la proporción de la población (P)?

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

Realizar ahora el experimento 10000 veces y comprobar con que probabilidad el valor de la proporción poblacional se encuentran dentro del intervalo de confianza calculado para cada muestra. Debéis programar con R este cálculo determinando el número de intervalos obtenidos que contienen a P. Probar para diferentes niveles de confianza (95% y 99%). 

¿Qué ocurre con los intervalos de confianza obtenidos si se aumenta o disminuye el nivel de confianza?

¿Qué porcentaje de intervalos contienen el valor de la proporción 0.5? ¿Qué relación existe entre ese porcentaje y el nivel de confianza considerado?

Prueba ahora lo siguiente. Para un nivel de confianza dado (por ejemplo 0.95), ¿qué ocurre con el intervalo de confianza cuando aumentas el tamaño de la muestra? Prueba con los valores n=100 y 300 por ejemplo. 
</div>


# Inferencia y contraste de hipótesis con una muestra

En esta práctica vamos a ver como realizar con R la estimación y contraste de parámetros de una sola población. En particular nos centraremos en tres parámetros: proporción, media y varianza de la población.

## 1. Proporciones

### Intervalo de confianza de proporciones

Como sabemos una opción para poder calcular proporciones, es considerar una muestra de una variable tipo factor, para que podamos agrupar los individuos según ese factor o  categoría. También es posible calcular proporciones para una variable numérica determinando cuantos elementos cumplen una determinada condición establecida, por ejemplo que la variable sea menor o mayor que un determinado valor.

El fichero de datos *Pulsaciones.rda* con el que ya hemos trabajado, contiene varias columnas que son factores y nos permitirán calcular fácilmente valores de la proporción. En concreto, las columnas *Corre*, *Fuma* y *Sexo* son variables categóricas que clasifican a las personas según una cierta propiedad (haber corrido en la prueba o no, fumar o no, ser hombre o mujer) por lo que podremos calcular la proporción de personas con
esa propiedad en nuestra muestra (estimación puntual) y el intervalo de confianza para esa proporción en la población.

Vamos a estimar la proporción de la población (P) mediante una estimación puntual y un intervalo de confianza para el siguiente ejemplo utilizando los datos de *Pulsaciones.rda*. Para ello en primer lugar debéis cargar correctamente los datos de ese fichero, como ya hemos hecho en prácticas anteriores. Una vez cargados los datos en R, estimamos puntualmente la proporción de individuos que fuman de la población (P).

In [None]:
# Establecemos directorio de trabajo
setwd("data/") 
# Cargamos los datos
load("Pulsaciones.rda")
attach(Pulsaciones)
# Calculo de la proporcion de fumadores
fuman <- sum(Fumar=="fuma")
n <- length(Fumar)
p <- fuman/n; p

Del resultado anterior obtenemos la estimación puntual de la proporción de fumadores de la población que resulta de 0.304. 

Como sabemos la estimación puntual no nos informa sobre la precisión de esa estimación de P. Para solventar este aspecto vamos a estimar P a partir del intervalo de confianza, el cuál si que proporciona información acerca de la confianza con la estamos estimando el parámetro de la población.
   
Pogramamos con R el cálculo del intervalo de confianza para la proporción de individuos que fuman en la población con una confianza del 95% utilizando la fórmulación vista en clase:

$p \pm z_{\alpha/2} \sqrt {{{p(1-p)} \over n}}$

In [None]:
# Intervalo de confianza de la proporcion de fumadores
alfa <- 0.05
z <- qnorm(1-alfa/2)
e <- z*sqrt(p*(1-p)/n)
conclusion <- "La proporcion de fumadores de la poblacion se encuentra en el intervalo"
sprintf("%s [%6.3f, %6.3f] con una confianza del %2d%s", conclusion, p-e, p+e, (1-alfa)*100, "%")

Con la función `sprintf` podemos escribir una conclusión final mezclando caracteres (`strings` que se indican con `%s`) con valores numéricos ya sean números reales (`%6.3f`) o enteros (`%2d`). Por ejemplo `%6.3f` incluiria en la salida un número real (f de flotante) con 6 caracteres de los cuales 3 son decimales. Los valores numéricos o caracteres que se asignan a cada orden de esa línea que comienza con un % son los que aparecen al final entre comas.

En R existe una función (`prop.test`) que permite calcular la estimación puntual y por intervalos de P además de, como veremos más adelante, resolver contrastes de hipótesis de proporciones. 

In [None]:
prop.test(fuman, n, conf.level=1-alfa)

El resultado nos muestra gran cantidad de información. Sin embargo, al estar interesados en la estimación puntual y por intervalos de la proporción de fumadores de la población, solo nos interesa el resultado obtenido del intervalo de confianza para el nivel de confianza dado (`95 percent confidence interval:`) que resulta ser [0.2149697, 0.4102950] y la estimación puntual de la proporción de fumadores de la población (`sample estimates: p`) cuyo valor es 0.3043478.

Compara este resultado del intervalo de confianza, con el valor calculado antes en el que programamos con R la fórmula de clase. La diferencia que se observa es debida a que en R la fórmula implementada en la función `prop.test` para el cálculo del intervalo de confianza de una proporción viene dada por el *intervalo de Wilson*:

$\frac{{{p + \frac{{1}}{{2n}}  z_{\alpha / 2}^2  \pm z_{\alpha / 2} \sqrt {\frac{{p\left( {1 - p} \right)}}{n} + \frac{{z_{\alpha / 2}^2}} {{4n^2}} }} }} {{ {1 + \frac{{1}}{n}} z_{\alpha / 2}^2 }}$

Esta es una versión mejorada de la aproximación normal que hemos visto en teoría. Mientras que la estimación vista en teoría sólo debe considerarse bajo las condiciones que conocemos, el intervalo de Wilson da
buenos resultados incluso con tamaños de muestra pequeños.

Además, como se muestra en la ayuda de `prop.test`, esta función aplica por defecto la corrección por continuidad de Yates (`correct=TRUE`) que nosotros tampoco hemos considerado en teoría.

### Contraste de proporciones

Como hemos comentado antes, `prop.test` también nos permite resolver contrastes de hipótesis de proporciones configurando de forma adecuada los distintos argumentos de la función. Consultar la ayuda de `prop.test` para ver todos los argumentos que admite.

En este sentido nos podemos plantear si, a partir de la muestra, se acepta o no la hipótesis nula de que la proporción de fumadores es igual a la de no fumadores, es decir $H_0: P=0.5$ y por tanto la hipótesis alternativa vendrá dada como que la proporción de fumadores de la población es distinta a ese valor $H_1: P\neq 0.5$. Se trata por tanto de un contraste bilateral de proporciones el cual se programa en la función `prop.test` con el argumento `alternative="two.sided"`. Además debemos incluir que el valor a contrastar es 0.5 con el argumento `p=0.5`.


In [None]:
prop.test(fuman, n, alternative = "two.sided", p=0.5, conf.level=1-alfa)

Estos dos argumentos (`alternative="two.sided"` y `p=0.5`) son los que toma por defecto la función por lo que el resultado que obtenemos es exactamente el mismo que antes. Es decir, al calcular el intervalo de confianza anterior estábamos también resolviendo ese contraste bilateral.

Centrémonos ahora en el resultado obtenido para el p-valor que es el que nos va a permitir decidir si se acepta o se rechaza la hipótesis nula. Según el contraste de hipótesis planteado, en el que se pone en duda si la proporción de fumadores de la población es igual a la de no fumadores ($H_0:P=0.5$, $H_1:P \neq 0.5$), observamos que la muestra con la que hemos trabajado ha dado evidencias suficientes para rechazar la hipótesis nula con una confianza del 95%, ya que el p-valor (`p-value = 0.0002633`) es menor que el $\alpha$ considerado (0.05). Por tanto se acepta la hipótesis alternativa, es decir, aceptamos que el 50% de la población no son fumadores con una confianza del 95%.

A esta misma conclusión llegamos si en vez de analizar el p-valor consideramos el resultado obtenido para el intervalo de confianza, ya que en este ejemplo se plantea un contraste bilateral. Se observa que el intervalo de confianza obtenido no incluye al valor $P=0.5$, luego, como no podía ser de otra forma, se llega a la misma conclusión. 

De la misma manera que hemos aplicado el contraste para este ejemplo en el que la hipótesis alternativa es de desigualdad, se podrían definir las hipótesis de un contrastes unilateral (por la izquierda o por la derecha), de acuerdo al problema analizado, sin más que definir de forma adecuada el tipo de hipótesis alternativa en la opción `alternative` y asignar el valor correspondiente a contrastar. Consultar la ayuda de `prop.test` para determinar los valores posibles de la opción `alternative` dependiendo del tipo de contraste. En particular el argumento `alternative` se debe igualar al valor *less* para indicar que se trata de un contraste unilateral por la izquierda o al valor *greater* para indicar un contraste unilateral por la derecha.

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>
    
- Con los datos del fichero *Pulsaciones.rda*:
  1. Calcular el intervalo de confianza para la proporción de mujeres que fuman con una confianza del 95%.
  2. Según los resultados obtenidos en el apartado anterior, se puede aceptar la hipótesis de que la proporción de mujeres que fuman es la misma que las que no fuman. Justifica la respuesta.
  3. Calcular el intervalo de confianza para la proporción de individuos con Pulso2 superando las 100 pulsaciones de entre los que corrieron, con una confianza del 95%.
  4. Calcular el intervalo de confianza para la proporción de individuos con altura superior a 180 y peso superior a 85kg, con una confianza del 99%.

<br>

  - Cierta medicina en tabletas ha sido comprobada eficaz en el alivio de una alergia en al menos el 60% de los pacientes. El fabricante ha desarrollado una versión soluble del producto y desea comprobar si la medicina en esta forma es igual de eficaz. Se toma una muestra de 40 personas que tienen la alergia. El nuevo producto alivió a 19 de ellos. ¿Hay suficiente evidencia para sugerir que la introducción de la versión soluble ha alterado la eficacia de la medicina? Realiza el contraste usando $\alpha=0.01$ y encuentra el nivel crítico del contraste (p-valor).

</div>


## 2. Medias

### Intervalo de confianza de medias

El intervalo de confianza de medias en R también se obtiene a partir de la función que resuelve contrastes de hipótesis de medias `t.test`, planteando un contraste bilateral. Consultar la ayuda de esta función para conocer que argumentos admite.

Para familiarizarnos con la función `t.test`, vamos a seguir trabajando con los datos del fichero *pulsaciones.rda* para estimar el intervalo de confianza de la altura media de la población para un $\alpha=0.05$. La orden a ejecutar en este caso sería:

In [None]:
# Intervalo de confianza de medias
alfa <- 0.05
t.test(Altura, conf.level=1-alfa)

donde entre otros valores aparecen calculados los dos que nos interesan: el intervalo de confianza de la media poblacional (*95 percent confidence interval*) y su estimador puntual (la media muestral, *mean of x*).

R calcula el intervalo de confianza mediante la expresión $\bar{x} \pm t_{n-1,\alpha/2}\frac{S}{\sqrt{n}}$ que es el más adecuado cuando no se conoce la varianza poblacional (caso más habitual). El cuantil $t_{n-1,\alpha/2}$ se puede calcular como `qt(1-alfa/2,n-1)`. Es decir, podríamos haber obtenido el mismo resultado del intervalo de confianza ejecutando los siguientes comandos:

In [None]:
# Intervalo de confianza de medias
x <- Altura
n <- length(x)
t <- qt(1-alfa/2,n-1)
lim.inf <- mean(x) - t*sd(x)/sqrt(n)
lim.sup <- mean(x) + t*sd(x)/sqrt(n)
conclusion <- "La altura media de la poblacion se encuentra en el intervalo"
sprintf("%s [%6.3f, %6.3f] con una confianza del %2d%s", conclusion, lim.inf, lim.sup, (1-alfa)*100, "%")

Sin embargo la función `t.test` simplifica el cálculo (una sola línea de código) y además nos proporciona mucha más información.


### Contraste de medias

Analicemos ahora un ejemplo para ver como resolver contrastes de hipótesis de una media con la función `t.test`, a través del p-valor.

*Estudios recientes afirman que la altura de la población a estudio es superior a 180 cm. A la vista de la muestra recogida en el fichero *Pulsaciones.rda* ¿podemos aceptar dicha hipótesis con un nivel de confianza del 99%?*

En este caso el contraste que se plantea es el siguiente:

$H_0: \mu\geq 180$

$H_1: \mu< 180$

Como vemos se trata de un contraste unilateral por la izquierda en el que el valor de $\mu$ a contrastar es de $180$ cm. Por tanto la orden a ejecutar será:

In [None]:
# Contraste unilateral izquierdo de medias
t.test(Altura, alternative='less', mu=180, conf.level=.99)

La opción *alternative* se iguala ahora al valor *less* para indicar que se trata de un contraste unilateral por la izquierda. Además a se ha incluido el argumento *mu=180* con el valor a contrastar.

En la consola obtenemos el valor del estadístico de contraste (t), el número de grados de libertad (`df`, del inglés *degree of freedom*) y el p-valor entre otros. Del valor obtenido para el p-valor (`p-value = 6.845e-08`) se puede concluir que la muestra analizada muestra evidencias suficientes para rechazar la hipótesis nula con una confianza del 99\%, ya que obtenemos un p-valor menor que el nivel de significación considerado en este ejemplo (0.01). Por tanto, se acepta que la altura de la población a estudio es menor de 180 cm con una confianza del 99%.

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>
 
- Con los datos del fichero *Pulsaciones.rda*:

  1. Calcular el intervalo de confianza para el peso medio de las mujeres con $\alpha=0.05$.
  2. Determinar el intervalo de confianza para la media del incremento del pulso (Pulso2-Pulso1) para los individuos que corrieron $\alpha=0.1$.
  3. Estudios recientes afirman que la altura media de las mujeres de esta población es $\mu=167$ cm. A la vista de estos datos, ¿podemos aceptar dicha hipótesis con un nivel de confianza del 99%? Justificar el resultado.
     
</n>

- En cincuenta días lectivos consecutivos y a la misma hora se ha observado el número de terminales de una universidad conectados a internet. Los resultados están en el fichero *terminales.dat*. En base a esos datos,

  1. Dar los intervalos de confianza al 95% y 99.5% para el número medio de terminales conectados a internet. Comentar los resultados. 
  2. Suponiendo que la población sigue una distribución normal, calcular intervalos de confianza al 90% y 95% para la varianza del número de terminales conectados a internet. NOTA: En R no existe una función que calcule intervalos de confianza de una varianza por lo que debéis programar una función que devuelva los valores del límite inferior y el superior del intervalo de confianza según la formulación vista en clase y así tenerla disponible para aplicarla en cualquier otro ejemplo.

</n>

- El pH del suelo es una variable importante cuando se diseñan estructuras que estarán en contacto con el terreno. El propietario de un solar posible lugar de construcción afirma que el pH del suelo no es superior a 6.5. Se han tomado 9 muestras del suelo del terreno, obteniéndose los siguientes resultados: 7.3 6.5 6.4 6.1 6 6.5 6.2 5.8 6.7.
  
  Suponiendo que la variable pH sigue una distribución normal, responde a las siguientes cuestiones.  
  1. Hallar un intervalo de confianza para el pH medio con un nivel de significación del 10%.
  2. ¿Se puede aceptar la afirmación del propietario del solar con un riesgo de $\alpha=0.05$?

</div>