<img src="logo.png">

# Contrastes de hipótesis para dos muestras.

Queremos comparar el valor de un mismo parámetro en dos poblaciones. Para ello, dispondremos de una muestra para cada población. Hay que tener en cuenta que las muestras pueden ser de dos tipos:

* **Muestras independientes:** las dos muestras se han obtenido de manera independiente (probar un medicamento sobre las dos muestras de enfermos con características diferentes).


* **Muestras emparejadas:** las dos muestras corresponden a los mismos individuos, o a individuos emparejados de alguna manera (probamos dos medicamentos sobre los mismos enfermos).



## Muestras independientes.

Tendremos dos variables aleatorias (que representan los valores de la característica a estudiar sobre dos **poblaciones**). Queremos comparar el valor de un parámetro de las dos poblaciones.

**Ejemplo.** ¿Son, en promedio, los hombres más altos que las mujeres?

Lo haremos a partir de una m.a.s. de cada variable aleatoria escogidas, además, de manera independiente.



## Contraste para dos medias poblacionales (ambas desviaciones conocidas).

Tenemos dos v.a. $X_1$ y $X_2$, con medias $\mu_1$ y $\mu_2$. Tomamos una m.a.s. de cada una de las variables: $$\begin{array}{c}X_{1,1},X_{1,2},\cdots,X_{1,n_1}\mbox{ de }X_1\\X_{2,1},X_{2,2},\cdots,X_{2,n_2}\mbox{ de }X_2\end{array}.$$ Notemos que no necesariamente $n_1=n_2$.


Sean $\overline{X_1}$ y $\overline{X_2}$ sus medias muestrales respectivas. La hipótesis nula será del tipo $H_0:\,\mu_1-\mu_2=\Delta$.

La hipótesis alternativa puede ser cualquiera de las siguientes: $\mu_1-\mu_2>\Delta$, $\mu_1-\mu_2<\Delta$ o $\mu_1-\mu_2\neq\Delta$. 

Suponemos que $X_1$ y $X_2$ son normales o que $n_1\ge 30$ y $n_2\ge 30$ "o una y una". Si además conocemos las desviaciones $\sigma_1$ y $\sigma_2$, entonces el estadístico de contraste es $$Z=\frac{\overline{X_1}-\overline{X_2}-\Delta}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}},$$ que, si la hipótesis nula es cierta, sigue una $N(0,1)$.

Si $z_0$ es el valor del estadístico de contraste sobre la muestra, entonces los p-valores son:

* $\mathcal{H}_1:\,\mu_1-\mu_2>\Delta$. p-valor=$P(Z\ge z_0)$.

* $\mathcal{H}_1:\,\mu_1-\mu_2<\Delta$. p-valor=$P(Z\le z_0)$.

* $\mathcal{H}_1:\,\mu_1-\mu_2\neq\Delta$. p-valor=$2P(Z\ge |z_0|)$.

**Ejemplo.**

Queremos comparar los tiempos de realización de una tarea entre estudiantes de dos grados $G_1$ y $G_2$, y contrastar si es verdad que los estudiantes de $G_1$ emplean menos tiempo que los de $G_2$.

Suponemos que las desviaciones típicas son $\sigma_1=1$ y $\sigma_2=2$.

Disponemos de dos muestras independientes de tiempos realizados por estudiantes de cada grado, de tamaños $n_1=n_2=40$. Calculamos las medias de los tiempos empleados en cada muestra: $\overline{X}_1=9.789$  y $\overline{X}_2=11.385$ (ambos en minutos).

**Solución.**

La prueba de hipótesis es la siguente: $$\left\{\begin{array}{c}\mathcal{H}_0:\mu_1-\mu_2=0\\\mathcal{H}_1:\mu_1<\mu_2\end{array}\right.$$





In [9]:
## estadistico_contraste = (9.789-11.385) / sqrt(1^2/40 + 2^2/40)
## p-valor: pnorm(estadistico_contraste)

(estadistico_contraste  <-  (9.789-11.385) / sqrt(1^2/40 + 2^2/40))
( p_valor <- pnorm(estadistico_contraste) )


## Contraste para dos medias poblacionales (alguna desviación desconocida).

Suponemos las demás condiciones que en el apartado anterior (ambas normales o ambas grandes).

Distinguimos dos casos: $\sigma_1=\sigma_2$ o $\sigma_1\neq\sigma_2$

**Caso $\sigma_1=\sigma_2$.** El estadístico de contraste es $$T=\frac{\overline{X}_1-\overline{X}_2-\Delta}{\sqrt{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)\cdot\frac{(n_1-1)\tilde{S_1}^2+(n_2-1)\tilde{S_2}^2}{n_1+n_2-2}}},$$ que, cuando $\mu_1=\mu_2$, tiene, en caso de muestras grandes, una distribución $t_{n_1+n_2-2}$.

**Caso $\sigma_1\neq\sigma_2$.** El estadístico de contraste es $$T=\frac{\overline{X}_1-\overline{X}_2-\Delta}{\sqrt{\frac{\tilde{S}_1^2}{n_1}+\frac{\tilde{S}_2^2}{n_2}}},$$ que, cuando $\mu_1=\mu_2$, tiene, en caso de muestras grandes, una distribución $t_f$ donde $$f=\left\lfloor\frac{\left(\frac{\tilde{S}_1^2}{n_1}+\frac{\tilde{S}_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{\tilde{S}_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{\tilde{S}_2^2}{n_2}\right)^2}\right\rfloor-2$$

Los p-valores se calculan usando las mismas expresiones que en el caso en que $\sigma_1$ y $\sigma_2$ son conocidas, pero sustituyendo el estadístico de contraste $Z$ por el estadístico de contraste correspondiente.

##### **Ejemplo.**

Queremos comparar los tiempos de realización de una tarea entre estudiantes de dos grados $G_1$ y $G_2$, y contrastar si es verdad que los estudiantes de $G_1$ emplean menos tiempo que los de $G_2$.

Suponemos que no conocemos una o ambas desviaciones.

Disponemos de dos muestras independientes de tiempos realizados por estudiantes de cada grado, de tamaños $n_1=40$ y $n_2=60$. Calculamos las medias de los tiempos empleados en cada muestra: $\overline{X}_1=9.789$  y $\overline{X}_2=11.385$, $\tilde{S}_1=1.201$ y $\tilde{S}_2=1.579$.

In [15]:
## estadistico_muestral <- (9.789 - 11.385) / sqrt( 1.201^2 / 40 + 1.579^2 / 60 )
## f = floor( (1.201^2 / 40 + 1.579^2 / 60)^2 / (1.201^4 /(39 * 40^2) + 1.579^4 /(59 * 60^2)) ) - 2
## p_valor <- P(T<=t0)

( estadistico_muestral <- (9.789 - 11.385) / sqrt( 1.201^2 / 40 + 1.579^2 / 60 ) )

( f = floor( (1.201^2 / 40 + 1.579^2 / 60)^2 / (1.201^4 /(39 * 40^2) + 1.579^4 /(59 * 60^2)) ) - 2 )

 ( p_valor  <- pt(estadistico_muestral,f) )

### Mas sobre la función t.test de R

Recordemos la sintaxis básica de la función t.test:

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, na.action)

donde los nuevos parámetros para realizar un contraste de dos medias independientes son: 

x: vector de datos de la primer muestra.

y: vector de datos de la segunda muestra.

alternative: si llamamos $\mu_x$ y $\mu_y$ a las medias de las poblaciones de donde hemos extraido las muestras, entonces two.sided representa la hipótesis alternativa $\mu_x-\mu_y\neq \Delta$; less indica que la alternativa es $\mu_x-\mu_y<\Delta$ y greater indica $\mu_x-\mu_y>\Delta$.

mu: Es el valor de $\Delta$.

var.equal: solo lo tenemos que especificar si llevamos a cabo un contraste de dos medias usando muestras independientes y, en este caso, sirve para indicar si queremos considerar las dos varianzas poblacionales iguales o diferentes.

**Imporante**

Podemos sustituir los vectores x e y por una fórmula **variable1~variable2** que indica que separamos la variable numérica variable1 por los niveles de un factor variable2 de dos niveles (o de otra variable asimilable a un factor de dos niveles, como por ejemplo una variabl numérica que solo tome dos valores diferentes).

**Ejemplo.**

Imaginemos ahora que nos planteamos si la media de la longitud del pétalo es la misma para las flores de las especies setosa y versicolor. Para ello tomaremos una muestra de tamaño 40 para cada especia (set.seed(45)).

In [19]:
set.seed(45)
muestra_setosa <-iris[sample(1:50,40,replace = TRUE),]$Petal.Length
muestra_versicolor <-iris[sample(51:100,40,replace = TRUE),]$Petal.Length

t.test(x = muestra_setosa, 
       y = muestra_versicolor, 
       alternative = "two.sided", 
       mu = 0,
       var.equal = TRUE, 
       conf.level = 0.95)


	Two Sample t-test

data:  muestra_setosa and muestra_versicolor
t = -42.766, df = 78, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.91203 -2.65297
sample estimates:
mean of x mean of y 
   1.4075    4.1900 


## Contraste para dos proporciones $p_1$ y $p_2$.

Tenemos dos variables aleatorias $X_1$ y $X_2$ de Bernoulli de proporciones $p_1$ y $p_2$. Tomamos una m.a.s. de cada una y obtenemos la siguiente tabla.

<img src="propos.png">

Supongamos que $p_1=p_2$. Para hallar la probabilidad de obtener $n_{11}$ éxitos para la variable $X_1$, podemos razonar de la siguiente manera:

En una bolsa tenemos $n_{1\bullet}$ bolas $E$ y $n_{2\bullet}$ bolas F. La probabilidad anterior sería la probabilidad de obtener $n_{11}$ bolas $E$ si escogemos $n_{\bullet1}$ de golpe.

Sea $X$ una variable aleatoria hipergeométrica $H(n_{1\bullet},n_{2\bullet},n_{\bullet1})$. La probabilidad anterior es $P(X=n_{11})$. Usaremos $X$ como estadístico de contraste.

Nos planteamos los siguientes contrastes:


a. $ \left\{\begin{array}{cc}H_0:&p_1=p_2\\H_1:&p_1>p_2& \end{array}\right.$

b. $ \left\{\begin{array}{cc}H_0:&p_1=p_2\\H_1:&p_1<p_2& \end{array}\right.$

c. $\left\{\begin{array}{cc}H_0:&p_1=p_2\\H_1:&p_1\neq p_2 \end{array}\right.$

Los p-valores son los siguientes.

a. p-valor: $P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\ge n_{11})$

b. p-valor: $P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\le n_{11})$

c. p-valor: p-valor=$2\min\{P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\le n_{11}),P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\ge n_{11})\}$

### Test de Fisher en R

El test de Fisher está implementado en la función fisher.test. Su sintaxis es

fisher.test(x,alternative,conf.level) donde

x es la matrix donde el número de éxitos van en la primer fila y los de fracasos van en la segunda y las poblaciones se ordenan por columnas.

**Ejemplo.**

Para determinar si el Síndrome de Muerte repentina tiene componente genético, se consideran los casos de SIDS en parejas de gemelos monocigóticos y dicigóticos. Sea $p_1$ la proporcición de parejas de gemelos monocigóticos con algún caso de SIDS donde un solo hermano la sufrio. Sea $p_2$ la proporcición de parejas de gemelos dicigóticos con algún caso de SIDS donde un solo hermano la sufrio.

Si el SIDS tiene componente genético, es de esperar que $p_1<p_2$.

En un estudio de Peterson et al, 1980, se obtuvieron los siguienes datos:

<img src="bebes_SIDS.png">

In [25]:
datos  <- matrix(c(23,35,1,2),nrow=2,byrow=TRUE) 

fisher.test(x = datos, alternative = "less", conf.level = 0.95)


	Fisher's Exact Test for Count Data

data:  datos
p-value = 0.7841
alternative hypothesis: true odds ratio is less than 1
95 percent confidence interval:
  0.00000 39.73954
sample estimates:
odds ratio 
  1.308589 


El **odd ratio** es una función cuyo dominio son los eventos de un experimento y viene dada por $Odd(A)=\frac{P(A)}{1-P(A)}$. Esta es una función estrictamente creciente en el sentido de que $P(A)<P(B)$ si y solo si $Odd(A)<Odd(B)$.

El Odd ratio de dos dos eventos $A$ y $B$ se define como $\frac{Odd(A)}{Odd(B)}$


**Ejercicio.**

Realicemos el contraste anterior de igualdad de proporciones de madres fumadoras de raza blanca y negra usando el test de Fisher (set.seed(2000))

## Contrastes para dos varianzas

Dadas dos poblaciones de normales independientes, nos planteamos si las varianzas de dichas poblaciones son iguales o diferentes. Una aplicación del contraste de varianzas es decidir qué opción elegir en el marco de una comparación de medias independientes. 

Tenemos dos variables aleatorias $X_1$ y $X_2$ normales con desviaciones $\sigma_1$ y $\sigma_2$ desconocidas. Suponemos que tenemos un m.a.s. de cada variable: $$\begin{array}{c}X_{1,1},X_{1,2},\cdots,X_{1,n_1}\mbox{ de }X_1\\X_{2,1},X_{2,2},\cdots,X_{2,n_2}\mbox{ de }X_2\end{array}.$$  Sean $\tilde{S}_1$ y $\tilde{S}_2$ sus desviaciones muestrales.

Nos planteamos los siguientes contrastes:


a. $ \left\{\begin{array}{ccc}H_0:&\sigma_1=\sigma_2&(\mbox{o }H_0:\frac{\sigma^2_1}{\sigma^2_2}=1)\\H_1:&\sigma_1>\sigma_2& \end{array}\right.$

b. $ \left\{\begin{array}{ccc}H_0:&\sigma_1=\sigma_2&(\mbox{o }H_0:\frac{\sigma^2_1}{\sigma^2_2}=1)\\H_1:&\sigma_1<\sigma_2& \end{array}\right.$

c. $ \left\{\begin{array}{ccc}H_0:&\sigma_1=\sigma_2&(\mbox{o }H_0:\frac{\sigma^2_1}{\sigma^2_2}=1)\\H_1:&\sigma_1\neq\sigma_2& \end{array}\right.$

Se emplea como estadístico de contraste a $$F=\frac{\tilde{S}_1^2}{\tilde{S}_2^2}$$ que, si las poblaciones son normales y la hipótesis nula es verdadera, tiene una distribución $F_{n_1-1,n_2-1}$. 

Sea $f_0$ el valor que toma usando bajo la muestra.

Los p-valores asocieados son:

a. p-valor: $P(F_{n_1-1,n_2-1}\ge f_0)$

b. p-valor: $P(F_{n_1-1,n_2-1}\le f_0)$

c. p-valor: $2\min\{P(F_{n_1-1,n_2-1}\le f_0),P(F_{n_1-1,n_2-1}\ge f_0)\}$

**Ejemplo.**

Consideremos el ejemplo donde queríamos comparar los tiempos de realización de una tarea entre estudiantes de dos grados $G_1$ y $G_2$. Suponemos que estos tiempos siguen distribuciones normales.

Disponemos de dos muestras independientes de los tiempos usados por los estudiantes de cada grado para realizar la tarea. Los tamaños de cada muestra son 40.

Las desviaciones típicas muestrales de los tiempos empleados para cada muestra son $\tilde{S}_1=1.201$ y $\tilde{S}_2=1.579$. Contrastar la hipótesis de igualdad de varianzas al nivel de significación 0.05.

**Ejemplo.**

Se desea comparar la actividad motora espontánea de un grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midió el número de veces que pasaban ante una célula fotoeléctrica durante 24 horas. Los datos obtenidos fueron los siguientes:

|              |**$n$**|**$\overline{X}$**|**$\tilde{S}$**|
|:-:           |:-:    |:-:               |:-:            |
|**1. Control**    |25     |869.8             |106.7          |
|**2. Desnutridas**|36     |665               |133.7          |

¿Se observan diferencias significativas entre el grupo de control y el grupo desnutrido? Supondremos que los datos anteriores provienen de normales.

### Contrastes para varianzas en R

La función para efectuar este test es var.test y su sintaxis básica es la misma que la de t.test para dos muestras:

var.test(x,y,ratio = 1, alternative,conf.level)

**Ejemplo.**

Recordemos que cuando explicamos el contraste para dos medias independientes, contrastamos si las medias de las longitudes del pétalo para setosa y versicolor eran iguales o no pero necesitábamos saber si las varianzas eran iguales o no para poder tenerlo en cuenta en la función t.test.

Veamos ahora si podemos considerar las varianzas iguales o no.



**Importante.**

Para que el contraste anterior tenga sentido, hemos de suponer que las longitudes de los pétalos siguen distribuciones normales.

¿Qué podemos hacer si dudamos de su normalidad? Usar un test no paramétrico que no presuponga esta hipótesis.

Hay diversos tests no paramétricos para realizar contrastes bilaterales de dos varianzas. Por ejemplo el **Test de Fligner-Killen** que se implementa con la función fligner.test.

Este se aplica o bien a una lista formadad por la dos muestras o bien a una fórmula que separe un vector numérico en dos muestras por medio de un factor de dos niveles.