<img src="logo.png">

# Contrastes de hipótesis para dos muestras.

Queremos comparar el valor de un mismo parámetro en dos poblaciones. Para ello, dispondremos de una muestra para cada población. Hay que tener en cuenta que las muestras pueden ser de dos tipos:

* **Muestras independientes:** las dos muestras se han obtenido de manera independiente (probar un medicamento sobre las dos muestras de enfermos con características diferentes).


* **Muestras emparejadas:** las dos muestras corresponden a los mismos individuos, o a individuos emparejados de alguna manera (probamos dos medicamentos sobre los mismos enfermos).



## Muestras independientes.

Tendremos dos variables aleatorias (que representan los valores de la característica a estudiar sobre dos **poblaciones**). Queremos comparar el valor de un parámetro de las dos poblaciones.

**Ejemplo.** ¿Son, en promedio, los hombres más altos que las mujeres?

Lo haremos a partir de una m.a.s. de cada variable aleatoria escogidas, además, de manera independiente.



## Contraste para dos medias poblacionales (ambas desviaciones conocidas).

Tenemos dos v.a. $X_1$ y $X_2$, con medias $\mu_1$ y $\mu_2$. Tomamos una m.a.s. de cada una de las variables: $$\begin{array}{c}X_{1,1},X_{1,2},\cdots,X_{1,n_1}\mbox{ de }X_1\\X_{2,1},X_{2,2},\cdots,X_{2,n_2}\mbox{ de }X_2\end{array}.$$ Notemos que no necesariamente $n_1=n_2$.


Sean $\overline{X_1}$ y $\overline{X_2}$ sus medias respectivas. La hipótesis nula será del tipo $\mathcal{H_0}:\,\mu_1=\mu_2$.

La hipótesis alternativa puede ser cualquiera de las siguientes: $\mu_1<\mu_2$, $\mu_1>\mu_2$ o $\mu_1\neq\mu_2$. Ad

Suponemos que $X_1$ y $X_2$ son normales o que $n_1\ge 30$ y $n_2\ge 30$. Si además conocemos las desviaciones $\sigma_1$ y $\sigma_2$, entonces es estadístico de contraste es $$Z=\frac{\overline{X_1}-\overline{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}},$$ que, si la hipótesis nula es cierta, sigue una $N(0,1)$.

Si $z_0$ es el valor del estadístico de contraste sobre la muestra, entonces los p-valores son:

* $\mathcal{H}_1:\,\mu_1>\mu_2$. p-valor=$P(Z\ge z_0)$.

* $\mathcal{H}_1:\,\mu_1<\mu_2$. p-valor=$P(Z\le z_0)$.

* $\mathcal{H}_1:\,\mu_1\neq\mu_2$. p-valor=$2P(Z\ge |z_0|)$.

**Ejemplo.**

Queremos comparar los tiempos de realización de una tarea entre estudiantes de dos grados $G_1$ y $G_2$, y contrastar si es verdad que los estudiantes de $G_1$ emplean menos tiempo que los de $G_2$.

Suponemos que las desviaciones típicas son $\sigma_1=1$ y $\sigma_2=2$.

Disponemos de dos muestras independientes de tiempos realizados por estudiantes de cada grado, de tamaños $n_1=n_2=40$. Calculamos las medias de los tiempos empleados en cada muestra: $\overline{X}_1=9.789$  y $\overline{X}_2=11.385$ (ambos en minutos).

estadistico

In [None]:
## estadistico_contraste = (9.789-11.385) / sqrt(1^2/40 + 2^2/40)
## p-valor: pnorm(estadistico_contraste)

(estadistico_contraste  <-  (9.789-11.385) / sqrt(1^2/40 + 2^2/40))
(p_valor <- pnorm(estadistico_contraste))


## Contraste para dos medias poblacionales (alguna desviación desconocida).

Suponemos las demás condiciones que en el apartado anterior (ambas normales o ambas grandes).

Distinguimos dos casos: $\sigma_1=\sigma_2$ o $\sigma_1\neq\sigma_2$

**Caso $\sigma_1=\sigma_2$.** El estadístico de contraste es $$T=\frac{\overline{X}_1-\overline{X}_2}{\sqrt{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)\cdot\frac{(n_1-1)\tilde{S_1}^2+(n_2-1)\tilde{S_2}^2}{n_1+n_2-2}}},$$ que, cuando $\mu_1=\mu_2$, tiene, en caso de muestras grandes, una distribución $t_{n_1+n_2-2}$.

**Caso $\sigma_1\neq\sigma_2$.** El estadístico de contraste es $$T=\frac{\overline{X}_1-\overline{X}_2}{\sqrt{\frac{\tilde{S}_1^2}{n_1}+\frac{\tilde{S}_2^2}{n_2}}},$$ que, cuando $\mu_1=\mu_2$, tiene, en caso de muestras grandes, una distribución $t_f$ donde $$f=\left\lfloor\frac{\left(\frac{\tilde{S}_1^2}{n_1}+\frac{\tilde{S}_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{\tilde{S}_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{\tilde{S}_2^2}{n_2}\right)^2}\right\rfloor-2$$

Los p-valores se calculan usando las mismas expresiones que en el caso en que $\sigma_1$ y $\sigma_2$ son conocidas, pero sustituyendo el estadístico de contraste $Z$ por el estadístico de contraste correspondiente.

**Ejemplo.**

Queremos comparar los tiempos de realización de una tarea entre estudiantes de dos grados $G_1$ y $G_2$, y contrastar si es verdad que los estudiantes de $G_1$ emplean menos tiempo que los de $G_2$.

Suponemos que no conocemos una o ambas desviaciones.

Disponemos de dos muestras independientes de tiempos realizados por estudiantes de cada grado, de tamaños $n_1=40$ y $n_2=60$. Calculamos las medias de los tiempos empleados en cada muestra: $\overline{X}_1=9.789$  y $\overline{X}_2=11.385$, $\tilde{S}_1=1.201$ y $\tilde{S}_2=1.579$.

### Mas sobre la función t.test de R

Recordemos la sintaxis básica de la función t.test:

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, na.action)

donde los nuevos parámetros para realizar un contraste de dos medias independientes son: 

x: vector de datos de la primer muestra.

y: vector de datos de la segunda muestra.

alternative: si llamamos $\mu_x$ y $\mu_y$ a las medias de las poblaciones de donde hemos extraido las muestras, entonces two.sided representa la hipótesis alternativa $\mu_x\neq\mu_y$; less indica que la alternativa es $\mu_x<\mu_y$ y greater indica $\mu_x>\mu_y$.

var.equal: solo lo tenemos que especificar si llevamos a cabo un contraste de dos medias usando muestras independientes y, en este caso, sirve para indicar si queremos considerar las dos varianzas poblacionales iguales o diferentes.

**Imporante**

Podemos sustituir los vectores x e y por una fórmula **variable1~variable2** que indica que separamos la variable numérica variable1 por los niveles de un factor variable2 de dos niveles (o de otra variable asimilable a un factor de dos niveles, como por ejemplo una variabl numérica que solo tome dos valores diferentes).

**Ejemplo.**

Imaginemos ahora que nos planteamos si la media de la longitud del pétalo es la misma para las flores de las especies setosa y versicolor. Para ello tomaremos una muestra de tamaño 40 para cada especia (set.seed(45)).

## Contraste para dos proporciones $p_1$ y $p_2$.

Tenemos dos variables aleatorias $X_1$ y $X_2$ de Bernoulli de proporciones $p_1$ y $p_2$. Tomamos una m.a.s. de cada una y obtenemos la siguiente tabla.

<img src="propos.png">

Supongamos que $p_1=p_2$. Para hallar la probabilidad de obtener $n_{11}$ éxitos para la variable $X_1$, podemos razonar de la siguiente manera:

En una bolsa tenemos $n_{1\bullet}$ bolas $E$ y $n_{2\bullet}$ bolas F. La probabilidad anterior sería la probabilidad de obtener $n_{11}$ bolas $E$ si escogemos $n_{\bullet1}$ de golpe.

Sea $X$ una variable aleatoria hipergeométrica $H(n_{1\bullet},n_{2\bullet},n_{\bullet1})$. La probabilidad anterior es $P(X=n_{11})$. Usaremos $X$ como estadístico de contraste.

Nos planteamos los siguientes contrastes:


a. $ \left\{\begin{array}{cc}\mathcal{H_0}:&p_1=p_2\\\mathcal{H_1}:&p_1>p_2& \end{array}\right.$

b. $ \left\{\begin{array}{cc}\mathcal{H_0}:&p_1=p_2\\\mathcal{H_1}:&p_1<p_2& \end{array}\right.$

c. $\left\{\begin{array}{cc}\mathcal{H_0}:&p_1=p_2\\\mathcal{H_1}:&p_1\neq p_2 \end{array}\right.$

Los p-valores son los siguientes.

a. p-valor: $P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\ge n_{11})$

b. p-valor: $P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\le n_{11})$

c. p-valor: p-valor=$2\min\{P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\le n_{11}),P(H(n_{1\bullet},n_{2\bullet},n_{\bullet1})\ge n_{11})\}$

### Test de Fisher en R

El test de Fisher está implementado en la función fisher.test. Su sintaxis es

fisher.test(x,alternative,conf.level) donde

x es la matrix donde el número de éxitos van en la primer fila y los de fracasos van en la segunda y las poblaciones se ordenan por columnas.

**Ejemplo.**

Para determinar si el Síndrome de Muerte repentina tiene componente genético, se consideran los casos de SIDS en parejas de gemelos monocigóticos y dicigóticos. Sea $p_1$ la proporcición de parejas de gemelos monocigóticos con algún caso de SIDS donde un solo hermano la sufrio. Sea $p_2$ la proporcición de parejas de gemelos dicigóticos con algún caso de SIDS donde un solo hermano la sufrio.

Si el SIDS tiene componente genético, es de esperar que $p_1<p_2$.

En un estudio de Peterson et al, 1980, se obtuvieron los siguienes datos:

<img src="bebes_SIDS.png">

**Ejercicio.**

Realicemos el contraste anterior de igualdad de proporciones de madres fumadoras de raza blanca y negra usando el test de Fisher (set.seed(2000))