# INFERENCIA ESTADISTICA: Cuarta practica

## Contrastes de Hipótesis: Comparación de dos poblaciones

En la tercera práctica, hemos estudiado los contrastes de hipotesis de una sola población. En esta sesión, vamos a usar los mismos comandos y veremos como se tienen que modificar para realizar contrastes de hipotesis de dos poblaciones.


In [2]:
# leer fichero txt

Datos <-read.table(file="alturas.txt", header=TRUE, dec=",", sep="\t")

# Hay que cargar (e instalar si no está instalado ya) el siguiente paquete
# install.packages("EnvStats")
# library(EnvStats)


## Cociente de varianzas de dos poblaciones independientes

### Contraste de hipotesis del cociente de varianzas de las alturas de las mujeres y de los hombres

Vamos a contrastar la igualdad de varianzas de las alturas de las mujeres y los hombres:

$H_O:\ \sigma_1^2 \geq \sigma_2^2$

$H_1:\ \sigma_1^2 < \sigma_2^2$

Vamos a considerar un nivel de significacion del 10%

In [9]:
mujeres <-Datos$ALTURA[Datos$SEXO=="mujer"]       
hombres  <-Datos$ALTURA[Datos$SEXO=="hombre"]
var.test(mujeres,hombres,ratio=1, alternative="less")


	F test to compare two variances

data:  mujeres and hombres
F = 0.88431, num df = 81, denom df = 88, p-value = 0.288
alternative hypothesis: true ratio of variances is less than 1
95 percent confidence interval:
 0.000000 1.269746
sample estimates:
ratio of variances 
         0.8843092 


#### Explicación:
El estadístico del contraste de hipótesis planteado es 0.88431, el número de grados de libertad es 81 y 88 y el p-valor 0.288. Por consiguiente, no podemos rechazar que las varianzas de las alturas de los hombres y las mujeres sean distintas con un nivel de significación del $\%5$ (ya que el p-valor es mayor que 0.1).

#### Oharrak: 
* Para realizar el siguiente contraste de hipótesis 

$H_O:\ \sigma_1^2 \geq 2 \sigma_2^2$,

$H_1:\ \sigma_1^2 < 2 \sigma_2^2$

en lugar de ratio=1 hay que poner ratio=2.
* Para hacer el contraste unilateral a derecha hay que poner alternative="greater"
* Para hacer el contraste bilateral hay que poner alternative="two.sided"
* Observese que, como en la práctica anterior, no hemos usado el argumento conf.level. El motivo es el mismo.

In [10]:
# El siguiente contraste de hipótesis es el mismo que el anterior. ¿Veis el motivo?
var.test(hombres,mujeres,ratio=1, alternative="greater")


	F test to compare two variances

data:  hombres and mujeres
F = 1.1308, num df = 88, denom df = 81, p-value = 0.288
alternative hypothesis: true ratio of variances is greater than 1
95 percent confidence interval:
 0.7875588       Inf
sample estimates:
ratio of variances 
          1.130826 


## Comparación de medias de dos poblaciones independientes

### Contraste de hipotesis de la diferencia de la altura de los hombres y las mujeres

Vamos a contrastar que la media de la altura de las mujeres ($\mu_1$) sea mayor que la media de la altura de los hombres ($\mu_2$).

$H_O:\ \mu_1 \leq \mu_2$

$H_1:\ \mu_1 > \mu_2^2$

Vamos a considerar un nivel de confianza del 5%

In [12]:
t.test(mujeres,hombres,mu=0,alternative="greater",var.equal=TRUE)


	Two Sample t-test

data:  mujeres and hombres
t = -4.0665, df = 169, p-value = 1
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -2.790305       Inf
sample estimates:
mean of x mean of y 
 165.7805  167.7640 


#### Explicacion:

Estimación puntual de la media de la altura de las mujeres: 165.7805

Estimación puntual de la media de la altura de los hombres: 167.7640

Contraste de hipótesis de la diferencia de medias: el valor del estadístico de contraste es -4.0665, los grados de libertad son 169 y el p-valor es 1. Por tanto, como el valor del p-valor es mayor que 0.05, no podemos rechazar que la media altura de las mujeres sea menor o igual que la media de la altura de los hombres.


#### Observaciones:

* Si queremos realizar el siguiente contraste

$H_O:\ \mu_1 - \mu_2 \leq 40$,

$H_1:\ \mu_1 - \mu_2 > 40 $ 

en lugar de mu=0 hay que poner mu=40.

* Para hacer el contraste unilateral a izquierda, hay que poner alternative="less"
* Para hacer el contraste bilateral, hay que poner alternative="two.sided" 
* Observese que hemos puesto var.equal=TRUE (ya que en el apartado anterior no hemos rechazado la igualdad de medias). Hay que poner var.equal=FALSE si sabemos que las varianzas son distintas.
* Observese que, como en la práctica anterior, no hemos usado el argumento conf.level. El motivo es el mismo.

In [13]:
# El siguiente contraste de hipótesis es el mismo que el anterior. ¿Veis el motivo?
t.test(mujeres,hombres,mu=0,alternative="less",var.equal=TRUE)


	Two Sample t-test

data:  mujeres and hombres
t = -4.0665, df = 169, p-value = 3.652e-05
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -1.176809
sample estimates:
mean of x mean of y 
 165.7805  167.7640 


## Contraste de hipótesis de datos pareados

### Diferencia de la altura media de los padres y madres

Sea D=PADRE-MADRE (es decir, la diferencia entre la altura del padre y de la madre). Vamos a contrastar que la media de la variable aleatoria D es positiva (es decir, que la media de la altura del padre sea mayor que la de la madre):

$H_0:\ \mu_D \leq 0 $

$H_1:\ \mu_D > 0$

Vamos a considerar un nivel del significación del 1%

In [29]:
t.test(Datos$PADRE,Datos$MADRE, mu=0, alternative="greater")


	Two Sample t-test

data:  Datos$PADRE and Datos$MADRE
t = 23.914, df = 340, p-value < 2.2e-16
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 10.52444      Inf
sample estimates:
mean of x mean of y 
 172.1871  160.8830 


#### Explicación:
El valor de estadístico de contraste es 23.914, los grados de libertad 316.34 y el p-valor es inferior a 0.0001. Por tanto, como el valor del p-valor es inferior a 0.01, podemos concluir que la altura media de los padres es superior a la de las madres.


#### Observaciones: 
* Para realizar el siguiente contraste de hipotesis:

$H_O:\ \mu_D  \leq 10$,

$H_1:\ \mu_D > 10 $ 

en vez de poner mu=0 hay que poner mu=10.

* Para hacer el contraste unilateral a izquierda, hay que poner alternative="less"
* Para hacer el contraste bilateral, hay que poner alternative="two.sided" 
* Observese que, como en la práctica anterior, no hemos usado el argumento conf.level. El motivo es el mismo.
* Observese que, a diferencia del apartado anterior, no hemos usado el argumento var.equal

## Comparación de proporciones de poblaciones independientes

### Contraste de hipótesis para la comparación de la proporción de las mujeres que son de Alava y de la proporcion de los hombres de Alava

Vamos a contrastar que la proporción de mujeres de Alava ($p_1$) es mayor que la proporción de hombres de Alava ($p_2$).

$H_0:\ p_1 \leq p_2 $

$H_1:\ p_1 > p_2$

Vamos a considerar un nivel de significación del 2%

In [26]:
# contamos el numero de mujeres de alava y hombres de alava
Datos.alava <- subset(Datos,PROVINCIA==1)
mujeres.alava <- subset(Datos.alava,SEXO=="mujer")
hombres.alava <- subset(Datos.alava,SEXO=="hombre")
n_mujeres_alava <- length(mujeres.alava$ALTURA)
n_hombres_alava <- length(hombres.alava$ALTURA)
# contamos cuantos hombres y mujeres hay en total
Datos.mujeres <- subset(Datos,SEXO=="mujer")
n_mujeres <- length(Datos.mujeres$ALTURA)
Datos.hombres <- subset(Datos,SEXO=="hombre")
n_hombres <- length(Datos.hombres$ALTURA)
# hacemos el test
prop.test(c(n_mujeres_alava,n_hombres_alava),c(n_mujeres,n_hombres),alternative="greater")


	2-sample test for equality of proportions with continuity correction

data:  c(n_mujeres_alava, n_hombres_alava) out of c(n_mujeres, n_hombres)
X-squared = 0.43037, df = 1, p-value = 0.2559
alternative hypothesis: greater
95 percent confidence interval:
 -0.06365059  1.00000000
sample estimates:
   prop 1    prop 2 
0.2560976 0.2022472 


#### Explicación:
El valor del estadístico de contraste es 0.43037 y el p-valor 0.2559. estatistikoaren balioa 0.43037 da eta p-balioa 0.2559 da. Como el valor del p-valor es mayor que 0.02, entonces no podemos rechazar la igualdad entre la proporcion de mujeres que son de alava y la proporcion de hombres que son de alava.


#### Observaciones: 
* Para hacer el contraste unilateral a izquierda, hay que poner alternative="less"
* Para hacer el contraste bilateral, hay que poner alternative="two.sided"
* Observese que, como en la práctica anterior, no hemos usado el argumento conf.level. El motivo es el mismo.