# Pruebas de Hipótesis (Ejemplos)

Ya hemos discutidos algunos de los elementos teóricos más básicos. Veamos, ahora, la aplicación usando datos provenientes de una muestra. Se trata de los promedios académicos de los estudiantes de las sedes regionales de la UIS.

Primero importamos los datos. Los vamos a traer desde una ubicación en Dropbox, pero recordemos que podemos tenerlos también en el disco local en cuyo caso el argumento `url('...')` se remplaza por el de directorio local también entre apóstrofos.

In [1]:
datos <- read.table(url('https://www.dropbox.com/s/nrxvkfelsxdbfge/promedios.txt?dl=1'), header = T, sep = '\t')

In [2]:
head(datos)

Unnamed: 0_level_0,ano_academico,periodo_acad,codigo_est,programa_academico,prome_pond_acum,prome_semestre,SEDE
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<dbl>,<dbl>,<chr>
1,2017,1,2144235,23,3.06,3.3,BARBOSA
2,2017,1,2145518,22,3.44,3.45,BARBOSA
3,2017,1,2145538,24,3.37,3.89,BARBOSA
4,2017,1,2145584,22,3.46,3.93,BARBOSA
5,2017,1,2145586,22,3.25,3.3,BARBOSA
6,2017,1,2145588,22,3.49,3.63,BARBOSA


Tenemos que transformar programa (que hace referencia a un código interno), sede ya que uno está como variable numérica y otro como cadena de caracteres, ambas son categóricas. Otras variables categóricas son `ano_académico`, `periodo_acad` y `codigo_est`. De paso cambiemos los nombres de algunas variables.

In [3]:
names(datos) <- c('año','periodo','codigo','programa','prom.acum','prom.sem','sede')

In [4]:
summary(datos)

      año          periodo          codigo           programa    
 Min.   :2017   Min.   :1.000   Min.   :1960196   Min.   : 1.00  
 1st Qu.:2017   1st Qu.:1.000   1st Qu.:2164274   1st Qu.:21.00  
 Median :2018   Median :1.000   Median :2174235   Median :23.00  
 Mean   :2018   Mean   :1.496   Mean   :2170691   Mean   :22.64  
 3rd Qu.:2019   3rd Qu.:2.000   3rd Qu.:2184161   3rd Qu.:26.00  
 Max.   :2020   Max.   :2.000   Max.   :2195605   Max.   :62.00  
   prom.acum        prom.sem         sede          
 Min.   :0.080   Min.   :0.000   Length:10775      
 1st Qu.:3.280   1st Qu.:3.300   Class :character  
 Median :3.470   Median :3.580   Mode  :character  
 Mean   :3.471   Mean   :3.553                     
 3rd Qu.:3.670   3rd Qu.:3.850                     
 Max.   :4.790   Max.   :5.000                     

In [5]:
library(dplyr)


Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union




In [6]:
datos <- datos %>% 
  mutate_if(is.character, factor) %>%
  mutate_if(is.integer, factor)

In [7]:
summary(datos)

   año       periodo      codigo         programa      prom.acum    
 2017:3766   1:5428   2165612:   10   21     :1758   Min.   :0.080  
 2018:3592   2:5347   2174281:    8   23     :1600   1st Qu.:3.280  
 2019:3414            2175563:    8   3      :1465   Median :3.470  
 2020:   3            2145209:    7   24     :1423   Mean   :3.471  
                      2155096:    7   33     :1256   3rd Qu.:3.670  
                      2165644:    7   22     : 957   Max.   :4.790  
                      (Other):10728   (Other):2316                  
    prom.sem                  sede     
 Min.   :0.000   BARBOSA        :1584  
 1st Qu.:3.300   BARRANCABERMEJA:2879  
 Median :3.580   MALAGA         :2935  
 Mean   :3.553   SOCORRO        :3377  
 3rd Qu.:3.850                         
 Max.   :5.000                         
                                       

## Pruebas para proporciones

El imaginario colectivo indica que en el primer periodo académico de cada año ingresan un mayor número de estudiantes que en el segundo periodo académico. Lo que sugeriría que, del total de estudiantes matriculados, la proporción es mayor en el primer semestre que en el segundo semestre. ¿Cómo se debe plantear la hipótesis?

Tenemos dos opciones:

$$
H_{0} : p1 \leq 0.5 \qquad H_{1}: p1 > 0.5
$$

o

$$
H_{0} : p1 \leq p2 \qquad H_{1}: p1 > p2
$$

lo que lleva a decir:

$$
H_{0} : p1 - p2 \leq 0 \qquad H_{1}: p1 - p2 > 0
$$

¿Cómo lo resolvemos?

Primero, una librería de utilidad para algunas funciones que usaremos:

In [8]:
library(HH)

Loading required package: lattice

Loading required package: grid

Loading required package: latticeExtra

Loading required package: multcomp

Loading required package: mvtnorm

Loading required package: survival

Loading required package: TH.data

Loading required package: MASS


Attaching package: 'MASS'


The following object is masked from 'package:dplyr':

    select



Attaching package: 'TH.data'


The following object is masked from 'package:MASS':

    geyser


Loading required package: gridExtra


Attaching package: 'gridExtra'


The following object is masked from 'package:dplyr':

    combine




Una tabla de frecuencias nos permite observar mejor lo que pasa con los datos:

In [9]:
##  Tabla de Frecuencias
with(datos, table(periodo))

periodo
   1    2 
5428 5347 

¿Cuál sería la pregunta a resolver?
Veamos ahora desde la perspectiva de proporciones:

In [10]:
with(datos, prop.table(table(periodo)))

periodo
        1         2 
0.5037587 0.4962413 

Ahora, veamos la función que vamos a emplear para la prueba de proporciones:

In [11]:
# Veamos la función que vamos a usar:
args(prop.test)

In [12]:
# Realizamos la prueba de hipótesis (1er caso):
prop.test(5428, 5428 + 5347, p = 0.5, alternative = "greater", conf.level = 0.95, correct = TRUE)


	1-sample proportions test with continuity correction

data:  5428 out of 5428 + 5347, null probability 0.5
X-squared = 0.59397, df = 1, p-value = 0.2204
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
 0.4957896 1.0000000
sample estimates:
        p 
0.5037587 


¿Cómo plantearíamos la segunda opción?

In [13]:
# Realizamos la prueba de hipótesis (2do caso):
# prop.test(, , p = , alternative = "", conf.level = 0.95, correct = )

##### Conclusión:

Con un nivel de significacian $\alpha = 0.05$ la evidencia sugiere que la proporción de matriculados en el primer semestre no es mayor que la del segundo semestre.

## Diferencia de Medias

Alguna vez, un profesor UIS manifestó que los estudiantes provenientes de la sede Barrancabermeja tenían mejores promedios que los estudiantes de las otras sedes regionales. ¿Cómo comprobamos esa afirmación?

Tenemos varias alternativas:

* Varianzas conocidas
* Varianzas desconocidas pero iguales
* Varianzas desconocidas y desiguales

Veamos cada caso. Y, antes que nada, veamos los argumentos de las funciones:

In [14]:
library(TeachingDemos)

In [15]:
args(z.test)

In [16]:
args(t.test)

```
## Default S3 method:
t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

## S3 method for class 'formula'
t.test(formula, data, subset, na.action, ...)
```

Tenemos que arreglar los datos un poco para poder realizar las pruebas, así que vamos a separarlos en dos conjuntos: uno para la sede Barrancabermeja y otro para las otra sedes regionales:

In [17]:
barranca <- datos[datos$sede == 'BARRANCABERMEJA',]
otras <- datos[datos$sede != 'BARRANCABERMEJA',]
summary(barranca)
summary(otras)

   año       periodo      codigo        programa     prom.acum    
 2017:1031   1:1421   2164631:   6   21     :605   Min.   :0.480  
 2018: 987   2:1458   2164755:   6   23     :478   1st Qu.:3.260  
 2019: 861            2174501:   6   24     :430   Median :3.440  
 2020:   0            2174503:   6   33     :376   Mean   :3.453  
                      2174505:   6   22     :291   3rd Qu.:3.650  
                      2174515:   6   26     :284   Max.   :4.740  
                      (Other):2843   (Other):415                  
    prom.sem                  sede     
 Min.   :0.060   BARBOSA        :   0  
 1st Qu.:3.300   BARRANCABERMEJA:2879  
 Median :3.560   MALAGA         :   0  
 Mean   :3.543   SOCORRO        :   0  
 3rd Qu.:3.850                         
 Max.   :4.880                         
                                       

   año       periodo      codigo        programa      prom.acum    
 2017:2735   1:4007   2165612:  10   3      :1465   Min.   :0.080  
 2018:2605   2:3889   2145209:   7   21     :1153   1st Qu.:3.290  
 2019:2553            2155096:   7   23     :1122   Median :3.470  
 2020:   3            2165644:   7   24     : 993   Mean   :3.478  
                      2104100:   6   33     : 880   3rd Qu.:3.680  
                      2104184:   6   22     : 666   Max.   :4.790  
                      (Other):7853   (Other):1617                  
    prom.sem                  sede     
 Min.   :0.000   BARBOSA        :1584  
 1st Qu.:3.310   BARRANCABERMEJA:   0  
 Median :3.580   MALAGA         :2935  
 Mean   :3.557   SOCORRO        :3377  
 3rd Qu.:3.850                         
 Max.   :5.000                         
                                       

Cómo queda la hipótesis:

$$
H_{0} : \overline{barranca} \leq \overline{otras} \qquad H_{1}: \overline{barranca} > \overline{otras}
$$

In [18]:
# Primero, la prueba que considera la varianza conocida
z.test(barranca$prom.acum, mu=mean(otras$prom.acum), sd = sd(barranca$prom.acum), alternative = "greater")


	One Sample z-test

data:  barranca$prom.acum
z = -3.3058, n = 2.8790e+03, Std. Dev. = 4.1409e-01, Std. Dev. of the
sample mean = 7.7174e-03, p-value = 0.9995
alternative hypothesis: true mean is greater than 3.478069
95 percent confidence interval:
 3.439863      Inf
sample estimates:
mean of barranca$prom.acum 
                  3.452556 


#### Conclusión

Con un nivel de confianza de $95\%$, la evidencia sugiere que el promedio de la sede Barrancabermeja no es mayor que el promedio de las otras sedes regionales.

In [19]:
# La segunda opción, varianza desconocida
t.test(barranca$prom.acum,otras$prom.acum, alternative = 'greater', var.equal = TRUE)


	Two Sample t-test

data:  barranca$prom.acum and otras$prom.acum
t = -3.1579, df = 10773, p-value = 0.9992
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -0.03880191         Inf
sample estimates:
mean of x mean of y 
 3.452556  3.478069 


#### Conclusión

Con un nivel de confianza de $95\%$, la evidencia sugiere que el promedio de la sede Barrancabermeja no es mayor que el promedio de las otras sedes regionales.

In [20]:
# La tercera opción, varianza desconocida y desiguales
t.test(barranca$prom.acum,otras$prom.acum, alternative = 'greater', var.equal = FALSE)


	Welch Two Sample t-test

data:  barranca$prom.acum and otras$prom.acum
t = -2.9373, df = 4500.7, p-value = 0.9983
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -0.03980153         Inf
sample estimates:
mean of x mean of y 
 3.452556  3.478069 


#### Conclusión

Con un nivel de confianza de $95\%$, la evidencia sugiere que el promedio de la sede Barrancabermeja no es mayor que el promedio de las otras sedes regionales.

## Muestras Dependientes

Hasta el momento hemos abordado casos donde las muestras son independientes, es decir, los valores observados en un grupo no están asociados a los valores de otro grupo. Veamos la siguiente afirmación y miremos cómo lo solucionamos si lo tratamos como muestras dependintes:

Un profesor UIS indicó en una ocasión que el rendimiento de los estudiantes no cambia periodo a periodo y que el estudiante no logra modificar su promedio.

¿Por qué se trata de muestras dependientes? Porque el estudiante ha debido someterse a un proceso de formación y evaluación y, el mismo estudiante, reporta un promedio en un periodo y otro. Así que hay que hacer la prueba con aquellos estudiantes que se mantienen activos en los diferentes periodos. Para probar la hipótesis del profesor, vamos a tomar a los estudiantes de 2017 - 1 y vamos a comparar su promedio con el obtenido en 2019 - 2.

¿Cómo procedemos?

Primero, organizamos los datos:

In [21]:
# Separamos los estudiantes en los dos periodos que vamos a analizar:
s20171 <- datos[datos$año == '2017' & datos$periodo == '1', c('codigo','prom.acum')]
s20192 <- datos[datos$año == '2019' & datos$periodo == '2', c('codigo','prom.acum')]
summary(s20171)
summary(s20192)

     codigo       prom.acum    
 2154212:   2   Min.   :0.480  
 2154302:   2   1st Qu.:3.270  
 2164090:   2   Median :3.440  
 2164529:   2   Mean   :3.438  
 2165612:   2   3rd Qu.:3.630  
 2165622:   2   Max.   :4.590  
 (Other):1886                  

     codigo       prom.acum    
 2195093:   2   Min.   :0.960  
 2104100:   1   1st Qu.:3.310  
 2104170:   1   Median :3.490  
 2104184:   1   Mean   :3.497  
 2114187:   1   3rd Qu.:3.690  
 2114208:   1   Max.   :4.560  
 (Other):1704                  

In [22]:
# Pero, debemos garantizar que los estudiantes son los mismos:
prom2017_2019 <- merge(s20171, s20192, by = 'codigo')
summary(prom2017_2019)

     codigo     prom.acum.x     prom.acum.y   
 2165644:  2   Min.   :2.700   Min.   :2.830  
 2104100:  1   1st Qu.:3.197   1st Qu.:3.390  
 2104184:  1   Median :3.365   Median :3.585  
 2124111:  1   Mean   :3.402   Mean   :3.598  
 2124125:  1   3rd Qu.:3.590   3rd Qu.:3.763  
 2124206:  1   Max.   :4.460   Max.   :4.370  
 (Other):269                                  

¿Y cuál es la hipótesis?

$$
H_{0} : \overline{2017 - 1} = \overline{2019 - 2} \qquad H_{1}: \overline{2017 - 1} \neq \overline{2019 - 2}
$$

In [23]:
# Ahora, la prueba
t.test(prom2017_2019$prom.acum.x,prom2017_2019$prom.acum.y, paired = TRUE)


	Paired t-test

data:  prom2017_2019$prom.acum.x and prom2017_2019$prom.acum.y
t = -17.495, df = 275, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.2183530 -0.1741832
sample estimates:
mean of the differences 
             -0.1962681 


#### Conclusión

Con un nivel de confianza de $95\%$, la evidencia sugiere que el promedio de los estudiantes en 2017 - 1 no es igual a su promedio en 2019 - 2