Pruebas de Hipótesis --- 12:01 min
===

* 12:01 min | Ultima modificación: Octubre 17, 2021 | [YouTube](https://youtu.be/uvrI3RQDMDw)

Una de las aplicaciones más importantes de las funciones teóricas de probabilidad es la prueba de hipótesis. En este tipo de problemas se quiere determinar si un valor observado (estadístico) proviene de una determinada distribución de probabilidades, con el fin de aceptar o rechazar una hipótesis sobre los datos. El uso de las pruebas de hipótesis es uno de los elementos fundamentales en la construcción de modelos de aprendizaje estadístico.

## Definición

Este es un tipo de prueba que tiene como fin probar una hipótesis (o supuesto), $H_0$, sobre un parámetro o característica de la población versus una hipótesis alternativa complementaria $H_a$, a partir de una muestra de la población. 

Si $\theta$ denota un estadístico de la muestra, entonces una prueba de hipótesis es una regla que indica cuando aceptar o rechazar la hipótesis nula: 

* $H_0: \theta \sim (·)$
* $H_a: \text{ en caso contario}$ 

## Tipos de errores 

Se puede dar una de las siguientes situaciones:

![assets/errores-tipo-I-y-II.jpg](assets/errores-tipo-I-y-II.jpg)

* Aceptar $H_0$ cuando $H_0$ es verdadera: Ok!.
* Rechazar $H_0$ cuando $H_0$ es falsa: Ok!.
* Rechazar $H_0$ cuando $H_0$ es verdadera: Error Tipo I.
* Aceptar $H_0$ cuando $H_0$ es falsa: Error Tipo II.

Estos cuatro casos están estrechamente relacionados con las matrices de confusión en clasificadores. Por ejemplo, cuando se acepta $H_0$ y $H_0$ es verdadera se tiene un verdadero positivo. Los demás casos se interpretan igual.

## Tipos de pruebas de hipótesis

Se consideran los siguientes tipos:

* $H_0: \theta = a, \quad H_a: \theta < a$, cola a la izquierda.


* $H_0: \theta = a, \quad H_a: \theta \ne a$, dos colas.


* $H_0: \theta = a, \quad H_a: \theta > a$, cola a la derecha.

En los tres casos, se desea saber si el valor $a$ está en la región blanca o en la región sombreada de las siguientes figuras. En el caso de la cola a la izquierda, se espera que si $a$ realmente no pertenece a la distribución de probabilidades estipulada, se encuentre ubicado en la región gris y por tanto se pueda rechazar la hipotesis nula; si se supone que $a$ = 1.75, entonces como está ubicado en la región blanca se acepta. 

![assets/valores-criticos.jpg](assets/valores-criticos.jpg)

## Prueba usando valores críticos

En esta aproximación:

* Se definen las hipótesis nula y alternativa.


* Se computa el estadístico a partir de la muestra (el valor de $a$).


* Se determina el valor crítico $\alpha$ a partir del nivel de confianza de la prueba usando la distribución conocida que sigue el estadístico; el valor crítico es un valor pequeño, típicamente el nivel de confianza es igual a 0.01, 0.05 o 0.10. El valor critico permite definir el tamaño de la región o regiones sombreadas en la figura anterior.


* Si el valor del estadístico es más crítico que el valor crítico calculado se rechaza $H_0$; en caso contrario se acepta $H_0$ como verdadera.

**Ejemplo.---** El estadístico $\theta$ computado a partir de la muestra de datos es 1.75. Determine si la hipótesis nula se acepta o se rechaza para un nivel de confianza de 5% cuando:

* $\theta \sim \text{N}(0,1)$ con cola a la izquierda.
* $\theta \sim \text{N}(0,1)$ con dos colas.
* $\theta \sim \text{N}(0,1)$ con cola a la derecha.

*Solución*. Para ilustrar el proceso de solución se usará la figura de abajo. 


* Para la cola a la izquierda se obtiene el valor de $z$ tal que el área sombreada bajo la curva sea de 0.05 (nivel de confianza); esto es, $z=-1.6449$. Esto es lo mismo que decir que el estadístico de interés caerá el 95% de las veces en el área blanca. Como $\theta=1.75$ está en la región no sombreada, se acepta $H_0$.

In [1]:
from scipy.stats import norm

In [2]:
#
# Area entre -inf y z tal que el area sea 5%
#
norm.ppf(0.05)

-1.6448536269514729

* Para el caso de dos colas, el área sombreada total debe ser igual a 0.05, es decir, cada una de las dos regiones sombreadas debe tener un área de 0.025. En este caso, $z=\pm 1.9600$. Ya que para una confianza de 0.05, ocurre que $-1.96 \le \theta \le 1.96$ el 95% de las veces, se acepta $H_0$ para $\theta = 1.75$. 

In [3]:
#
# Area entre -inf y z tal que el area sea 5%/2
# los puntos +/- z son simétricos respecto al origen
#
norm.ppf(0.05 / 2)

-1.9599639845400545

* Para el caso de la cola a la derecha, el área sombreada debe ser igual a 0.05; esto ocurre cuando $z = 1.6449$. Es decir, el 95% de las veces ocurrirá que $-\infty \le \theta \le 1.6449$, entonces se rechaza $H_0$.

In [4]:
#
# Area entre -inf y z tal que el area sea 95%
#
norm.ppf(0.95)

1.6448536269514722

(véase la figura anterior).

**Actividad.---** Repita el ejercicio anterior para niveles de confianza del 0.01 y el 0.10.

## Prueba usando el valor-$p$

En esta aproximación:

* Se definen las hipótesis nula y alternativa.


* Se computa el estadístico a partir de la muestra.


* Se calcula el valor-$p$ usando la distribución conocida que sigue el estadístico. Este es el valor del área de la distribución de probabilidades en que se rechaza la hipótesis nula.


* Se establece el nivel de significancia $\alpha$ (típicamente 0.01, 0.05 o 0.10) y se compara con el valor-$\alpha$.


* Si el valor-$p$ es menor o igual a $\alpha$ se rechaza $H_0$; en caso contario se acepta.

**Ejemplo.---** El estadístico $\theta$ computado a partir de la muestra de datos es 1.75. Determine si la hipótesis nula se acepta o se rechaza para un nivel de confianza de 0.05 cuando:

* $\theta \sim \text{N}(0,1)$ con cola a la izquierda.
* $\theta \sim \text{N}(0,1)$ con dos colas.
* $\theta \sim \text{N}(0,1)$ con cola a la derecha.

*Solución*. Para ilustrar el proceso de solución se usará la figura de abajo. 


* Para la cola a la izquierda se obtiene el valor-$p$ para $\theta=1.75$, es decir, el área sombreada bajo la curva, o valor-$p$ = 0.9599. Ya que el valor-$p$ = 0.9599 > 0.05 (nivel de confianza) se acepta $H_0$. 

In [5]:
#
# Area entre -inf y 1.75
#
norm.cdf(1.75)

0.9599408431361829

* Para el caso de dos colas, el área sombreada bajo la curva es 0.0801 (valor-$p$); ya que 0.0801 > 0.05 (nivel de confianza), entonces se acepta $H_0$.

In [6]:
#
# Area entre -inf y -1.75 mas 1.75 e +inf, simétricas
#
2 * norm.cdf(-1.75)

0.08011831372763417

* Para el caso de la cola a la derecha, el área sombreada es 0.0401; ya que valor-$p$ = 0.0401 < 0.05 se rechaza $H_0$.

In [7]:
#
# Area entre 1.75 e +inf =
#   1.0 - area entre -inf y 1.75
#
1.0 - norm.cdf(1.75)

0.040059156863817114

![assets/p-value.jpg](assets/p-value.jpg)

**Actividad.---** Si $\theta=2.98$ y $\theta$ sigue una distribución log-normal con $\mu=0$ y $\sigma=1$ determine si $H_0$, ¿Se acepta o se rechaza para la cola a la derecha?.