# Prueba de Hipótesis

## Ejemplo de Test de Hipótesis para la Media Poblacional


Un investigador de mercados y hábitos de comportamiento aﬁrma que el tiempo que los niños de tres a cinco años dedican a ver la televisión cada semana es en promedio **22 horas**. Frente a este estudio, una empresa de investigación de mercados cree que la media es mayor y para probar su hipótesis toma una **muestra de 64 observaciones** procedentes de la misma población, obteniendo como resultado una **media de 25** y **desvío estándar de 6 horas**. Veriﬁque si la aﬁrmación del investigador es realmente cierta utilizando un nivel de signiﬁcación del 5%.

¿Qué sabemos? 
- Tenemos una hipótesis sobre la media poblacional
- Tenemos una muestra
- Queremos saber si la muestra nos puede proveer evidencia para rechazar nuestra hipótesis sobre la media poblacional.

H0: la media poblacional es 22 horas

H1: la media poblacional es mayor a 22 horas

Por TCLy suponiendo H0 verdadera, la media muestral tiene distribución normal con media 22 y sigma = 6 / sqrt(64)

In [11]:
from math import sqrt
import scipy.stats as st

In [9]:
media_muestral = 25
media_H0 = 22
S = 6
n = 64
Z = (media_muestral - media_H0 ) / (S/sqrt(n))
Z

4.0

Prob(Z >= 4) dado que Z es Normal(0,1) :

In [14]:
1 - st.norm.cdf(Z)

3.167124183311998e-05

La probabilidad de encontrar una valor de Z = 4 o mayor asumiendo que la H0 es verdadera, es 3e-5 (MUY baja).

Entonces rechazo H0.

## Tests para la media de una pobación normal con varianza conocida

Fijamos nivel de signiﬁcación **(alpha) en 5%**. 

Se obtiene una muestra de **n=25** donde la **media muestral es 80.94**. Por otra parte, se sabe que el **desvío poblacional es  11.6**

H0: mu = 85 

H1: mu < 85 

El valor del estadístico resulta:

In [29]:
alpha = 0.05
n = 25
media_muestral = 80.94
media_H0 = 85
Sigma = 11.6

Z = (media_muestral - media_H0) / (Sigma / sqrt(n))
Z


-1.750000000000001

Busco un valor de z0 tal que prob(Z < z0) = alpha:

In [20]:
z0 = st.norm.ppf(alpha)
z0

-1.6448536269514729

Como Z < z0, entonces rechazo H0

Otra forma de tomar la decisión es mediante el cálculo del p-value:

En este enfoque rechazamos H0 si el p-value es menor que el nivel alpha = 0.05. 

En este caso, el p-value es Probabilidad(Z <= -1.75):

In [25]:
p = st.norm.cdf(Z)
p

0.04005915686381699

In [26]:
p < alpha

True

Como p < alpha, rechazo H0

## Tests para la media de una población con varianza desconocida


Si no conocemos la varianza poblacional y no podemos asegurar las condiciones de normalidad de la distribución de la media muestral, entonces utilizamos el estadístico de prueba **T-Student con n-1 grados de libertad**

estadistico_T =  (media_muestral - media_poblacional) / (S / sqrt(n))

- Muestra de n = 100 

- Media muestral de 130.1 con una desviación estándar de 21.21.

- Ho: media = 120        
    
- H1: **media != 120**

- alpha = 0.05 
    
- El valor del estadístico resulta:

In [41]:
media_muestral = 130.1
S = 21.21
media_poblacional = 120
n = 100
T = (media_muestral - media_poblacional) / (S / sqrt(n))
T

4.761904761904759

Busco los valores críticos para este alpha:

In [40]:
alpha = 0.05
gl = n -1
tmin = st.t.ppf((alpha / 2), gl)
tmax = -tmin
tmin, tmax

(-1.9842169515086832, 1.9842169515086832)

In [42]:
(T > tmax) or (T < tmin)

True

T > tmax entonces rechazo H0

Hago lo mismo usando el p-value: calculo la probabilidad de encontrar un valor de T >= 4.76 dado que H0 es verdadera (multiplico por 2 porque tambien serviría el caso de los negativos)

In [47]:
p = (1 - st.t.cdf(T, gl)) * 2
p

6.562701817092176e-06

In [48]:
p < alpha

True

p < alpha entonces rechazo H0

## Tests para la proporción


Se tira un dado con 4 caras (tetraedro) **1000 veces** y se registra que salen **290 veces el número 4**.

¿Hay evidencia para concluir que el dado está sesgado, es decir, que se observan más veces el número 4 que lo esperado?

Si el dado está equilibrado, cada cara tiene probabilidad 0.25 de aparecer. 

Supongamos inicialmente que este es el caso:
H0: p = 0.25

En base  a la muestra la proporción observada resulta:

In [50]:
y = 290
n = 1000
prop = y / n
prop

0.29

Si X es una variable aleatoria con distribución bernoulli, la esperanza es p y la varianza es p * (1-p)

p prob de éxio

Según el Teorema Central del Límite, la proporción muestral tiene distribución asintóticamente normal con media (bajo H0)

p0 = 0.25

y desvío estándar (bajo H0)

sqrt(p0 * (1 - p0) / n)

In [52]:
p0 = 0.25
n = 1000

S = sqrt(p0 * (1 - p0) / n)
S

0.013693063937629153

Si H0 es verdadera, este estadístico tiene distribución normal estándar (con media 0 y desvío 1): 

Z = (p_estimada - p0) / (S / sqrt(n))

Buscamos testear H0 que la probabilidad, en la población, de obtener un 4 es igual igual a 0.25 versus 

H1, que esta probabilidad es mayor que 0.25. 

Si ﬁjamos el nivel de signiﬁcación en 0.05, entonces rechazamos si Z > 1.645

In [76]:
p_estimada = prop
Z = (p_estimada - p0) / S
Z

2.9211869733608844

In [77]:
alpha = 0.05
z_rechazo = - st.norm.ppf(alpha)
z_rechazo

1.6448536269514729

In [79]:
p_rechazo = (z_rechazo * S) + p0
p_rechazo

0.2725230858818877

Como p es 0.29, que es mayor que p_rechazo, entonces rechazo H0

## Tirada de Monedas


Tiramos la moneda 10 veces y obtenemos 7 caras

alpha = 0.1

H0: p = 0.5 
    
H1: p != 0.5
    

los puntos criticos son 1, que tiene una prob acumulada de 0.01 (menor que alpha /2)
y 8 que tiene acumulada (por los mayores) 0.011 (menor que alpha /2)

entonces 7 no está por debajo de 1 ni por encima de 8, por lo tanto no rechaza H0

Otra forma:

p-valor es la probabilidad de obtener un valor tan extremo v cuando H0 es veradera.

prob(cantidadCaras >= 7) dado que las monedas no estan cargadas = 1 - 0.945 

In [83]:
(1 - 0.945) < (alpha/2)

False

(1 - 0.945) no es menor que alpha/2, no rechazo H0

prob(cantidadCaras >= 7) dado que las monedas no estan cargadas = 1 - 0.945 

## A / B  Testing

In [90]:
def estimated_parameter(N, n):
    p = n / N
    sigma = sqrt(p * (1-p) / N)
    return p, sigma

def a_b_test_statistic(N_A, n_A, N_B, n_B):
    p_A, sigma_A = estimated_parameter(N_A, n_A)
    p_B, sigma_B = estimated_parameter(N_B, n_B)
    return (p_B - p_A) / sqrt(sigma_A ** 2 + sigma_B ** 2)

In [97]:
# calcula la prob de ver un valor tan extremo como z si la H0 es verdadera
def two_sided_p_value(z):
    if z <= 0:
        result = 2 * st.norm.cdf(z)
    else:
        result = 2 * (1 - st.norm.cdf(z))
    return(result)
    

In [98]:
z = a_b_test_statistic(1000, 200, 1000, 180)
print(z)
two_sided_p_value(z)

0.254141976542236

0.25 es un valor alto, no rechazo H0

In [99]:
z = a_b_test_statistic(1000, 200, 1000, 150)
print(z)
two_sided_p_value(z)

-2.948839123097944


0.0031896997062168583

0.003 es un valor bajo, rechazo H0