# Prueba de hipotesis en Python

En Python, existen funciones que podemos utilizar para comprobar hipótesis. No es necesario que elijas un nivel de significación o que averigües si un valor se encuentra o no dentro de un intervalo crítico. Una función devuelve la estadística de diferencia entre la media y el valor con el que lo estás comparando, y la importancia estadística de esta estadística es el valor p (de la palabra probabilidad).

Es razonable usar el valor p para decidir si aceptar o rechazar la hipótesis nula. El valor p es la probabilidad de obtener un resultado al menos tan extremo como el que estás considerando, suponiendo que la hipótesis nula sea correcta. El valor p está indicado como porcentaje e indica el área bajo la curva que corresponde a una probabilidad.

Si este valor es superior al 10%, definitivamente no debes rechazar la hipótesis nula. Si el valor p es más bajo, es posible que debas rechazar la hipótesis nula. Los valores de umbral convencionales son 5% y 1%.

> **Recordar que siempre dependerá del analista cuál será el valor suficiente a considerar y validar o no una hipótesis**

### La función que utilizaremos:

>  **scipy.stats.ttest_1samp (array, popmean)**

se usa para probar hipótesis del tipo "la media de la población es igual a x".

ttest significa prueba t, del inglés t-test; 1samp significa que estamos trabajando con una muestra y comparándola con un valor dado.

Pasamos estos parámetros a la función:

- array es una matriz que contiene la muestra.
- popmean es la media propuesta que estamos probando.

Cuando se llama, la función devuelve la estadística de diferencia entre popmean y la media muestral de array. 



In [2]:
from scipy import stats
import numpy as np

# Generar una muestra de alturas (en cm)
muestra_alturas = np.array([160, 165, 170, 168, 172, 162, 166, 169, 167, 171])

# Altura promedio en la población general (la que esperamos)
altura_promedio_poblacion = 165

# Realizar la prueba t de una muestra
resultado_t_test, valor_p = stats.ttest_1samp(muestra_alturas, altura_promedio_poblacion)

# Imprimir el resultado
print(f"Estadística t: {resultado_t_test}")
print(f"Valor p: {valor_p}")


Estadística t: 1.6390750941244592
Valor p: 0.1356201035284866


¡Ahora veamos cómo funciona en la práctica! Tu socio comercial dice que el sitio web que creaste se ha convertido en un medio para atraer usuarios. Dicen que los usuarios pasan dos horas al día en el sitio web. En otras palabras, nuestra hipótesis nula es que los usuarios pasan 2 horas en el sitio web.

Han tomado una muestra de 200 personas de los registros de tiempo pasado en el sitio web. Vamos a comprobar la hipótesis de tu compañero realizando una prueba y comparando el valor p resultante con el umbral que fijaremos en el 5%.

In [None]:
from scipy import stats as st
import numpy as np
import pandas as pd

time_on_site = pd.read_csv('user_time.csv')

interested_value = 120 # tiempo transcurrido en el sitio web

alpha = .05 # la significancia estadística crítica (umbral)

# realizar una prueba
results = st.ttest_1samp(
    time_on_site, 
    interested_value)

# imprimir el valor p resultante
print('valor p: ', results.pvalue)

# comparar el valor p con el umbral
if (results.pvalue < alpha):
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

    # RESULTADO =======================


#valor p:  [0.27702871]
#No podemos rechazar la hipótesis nula

El valor p resultante es 0.27702871, es decir, 27.7%. Esto representa la probabilidad de obtener un tiempo medio igual a 2 horas. Dado que esta probabilidad es bastante alta, parece que los usuarios pasan realmente unas dos horas en el sitio web. Utilizamos una prueba bilateral porque no nos importaba si el valor que obteníamos era superior o inferior al que proponía tu pareja (es decir, si era inferior o superior a 2 horas).

Presta atención a cómo presentas tus resultados. Al principio de la lección dijimos que los datos nunca pueden probar o confirmar una hipótesis. Esto es de vital importancia. Si solo tenemos una muestra no sabemos nada sobre toda la población estadística con certeza. Si lo supiéramos, no necesitaríamos una prueba estadística.

Solo podemos hacer suposiciones sobre una población estadística y calcular la probabilidad de obtener una muestra dada si nuestras suposiciones fueran correctas. Si la probabilidad es relativamente alta, los datos no nos dan motivos para rechazar una suposición. Si la probabilidad es baja, entonces a partir de los datos proporcionados podemos concluir que nuestra suposición probablemente fue incorrecta (pero no podemos rechazarla o probar lo contrario).

# **Ejercicios**

**Prueba de hipótesis en Python. Valores p**

Eres el dueño de una cadena de estaciones de alquiler de patinetes llamada Scooters Get You There. Hay 20 locales en el centro de la ciudad y cada uno tiene un máximo de 50 patinetes eléctricos. Quieres probar la hipótesis de que en el último mes hubo un promedio de 30 patinetes disponibles en cualquier estación durante el día. Un grupo urbano llamado 'Squirrel' destacó la importancia de este número en su estudio de la movilidad de los residentes. Si hay menos patinetes en la estación, los usuarios pensarán que no podrán alquilar uno cuando lo necesiten, pero cuando haya más, la gente pensará que no podrán aparcar su patinete después de un viaje porque no habrá aparcamiento.

Cada hora, cada estación envía el número de patinetes disponibles al servidor. Has descargado los números de 13:00 a 16:00 durante los últimos 30 días. Prueba tu hipótesis usando esta muestra. Establece un umbral de 5% para la significación estadística.

In [3]:
from scipy import stats as st
import pandas as pd

scooters = pd.Series([15, 31, 10, 21, 21, 32, 30, 25, 21,
                      28, 25, 32, 38, 18, 33, 24, 26, 40, 24, 37, 20, 36, 28, 38,
                      24, 35, 33, 21, 29, 26, 13, 25, 34, 38, 23, 37, 31, 28, 32,
                      24, 25, 13, 38, 34, 48, 19, 20, 22, 38, 28, 31, 18, 21, 24,
                      31, 21, 28, 29, 33, 40, 26, 33, 33, 6, 27, 24, 17, 28, 7,
                      33, 25, 25, 29, 19, 30, 29, 22, 15, 28, 36, 25, 36, 25, 29,
                      33, 19, 32, 32, 28, 26, 18, 48, 15, 27, 27, 27, 0, 28, 39,
                      27, 25, 39, 28, 22, 33, 30, 35, 19, 20, 18, 31, 44, 20, 18,
                      17, 28, 17, 44, 40, 33,])

optimal_value = 30
alpha = 0.05

results = st.ttest_1samp(scooters, optimal_value)

# Extraer el valor p correctamente
p_value = results.pvalue

print('valor p: ', p_value)

if p_value < alpha:
    print('Rechazamos la hipótesis nula')
else:
    print("No podemos rechazar la hipótesis nula")


valor p:  0.00033528259973700795
Rechazamos la hipótesis nula


# ======================

# Formular hipotesis de una cola

- La media de una población estadística es igual a un valor determinado.
- Las medias de dos poblaciones estadísticas son iguales entre sí.
- La media de una población estadística es mayor (o menor) que un valor determinado.
- La media de una población estadística es mayor que (o menor que) la media de otra 
- población estadística.

No existe una función especial para las pruebas unilaterales en Python, aunque existe uno para las pruebas bilaterales. Si necesitas una prueba unilateral, realiza una bilateral y divide el valor p entre 2. De esta forma, puedes obtener la significación estadística unilateral de la desviación del valor en cuestión con respecto al valor predicho. Esto funciona porque, por defecto, la prueba calcula la probabilidad de desviación en ambas direcciones. Dado que una prueba bilateral es simétrica, el valor p será exactamente el doble de lo que sería si te interesaras en la desviación de un solo lado.

# **Ejemplo**

Estás vendiendo sandías online. Para venderlas todas antes de que termine la temporada, contrataste a desarrolladores web para crear una página web llamada Watermelon Life. Observando las estadísticas, notaste que cuanto más tiempo las personas pasaban en tu sitio web (cuantos más bloques veían), más a menudo compraban sandías. El promedio de bloques vistos fue de 4.867.

Los diseñadores insistieron en que cambies los primeros bloques para cumplir con las nuevas pautas, lo hiciste, pero la cantidad de pedidos no cambió. Pero probablemente los usuarios empezaron a realizar compras más rápidamente. Comprobemos si ese es el caso: si es así, los usuarios deberían decidir realizar compras después de ver solo los primeros bloques de la página web, por lo que la cantidad de bloques que ven debería ser menor ahora.

Utilizaremos una muestra de 100 clientes seleccionados al azar. El dataset es el número de bloques de la página web vistos. Nuestra hipótesis nula consiste en que el número de bloques de páginas de destino vistos es inferior a 4.867.

In [1]:
from scipy import stats as st
import pandas as pd

screens = pd.Series(
    [
        4,
        2,
        4,
        5,
        5,
        4,
        2,
        3,
        3,
        5,
        2,
        5,
        2,
        2,
        2,
        3,
        3,
        4,
        8,
        3,
        4,
        3,
        5,
        5,
        4,
        2,
        5,
        2,
        3,
        7,
        5,
        5,
        6,
        5,
        3,
        4,
        3,
        6,
        3,
        4,
        4,
        3,
        5,
        4,
        4,
        8,
        4,
        7,
        4,
        5,
        5,
        3,
        4,
        6,
        7,
        2,
        3,
        6,
        5,
        6,
        4,
        4,
        3,
        4,
        6,
        4,
        4,
        6,
        2,
        6,
        5,
        3,
        3,
        3,
        4,
        5,
        3,
        5,
        5,
        4,
        3,
        3,
        3,
        1,
        5,
        4,
        3,
        4,
        6,
        3,
        1,
        3,
        2,
        7,
        3,
        6,
        6,
        6,
        5,
        5,
    ]
)

prev_screens_value = 4.867  # número promedio de bloques vistos

alpha = 0.05  # nivel de significación

results = st.ttest_1samp(screens, prev_screens_value)

# prueba unilateral: el valor p se divide en dos
print("valor-p: ", results.pvalue / 2)

# prueba unilateral a la izquierda:
# rechaza la hipótesis solo si la media muestral es significativamente menor que el valor propuesto
if (results.pvalue / 2 < alpha) and (screens.mean() < prev_screens_value):
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

valor-p:  1.3358596895543794e-06
Rechazamos la hipótesis nula


Como puedes ver en el código, en una prueba unilateral con la hipótesis alternativa "El número de bloques vistos disminuyó", la hipótesis nula se rechaza si se cumplen dos condiciones:

- El valor observado es menor que el predicho.
- La diferencia entre los valores es estadísticamente significativa (dividimos el valor p que obtuvimos de la prueba bilateral entre 2).

Si la prueba fuera unilateral a la derecha con la hipótesis alternativa “El valor observado es mayor que el predicho”, uno de los signos “<” cambiaría a “>”. Las últimas líneas de código se verían así:

In [2]:
if (results.pvalue / 2 < alpha) and (screens.mean() > prev_screens_value):
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

No podemos rechazar la hipótesis nula


Por cierto, podemos escribir el valor p obtenido (1.3358596895543794e-06) como 1.3358596895543794 por 10 elevado a menos 6 (o dividido entre 10 elevado a 6 o dividido entre un millón). Básicamente es un número muy muy pequeño.

# **Ejercicios**

**Ejercicio 1**

El 1 de junio de 2019 tomaste un curso del famoso coach y empresario llamado Robby Tobbinson. Si aplicas sus exclusivas técnicas conscientes de negocio se garantiza que tu proyecto online generará al menos $800 por día, quizás más, en solo un mes. Él te lo promete.

Las promesas están bien pero las pruebas estadísticas son mejores. Vamos a ver qué nos dicen los números.

Utiliza un dataset con los ingresos diarios del último mes para probar tu hipótesis. La hipótesis es que tus ingresos diarios promedio igualaron o superaron los $800.

Recuerda: la hipótesis que contiene el signo de igualdad suele ser la hipótesis nula. Por lo tanto, "Todo saldrá como lo predijo el coach" es tu hipótesis nula y "Los ingresos serán menores de lo que se predijo" es la hipótesis alternativa. Las desviaciones aleatorias siempre son posibles. Solo puedes decir "¡La metodología de Tobbinson no funcionó!" si tus ingresos son significativamente inferiores a la cantidad propuesta.



In [2]:
from scipy import stats as st
import numpy as np
import pandas as pd

revenue = pd.Series([727, 678, 685, 669, 661, 705, 701, 717, 
                     655,643, 660, 709, 701, 681, 716, 655, 
                     716, 695, 684, 687, 669,647, 721, 681, 
                     674, 641, 704, 717, 656, 725, 684, 665])

interested_value = 800 # ¿cuánto prometió Robby Tobbinson?

alpha = 0.05 # indica el nivel de significación estadística

results = st.ttest_1samp (revenue , interested_value) # utiliza la función st.ttest_1samp()

print('valor p:', results.pvalue /2 )# imprime el valor p para una prueba unilateral)

if (results.pvalue / 2 < alpha) and (revenue.mean() < interested_value):
    print("Rechazamos la hipótesis nula: los ingresos fueron significativamente inferiores a 800 dólares")
else:
    print("No podemos rechazar la hipótesis nula: los ingresos no fueron significativamente inferiores")

valor p: 1.7869152078905524e-22
Rechazamos la hipótesis nula: los ingresos fueron significativamente inferiores a 800 dólares


# ==================

# Hipótesis sobre la igualdad de las medias de dos poblaciones

A veces necesitas comparar las medias de dos poblaciones estadísticas diferentes.

Si quieres saber si el gasto promedio varía para los clientes que vienen de diferentes canales, no es suficiente con simplemente comparar los números para un período determinado. Hasta que realices la prueba correcta no puedes decir que la diferencia entre las medias es aleatoria y tampoco puedes decir que la diferencia es lo suficientemente grande como para afirmar que el gasto entre las dos poblaciones de verdad varía (es decir, que la diferencia es significativa).

Digamos que el importe de compra promedio del primer canal es de $20 y del segundo canal es de $25.

¿Es significativa la diferencia entre estos números? Eso depende de la varianza de las muestras a partir de las cuales se calculan los valores. En vez de basar tu comparación solo en los promedios, usa los datasets para realizar una prueba estadística.

Para probar tu hipótesis de que las medias de dos poblaciones estadísticas son iguales según las muestras tomadas de ellas, aplica la función scipy.stats.ttest_ind(array1, array2, equal_var).

Pasamos estos parámetros a la función:

- array1 y array2 son matrices que contienen las muestras.
- equal_var ("equal variance", varianza igual) es un parámetro opcional que especifica si las varianzas de las poblaciones deben considerarse iguales o no. Se pasa como equal_var = True o equal_var = False (True significa que consideramos las varianzas iguales, False significa que no). Sabemos que las varianzas pueden ser diferentes. Para que te hagas una idea de dos poblaciones con varianzas diferentes (y los valores medios)

¿Hay alguna razón para creer que las muestras se toman de poblaciones con parámetros similares? Si es así, establece este parámetro en True y la varianza de cada muestra se estimará a partir del dataset combinado de las dos muestras, no por separado para cada una.

Hacemos esto para obtener los resultados más precisos. Sin embargo, lo hacemos solamente si las varianzas de las poblaciones estadísticas de las que se toman las muestras son aproximadamente iguales. De lo contrario, debemos establecer el parámetro en False; es True de forma predeterminada (si no lo configuras).

Veamos un ejemplo con dos datasets: la cantidad gastada en compras realizadas en un mes por visitantes provenientes de dos canales diferentes. Tienes una muestra aleatoria de 30 compras de cada canal.

In [3]:
from scipy import stats as st
import numpy as np

sample_1 = [3071, 3636, 3454, 3151, 2185, 3259, 1727, 2263, 2015, 
            2582, 4815, 633, 3186, 887, 2028, 3589, 2564, 1422, 1785, 
            3180, 1770, 2716, 2546, 1848, 4644, 3134, 475, 2686, 
            1838, 3352]

sample_2 = [1211, 1228, 2157, 3699, 600, 1898, 1688, 1420, 5048, 3007, 
            509, 3777, 5583, 3949, 121, 1674, 4300, 1338, 3066, 
            3562, 1010, 2311, 462, 863, 2021, 528, 1849, 255, 
            1740, 2596]

alpha = 0.05  # el nivel de significancia estadística crítica
# si el valor p es menor que alpha, rechazamos la hipótesis

results = st.ttest_ind(sample_1, sample_2) # realizar una prueba

print('valor p: ', results.pvalue) # extraer el valor p

if results.pvalue < alpha: # comparar el valor p con el umbral
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

valor p:  0.19124505225722097
No podemos rechazar la hipótesis nula
