# Prueba de hipotesis en Python

En Python, existen funciones que podemos utilizar para comprobar hipótesis. No es necesario que elijas un nivel de significación o que averigües si un valor se encuentra o no dentro de un intervalo crítico. Una función devuelve la estadística de diferencia entre la media y el valor con el que lo estás comparando, y la importancia estadística de esta estadística es el valor p (de la palabra probabilidad).

Es razonable usar el valor p para decidir si aceptar o rechazar la hipótesis nula. El valor p es la probabilidad de obtener un resultado al menos tan extremo como el que estás considerando, suponiendo que la hipótesis nula sea correcta. El valor p está indicado como porcentaje e indica el área bajo la curva que corresponde a una probabilidad.

Si este valor es superior al 10%, definitivamente no debes rechazar la hipótesis nula. Si el valor p es más bajo, es posible que debas rechazar la hipótesis nula. Los valores de umbral convencionales son 5% y 1%.

> **Recordar que siempre dependerá del analista cuál será el valor suficiente a considerar y validar o no una hipótesis**

### La función que utilizaremos:

>  **scipy.stats.ttest_1samp (array, popmean)**

se usa para probar hipótesis del tipo "la media de la población es igual a x".

ttest significa prueba t, del inglés t-test; 1samp significa que estamos trabajando con una muestra y comparándola con un valor dado.

Pasamos estos parámetros a la función:

- array es una matriz que contiene la muestra.
- popmean es la media propuesta que estamos probando.

Cuando se llama, la función devuelve la estadística de diferencia entre popmean y la media muestral de array. 



In [2]:
from scipy import stats
import numpy as np

# Generar una muestra de alturas (en cm)
muestra_alturas = np.array([160, 165, 170, 168, 172, 162, 166, 169, 167, 171])

# Altura promedio en la población general (la que esperamos)
altura_promedio_poblacion = 165

# Realizar la prueba t de una muestra
resultado_t_test, valor_p = stats.ttest_1samp(muestra_alturas, altura_promedio_poblacion)

# Imprimir el resultado
print(f"Estadística t: {resultado_t_test}")
print(f"Valor p: {valor_p}")


Estadística t: 1.6390750941244592
Valor p: 0.1356201035284866


¡Ahora veamos cómo funciona en la práctica! Tu socio comercial dice que el sitio web que creaste se ha convertido en un medio para atraer usuarios. Dicen que los usuarios pasan dos horas al día en el sitio web. En otras palabras, nuestra hipótesis nula es que los usuarios pasan 2 horas en el sitio web.

Han tomado una muestra de 200 personas de los registros de tiempo pasado en el sitio web. Vamos a comprobar la hipótesis de tu compañero realizando una prueba y comparando el valor p resultante con el umbral que fijaremos en el 5%.

In [None]:
from scipy import stats as st
import numpy as np
import pandas as pd

time_on_site = pd.read_csv('user_time.csv')

interested_value = 120 # tiempo transcurrido en el sitio web

alpha = .05 # la significancia estadística crítica (umbral)

# realizar una prueba
results = st.ttest_1samp(
    time_on_site, 
    interested_value)

# imprimir el valor p resultante
print('valor p: ', results.pvalue)

# comparar el valor p con el umbral
if (results.pvalue < alpha):
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

    # RESULTADO =======================


#valor p:  [0.27702871]
#No podemos rechazar la hipótesis nula

El valor p resultante es 0.27702871, es decir, 27.7%. Esto representa la probabilidad de obtener un tiempo medio igual a 2 horas. Dado que esta probabilidad es bastante alta, parece que los usuarios pasan realmente unas dos horas en el sitio web. Utilizamos una prueba bilateral porque no nos importaba si el valor que obteníamos era superior o inferior al que proponía tu pareja (es decir, si era inferior o superior a 2 horas).

Presta atención a cómo presentas tus resultados. Al principio de la lección dijimos que los datos nunca pueden probar o confirmar una hipótesis. Esto es de vital importancia. Si solo tenemos una muestra no sabemos nada sobre toda la población estadística con certeza. Si lo supiéramos, no necesitaríamos una prueba estadística.

Solo podemos hacer suposiciones sobre una población estadística y calcular la probabilidad de obtener una muestra dada si nuestras suposiciones fueran correctas. Si la probabilidad es relativamente alta, los datos no nos dan motivos para rechazar una suposición. Si la probabilidad es baja, entonces a partir de los datos proporcionados podemos concluir que nuestra suposición probablemente fue incorrecta (pero no podemos rechazarla o probar lo contrario).

# **Ejercicios**

**Prueba de hipótesis en Python. Valores p**

Eres el dueño de una cadena de estaciones de alquiler de patinetes llamada Scooters Get You There. Hay 20 locales en el centro de la ciudad y cada uno tiene un máximo de 50 patinetes eléctricos. Quieres probar la hipótesis de que en el último mes hubo un promedio de 30 patinetes disponibles en cualquier estación durante el día. Un grupo urbano llamado 'Squirrel' destacó la importancia de este número en su estudio de la movilidad de los residentes. Si hay menos patinetes en la estación, los usuarios pensarán que no podrán alquilar uno cuando lo necesiten, pero cuando haya más, la gente pensará que no podrán aparcar su patinete después de un viaje porque no habrá aparcamiento.

Cada hora, cada estación envía el número de patinetes disponibles al servidor. Has descargado los números de 13:00 a 16:00 durante los últimos 30 días. Prueba tu hipótesis usando esta muestra. Establece un umbral de 5% para la significación estadística.

In [3]:
from scipy import stats as st
import pandas as pd

scooters = pd.Series([15, 31, 10, 21, 21, 32, 30, 25, 21,
                      28, 25, 32, 38, 18, 33, 24, 26, 40, 24, 37, 20, 36, 28, 38,
                      24, 35, 33, 21, 29, 26, 13, 25, 34, 38, 23, 37, 31, 28, 32,
                      24, 25, 13, 38, 34, 48, 19, 20, 22, 38, 28, 31, 18, 21, 24,
                      31, 21, 28, 29, 33, 40, 26, 33, 33, 6, 27, 24, 17, 28, 7,
                      33, 25, 25, 29, 19, 30, 29, 22, 15, 28, 36, 25, 36, 25, 29,
                      33, 19, 32, 32, 28, 26, 18, 48, 15, 27, 27, 27, 0, 28, 39,
                      27, 25, 39, 28, 22, 33, 30, 35, 19, 20, 18, 31, 44, 20, 18,
                      17, 28, 17, 44, 40, 33,])

optimal_value = 30
alpha = 0.05

results = st.ttest_1samp(scooters, optimal_value)

# Extraer el valor p correctamente
p_value = results.pvalue

print('valor p: ', p_value)

if p_value < alpha:
    print('Rechazamos la hipótesis nula')
else:
    print("No podemos rechazar la hipótesis nula")


valor p:  0.00033528259973700795
Rechazamos la hipótesis nula
