---
# Test de Hipótesis

El test de hipótesis es un procedimiento de estadística inferencial para comprobar **si el resultado de un experimento es significativo**. Imagina que tienes una idea o suposición sobre una población o un fenómeno, pero no estás seguro si es cierta. Para probar si tu idea es válida o no, utilizas una herramienta llamada test de hipótesis.

El test de hipótesis es un proceso estadístico que te permite tomar una decisión sobre una afirmación o suposición (llamada hipótesis) basándote en la evidencia proporcionada por los datos recolectados de una muestra. Aquí hay una forma simple de entender cómo funciona:

1. Hipótesis nula ($H_{0}$): Es la afirmación inicial o suposición que quieres probar. Por ejemplo, podrías suponer que el promedio de altura de las personas en una población es de 170 cm.
2. Hipótesis alternativa ($H_{1}$): Es la afirmación opuesta a la hipótesis nula. En el ejemplo anterior, la hipótesis alternativa podría ser que el promedio de altura de las personas en la población no es de 170 cm.
3. Recopilación de datos: Recolectas datos de una muestra representativa de la población.
4. Estadístico de prueba: Calculas un valor estadístico basado en los datos recolectados. Este valor te ayuda a decidir si rechazar o no la hipótesis nula.
5. Decisión: Comparas el valor del estadístico de prueba con un valor crítico predefinido o calculado a partir de una distribución de probabilidad (generalmente una distribución t o una distribución normal estándar). Dependiendo de si el valor del estadístico de prueba cae en una región de rechazo o no, tomas una decisión sobre la hipótesis nula.
6. Conclusión: Basándote en los resultados del test de hipótesis, puedes concluir si hay suficiente evidencia para rechazar la hipótesis nula o no. Si rechazas la hipótesis nula, estás apoyando la hipótesis alternativa; si no la rechazas, no tienes suficiente evidencia para apoyar la hipótesis alternativa y, por lo tanto, aceptas la hipótesis nula.

En resumen, el test de hipótesis te ayuda a tomar decisiones informadas sobre afirmaciones o suposiciones basándote en datos recolectados y análisis estadísticos.


In [1]:
import numpy as np
import scipy.stats as ss

#### Ejemplo 1

Una investigadora en botánica quiere saber si la áltura promedio de cierta especia de planta es igual a 38 cm (hipótesis nula). Para esto colecta una muestra aleatoria de 12 plantas y registra su altura:

[35.56, 35.56, 40.64, 33.02, 30.48, 43.18, 38.1 , 35.56, 38.1 , 33.02, 38.1 , 35.56]

In [7]:
# Datos del problema
mu = 38
mediciones = [35.56, 35.56, 40.64, 33.02, 30.48, 43.18, 38.1 , 35.56, 38.1 , 33.02, 38.1 , 35.56]


# Nivel de significancia
alpha = 0.05

# Hipotesis
# H0: mu != 38
# H1: mu == 38

# El estadistico de prueba que utilizamos es t-student, con variable aleatoria normal, con sigma desconocido y tamaño de la muestra menor de 30
# t = (media - mu) / (S/sqr(n))

# Calcular la media muestral
media = np.mean(mediciones)
print("Media muestral:", media)

# Calcular la desviación estándar de la muestra
stdev = np.std(mediciones, ddof=1)  # Usamos ddof=1 para obtener la desviación estándar muestral
print("Desviación estándar de la muestra:", stdev)

# Tamaño de la muestra
n = len(mediciones)

t = (media - mu)/(stdev/np.sqrt(n))

print("Estadistico:", t)

# El valor crítico de la distribución t para un nivel de significancia del 5% y 11 grados de libertad 
# (tamaño de la muestra menos 1) es aproximadamente ±2.201 según la tabla t de Student.

# Dado que el valor absoluto del estadístico de prueba t calculado (|1.585|) es menor que el valor crítico de ±2.201, 
# no podemos rechazar la hipótesis nula en este nivel de significancia. En otras palabras, no hay suficiente evidencia 
# para concluir que la media es diferente de 38 con un nivel de significancia del 5%.

# Por lo tanto, en este caso, no rechazamos la hipótesis nula.



Media muestral: 36.40666666666667
Desviación estándar de la muestra: 3.4815496375590964
Estadistico: -1.5853482351389023


Este código calculará el valor crítico de la distribución t para un nivel de significancia del 5% y los grados de libertad correspondientes al tamaño de la muestra. Luego, puedes comparar este valor crítico con el valor absoluto del estadístico de prueba $t$ calculado para tomar una decisión sobre la hipótesis nula. Ejecuta el código y obtendrás el valor crítico.

In [8]:
from scipy.stats import t

# Nivel de significancia (alpha)
alpha = 0.05

# Grados de libertad
grados_libertad = len(mediciones) - 1

# Calcular el valor crítico de la distribución t
valor_critico = t.ppf(1 - alpha / 2, df=grados_libertad)

print("Valor crítico de la distribución t:", valor_critico)

Valor crítico de la distribución t: 2.200985160082949


#### Ejemplo 2

Imaginemos que estás trabajando en un estudio clínico y deseas probar si un nuevo medicamento es eficaz para reducir la presión arterial en pacientes hipertensos. Tienes dos grupos: uno que recibe el nuevo medicamento y otro que recibe un placebo. Quieres determinar si hay una diferencia significativa en la reducción de la presión arterial entre los dos grupos.

- mediciones grupo medicamento: [130, 125, 140, 118, 124, 134, 128, 136, 130, 129]
- mediciones grupo placebo: [140, 142, 138, 150, 139, 142, 137, 148, 142, 141]


In [10]:

# Paso1 : Formulación de Hipótesis
# H0: mu1 = mu2 (no hay diferencia en la reducción de la presión arterial entre los dos grupos)
# H1: mu1 != mu2 (existe una diferencia significativa en la reducción de la presión arterial entre los dos grupos)

# Paso 2: Recolección de datos
datos_grupo_medicamento = [130, 125, 140, 118, 124, 134, 128, 136, 130, 129]
datos_grupo_placebo = [140, 142, 138, 150, 139, 142, 137, 148, 142, 141]

# Paso 3: Elección de un nivel de significancia
alpha = 0.05

# Paso 4: Cálculo del estadístico de prueba y valor-P
# Podemos usar la prueba t de Student para muestras independientes para comparar las medias de los dos grupos
# La elección es por el tamaño de muestra pequeño, y porque desconocemos la desviacion estandar poblacional

# t = (media1 - media2) / sqr((s1**2/n1) + (s2**2/n2))

promedio1 = np.mean(datos_grupo_medicamento)
promedio2 = np.mean(datos_grupo_placebo)

s1 = np.std(datos_grupo_medicamento)
s2 = np.std(datos_grupo_placebo)

n1 = 10
n2 = 10

t = (promedio1 - promedio2) / np.sqrt((s1**2/n1) + (s2**2/n2)) 

print("Estadistico t", t)

# Paso 4
# Ahora, con este valor del estadístico de prueba, podemos consultar la tabla de distribución t de Student para 
# encontrar el valor crítico correspondiente para un nivel de significancia del 5% y 18 grados de libertad 
# (el tamaño de muestra menos 1 para cada grupo, es decir, 10 - 1 = 9).

# valor crítico = 2.262


# Paso 5
# Ahora, comparando este valor crítico con el valor absoluto del estadístico de prueba t calculado (|2.635|), 
# observamos que el valor absoluto del estadístico de prueba es mayor que el valor crítico. Por lo tanto, la conclusión 
# sigue siendo la misma: podemos rechazar la hipótesis nula y afirmar que hay una diferencia significativa entre las medias 
# de presión arterial en los grupos con medicamento y placebo.



Estadistico t -5.517271819514701


Una vez que comprendemos bien la metodología, podemos utilizar algunas librerías para acelerar el cálculo

In [11]:
import numpy as np
from scipy.stats import ttest_ind

# Datos proporcionados
grupo_medicamento = np.array([130, 125, 140, 118, 124, 134, 128, 136, 130, 129])
grupo_placebo = np.array([140, 142, 138, 150, 139, 142, 137, 148, 142, 141])

# Realizar el test de hipótesis (prueba t de Student para muestras independientes)
estadistico_t, valor_p = ttest_ind(grupo_medicamento, grupo_placebo)

# Nivel de significancia
alpha = 0.05

# Imprimir los resultados
print("Estadístico t:", estadistico_t)
print("Valor p:", valor_p)

# Comparar el valor p con el nivel de significancia
if valor_p < alpha:
    print("Conclusión: Se rechaza la hipótesis nula. Hay una diferencia significativa entre las medias de presión arterial.")
else:
    print("Conclusión: No se rechaza la hipótesis nula. No hay suficiente evidencia para concluir que hay una diferencia significativa entre las medias de presión arterial.")

Estadístico t: -5.2341436259783665
Valor p: 5.6088053781073984e-05
Conclusión: Se rechaza la hipótesis nula. Hay una diferencia significativa entre las medias de presión arterial.


#### Ejemplo 3

Supongamos que una empresa de producción de alimentos afirma que el 70% de los clientes están satisfechos con sus productos. Un grupo de consumidores cree que esta afirmación es exagerada y sospecha que en realidad la proporción de clientes satisfechos no es 70%. Para verificar esta afirmación, toman una muestra aleatoria de 200 clientes y encuentran que 130 de ellos están satisfechos con los productos.

In [12]:
# Paso1 : Formulación de Hipótesis
# H0: p = 0.7 (la proporcion de clientes satisfechos es de 70%)
# H1: p != 0.7 (la proporcion de clientes satisfechos es diferente de 70%)

# Paso 2: Recolección de datos
n = 200
pm = 130/200 # pm = 0.65 #(p es la proporción muestral)
p0 = 0.7 # (proporción hipotética de h0)

# Paso 3: Elección de un nivel de significancia
alpha = 0.05

# Paso 4: Cálculo del estadístico de prueba y valor-P
# Podemos usar el estadístico Z 

# Z = (pm - p0) / sqr(p0*(1 - p0)/n)

Z = (pm - p0) / np.sqrt(p0*(1 - p0)/n)

print("Estadistico Z:", Z)

# Paso 4
# Ahora, con este valor del estadístico de prueba, podemos consultar la tabla de distribución Z para 
# encontrar el valor crítico correspondiente para un nivel de significancia del 5%, considerar que es una
# prueba de dos colas, por lo tanto se debe buscar Z para 0.975

# valor crítico = 1.96  (para 0.975)

# Paso 5
# como |1.54| es menor que valor crítico |1.96| entonces no hay evidencia suficiente para rechazar la 
# hipotesis nula, por lo cual, no podemos afirmar que la proporción de clientes satisfechos es distinta de 70%.




Estadistico Z: -1.543033499620917


In [14]:
(0.65-0.7)/ np.sqrt( (0.7*0.3)/200 )

-1.5430334996209172

In [15]:
-0.05 / np.sqrt( 0.7*0.3/200)

-1.5430334996209194