# Problemas de prueba de hipótesis

## Ejercicio 1

Usted es un nutricionista que investiga dos tipos diferentes de dietas para ver si existe una diferencia significativa en la pérdida de peso después de un mes. Eliges dos grupos aleatorios de personas; un grupo sigue la primera dieta y el otro sigue la segunda. Al final del mes, se registra la pérdida de peso (en kg) de cada persona:

| Diet 1 | Diet 2 |
|:-------|:-------|
| 2.0 | 3.0 |
| 2.5 | 3.2 |
| 3.0 | 3.1 |
| 2.8 | 2.9 |
| 2.3 | 2.8 |
| 2.7 | 3.0 |
| 2.5 | 3.2 |

Con estos datos se busca responder a la siguiente pregunta: ¿Existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta?

Para sacar conclusiones, siga los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba para comprobar la hipótesis. Puede utilizar la prueba t de Student.
-Analizar las conclusiones.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
# Datos de pérdida de peso (en kg) para ambas dietas
diet_1 = [2.0, 2.5, 3.0, 2.8, 2.3, 2.7, 2.5]
diet_2 = [3.0, 3.2, 3.1, 2.9, 2.8, 3.0, 3.2]

print("=== ANÁLISIS DE DOS DIETAS ===\n")

# LAS HIPÓTESIS
print("1. HIPÓTESIS:")
print("H0 (Hipótesis nula):No hay diferencia significativa entre las dietas")
print("H1 (Hipótesis alternativa): Existe diferencia significativa entre las dietas")
print("Nivel de significancia: α = 0.05 (Esto es un valor estandar)\n ")

"""CUANDO APLICAR CADA VALOR DE ALFA 
α = 0.01 (más estricto):
- Medicamentos que pueden tener efectos secundarios graves
- Decisiones costosas en empresas
- Cuando el error es muy caro

α = 0.05 (estándar)**:
- La mayoría de investigaciones
- Nuestro ejemplo de las dietas

α = 0.10 (más flexible)**:
- Estudios piloto
- Investigación exploratoria
- Cuando queremos ser menos estrictos

¿Es α = 0.05 arbitrario?

¡Sí y no!**

**SÍ es arbitrario porque**:
- Fisher lo eligió por conveniencia
- No hay nada mágico en 5%
- Diferentes campos usan diferentes valores

NO es arbitrario porque**:
- Representa un buen balance práctico
- Ha funcionado bien durante 100 años
- Es un estándar internacional reconocido"""

# ESTADÍSTICAS DESCRIPTIVAS
print("MEDIA:")
mean_diet1 = np.mean(diet_1)
mean_diet2 = np.mean(diet_2)
print(f"Dieta 1: Media = {mean_diet1:.2f} kg")
print(f"Dieta 2: Media = {mean_diet2:.2f} kg")


print("\nDESVIACION ESTANDAR:")
std_diet1 = np.std(diet_1, ddof=1)
std_diet2 = np.std(diet_2, ddof=1)
print(f"Dieta 1: Desviación estándar = {std_diet1:.2f} kg")
print(f"Dieta 2: Desviación estándar = {std_diet2:.2f} kg\n")

print(f"DIFERENCIA DE MEDIAS: {mean_diet2 - mean_diet1:.3f} kg\n")

# Diferencia de medias: 3.029 - 2.543 = 0.486 kg
# la Dieta 2 parece mejor por 0.486 kg en promedio
# Pero debemos comprobar si esta diferencia "real" o solo casualidad

# Desviación Estándar: Nos dice qué tan "dispersos" están los datos del promedio o la media
# Si es pequeña: los datos están muy cerca del promedio (MIENTRAS MAS CERCANOS A CERO MAS SE ACERCAN A LA MEDIA)
# Si es grande: los datos están muy esparcidos

# VERIFICAR SUPUESTOS
print("VERIFICACIÓN DE SUPUESTOS:")

# PARA VERIFICAR SI ES UNA DISTRIBUCIÓN NORMAL
estadistico1, p_val1 = stats.shapiro(diet_1) 
estadistico2, p_val2 = stats.shapiro(diet_2)

print(f" NORMALIDAD DIETA 1: estadístico = {estadistico1:.2f}, p-valor = {p_val1:.2f}")
print(f" NORMALIDAD DIETA 2: estadístico = {estadistico2:.2f}, p-valor = {p_val2:.2f}")

# La función "stats.shapiro()"" devuelve 2 valores:
# Estadístico  (valor entre 0 y 1)
# Valor p (probabilidad)

# Normalidad: ¿Los datos siguen una distribución "normal" (campana de Gauss)?

# Si estadistico es cercano a 1: Los datos son muy normales
# Si estadistico es cercano a 0: Los datos NO son normales
# Si p-valor > 0.05 → Los datos son normales
# Si p-valor ≤ 0.05 → Los datos NO son normales

# VERIFICAR LA IGUALDAD DE VARIANZAS
stat_levene, p_levene = stats.levene(diet_1, diet_2)
print(f"\n IGUALDAD DE VARIANZAS: p-valor = {p_levene:.2f}")

#Igualdad de varianzas*: ¿Los dos grupos tienen similar "dispersión"?
# Si p-valor > 0.05 → No rechazo la hipótesis nula 
# Si p-valor ≤ 0.05 → Rechazo la hipótesis nula y ya no paso a la prueba t de Student



=== ANÁLISIS DE DOS DIETAS ===

1. HIPÓTESIS:
H0 (Hipótesis nula):No hay diferencia significativa entre las dietas
H1 (Hipótesis alternativa): Existe diferencia significativa entre las dietas
Nivel de significancia: α = 0.05 (Esto es un valor estandar)
 
MEDIA:
Dieta 1: Media = 2.54 kg
Dieta 2: Media = 3.03 kg

DESVIACION ESTANDAR:
Dieta 1: Desviación estándar = 0.33 kg
Dieta 2: Desviación estándar = 0.15 kg

DIFERENCIA DE MEDIAS: 0.486 kg

VERIFICACIÓN DE SUPUESTOS:
 NORMALIDAD DIETA 1: estadístico = 0.98, p-valor = 0.96
 NORMALIDAD DIETA 2: estadístico = 0.93, p-valor = 0.59

 IGUALDAD DE VARIANZAS: p-valor = 0.16


In [3]:
# ULTIMA PRUEBA DEL T STUDENT
print("\nPRUEBA T DE STUDENT:")
# Usamos prueba t de dos muestras independientes
t_stat, p_value = stats.ttest_ind(diet_1, diet_2)

print(f" Estadístico: {t_stat:.2f}")
print(f" Valor p: {p_value:.4f}")
# Si el valor p es menor o igual a α (0.05):
# Rechazo la hipótesis nula (H0)
# Concluyo que hay una diferencia significativa entre las medias de las dos dietas

# Si el valor p es mayor que α (0.05):
# No rechazo la hipótesis nula (H0)
# Concluyo que no hay suficiente evidencia para afirmar que hay una diferencia significativa entre las medias de las dos dietas

print("\nCONCLUSIONES:")
print("RECHAZO LA HIPÓTESIS NULA H0 PORQUE EL VALOR P= 0.0041 ES MENOR QUE ALFA = 0.05\n" +
"Y CONCLUYO QUE HAY UNA DIFERENCIA SIGNIFICATIVA ENTRE LAS MEDIAS DE LAS DOS DIETAS")


PRUEBA T DE STUDENT:
 Estadístico: -3.54
 Valor p: 0.0041

CONCLUSIONES:
RECHAZO LA HIPÓTESIS NULA H0 PORQUE EL VALOR P= 0.0041 ES MENOR QUE ALFA = 0.05
Y CONCLUYO QUE HAY UNA DIFERENCIA SIGNIFICATIVA ENTRE LAS MEDIAS DE LAS DOS DIETAS


## ANOVA

**ANOVA** (*Analysis of Variance - Análisis de variación*) Es una técnica estadística utilizada para comparar las medidas de dos o más grupos. La idea detrás de ANOVA es descomponer la variabilidad total de los datos en dos componentes: variabilidad entre grupos y variabilidad dentro de los grupos:

- **Variabilidad entre grupos**: Esta variabilidad se refiere a las diferencias entre las medias del grupo. Si esta variabilidad es considerablemente mayor que la variabilidad dentro del grupo, podría ser una indicación de que al menos una de las medias del grupo es diferente.
- **Variabilidad dentro del grupo**: Esta variabilidad se refiere a la dispersión de los datos dentro de cada grupo. Si todos los grupos tienen una variabilidad similar, entonces cualquier diferencia notable en las medias de los grupos podría considerarse significativa.

Las hipótesis en ANOVA suelen incluir:

- **Hipótesis nula** ($H₀$): Las medias de todos los grupos son iguales.
- **Hipótesis alternativa** ($H₁$): Al menos una de las medias del grupo es diferente.

Si el resultado de la prueba ANOVA es significativo (por ejemplo, un valor p inferior a un umbral como 0,05), esto sugiere que al menos la media de un grupo es diferente.

## Ejercicio 2

Un agricultor decide probar tres tipos diferentes de fertilizantes para determinar si alguno es superior en términos de producción de maíz. El agricultor planta maíz en 15 parcelas idénticas y utiliza los tres fertilizantes (5 parcelas para cada tipo). Al final de la temporada mide el rendimiento de maíz (en kg) de cada parcela, con el siguiente resultado:

| Fertilizante 1 | Fertilizante 2 | Fertilizante 3 |
|:-------------|:-------------|:-------------|
| 20 | 22 | 24 |
| 21 | 21 | 23 |
| 20 | 23 | 22 |
| 19 | 22 | 23 |
| 20 | 21 | 24 |

Con estos datos busca responder la siguiente pregunta: ¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?

Para ayudarte, sigue los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba ANOVA.
-Analizar las conclusiones.
-Si un fertilizante es mejor que otro, ¿cómo podemos saberlo?

In [4]:
# AQUI APLICAMOS LAS MISMAS FORMULAS EXCEPTO LA ULTIMA VERIFICACION QUE SE USA EL METODO ANOVA YA QUE SON MAS DE DOS GRUPOS

# LISTA
print("=== ANÁLISIS DE TRES FERTILIZANTES ===\n")

fertilizante_1 = [20, 21, 20, 19, 20]
fertilizante_2 = [22, 21, 23, 22, 21]
fertilizante_3 = [24, 23, 22, 23, 24]

# 1. HIPÓTESIS
print(" HIPÓTESIS:\n")
print("H0 (Hipótesis nula): No hay diferencia entre los fertilizantes")
print("H1 (Hipótesis alternativa): Al menos un fertilizante es diferente")
print("Nivel de significancia: α = 0.05\n")

# ESTADÍSTICAS DESCRIPTIVAS
print("MEDIA:\n")
mean_fert1 = np.mean(fertilizante_1)
mean_fert2 = np.mean(fertilizante_2)
mean_fert3 = np.mean(fertilizante_3)

print(f"Fertilizante 1: Media = {mean_fert1:.2f} kg,")
print(f"Fertilizante 2: Media = {mean_fert2:.2f} kg,")
print(f"Fertilizante 3: Media = {mean_fert3:.2f} kg,\n")

# LAS MEDIAS SON RELATIVAMENTE IGUALES, NO MUY DISTANTES ENTRE SI, NO ME DA UNA IDEA CLARA DE CUAL ES MEJOR

print("DESVIACIÓN ESTÁNDAR:\n")
std_fert1 = np.std(fertilizante_1, ddof=1)
std_fert2 = np.std(fertilizante_2, ddof=1)
std_fert3 = np.std(fertilizante_3, ddof=1)

print(f"Fertilizante 1: Desviación Estándar = {std_fert1:.2f} kg")
print(f"Fertilizante 2: Desviación Estándar = {std_fert2:.2f} kg")
print(f"Fertilizante 3: Desviación Estándar = {std_fert3:.2f} kg")

# LOS DATOS NO ESTAN MUY DISPERSOS, LAS DESVIACIONES ESTANDARES SON BAJAS

# 3. VERIFICACIÓN DE SUPUESTOS

# VERIFICAR NORMALIDAD PARA CADA GRUPO
print("\nNORMALIDAD (Prueba de Shapiro-Wilk):")
estadistico1, p_norm1 = stats.shapiro(fertilizante_1)
estadistico2, p_norm2 = stats.shapiro(fertilizante_2)
estadistico3, p_norm3 = stats.shapiro(fertilizante_3)

print(f"Fertilizante 1: estadístico = {estadistico1:.2f}, p-valor = {p_norm1:.2f}")
print(f"Fertilizante 2: estadístico = {estadistico2:.2f}, p-valor = {p_norm2:.2f}")
print(f"Fertilizante 3: estadístico = {estadistico3:.2f}, p-valor = {p_norm3:.2f}")

# LOS DATOS SON NORMALES YA QUE TODOS LOS P-VALORES SON MAYORES A 0.05 Y LOS ESTADISTICOS SON CERCANOS A 1, NO PUEDO RECHAZAR LA HIPÓTESIS NULA
# CONTINUO COMPROBANDO....


=== ANÁLISIS DE TRES FERTILIZANTES ===

 HIPÓTESIS:

H0 (Hipótesis nula): No hay diferencia entre los fertilizantes
H1 (Hipótesis alternativa): Al menos un fertilizante es diferente
Nivel de significancia: α = 0.05

MEDIA:

Fertilizante 1: Media = 20.00 kg,
Fertilizante 2: Media = 21.80 kg,
Fertilizante 3: Media = 23.20 kg,

DESVIACIÓN ESTÁNDAR:

Fertilizante 1: Desviación Estándar = 0.71 kg
Fertilizante 2: Desviación Estándar = 0.84 kg
Fertilizante 3: Desviación Estándar = 0.84 kg

NORMALIDAD (Prueba de Shapiro-Wilk):
Fertilizante 1: estadístico = 0.88, p-valor = 0.33
Fertilizante 2: estadístico = 0.88, p-valor = 0.31
Fertilizante 3: estadístico = 0.88, p-valor = 0.31


In [5]:
# VERIFICAR IGUALDAD DE VARIANZAS (Levene)

print(f"\nIGUALDAD DE VARIANZAS (Prueba de Levene):")
stat_levene_fert, p_levene_fert = stats.levene(fertilizante_1, fertilizante_2, fertilizante_3)
print(f"p-valor: {p_levene_fert:.2f}, Estadístico de Levene: {stat_levene_fert:.2f}")

# COMO EL P-VALOR ES MAYOR A 0.05 NO RECHAZO LA HIPÓTESIS NULA, LAS VARIANZAS TIENEN SIMILAR DISPERSIÓN

# CONTINUO A LA PRUEBA ANOVA (AQUI LA DIFERENCIA CON EL OTRO EJEMPLO)

# PRUEBA ANOVA
print("\nPRUEBA ANOVA:")
f_value, p_value = stats.f_oneway(fertilizante_1, fertilizante_2, fertilizante_3)

print(f"Estadístico F: {f_value:.2f}")
print(f"Valor p: {p_value:.4f}")

print("\n5. CONCLUSIONES:")
print("RECHAZO LA HIPÓTESIS NULA H0 PORQUE EL VALOR P= 0.0001 ES MENOR QUE ALFA = 0.05\n" +
"Y CONCLUYO QUE HAY UNA DIFERENCIA SIGNIFICATIVA ENTRE LAS MEDIAS DE LOS TRES FERTILIZANTES")




IGUALDAD DE VARIANZAS (Prueba de Levene):
p-valor: 0.80, Estadístico de Levene: 0.22

PRUEBA ANOVA:
Estadístico F: 20.32
Valor p: 0.0001

5. CONCLUSIONES:
RECHAZO LA HIPÓTESIS NULA H0 PORQUE EL VALOR P= 0.0001 ES MENOR QUE ALFA = 0.05
Y CONCLUYO QUE HAY UNA DIFERENCIA SIGNIFICATIVA ENTRE LAS MEDIAS DE LOS TRES FERTILIZANTES


In [12]:
# CUAL ES EL MEJOR FERTILIZANTE
valores_medios = {
    'Fertilizante 1': mean_fert1,
    'Fertilizante 2': mean_fert2,
    'Fertilizante 3': mean_fert3
}

In [13]:
medias = list(valores_medios.values())
max_val = max(medias)
if medias.count(max_val) == 1:
    # obtener la clave asociada al máximo
    ganador = max(valores_medios, key=valores_medios.get)
else:
    ganador = 0  # empate o sin ganador claro
    
if ganador != 0:
    print(f'DECISIÓN: {ganador} es el mejor (gana a los otros dos).')
else:
    print(f'DECISIÓN: No hay un ganador claro. Revisa medias, tamaños del efecto y considera más datos.')

DECISIÓN: Fertilizante 3 es el mejor (gana a los otros dos).
