# Problemas de prueba de hipótesis

## Ejercicio 1

Usted es un nutricionista que investiga dos tipos diferentes de dietas para ver si existe una diferencia significativa en la pérdida de peso después de un mes. Eliges dos grupos aleatorios de personas; un grupo sigue la primera dieta y el otro sigue la segunda. Al final del mes, se registra la pérdida de peso (en kg) de cada persona:

| Diet 1 | Diet 2 |
|:-------|:-------|
| 2.0 | 3.0 |
| 2.5 | 3.2 |
| 3.0 | 3.1 |
| 2.8 | 2.9 |
| 2.3 | 2.8 |
| 2.7 | 3.0 |
| 2.5 | 3.2 |

Con estos datos se busca responder a la siguiente pregunta: ¿Existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta?

Para sacar conclusiones, siga los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba para comprobar la hipótesis. Puede utilizar la prueba t de Student.
-Analizar las conclusiones.

In [1]:
import numpy as np
from scipy import stats

# ============================================================
# EJERCICIO 1 – Comparación de dos grupos (t de Student)
# ============================================================

alpha = 0.05

# -----------------------------
# 1. Datos reales (EJEMPLO)
# Sustituye por tus valores
# -----------------------------

grupo_a = np.array([12, 15, 13, 11, 14])   # <-- PON AQUÍ TUS DATOS
grupo_b = np.array([18, 17, 19, 20, 16])   # <-- PON AQUÍ TUS DATOS

print("Tamaño muestra grupo A:", len(grupo_a))
print("Tamaño muestra grupo B:", len(grupo_b))
print("Media grupo A:", np.mean(grupo_a))
print("Media grupo B:", np.mean(grupo_b))
print("Desviación típica grupo A:", np.std(grupo_a, ddof=1))
print("Desviación típica grupo B:", np.std(grupo_b, ddof=1))

# -----------------------------
# 2. Hipótesis
# -----------------------------
# H0: μ_A = μ_B
# H1: μ_A ≠ μ_B

# -----------------------------
# 3. Shapiro-Wilk
# -----------------------------
stat_a, p_a = stats.shapiro(grupo_a)
stat_b, p_b = stats.shapiro(grupo_b)

print("\n--- Normalidad Shapiro-Wilk ---")
print(f"Grupo A: estadístico={stat_a:.4f}, p={p_a:.4f}")
print(f"Grupo B: estadístico={stat_b:.4f}, p={p_b:.4f}")

normal_a = p_a > alpha
normal_b = p_b > alpha

if normal_a and normal_b:
    print("\nAmbos grupos son aproximadamente normales.")
else:
    print("\nAl menos un grupo NO es normal. El t-test no es perfecto aquí.")

# -----------------------------
# 4. Comprobación de homogeneidad de varianzas (Levene)
# -----------------------------
stat_levene, p_levene = stats.levene(grupo_a, grupo_b)
print("\n--- Test de Levene (igualdad de varianzas) ---")
print(f"Estadístico = {stat_levene:.4f}, p-valor = {p_levene:.4f}")

varianzas_iguales = p_levene > alpha

if varianzas_iguales:
    print("Podemos asumir varianzas iguales (se usa t-test clásico).")
else:
    print("No podemos asumir varianzas iguales (se usará t-test de Welch).")

# -----------------------------
# 5. t-test (solo si hay normalidad)
# -----------------------------
if normal_a and normal_b:
    if varianzas_iguales:
        # t de Student clásico (varianzas iguales)
        t_stat, p_val = stats.ttest_ind(grupo_a, grupo_b, equal_var=True)
        print("\n--- t de Student con varianzas iguales ---")
    else:
        # t de Welch (varianzas desiguales)
        t_stat, p_val = stats.ttest_ind(grupo_a, grupo_b, equal_var=False)
        print("\n--- t de Welch (varianzas desiguales) ---")

    print(f"t = {t_stat:.4f}, p = {p_val:.4f}")

    if p_val < alpha:
        print(f"\nSe rechaza H0 (p={p_val:.4f} < {alpha}). Hay diferencias significativas.")
    else:
        print(f"\nNo se rechaza H0 (p={p_val:.4f} >= {alpha}). No hay diferencias significativas.")
else:
    print("\n**No se ejecuta t-test porque no hay normalidad en ambos grupos.**")


Tamaño muestra grupo A: 5
Tamaño muestra grupo B: 5
Media grupo A: 13.0
Media grupo B: 18.0
Desviación típica grupo A: 1.5811388300841898
Desviación típica grupo B: 1.5811388300841898

--- Normalidad Shapiro-Wilk ---
Grupo A: estadístico=0.9868, p=0.9672
Grupo B: estadístico=0.9868, p=0.9672

Ambos grupos son aproximadamente normales.

--- Test de Levene (igualdad de varianzas) ---
Estadístico = 0.0000, p-valor = 1.0000
Podemos asumir varianzas iguales (se usa t-test clásico).

--- t de Student con varianzas iguales ---
t = -5.0000, p = 0.0011

Se rechaza H0 (p=0.0011 < 0.05). Hay diferencias significativas.


La prueba t de Student para muestras independientes es apropiada cuando se desea
comparar la media de dos grupos independientes bajo el supuesto de que ambos
proceden de poblaciones con distribución normal y varianzas similares.


### Conclusión Ejercicio 1

Primero se comprobaron los supuestos del test **t de Student**:

- Ambas muestras presentan una distribución aproximadamente normal, ya que en el test de Shapiro-Wilk se obtuvo un p-valor de 0.9672 (> 0.05) para los dos grupos.  
- Con esto se cumple el supuesto de normalidad y es válido aplicar la t de Student para muestras independientes.

Al aplicar el test t se obtuvo:

- t = -5.0000  
- p-valor = 0.0011

Como el p-valor (0.0011) es menor que el nivel de significación α = 0.05, **se rechaza la hipótesis nula H₀ (μ₁ = μ₂)**.  
Por tanto, **existen diferencias estadísticamente significativas entre las medias de los dos grupos**.


## Ejercicio 2

Un agricultor decide probar tres tipos diferentes de fertilizantes para determinar si alguno es superior en términos de producción de maíz. El agricultor planta maíz en 15 parcelas idénticas y utiliza los tres fertilizantes (5 parcelas para cada tipo). Al final de la temporada mide el rendimiento de maíz (en kg) de cada parcela, con el siguiente resultado:

| Fertilizante 1 | Fertilizante 2 | Fertilizante 3 |
|:-------------|:-------------|:-------------|
| 20 | 22 | 24 |
| 21 | 21 | 23 |
| 20 | 23 | 22 |
| 19 | 22 | 23 |
| 20 | 21 | 24 |

Con estos datos busca responder la siguiente pregunta: ¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?

Para ayudarte, sigue los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba ANOVA.
-Analizar las conclusiones.
-Si un fertilizante es mejor que otro, ¿cómo podemos saberlo?

1) Datos y descriptivos

In [5]:
import numpy as np
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# ============================================================
# EJERCICIO 2 – Comparación de más de dos grupos
# ============================================================

alpha = 0.05

# ------------------------------------------------------------
# 1. Datos
# ------------------------------------------------------------
# Sustituye estos ejemplos por tus datos reales.
# IMPORTANTE: Nada de [...] ni puntos suspensivos dentro.

grupo1 = np.array([10, 12, 9, 11, 10])   # <-- PON AQUÍ TUS DATOS
grupo2 = np.array([13, 15, 14, 16, 15])  # <-- PON AQUÍ TUS DATOS
grupo3 = np.array([8,  9,  7,  8,  9])   # <-- PON AQUÍ TUS DATOS

grupos = [grupo1, grupo2, grupo3]

print("Tamaños de muestra:")
for i, g in enumerate(grupos, start=1):
    print(f"  Grupo {i}: n = {len(g)}")

# ------------------------------------------------------------
# 2. Planteamiento de hipótesis
# ------------------------------------------------------------
# H0: Todas las medias de los grupos son iguales.
#     μ1 = μ2 = μ3
# H1: Al menos una de las medias difiere de las demás.

# ------------------------------------------------------------
# 3. Comprobación de normalidad (Shapiro-Wilk)
# ------------------------------------------------------------
print("\n--- Comprobación de normalidad (Shapiro-Wilk) ---")
p_normalidad = []

for i, g in enumerate(grupos, start=1):
    if len(g) >= 3:
        stat, p = stats.shapiro(g)
        print(f"Grupo {i}: estadístico = {stat:.4f}, p-valor = {p:.4f}")
    else:
        # Si la muestra es demasiado pequeña, Shapiro no es fiable
        p = np.nan
        print(f"Grupo {i}: muestra demasiado pequeña para Shapiro (p = nan).")
    p_normalidad.append(p)

# consideramos “apta” la normalidad sólo si p>alpha y no es nan
normalidad_ok = all((not np.isnan(p)) and (p > alpha) for p in p_normalidad)

# ------------------------------------------------------------
# 4. Comprobación de homogeneidad de varianzas (Levene)
# ------------------------------------------------------------
stat_levene, p_levene = stats.levene(*grupos)
print("\n--- Test de Levene (igualdad de varianzas) ---")
print(f"Estadístico = {stat_levene:.4f}, p-valor = {p_levene:.4f}")

varianzas_iguales = p_levene > alpha

# ------------------------------------------------------------
# 5. Elección del test
# ------------------------------------------------------------
if normalidad_ok and varianzas_iguales:
    test_usado = "ANOVA de una vía (paramétrico)"
    stat_test, p_val = stats.f_oneway(*grupos)
else:
    test_usado = "Kruskal–Wallis (no paramétrico)"
    stat_test, p_val = stats.kruskal(*grupos)

print(f"\nTest utilizado: {test_usado}")
print(f"Estadístico de contraste = {stat_test:.4f}")
print(f"p-valor = {p_val:.4f}")

# ------------------------------------------------------------
# 6. Decisión sobre H0
# ------------------------------------------------------------
if p_val < alpha:
    print(f"\nComo p-valor = {p_val:.4f} < α = {alpha}, se rechaza la hipótesis nula.")
    print("Conclusión global: existen diferencias estadísticamente significativas entre al menos dos grupos.")
else:
    print(f"\nComo p-valor = {p_val:.4f} ≥ α = {alpha}, no se rechaza la hipótesis nula.")
    print("Conclusión global: no se detectan diferencias estadísticamente significativas entre las medias.")

# ------------------------------------------------------------
# 6b. Análisis post-hoc (Tukey HSD) si hay diferencias
# ------------------------------------------------------------
if (test_usado == "ANOVA de una vía (paramétrico)") and (p_val < alpha):
    # Construir vector con todos los valores y etiquetas de grupo
    datos_todos = np.concatenate(grupos)
    etiquetas = []
    for i, g in enumerate(grupos, start=1):
        etiquetas.extend([f"Grupo {i}"] * len(g))
    etiquetas = np.array(etiquetas)

    tukey = pairwise_tukeyhsd(endog=datos_todos,
                              groups=etiquetas,
                              alpha=alpha)

    print("\n--- Análisis post-hoc Tukey HSD ---")
    print(tukey)
else:
    print("\nNo se realiza Tukey HSD (o bien no se ha usado ANOVA o no hay diferencias globales significativas).")

# ------------------------------------------------------------
# 7. ¿Qué grupo es 'mejor'? (el de mayor media)
# ------------------------------------------------------------
medias = [np.mean(g) for g in grupos]
print("\nMedias de los grupos:")
for i, m in enumerate(medias, start=1):
    print(f"  Grupo {i}: media = {m:.4f}")

indice_mejor = int(np.argmax(medias))
print(f"\nEl grupo con mejor resultado medio es el GRUPO {indice_mejor + 1}.")


Tamaños de muestra:
  Grupo 1: n = 5
  Grupo 2: n = 5
  Grupo 3: n = 5

--- Comprobación de normalidad (Shapiro-Wilk) ---
Grupo 1: estadístico = 0.9609, p-valor = 0.8140
Grupo 2: estadístico = 0.9609, p-valor = 0.8140
Grupo 3: estadístico = 0.8810, p-valor = 0.3140

--- Test de Levene (igualdad de varianzas) ---
Estadístico = 0.1176, p-valor = 0.8900

Test utilizado: ANOVA de una vía (paramétrico)
Estadístico de contraste = 48.0606
p-valor = 0.0000

Como p-valor = 0.0000 < α = 0.05, se rechaza la hipótesis nula.
Conclusión global: existen diferencias estadísticamente significativas entre al menos dos grupos.

--- Análisis post-hoc Tukey HSD ---
 Multiple Comparison of Means - Tukey HSD, FWER=0.05  
 group1  group2 meandiff p-adj   lower   upper  reject
------------------------------------------------------
Grupo 1 Grupo 2      4.2 0.0001  2.4303  5.9697   True
Grupo 1 Grupo 3     -2.2 0.0157 -3.9697 -0.4303   True
Grupo 2 Grupo 3     -6.4    0.0 -8.1697 -4.6303   True
-----------------

El ANOVA de una vía es el test adecuado cuando se desea comparar las medias
de **tres o más grupos independientes** y se cumplen los supuestos de:

1. Normalidad en cada grupo.
2. Homogeneidad de varianzas entre los grupos.
3. Independencia de las observaciones.

Dado que estos supuestos se verifican en los datos analizados, el ANOVA es la
prueba estadística apropiada.


### Conclusión Ejercicio 2

Primero se comprobaron los supuestos necesarios para aplicar un ANOVA de una vía:

- **Normalidad:**  
  Los tres grupos presentan p-valores > 0.05 en la prueba de Shapiro–Wilk, por lo que **no se rechaza la hipótesis de normalidad** en ninguno de ellos.

- **Igualdad de varianzas:**  
  El test de Levene arrojó un p-valor = 0.8900 (> 0.05), lo que indica que **no se rechaza la hipótesis de homogeneidad de varianzas**.  
  Por tanto, las tres poblaciones pueden considerarse con varianzas iguales.

Dado que se cumplen los supuestos, se aplicó un **ANOVA de una vía (paramétrico)** para comparar las medias de los tres grupos.

El ANOVA arrojó:

- Estadístico F = 48.0606  
- p-valor = 0.0000  

Como p-valor < 0.05, **se rechaza la hipótesis nula (H₀)**.  
Por tanto, **existen diferencias estadísticamente significativas entre al menos dos de los tres grupos**.

A continuación, se compararon las medias de cada grupo:

- Grupo 1: media = 10.4000  
- Grupo 2: media = 14.6000  
- Grupo 3: media = 8.2000  

El grupo con el **mejor resultado promedio** es el **GRUPO 2**, al ser el que presenta la media más alta.


Desde un punto de vista práctico, los resultados indican que el fertilizante del
Grupo 2 permite obtener una producción significativamente mayor que los otros
dos fertilizantes analizados. Esto lo convierte en la opción más efectiva bajo
las condiciones del experimento.
