# Ejercicio Práctico: Pruebas de Hipótesis

**Curso:** CD2001B - Diagnóstico para Líneas de Acción  
**Módulo:** 1 - Estadística para Negocios  
**Tipo:** Ejercicio opcional de práctica  
**Dataset:** ejemplo_satisfaccion_clientes.csv  
**Tiempo estimado:** 60-75 minutos

---

## 🎯 Objetivo

Practicar la aplicación de pruebas de hipótesis (t-test para 1 y 2 muestras) antes del Workshop 1.

## 📊 Dataset

Continuarás trabajando con el dataset de satisfacción de beneficiarios de la ONG.

---

## 💡 Recordatorio: Pasos de una Prueba de Hipótesis

1. **Plantear hipótesis** (H₀ y H₁)
2. **Establecer nivel de significancia** (α = 0.05)
3. **Calcular estadístico de prueba** (t-value)
4. **Calcular p-value**
5. **Tomar decisión** (rechazar o no rechazar H₀)
6. **Interpretar en contexto**

---

## Parte 1: Preparación

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style('whitegrid')
%matplotlib inline

print("✓ Librerías importadas")

In [None]:
# Cargar datos
df = pd.read_csv('../datos/ejemplo_satisfaccion_clientes.csv')

print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
df.head()

---

## Parte 2: Prueba t para Una Muestra (35 puntos)

### Escenario 1: Satisfacción vs Objetivo (15 puntos)

**Contexto:** La ONG tiene como meta que la satisfacción promedio sea de **8.0 puntos**. Queremos saber si la satisfacción real es significativamente diferente de este objetivo.

**Pregunta:** ¿La satisfacción promedio de los beneficiarios es diferente de 8.0?

In [None]:
# Paso 1: Plantear hipótesis
print("📋 HIPÓTESIS")
print("H₀: μ = 8.0 (La satisfacción promedio es 8.0)")
print("H₁: μ ≠ 8.0 (La satisfacción promedio es diferente de 8.0)")
print("\nNivel de significancia: α = 0.05")
print("Tipo de prueba: Bilateral (two-tailed)")

In [None]:
# Paso 2: Calcular estadístico descriptivo
satisfaccion = df['satisfaccion']

media_muestra = # TU CÓDIGO AQUÍ
n = # TU CÓDIGO AQUÍ (tamaño de muestra)

print(f"Media muestral: {media_muestra:.2f}")
print(f"Tamaño de muestra: {n}")

In [None]:
# Paso 3: Realizar prueba t
# TU CÓDIGO AQUÍ
# Usa: stats.ttest_1samp(datos, valor_poblacional)

t_stat, p_value = # TU CÓDIGO AQUÍ

print(f"\n📊 RESULTADOS")
print(f"t-statistic: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

In [None]:
# Paso 4: Decisión
alpha = 0.05

if p_value < alpha:
    print(f"\n✓ DECISIÓN: Rechazamos H₀ (p-value = {p_value:.4f} < {alpha})")
else:
    print(f"\n✓ DECISIÓN: No rechazamos H₀ (p-value = {p_value:.4f} >= {alpha})")

**Interpretación en contexto:**

*Escribe aquí tu interpretación:*
- ¿Qué significa este resultado para la ONG?
- ¿Están cumpliendo su meta de satisfacción de 8.0?
- ¿Qué acciones deberían tomar?

### Escenario 2: Tiempo de Espera vs Estándar (20 puntos)

**Contexto:** El estándar de la industria es que los beneficiarios no esperen más de **30 minutos**. La ONG quiere verificar si su tiempo de espera promedio es superior a este estándar.

**Pregunta:** ¿El tiempo de espera promedio es mayor a 30 minutos?

In [None]:
# Paso 1: Plantear hipótesis
# NOTA: Esta es una prueba unilateral (one-tailed) porque preguntamos si es MAYOR

print("📋 HIPÓTESIS")
print("H₀: μ ≤ 30 (El tiempo promedio es menor o igual a 30 min)")
print("H₁: μ > 30 (El tiempo promedio es mayor a 30 min)")
print("\nNivel de significancia: α = 0.05")
print("Tipo de prueba: Unilateral derecha (right-tailed)")

In [None]:
# Paso 2: Realizar prueba t
tiempo = df['tiempo_espera']

# TU CÓDIGO AQUÍ
t_stat, p_value_bilateral = # stats.ttest_1samp(...)

# Para prueba unilateral, dividimos p-value entre 2
p_value = p_value_bilateral / 2

print(f"Media muestral: {tiempo.mean():.2f} minutos")
print(f"t-statistic: {t_stat:.4f}")
print(f"p-value (unilateral): {p_value:.4f}")

In [None]:
# Paso 3: Decisión
if p_value < alpha and t_stat > 0:  # t > 0 confirma que media > 30
    print(f"\n✓ DECISIÓN: Rechazamos H₀")
    print("Evidencia de que el tiempo de espera promedio es MAYOR a 30 minutos")
else:
    print(f"\n✓ DECISIÓN: No rechazamos H₀")
    print("No hay evidencia suficiente de que el tiempo supere los 30 minutos")

**Interpretación:**

*¿Qué implica este resultado? ¿La ONG necesita mejorar sus procesos de atención?*

---

## Parte 3: Prueba t para Dos Muestras Independientes (40 puntos)

### Escenario 3: Satisfacción por Género (20 puntos)

**Contexto:** Queremos saber si hay diferencias en la satisfacción entre hombres y mujeres.

**Pregunta:** ¿La satisfacción promedio difiere entre géneros?

In [None]:
# Paso 1: Exploración inicial
print("📊 Satisfacción por Género")
resumen = df.groupby('genero')['satisfaccion'].agg(['mean', 'std', 'count'])
print(resumen)

In [None]:
# Visualización
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='genero', y='satisfaccion', palette='Set2')
plt.title('Satisfacción por Género')
plt.ylabel('Satisfacción')
plt.show()

In [None]:
# Paso 2: Plantear hipótesis
print("📋 HIPÓTESIS")
print("H₀: μ_hombres = μ_mujeres (No hay diferencia en satisfacción)")
print("H₁: μ_hombres ≠ μ_mujeres (Hay diferencia en satisfacción)")
print("\nα = 0.05")

In [None]:
# Paso 3: Separar grupos
grupo_masculino = # TU CÓDIGO AQUÍ (filtra df donde genero == 'Masculino')
grupo_femenino = # TU CÓDIGO AQUÍ (filtra df donde genero == 'Femenino')

satisf_m = grupo_masculino['satisfaccion']
satisf_f = grupo_femenino['satisfaccion']

print(f"Tamaño grupo masculino: {len(satisf_m)}")
print(f"Tamaño grupo femenino: {len(satisf_f)}")

In [None]:
# Paso 4: Realizar prueba t de dos muestras
# TU CÓDIGO AQUÍ
# Usa: stats.ttest_ind(grupo1, grupo2)

t_stat, p_value = # TU CÓDIGO AQUÍ

print(f"\n📊 RESULTADOS")
print(f"t-statistic: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

In [None]:
# Paso 5: Decisión
if p_value < alpha:
    print(f"\n✓ DECISIÓN: Rechazamos H₀ (p = {p_value:.4f})")
    print("Existe diferencia significativa en satisfacción entre géneros")
else:
    print(f"\n✓ DECISIÓN: No rechazamos H₀ (p = {p_value:.4f})")
    print("No hay evidencia de diferencia en satisfacción entre géneros")

**Interpretación:**

*¿Qué significa este resultado? ¿La ONG debe ajustar sus servicios según el género?*

### Escenario 4: Tiempo de Espera por Departamento (20 puntos)

**Contexto:** Comparemos dos departamentos específicos: **Salud** vs **Educación**

**Pregunta:** ¿El tiempo de espera difiere entre Salud y Educación?

In [None]:
# Paso 1: Filtrar departamentos
salud = # TU CÓDIGO AQUÍ
educacion = # TU CÓDIGO AQUÍ

tiempo_salud = salud['tiempo_espera']
tiempo_educacion = educacion['tiempo_espera']

print("📊 Estadísticas Descriptivas")
print(f"\nSalud:")
print(f"  Media: {tiempo_salud.mean():.2f} min")
print(f"  Desv. Est: {tiempo_salud.std():.2f} min")
print(f"  n = {len(tiempo_salud)}")

print(f"\nEducación:")
print(f"  Media: {tiempo_educacion.mean():.2f} min")
print(f"  Desv. Est: {tiempo_educacion.std():.2f} min")
print(f"  n = {len(tiempo_educacion)}")

In [None]:
# Visualización comparativa
plt.figure(figsize=(10, 6))

data_comparacion = df[df['departamento'].isin(['Salud', 'Educación'])]
sns.boxplot(data=data_comparacion, x='departamento', y='tiempo_espera', palette='pastel')
plt.title('Tiempo de Espera: Salud vs Educación')
plt.ylabel('Tiempo de Espera (minutos)')
plt.show()

In [None]:
# Hipótesis
print("📋 HIPÓTESIS")
print("H₀: μ_salud = μ_educacion")
print("H₁: μ_salud ≠ μ_educacion")

In [None]:
# Prueba t
# TU CÓDIGO AQUÍ

t_stat, p_value = # stats.ttest_ind(...)

print(f"\nt-statistic: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < alpha:
    print(f"\n✓ Rechazamos H₀ - Hay diferencia significativa")
else:
    print(f"\n✓ No rechazamos H₀ - No hay diferencia significativa")

**Interpretación:**

*¿Qué departamento tiene mayor tiempo de espera? ¿Qué acciones recomendarías?*

---

## Parte 4: Verificación de Supuestos (25 puntos)

### Supuesto 1: Normalidad

Las pruebas t asumen que los datos provienen de una distribución normal (especialmente para muestras pequeñas).

In [None]:
# Test de Shapiro-Wilk para normalidad
# H₀: Los datos provienen de una distribución normal

stat, p_shapiro = stats.shapiro(df['satisfaccion'])

print("📊 Prueba de Normalidad - Shapiro-Wilk")
print(f"Estadístico: {stat:.4f}")
print(f"p-value: {p_shapiro:.4f}")

if p_shapiro > 0.05:
    print("\n✓ Los datos parecen provenir de una distribución normal")
else:
    print("\n⚠️ Los datos NO parecen normales (pero con n>30, la prueba t es robusta)")

In [None]:
# Q-Q Plot (visualización de normalidad)
from scipy.stats import probplot

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma con curva normal
axes[0].hist(df['satisfaccion'], bins=20, density=True, alpha=0.7, edgecolor='black')
mu, sigma = df['satisfaccion'].mean(), df['satisfaccion'].std()
x = np.linspace(df['satisfaccion'].min(), df['satisfaccion'].max(), 100)
axes[0].plot(x, stats.norm.pdf(x, mu, sigma), 'r-', linewidth=2, label='Normal teórica')
axes[0].set_title('Distribución de Satisfacción')
axes[0].legend()

# Q-Q plot
probplot(df['satisfaccion'], dist="norm", plot=axes[1])
axes[1].set_title('Q-Q Plot')

plt.tight_layout()
plt.show()

**Interpretación del Q-Q Plot:**
- Si los puntos siguen la línea diagonal → los datos son normales
- Desviaciones en las colas → datos con outliers o asimetría

### Supuesto 2: Homogeneidad de Varianzas

Para pruebas t de dos muestras, verificamos si las varianzas son iguales.

In [None]:
# Test de Levene para igualdad de varianzas
# H₀: Las varianzas son iguales

stat, p_levene = stats.levene(satisf_m, satisf_f)

print("📊 Prueba de Levene (Homogeneidad de Varianzas)")
print(f"Estadístico: {stat:.4f}")
print(f"p-value: {p_levene:.4f}")

if p_levene > 0.05:
    print("\n✓ Las varianzas son homogéneas (supuesto cumplido)")
else:
    print("\n⚠️ Las varianzas son diferentes (usar equal_var=False en ttest_ind)")

---

## 🎯 Resumen de Resultados

**Completa esta tabla:**

| Prueba | t-statistic | p-value | Decisión | Conclusión |
|--------|-------------|---------|----------|------------|
| Satisfacción vs 8.0 | ___ | ___ | ___ | ___ |
| Tiempo vs 30 min | ___ | ___ | ___ | ___ |
| Satisfacción M vs F | ___ | ___ | ___ | ___ |
| Tiempo Salud vs Educ | ___ | ___ | ___ | ___ |

---

## ✅ Autoevaluación

- [ ] Planteé correctamente H₀ y H₁ para cada escenario
- [ ] Identifiqué cuándo usar prueba unilateral vs bilateral
- [ ] Interpreté correctamente los p-values
- [ ] Verifiqué supuestos de normalidad y homogeneidad
- [ ] Conecté resultados estadísticos con el contexto del negocio

---

## 📚 Próximos Pasos

1. Revisa **`ejercicio_pruebas_hipotesis_SOLUCION.ipynb`**
2. Practica identificar errores Tipo I y Tipo II
3. Prepárate para **Workshop 1** con dataset de alcohol

---

**¡Excelente trabajo!** 🎉