# 🧪 Prueba de Hipótesis 1: IMC promedio en grupos con y sin diabetes

**Objetivo:** Verificar si el IMC promedio difiere significativamente entre personas diagnosticadas con diabetes y quienes no.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

sns.set(style="whitegrid")

In [None]:
# Cargar datos
data = pd.read_csv('data/diabetes_health_indicators.csv')
data.head()

In [None]:
# Revisar columnas y verificar variable objetivo y variable IMC
data.columns

In [None]:
# Separar grupos
diabetes_yes = data[data['Diabetes_012'] == 1]['BMI']
diabetes_no = data[data['Diabetes_012'] == 0]['BMI']

print(f"N con diabetes: {len(diabetes_yes)}")
print(f"N sin diabetes: {len(diabetes_no)}")

In [None]:
# Visualización: Boxplot
plt.figure(figsize=(8,5))
sns.boxplot(x=data['Diabetes_012'], y=data['BMI'])
plt.xticks([0,1], ['Sin Diabetes', 'Con Diabetes'])
plt.title('Distribución de IMC por grupo')
plt.show()

In [None]:
# Prueba de normalidad
_, p_yes = stats.shapiro(diabetes_yes.sample(500, random_state=42))
_, p_no = stats.shapiro(diabetes_no.sample(500, random_state=42))

print(f"p-valor normalidad (con diabetes): {p_yes:.4f}")
print(f"p-valor normalidad (sin diabetes): {p_no:.4f}")

In [None]:
# Prueba de hipótesis: Test t de muestras independientes (varianzas iguales=False)
t_stat, p_val = stats.ttest_ind(diabetes_yes, diabetes_no, equal_var=False)
print(f"Estadístico t: {t_stat:.4f}")
print(f"p-valor: {p_val:.4f}")

if p_val < 0.05:
    print("Se rechaza H0: Hay diferencia significativa en IMC promedio.")
else:
    print("No se rechaza H0: No hay evidencia de diferencia significativa.")