# 🧪 Prueba de Hipótesis 2: Proporción de Actividad Física

**Objetivo:** Verificar si la proporción de personas que realizan actividad física difiere significativamente entre quienes tienen diagnóstico de diabetes y quienes no.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import chi2_contingency

sns.set(style="whitegrid")

In [None]:
# Cargar datos
data = pd.read_csv('data/diabetes_health_indicators.csv')
data.head()

In [None]:
# Revisar columnas para identificar la variable de actividad física
data.columns

In [None]:
# Construir tabla de contingencia
# Se asume que la columna se llama 'PhysActivity'
contingency = pd.crosstab(data['Diabetes_012'], data['PhysActivity'])
print(contingency)

In [None]:
# Visualización de proporciones
contingency_norm = contingency.div(contingency.sum(axis=1), axis=0)
contingency_norm.plot(kind='bar', stacked=True)
plt.xticks([0,1], ['Sin Diabetes', 'Con Diabetes'], rotation=0)
plt.title('Proporción de Actividad Física por Grupo')
plt.ylabel('Proporción')
plt.show()

In [None]:
# Prueba de chi-cuadrado
chi2, p, dof, expected = chi2_contingency(contingency)

print(f"Estadístico chi-cuadrado: {chi2:.4f}")
print(f"p-valor: {p:.4f}")

if p < 0.05:
    print("Se rechaza H0: Hay diferencia significativa en la proporción de actividad física.")
else:
    print("No se rechaza H0: No hay evidencia de diferencia significativa.")