# Material de Referencia: An√°lisis del Compa√±ero

**Equipo Original:** Franco Aguilar, Iv√°n Mansilla y Ayrton Morrison  
**Prop√≥sito de este documento:** Recopilaci√≥n de implementaciones √∫tiles para complementar `Entregable.ipynb`

---

## √çndice de contenidos por secci√≥n

1. **Secci√≥n 2.2 - Intervalos de Confianza**
   - Funci√≥n `intervalo_confianza_95()` reutilizable
   - Aplicaci√≥n a variables clave (IMC, FPG, HbA1c)
   - Interpretaciones cl√≠nicas con rangos de referencia

2. **Secci√≥n 2.3 - Test de Hip√≥tesis**
   - Comparaci√≥n PA sist√≥lica (Welch t-test + Mann-Whitney)
   - ANOVA/Kruskal-Wallis (dieta vs actividad f√≠sica)
   - Chi-cuadrado (antecedentes familiares vs GDM)

3. **Secci√≥n 2.4 - Evaluaci√≥n de Normalidad**
   - Formato de presentaci√≥n simplificado para Shapiro-Wilk

4. **Otras utilidades**
   - An√°lisis de outliers con IQR
   - Visualizaciones b√°sicas compactas

---

**Nota:** Este notebook NO se ejecuta directamente. Es una referencia de c√≥digo para integrar en `Entregable.ipynb`.

---

## 1. Secci√≥n 2.2 - Intervalos de Confianza

### 1.1 Funci√≥n para calcular IC 95% de la media

**Ventajas:**
- Compacta y reutilizable
- Usa distribuci√≥n t de Student correctamente
- Devuelve DataFrame legible
- Maneja NaN autom√°ticamente

**Aplicaci√≥n sugerida:**
- Usar para calcular IC de todas las variables continuas en `df_filter`
- Complementar con tu funci√≥n `calculate_ic_std()` para IC de varianza
- Crear tabla resumen `ic_table_completa` para el informe

In [None]:
from scipy import stats
import math
import pandas as pd
import numpy as np

def intervalo_confianza_95(x):
    """Calcula IC 95% para la media usando distribuci√≥n t de Student
    
    Args:
        x (pd.Series): Serie de datos num√©ricos
        
    Returns:
        pd.Series: media, IC95_inf, IC95_sup
    """
    x = x.dropna().astype(float)
    n = len(x)
    
    if n < 2:
        return pd.Series({
            "media": np.nan,
            "IC95_inf": np.nan,
            "IC95_sup": np.nan
        })
    
    media = x.mean()
    desv = x.std(ddof=1)
    t_crit = stats.t.ppf(0.975, df=n-1)
    margen = t_crit * desv / math.sqrt(n)
    
    return pd.Series({
        "media": round(media, 3),
        "IC95_inf": round(media - margen, 3),
        "IC95_sup": round(media + margen, 3)
    })

# Ejemplo de uso:
# vars_interes = ["bmi_prepreg_kg_m2", "fpg_mmol_l", "hba1c_percent"]
# ic_table = df[vars_interes].apply(intervalo_confianza_95).T
# display(ic_table)

### 1.2 Interpretaci√≥n Cl√≠nica de Intervalos de Confianza

**Modelo de interpretaci√≥n del compa√±ero:**

Este formato es excelente para la secci√≥n de conclusiones. Estructura clara:
1. Variable + IC num√©rico
2. Comparaci√≥n con rangos cl√≠nicos de referencia
3. Conclusi√≥n sobre la poblaci√≥n de estudio

---

#### Ejemplo 1: IMC Pregestacional

**IC 95%:** [26.031, 26.538] kg/m¬≤

**Interpretaci√≥n:**  
El intervalo de confianza est√° completamente en el rango de **sobrepeso** seg√∫n clasificaci√≥n OMS (25-29.9 kg/m¬≤).  

**Conclusi√≥n poblacional:**  
La poblaci√≥n de estudio, en promedio, presenta sobrepeso antes del embarazo. Este es un **factor de riesgo conocido** para el desarrollo de diabetes gestacional.

---

#### Ejemplo 2: Glucosa Plasm√°tica en Ayunas (FPG)

**IC 95%:** [4.75, 4.85] mmol/L

**Interpretaci√≥n:**  
El intervalo est√° por debajo del umbral diagn√≥stico de:
- Pre-diabetes: 5.6-6.9 mmol/L
- Diabetes: ‚â•7.0 mmol/L

**Conclusi√≥n poblacional:**  
En promedio, la poblaci√≥n presenta **niveles normogluc√©micos** durante el primer trimestre del embarazo.

---

#### Ejemplo 3: Hemoglobina Glicosilada (HbA1c)

**IC 95%:** [5.199, 5.239] %

**Interpretaci√≥n:**  
Considerando los umbrales de:
- Pre-diabetes: >5.7%
- Diabetes: ‚â•6.5%

**Conclusi√≥n poblacional:**  
El intervalo indica que, en promedio, la poblaci√≥n se encuentra **metab√≥licamente sana** en cuanto a control gluc√©mico a largo plazo.

---

**üìù Acci√≥n recomendada:**  
Usar este formato para interpretar IC de **todas** las variables continuas en tu secci√≥n de conclusiones (Secci√≥n 4.2).

---

## 2. Secci√≥n 2.3 - Test de Hip√≥tesis

### 2.1 Comparaci√≥n de Presi√≥n Arterial Sist√≥lica (GDM vs No-GDM)

**Caracter√≠sticas importantes:**
- Ejecuta AMBAS pruebas: Welch t-test (param√©trico) + Mann-Whitney U (no param√©trico)
- Proporciona robustez al an√°lisis
- Formato claro de presentaci√≥n de resultados

**Aplicaci√≥n sugerida:**
- Integrar en tu celda 52 de `Entregable.ipynb`
- Extender a otras variables: `bmi_prepreg_kg_m2`, `fpg_mmol_l`, `hba1c_percent`, etc.
- Combinar con tu funci√≥n `compare_two_groups_numeric()` existente

In [None]:
import numpy as np
from scipy import stats

# Ejemplo: Comparaci√≥n de presi√≥n arterial sist√≥lica

# Filtrar grupos
gdm = df_filter.loc[df_filter["label_gdm"] == 1, "systolic_bp_mmHg"].dropna()
nogdm = df_filter.loc[df_filter["label_gdm"] == 0, "systolic_bp_mmHg"].dropna()

print("1) Comparaci√≥n de presi√≥n arterial sist√≥lica\n")
print(f"N GDM = {len(gdm)}, N No GDM = {len(nogdm)}")

# Welch t-test (no asume varianzas iguales)
t_stat, t_p = stats.ttest_ind(gdm, nogdm, equal_var=False, nan_policy="omit")

# Mann-Whitney U (alternativa no param√©trica)
u_stat, u_p = stats.mannwhitneyu(gdm, nogdm, alternative="two-sided")

print(f"Welch t-test: t = {t_stat:.3f}, p = {t_p:.4f}")
print(f"Mann‚ÄìWhitney U: U = {u_stat:.3f}, p = {u_p:.4f}")

if t_p < 0.05:
    print("‚úÖ Existe diferencia estad√≠sticamente significativa en la PA sist√≥lica entre GDM y no GDM.\n")
else:
    print("‚ùå No se observa diferencia estad√≠sticamente significativa en la PA sist√≥lica entre GDM y no GDM.\n")

### 2.2 ANOVA y Kruskal-Wallis: Dieta vs Actividad F√≠sica

**Caracter√≠sticas importantes:**
- Comparaci√≥n de m√∫ltiples grupos (>2)
- Categorizaci√≥n autom√°tica de variable continua en terciles
- Ejecuta ANOVA (param√©trico) y Kruskal-Wallis (no param√©trico)

**üìå CR√çTICO:** Esta prueba est√° EXPL√çCITAMENTE pedida en las instrucciones:
> "Evaluar diferencias en dieta por nivel de actividad f√≠sica (ANOVA / Kruskal‚ÄìWallis)"

**Aplicaci√≥n directa:**
- Agregar como nueva celda en secci√≥n 2.3 de `Entregable.ipynb`
- Esta prueba completa uno de los requisitos faltantes m√°s cr√≠ticos

In [None]:
# 2) Puntaje de dieta vs nivel de actividad f√≠sica
print("2) Puntaje de dieta vs nivel de actividad f√≠sica\n")

# Crear terciles de actividad f√≠sica
q1, q2 = df_filter["physical_activity_level"].quantile([1/3, 2/3])

def clasificar_pal(x):
    """Clasifica nivel de actividad f√≠sica en terciles"""
    if pd.isna(x): 
        return np.nan
    if x <= q1: 
        return "Baja"
    elif x <= q2: 
        return "Media"
    else: 
        return "Alta"

df_filter["PAL_categoria"] = df_filter["physical_activity_level"].apply(clasificar_pal)

# Preparar datos para an√°lisis
tmp = df_filter[["diet_score_0_100", "PAL_categoria"]].dropna()
grupos = [g["diet_score_0_100"].values for _, g in tmp.groupby("PAL_categoria")]
labels = tmp["PAL_categoria"].unique()

print("Grupos:", labels)
print(f"N por grupo: {[len(g) for g in grupos]}")

# ANOVA (param√©trico)
f_stat, f_p = stats.f_oneway(*grupos)

# Kruskal-Wallis (no param√©trico)
kw_stat, kw_p = stats.kruskal(*grupos)

print(f"\nANOVA: F = {f_stat:.3f}, p = {f_p:.4f}")
print(f"Kruskal‚ÄìWallis: H = {kw_stat:.3f}, p = {kw_p:.4f}")

if f_p < 0.05:
    print("‚úÖ Existen diferencias significativas en el puntaje de dieta seg√∫n el nivel de actividad f√≠sica.\n")
else:
    print("‚ùå No se encontraron diferencias significativas en el puntaje de dieta entre los niveles de actividad f√≠sica.\n")

### 2.3 Prueba Chi-cuadrado: Antecedentes Familiares de DM2 vs GDM

**Caracter√≠sticas importantes:**
- Prueba de asociaci√≥n para variables categ√≥ricas
- Usa tabla de contingencia (crosstab)
- Devuelve chi¬≤, p-value, grados de libertad y frecuencias esperadas

**üìå CR√çTICO:** Esta prueba est√° EXPL√çCITAMENTE pedida en las instrucciones:
> "Comparaci√≥n de proporciones (antecedentes familiares vs GDM)"

**Aplicaci√≥n sugerida:**
- Agregar como nueva celda en secci√≥n 2.3
- Extender a otras variables categ√≥ricas: `pcos`, `previous_gdm`, `smoking_first_trimester`
- Calcular Odds Ratio (OR) para cada comparaci√≥n

In [None]:
# 3) Antecedentes familiares de T2D vs GDM
print("3) Asociaci√≥n entre antecedentes familiares de T2D y GDM\n")

# Crear tabla de contingencia
tabla = pd.crosstab(df_filter["family_history_t2d"], df_filter["label_gdm"])
print("Tabla de contingencia:")
print(tabla)

# Prueba chi-cuadrado
chi2, chi_p, dof, exp = stats.chi2_contingency(tabla)

print(f"\nChi-cuadrado = {chi2:.3f}")
print(f"Grados de libertad = {dof}")
print(f"p-value = {chi_p:.4f}")

# Calcular Odds Ratio (si tabla 2x2)
if tabla.shape == (2, 2):
    a, b = tabla.iloc[0, 0], tabla.iloc[0, 1]
    c, d = tabla.iloc[1, 0], tabla.iloc[1, 1]
    
    if b * c > 0:
        OR = (a * d) / (b * c)
        print(f"Odds Ratio = {OR:.3f}")
        
        if OR > 1:
            print(f"Los antecedentes familiares aumentan el riesgo en {OR:.2f}x")
        else:
            print(f"Los antecedentes familiares reducen el riesgo en {1/OR:.2f}x")

if chi_p < 0.05:
    print("\n‚úÖ Existe asociaci√≥n estad√≠sticamente significativa entre tener antecedentes familiares de T2D y presentar GDM.")
else:
    print("\n‚ùå No se observa asociaci√≥n significativa entre antecedentes familiares de T2D y GDM.")

### 2.4 C√≥digo Integrado: Todas las pruebas de hip√≥tesis categ√≥ricas

**Aplicaci√≥n sugerida:**
- Crear una celda nueva en secci√≥n 2.3 despu√©s de tu celda 52
- Este c√≥digo ejecuta chi-cuadrado para TODAS las variables categ√≥ricas relevantes
- Genera tabla resumen con resultados consolidados

In [None]:
# ===== AN√ÅLISIS COMPLETO: CHI-CUADRADO PARA VARIABLES CATEG√ìRICAS =====
print("="*70)
print("PRUEBAS DE ASOCIACI√ìN CHI-CUADRADO (Variables Categ√≥ricas vs GDM)")
print("="*70)

categorical_tests = [
    ("family_history_t2d", "Antecedentes familiares de DM2"),
    ("pcos", "S√≠ndrome de ovario poliqu√≠stico"),
    ("previous_gdm", "Diabetes gestacional previa"),
    ("smoking_first_trimester", "Tabaquismo en 1er trimestre")
]

chi_results = []

for col, descripcion in categorical_tests:
    print(f"\n{'='*70}")
    print(f"Variable: {descripcion}")
    print(f"{'='*70}")
    
    # Tabla de contingencia
    tabla = pd.crosstab(df_filter[col], df_filter["label_gdm"])
    print("\nTabla de contingencia:")
    print(tabla)
    
    # Chi-cuadrado
    chi2, p, dof, exp = stats.chi2_contingency(tabla)
    
    # Calcular Odds Ratio (solo para tablas 2x2)
    OR = np.nan
    if tabla.shape == (2, 2):
        a, b, c, d = tabla.iloc[0,0], tabla.iloc[0,1], tabla.iloc[1,0], tabla.iloc[1,1]
        if (b * c) > 0:
            OR = (a * d) / (b * c)
    
    # Decisi√≥n
    decision = "Asociaci√≥n significativa" if p < 0.05 else "Sin asociaci√≥n"
    
    print(f"\nResultados:")
    print(f"  œá¬≤ = {chi2:.3f}")
    print(f"  gl = {dof}")
    print(f"  p = {p:.4f}")
    if not np.isnan(OR):
        print(f"  OR = {OR:.3f}")
    print(f"  Decisi√≥n: {decision}")
    
    # Guardar para tabla resumen
    chi_results.append({
        "Variable": descripcion,
        "Chi2": round(chi2, 3),
        "gl": dof,
        "p-value": round(p, 4),
        "Odds_Ratio": round(OR, 3) if not np.isnan(OR) else "N/A",
        "Decisi√≥n": decision
    })

# Tabla resumen
print(f"\n\n{'='*70}")
print("RESUMEN DE PRUEBAS CHI-CUADRADO")
print(f"{'='*70}\n")
df_chi_results = pd.DataFrame(chi_results)
display(df_chi_results)

# Guardar resultados
# df_chi_results.to_csv("chi_square_results.csv", index=False)

---

## 3. Secci√≥n 2.4 - Evaluaci√≥n de Normalidad

### 3.1 Formato de presentaci√≥n simplificado

**Ventajas del formato del compa√±ero:**
- Bucle simple que eval√∫a m√∫ltiples variables
- Presentaci√≥n clara con conclusi√≥n expl√≠cita ("PARECEN ser normales" vs "NO PARECEN")
- F√°cil de leer en el output

**Tu implementaci√≥n actual es m√°s completa** (tienes Shapiro + KS), pero puedes mejorar la legibilidad:

In [None]:
from scipy.stats import shapiro

variables_interes = [
    'bmi_prepreg_kg_m2',
    'fpg_mmol_l',
    'hba1c_percent',
    'systolic_bp_mmHg',
    'triglycerides_mmol_l',
    'hdl_mmol_l'
]

print("="*70)
print("EVALUACI√ìN DE NORMALIDAD (Test de Shapiro-Wilk)")
print("="*70)

for col in variables_interes:
    # Limpiar datos
    datos_limpios = df_filter[col].dropna()
    
    # Test de Shapiro-Wilk
    stat, p_value = shapiro(datos_limpios)
    
    print(f"\nVariable: {col}")
    print(f"  N = {len(datos_limpios)}")
    print(f"  Estad√≠stico W = {stat:.4f}")
    print(f"  P-value = {p_value:.4f}")
    
    if p_value > 0.05:
        print("  ‚úÖ Conclusi√≥n: Los datos PARECEN ser normales (p > 0.05)")
    else:
        print("  ‚ùå Conclusi√≥n: Los datos NO PARECEN ser normales (p ‚â§ 0.05)")

---

## 4. Otras Utilidades

### 4.1 An√°lisis de outliers con IQR

**Su implementaci√≥n es m√°s simple que la tuya** (t√∫ usas sistema de votaci√≥n con 4 m√©todos, lo cual es SUPERIOR).  
Sin embargo, su c√≥digo puede servir como alternativa simplificada si necesitas reportar outliers por variable individual:

In [None]:
# An√°lisis de outliers variable por variable
numeric_cols = df_filter.select_dtypes(include=['float64', 'int64']).columns

for col_nombre in numeric_cols:
    print(f"------ {col_nombre} ------")
    col = df_filter[col_nombre].dropna()
    
    Q1 = col.quantile(0.25)
    Q3 = col.quantile(0.75)
    IQR = Q3 - Q1
    
    if IQR == 0:
        print(f"‚ö†Ô∏è  No se puede calcular outliers (IQR = 0)")
        continue
        
    limite_inferior = Q1 - (1.5 * IQR)
    limite_superior = Q3 + (1.5 * IQR)

    outliers = df_filter[(df_filter[col_nombre] < limite_inferior) | (df_filter[col_nombre] > limite_superior)]
    
    if outliers.empty:
        print("‚úÖ No existen outliers")
    else:
        print(f"‚ö†Ô∏è  {len(outliers)} outliers detectados")
        print(f"Porcentaje de outliers: {len(outliers) / len(df_filter) * 100:.2f}%")
        print(f"Rango v√°lido: [{limite_inferior:.2f}, {limite_superior:.2f}]")
    
    print()

### 4.2 Visualizaciones compactas

**Su c√≥digo de visualizaci√≥n es m√°s compacto** que el tuyo (que es m√°s detallado).  
Puede ser √∫til si necesitas generar gr√°ficos r√°pidos para exploraci√≥n:

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Ejemplo: Histogramas para todas las variables num√©ricas
numeric_cols = df_filter.select_dtypes(include=['float64', 'int64']).columns
n_cols = len(numeric_cols)

fig, axes = plt.subplots(1, n_cols, figsize=(5*n_cols, 4))

for idx, col in enumerate(numeric_cols):
    sns.histplot(data=df_filter, x=col, kde=True, ax=axes[idx])
    axes[idx].set_title(f'{col}')
    axes[idx].set_xlabel(col)
    axes[idx].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

---

## 5. Resumen de Prioridades de Integraci√≥n

### üî¥ CR√çTICO - Implementar inmediatamente en `Entregable.ipynb`:

1. **Chi-cuadrado para variables categ√≥ricas** (Secci√≥n 2.3)
   - `family_history_t2d`, `pcos`, `previous_gdm`, `smoking_first_trimester`
   - C√≥digo completo disponible en celda 2.3 arriba

2. **ANOVA/Kruskal-Wallis para dieta vs actividad f√≠sica** (Secci√≥n 2.3)
   - Expl√≠citamente pedido en instrucciones
   - C√≥digo completo disponible en celda 2.2 arriba

3. **Comparaci√≥n Welch + Mann-Whitney para m√∫ltiples variables** (Secci√≥n 2.3)
   - Extender tu celda 52 actual
   - C√≥digo base disponible en celda 2.1 arriba

### üü° ALTA PRIORIDAD:

4. **Funci√≥n `intervalo_confianza_95()`** (Secci√≥n 2.2)
   - Calcular IC para todas las variables continuas
   - C√≥digo disponible en celda 1.1 arriba

5. **Interpretaciones cl√≠nicas** (Secci√≥n 4.2)
   - Usar formato del compa√±ero para escribir conclusiones
   - Ejemplos disponibles en celda 1.2 arriba

### üü¢ MEJORAS OPCIONALES:

6. **Formato de presentaci√≥n de Shapiro-Wilk** (Secci√≥n 2.4)
   - Mejorar legibilidad de resultados
   - C√≥digo disponible en celda 3.1 arriba

---

## 6. Checklist de Implementaci√≥n

**Antes de la entrega, asegurar:**

- [ ] Chi-cuadrado implementado y ejecutado para las 4 variables categ√≥ricas
- [ ] ANOVA/Kruskal-Wallis implementado para dieta vs actividad f√≠sica
- [ ] Comparaciones param√©tricas + no param√©tricas para variables continuas clave
- [ ] IC calculados para todas las variables relevantes
- [ ] Interpretaciones cl√≠nicas escritas en Secci√≥n 4
- [ ] Tabla resumen de todas las pruebas de hip√≥tesis
- [ ] Verificar que todas las celdas se ejecutan sin errores

---

**Fin del documento de referencia**