# An√°lisis Exploratorio de Datos - Diabetes Gestacional (GDM)

**Universidad de Magallanes**  
**Facultad de Ingenier√≠a, Departamento de Ingenier√≠a en Computaci√≥n**  
**Asignatura:** Matem√°tica para Ciencias de la Computaci√≥n  
**Profesor:** David Medina Ortiz  

---

**Estudiante(s):** [Nombre(s) del/los estudiante(s)]  
**Fecha de entrega:** 15 de noviembre de 2025  

---

## Tabla de Progreso Global

| Secci√≥n | T√≠tulo | Progreso | Estado |
|---------|--------|----------|--------|
| 1 | Descripci√≥n General del Dataset | 100% | ‚úÖ |
| 2.1 | An√°lisis Exploratorio de Datos (EDA) | 100% | ‚úÖ |
| 2.2 | Intervalos de Confianza | 54% | üü° |
| 2.3 | Pruebas de Hip√≥tesis | 8% | üî¥ |
| 2.4 | Evaluaci√≥n de Normalidad | 85% | üü¢ |
| 2.5 | An√°lisis Bivariado | 100% | ‚úÖ |
| 2.6 | Interpretaci√≥n Cl√≠nica y Conclusiones | 0% | üî¥ |
| 3 | Entregables y Archivos | 100% | ‚úÖ |
| **GLOBAL** | **Progreso Total** | **68%** | üü° |

---

## ‚úÖ Actualizaci√≥n: Migraci√≥n Completada

**Fecha:** 11 de noviembre de 2025  
**Migraci√≥n desde:** `1_check_data.ipynb`  

### C√≥digo restaurado:
- ‚úÖ Sistema completo de detecci√≥n de outliers (IQR + 3 variantes Isolation Forest)
- ‚úÖ Sistema de votaci√≥n y filtrado de outliers (df_filter creado)
- ‚úÖ Visualizaciones completas (histogramas, boxplots, violinplots)
- ‚úÖ An√°lisis bivariado completo (correlaciones Pearson/Spearman, por grupo, diferencias)
- ‚úÖ Pairplot comprehensivo

**Resultado:** Notebook funcional con todas las dependencias resueltas.

---

# 1. Descripci√≥n General del Dataset

## Contexto

Este trabajo utiliza un **dataset sint√©tico** que simula informaci√≥n cl√≠nica del **primer trimestre del embarazo** para el estudio de la **diabetes gestacional (GDM)**. El objetivo es caracterizar estad√≠sticamente los datos y explorar asociaciones entre variables cl√≠nicas y el riesgo de desarrollar GDM.

## Caracter√≠sticas del Dataset

- **N**: Aproximadamente 1500 registros de pacientes embarazadas
- **Variables incluidas**:
  - **Cl√≠nicas**: edad, IMC pregestacional, presi√≥n arterial (sist√≥lica, diast√≥lica, MAP), semanas de gestaci√≥n
  - **Bioqu√≠micas**: FPG (glucosa en ayunas), HbA1c, insulina, HOMA-IR, triglic√©ridos, HDL
  - **Factores de riesgo**: paridad, antecedentes familiares de diabetes tipo 2, GDM previa, PCOS, tabaquismo
  - **Estilo de vida**: nivel de actividad f√≠sica, puntuaci√≥n de dieta (0-100)
  - **Variable objetivo**: `label_gdm` (0 = No GDM, 1 = GDM)

## Caracter√≠sticas Especiales

- **Datos faltantes**: Presencia de valores nulos con patrones MCAR (Missing Completely At Random) y MAR (Missing At Random)
- **Outliers**: El dataset contiene valores at√≠picos que requieren identificaci√≥n y tratamiento
- **Desbalance de clases**: Aproximadamente 17% de casos positivos de GDM
- **Tipos de variables**: Mixto (continuas, discretas y categ√≥ricas binarias)

## Objetivo del An√°lisis

Realizar un an√°lisis exploratorio exhaustivo que permita:
1. Caracterizar la distribuci√≥n de las variables
2. Identificar patrones y asociaciones relevantes
3. Comparar grupos (GDM vs No-GDM)
4. Evaluar supuestos estad√≠sticos
5. Generar insights cl√≠nicos para la comprensi√≥n del riesgo de GDM

---

# 2. Actividades Desarrolladas

Esta secci√≥n contiene el an√°lisis exploratorio organizado por subsecciones seg√∫n la gu√≠a pr√°ctica.

---

## 2.1 An√°lisis Exploratorio de Datos (EDA)

**Estado**: ‚úÖ 100% completado - **COMPLETO**  
**Actualizaci√≥n:** C√≥digo migrado completamente desde `1_check_data.ipynb`

### Tareas realizadas:
- ‚úÖ Carga de datos y verificaci√≥n de dimensiones
- ‚úÖ An√°lisis de tipos de datos
- ‚úÖ Detecci√≥n de valores faltantes
- ‚úÖ Estad√≠stica descriptiva (media, mediana, IQR, percentiles)
- ‚úÖ **Detecci√≥n de outliers por IQR** (m√©todo check_is_outlier)
- ‚úÖ **Detecci√≥n con Isolation Forest (3 variantes)**:
  - Solo variables categ√≥ricas
  - Solo variables continuas
  - Todas las variables
- ‚úÖ **Sistema de votaci√≥n de outliers (4 m√©todos)**
- ‚úÖ **Filtrado de outliers (vote_outlier < 3)**
- ‚úÖ **Creaci√≥n de df_filter** (dataset limpio)
- ‚úÖ **Visualizaciones completas:**
  - Histogramas con KDE por grupo GDM
  - Boxplots por grupo GDM
  - Violinplots por grupo GDM

### Tareas pendientes:
- ‚è≥ Interpretaci√≥n textual detallada por variable (opcional)
- ‚è≥ Documentaci√≥n adicional de estrategia para outliers (opcional)

---

### Importaci√≥n de librer√≠as

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from auxiliar_functions import *
from sklearn.ensemble import IsolationForest
from scipy import stats

# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

### Carga y exploraci√≥n inicial del dataset

In [None]:
# Carga del dataset
df_data = pd.read_csv("gdm_first_trimester_ml_dataset.csv")

# Primeras filas
print("Primeras 5 filas del dataset:")
df_data.head(5)

In [None]:
# Dimensiones del dataset
print(f"Dimensiones: {df_data.shape}")
print(f"Total de registros: {df_data.shape[0]}")
print(f"Total de variables: {df_data.shape[1]}")
df_data.shape

In [None]:
# Distribuci√≥n de la variable objetivo
print("Distribuci√≥n de GDM:")
print(df_data["label_gdm"].value_counts())
print(f"\nProporci√≥n de casos positivos: {df_data['label_gdm'].mean():.2%}")

In [None]:
# Tipos de datos
print("Tipos de datos por variable:")
df_data.dtypes

In [None]:
# Exploraci√≥n de variable categ√≥rica: PCOS
# Utilidad: Verificar cu√°ntos valores √∫nicos tiene esta variable binaria (0/1)
# Esto confirma que PCOS es efectivamente una variable dicot√≥mica sin valores an√≥malos
print("üîç Exploraci√≥n de la variable PCOS (S√≠ndrome de Ovario Poliqu√≠stico):")
print(f"Valores √∫nicos: {df_data['pcos'].unique()}")
print(f"N√∫mero de valores √∫nicos: {df_data['pcos'].unique().shape[0]}")
print("\nDistribuci√≥n de PCOS:")
print(df_data["pcos"].value_counts())
print(f"\nüìä Proporci√≥n de pacientes con PCOS: {df_data['pcos'].mean():.2%}")

### An√°lisis de valores faltantes

In [None]:
df_nulls = df_data.isna().astype(int)
df_summary_null = generate_df_counts(df_nulls, columns_name=["descriptor", "count_Nulls", "count_Falses"])
print("Resumen de valores faltantes:")
df_summary_null

In [None]:
# Exploraci√≥n detallada: Visualizar matriz completa de valores faltantes
# Utilidad: Permite inspeccionar visualmente patrones de datos faltantes por registro
# Cada fila representa un paciente, cada columna una variable (1=faltante, 0=presente)
print("üìã Primeras 10 filas de la matriz de valores faltantes:")
print("(1 = dato faltante, 0 = dato presente)\n")
df_nulls.head(10)

### Estad√≠stica descriptiva

Definimos las variables categ√≥ricas que se excluir√°n del an√°lisis descriptivo de variables continuas:

In [None]:
columns_to_ignore = [
    "parity", 
    "family_history_t2d",
    "previous_gdm",
    "pcos", 
    "smoking_first_trimester",
    "label_gdm",
    "physical_activity_level"
]

print("Variables categ√≥ricas/binarias a excluir del an√°lisis descriptivo:")
print(columns_to_ignore)

In [None]:
# Estad√≠stica descriptiva para todas las variables
print("Estad√≠sticas descriptivas del dataset completo:")
df_data.describe()

In [None]:
statistical_descriptors = []

for column in df_data.columns:
    if column not in columns_to_ignore:
        descriptive_values = df_data[column].describe()

        IQR = descriptive_values["75%"] - descriptive_values["25%"]
        min_value, max_value = get_range_outlier(
            descriptive_values["25%"], 
            descriptive_values["75%"], 
            IQR)

        row = {
            "descriptor" : column,
            "mean":descriptive_values["mean"],
            "std" :descriptive_values["std"],
            "median" : descriptive_values["50%"],
            "IQR" : IQR,
            "25%" : descriptive_values["25%"],
            "75%" :descriptive_values["75%"],
            "min_value_for_outlier" : min_value,
            "max_value_for_outlier" : max_value

        }
        statistical_descriptors.append(row)

df_statistical = pd.DataFrame(statistical_descriptors)
print("Estad√≠sticas descriptivas con IQR y umbrales para outliers:")
df_statistical

### Detecci√≥n de outliers

**Nota**: Se implementa detecci√≥n por IQR e Isolation Forest con sistema de votaci√≥n.

In [None]:
# Detecci√≥n de outliers por m√©todo IQR
df_outliers = pd.DataFrame()

for column in df_data.columns:
    if column not in columns_to_ignore:
        
        df_filter = df_statistical[df_statistical["descriptor"] == column]
        df_filter.reset_index(inplace=True)

        min_value, max_value = df_filter["min_value_for_outlier"][0], df_filter["max_value_for_outlier"][0]

        df_outliers[column] = df_data[column].apply(lambda x: check_is_outlier(x, min_value, max_value))

print("Detecci√≥n de outliers por IQR completada")
print(f"Dimensiones de df_outliers: {df_outliers.shape}")

In [None]:
# Convertir a enteros y generar resumen
df_outliers = df_outliers.astype(int)
df_summary_outlier = generate_df_counts(df_outliers, columns_name=["descriptor", "count_Outlier", "count_NotOutlier"])
print("\nResumen de outliers detectados por IQR:")
df_summary_outlier

In [None]:
# Agregar columna con conteo de outliers por fila
df_outliers["outlier_by_IQR"] = df_outliers.sum(axis=1)
print("\nDistribuci√≥n de n√∫mero de outliers por registro:")
print(df_outliers["outlier_by_IQR"].value_counts().sort_index())

In [None]:
# Exploraci√≥n detallada: Ejemplo de detecci√≥n en una variable espec√≠fica
# Utilidad: Verificar la correcta aplicaci√≥n del m√©todo IQR en una variable clave
print("üî¨ Ejemplo de detecci√≥n en triglic√©ridos:")
print("Distribuci√≥n de outliers (0=normal, 1=outlier):")
print(df_outliers["triglycerides_mmol_l"].value_counts())
print(f"\n‚ö†Ô∏è  Registros con triglic√©ridos at√≠picos: {df_outliers['triglycerides_mmol_l'].sum()}")
print(f"‚úì Registros con triglic√©ridos normales: {(df_outliers['triglycerides_mmol_l'] == 0).sum()}")

In [None]:
# Exploraci√≥n: Verificar estructura del dataframe de outliers
# Utilidad: Confirmar que todas las variables continuas est√°n incluidas en el an√°lisis
print("üìã Columnas incluidas en la detecci√≥n de outliers:")
print(df_outliers.columns.tolist())
print(f"\nüìä Total de variables analizadas: {len(df_outliers.columns) - 1}")  # -1 por outlier_by_IQR

In [None]:
# Exploraci√≥n espec√≠fica: Casos extremos de paridad
# Utilidad: Identificar valores poco comunes que podr√≠an ser outliers por s√≠ mismos
# La paridad alta (‚â•5 embarazos) es cl√≠nicamente relevante para riesgo de GDM
print("\nüî¨ An√°lisis de casos extremos de paridad:")
paridad_extrema = df_data[df_data["parity"] == 5]
print(f"Registros con paridad = 5: {len(paridad_extrema)}")
if len(paridad_extrema) > 0:
    print("\nPrimeros registros con paridad extrema:")
    print(paridad_extrema[["parity", "age_years", "bmi_prepreg_kg_m2", "label_gdm"]].head())
else:
    print("No hay registros con paridad = 5 en el dataset")

In [None]:
# Exploraci√≥n: An√°lisis de distribuci√≥n de todas las variables categ√≥ricas
# Utilidad: Entender el balance de clases en variables binarias/categ√≥ricas
# Esto es cr√≠tico antes de aplicar Isolation Forest para detectar combinaciones an√≥malas
print("üìä DISTRIBUCI√ìN DE VARIABLES CATEG√ìRICAS/BINARIAS")
print("=" * 70)
for column in columns_to_ignore:
    print(f"\nüîπ {column}:")
    print(df_data[column].value_counts().sort_index())
    if column != "label_gdm":  # No calcular proporci√≥n para la etiqueta objetivo
        try:
            prop = df_data[column].mean()
            print(f"   Proporci√≥n de casos positivos: {prop:.2%}")
        except:
            pass

#### Exploraci√≥n de variables categ√≥ricas

Antes de aplicar Isolation Forest, es importante entender la distribuci√≥n de las variables categ√≥ricas/binarias que ser√°n analizadas.

#### Detecci√≥n con Isolation Forest

Se implementan 3 estrategias de detecci√≥n con Isolation Forest:
1. **Solo variables categ√≥ricas**: Detecta anomal√≠as en combinaciones inusuales de factores de riesgo
2. **Solo variables continuas**: Identifica valores at√≠picos en mediciones cl√≠nicas
3. **Todas las variables**: Combina ambos enfoques para una detecci√≥n integral

In [None]:
# 1. Isolation Forest sobre variables categ√≥ricas
data_categorical = df_data[columns_to_ignore]
data_categorical = data_categorical.drop(columns=["label_gdm"])

isolation_instance = IsolationForest(random_state=42)
isolation_instance.fit(data_categorical)
data_categorical["is_isolated"] = isolation_instance.predict(data_categorical)

print("Isolation Forest - Solo categ√≥ricas:")
print(data_categorical["is_isolated"].value_counts())
print(f"Outliers detectados: {(data_categorical['is_isolated'] == -1).sum()}")

In [None]:
# Exploraci√≥n: Visualizar resultados del Isolation Forest en categ√≥ricas
# Utilidad: Verificar qu√© combinaciones de factores de riesgo son consideradas an√≥malas
# Permite identificar perfiles de pacientes con combinaciones inusuales de caracter√≠sticas
print("üìã Primeras 10 filas con predicci√≥n de anomal√≠a (categ√≥ricas):")
print("Valores: 1 = normal, -1 = outlier/anomal√≠a\n")
data_categorical.head(10)

In [None]:
# 2. Isolation Forest sobre solo valores continuos
df_values = df_data.drop(columns=columns_to_ignore)

isolation_instance = IsolationForest(random_state=42)
isolation_instance.fit(df_values)
df_values["is_isolated"] = isolation_instance.predict(df_values)

print("\nIsolation Forest - Solo continuas:")
print(df_values["is_isolated"].value_counts())
print(f"Outliers detectados: {(df_values['is_isolated'] == -1).sum()}")

In [None]:
# 3. Isolation Forest sobre todas las variables (excepto label_gdm)
df_values_cat = df_data.drop(columns=["label_gdm"])

isolation_instance = IsolationForest(random_state=42)
isolation_instance.fit(df_values_cat)
df_values_cat["is_isolated"] = isolation_instance.predict(df_values_cat)

print("\nIsolation Forest - Todas las variables:")
print(df_values_cat["is_isolated"].value_counts())
print(f"Outliers detectados: {(df_values_cat['is_isolated'] == -1).sum()}")

#### Sistema de votaci√≥n para outliers

Se combinan los 4 m√©todos de detecci√≥n:
1. **IQR** (rango intercuart√≠lico)
2. **IF sobre categ√≥ricas**
3. **IF sobre continuas**
4. **IF sobre todas las variables**

Los registros se clasificar√°n seg√∫n el n√∫mero de m√©todos que los identifiquen como outliers.

In [None]:
# Agregar columnas de detecci√≥n de outliers al dataframe principal
df_data["is_outlier_by_IQR"] = df_outliers["outlier_by_IQR"].values
df_data["is_outlier_by_IF_all"] = df_values_cat["is_isolated"].values
df_data["is_outlier_by_IF_just_values"] = df_values["is_isolated"].values
df_data["is_outlier_by_IF_just_cat"] = data_categorical["is_isolated"].values

print("Columnas de detecci√≥n agregadas al dataframe principal")
print(f"Nuevas columnas: {['is_outlier_by_IQR', 'is_outlier_by_IF_all', 'is_outlier_by_IF_just_values', 'is_outlier_by_IF_just_cat']}")

In [None]:
# Exploraci√≥n: Verificar integraci√≥n de m√©todos de detecci√≥n en el dataframe principal
# Utilidad: Confirmar que todas las columnas de detecci√≥n se agregaron correctamente
# y que el dataframe mantiene su integridad estructural
print("üìã Verificaci√≥n de integraci√≥n de m√©todos de detecci√≥n:")
print(f"Dimensiones del dataframe: {df_data.shape}")
print(f"\nüîç Nuevas columnas agregadas:")
detection_cols = ['is_outlier_by_IQR', 'is_outlier_by_IF_all', 'is_outlier_by_IF_just_values', 'is_outlier_by_IF_just_cat']
for col in detection_cols:
    if col in df_data.columns:
        print(f"  ‚úì {col}")
print("\nüìä Primeras 5 filas con columnas de detecci√≥n:")
df_data[detection_cols].head()

In [None]:
# Categorizar IQR: convertir conteo a binario (0 = no outlier, 1 = outlier)
df_data["is_outlier_by_IQR"] = df_data["is_outlier_by_IQR"].apply(categorize_iqr)

print("\nDistribuci√≥n de outliers por IQR (categorizado):")
print(df_data["is_outlier_by_IQR"].value_counts())

In [None]:
# Remapear valores de Isolation Forest: 1 (normal) ‚Üí 0, -1 (outlier) ‚Üí 1
for column in ["is_outlier_by_IF_all", "is_outlier_by_IF_just_values", "is_outlier_by_IF_just_cat"]:
    df_data[column] = df_data[column].replace({1:0, -1:1})

print("\nValores de Isolation Forest remapeados:")
print("  1 (normal) ‚Üí 0 (no outlier)")
print("  -1 (anomal√≠a) ‚Üí 1 (outlier)")
print("\nDistribuci√≥n de outliers por IF (todas las variables):")
print(df_data["is_outlier_by_IF_all"].value_counts())

In [None]:
# Sistema de votaci√≥n: sumar los 4 m√©todos (valores de 0 a 4)
df_data["vote_outlier"] = df_data[["is_outlier_by_IF_all", "is_outlier_by_IF_just_values", 
                                     "is_outlier_by_IF_just_cat", "is_outlier_by_IQR"]].sum(axis=1)

print("\nüìä Distribuci√≥n de votos de outliers:")
print(df_data["vote_outlier"].value_counts().sort_index())
print(f"\nüîç Registros identificados como outliers por los 4 m√©todos: {(df_data['vote_outlier'] == 4).sum()}")
print(f"‚ö†Ô∏è  Registros identificados como outliers por 3+ m√©todos: {(df_data['vote_outlier'] >= 3).sum()}")

In [None]:
# Exploraci√≥n detallada: An√°lisis de casos con m√°xima votaci√≥n de outliers
# Utilidad: Identificar qu√© caracter√≠sticas tienen los registros m√°s an√≥malos
# Estos son candidatos muy fuertes a ser outliers verdaderos que deben eliminarse
print("üî¨ AN√ÅLISIS DE CASOS EXTREMOS (vote_outlier = 4):")
print("=" * 70)
casos_extremos = df_data[df_data["vote_outlier"] == 4]
if len(casos_extremos) > 0:
    print(f"Total de casos identificados por los 4 m√©todos: {len(casos_extremos)}")
    print("\nüìä Muestra de registros extremos:")
    # Mostrar algunas variables clave para entender por qu√© son outliers
    cols_interes = ["age_years", "bmi_prepreg_kg_m2", "fpg_mmol_l", "hba1c_percent", 
                    "parity", "label_gdm", "vote_outlier"]
    print(casos_extremos[cols_interes].head(10))
else:
    print("‚úì No hay registros identificados como outliers por los 4 m√©todos simult√°neamente")

#### Filtrado de outliers

**Criterio:** Se eliminan registros identificados como outliers por 3 o m√°s m√©todos (vote_outlier ‚â• 3).

Esta estrategia conservadora elimina solo los casos m√°s extremos, preservando la mayor parte de los datos para an√°lisis posteriores.

In [None]:
# Filtrar outliers: mantener solo registros con vote_outlier < 3
df_filter = df_data[df_data["vote_outlier"] < 3].copy()

print(f"‚úÖ Dataset filtrado creado: df_filter")
print(f"üìä Dimensiones originales: {df_data.shape}")
print(f"üìä Dimensiones filtradas: {df_filter.shape}")
print(f"üóëÔ∏è  Registros eliminados: {df_data.shape[0] - df_filter.shape[0]} ({((df_data.shape[0] - df_filter.shape[0]) / df_data.shape[0] * 100):.2f}%)")
print(f"\n‚úì Variable cr√≠tica 'df_filter' creada exitosamente para an√°lisis posteriores")

### Visualizaci√≥n de datos por grupo GDM

Se generan visualizaciones exploratorias para todas las variables continuas, comparando la distribuci√≥n entre pacientes con y sin diabetes gestacional (GDM).

In [None]:
# Histogramas con KDE para todas las variables continuas (3x5 subplots)
_, axis = plt.subplots(3, 5, figsize=(12, 8))

index = 1
i = 0
j = 0

for column in df_statistical["descriptor"].values:
    sns.histplot(
        data=df_filter, 
        x=column, 
        stat="count",
        fill=False, 
        kde=True, 
        hue="label_gdm", 
        ax=axis[i][j])
    
    axis[i][j].set_xlabel(column, fontsize=8)
    axis[i][j].set_ylabel("Count", fontsize=8)
    axis[i][j].tick_params(labelsize=7)

    if index % 5 == 0:
        i += 1
        j = 0
    else:
        j += 1
    
    index += 1

plt.suptitle("Distribuci√≥n de Variables Continuas por Grupo GDM (Histogramas + KDE)", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Boxplots para todas las variables continuas (3x5 subplots)
_, axis = plt.subplots(3, 5, figsize=(12, 8))

index = 1
i = 0
j = 0

for column in df_statistical["descriptor"].values:
    sns.boxplot(
        data=df_filter, 
        x=column, 
        fill=False, 
        hue="label_gdm", 
        ax=axis[i][j])
    
    axis[i][j].set_xlabel(column, fontsize=8)
    axis[i][j].tick_params(labelsize=7)

    if index % 5 == 0:
        i += 1
        j = 0
    else:
        j += 1
    
    index += 1

plt.suptitle("Comparaci√≥n de Distribuciones por Grupo GDM (Boxplots)", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Violinplots para todas las variables continuas (3x5 subplots)
_, axis = plt.subplots(3, 5, figsize=(12, 8))

index = 1
i = 0
j = 0

for column in df_statistical["descriptor"].values:
    sns.violinplot(
        data=df_filter, 
        x=column, 
        fill=False, 
        hue="label_gdm", 
        ax=axis[i][j])
    
    axis[i][j].set_xlabel(column, fontsize=8)
    axis[i][j].tick_params(labelsize=7)

    if index % 5 == 0:
        i += 1
        j = 0
    else:
        j += 1
    
    index += 1

plt.suptitle("Distribuci√≥n y Densidad por Grupo GDM (Violinplots)", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

---

## 2.2 Intervalos de Confianza

**Estado**: üü° 54% completado  
**Pendiente**: IC para proporciones, diferencias de medias e interpretaci√≥n cl√≠nica

### Tareas realizadas:
- ‚úÖ Funciones de c√°lculo de IC implementadas en `auxiliar_functions.py`
- ‚úÖ IC para media y varianza de IMC, FPG, HbA1c con m√∫ltiples tama√±os de muestra

### Tareas pendientes:
- ‚è≥ IC para medias de: HDL, presi√≥n arterial (sist√≥lica, diast√≥lica, MAP), triglic√©ridos
- ‚è≥ IC para proporciones (fumadoras, antecedentes familiares, PCOS, GDM previa)
- ‚è≥ IC para diferencia de medias entre grupos GDM vs No-GDM
- ‚è≥ Interpretaci√≥n cl√≠nica comparando con rangos de referencia

---

### C√°lculo de intervalos de confianza para diferentes tama√±os de muestra

In [None]:
n = np.linspace(10, 100, 10)  # Tama√±os de muestra de 10 a 100
print("Tama√±os de muestra a evaluar:")
print(n)

nro_tamanhos = n.size
np.random.seed(42)

# Intervalos de confianza
for i in range(0, nro_tamanhos):
    df_mini = pd.DataFrame()
    picked_up_indexs = []
    index = None

    for j in range(0, int(n[i])):    
        while index in picked_up_indexs:
            index = np.random.randint(0, df_data.shape[0])
            df_mini = pd.concat([df_mini, df_data.iloc[[index]]])
        picked_up_indexs.append(index)
    
    # Intervalos de confianza para variables clave
    interesting_descriptors_names = ["bmi_prepreg_kg_m2", "fpg_mmol_l", "hba1c_percent"]

    for descriptor_name in interesting_descriptors_names:
        descriptor = df_mini[descriptor_name]
        descriptor_mean = descriptor.mean()
        descriptor_std = descriptor.std()
        IC_mean = calculate_ic_mean(descriptor_mean, descriptor_std, int(n[i]))
        IC_std = calculate_ic_std(descriptor_std, int(n[i]))
        print(f"Para n={int(n[i])} el intervalo de confianza para la media (Œº) del descriptor '{descriptor_name}' es [{IC_mean[0]:.4f}, {IC_mean[1]:.4f}]")
        print(f"Para n={int(n[i])} el intervalo de confianza para la varianza (œÉ¬≤) del descriptor '{descriptor_name}' es [{IC_std[0]:.4f}, {IC_std[1]:.4f}]")
    
    print()

---

## 2.3 Pruebas de Hip√≥tesis

**Estado**: üî¥ 8% completado - **CR√çTICO**  
**Pendiente**: Casi todas las pruebas de hip√≥tesis

### Tareas realizadas:
- ‚úÖ Funci√≥n `compare_two_groups_numeric` implementada (t-test/Welch/Mann-Whitney autom√°tico)
- ‚úÖ Comparaci√≥n preliminar de presi√≥n arterial (sist√≥lica, diast√≥lica, MAP) entre grupos GDM

### Tareas pendientes:
- ‚è≥ Formular H‚ÇÄ y H‚ÇÅ para todas las comparaciones
- ‚è≥ Comparar IMC, FPG, HbA1c entre GDM vs No-GDM
- ‚è≥ Comparar dieta seg√∫n nivel de actividad f√≠sica (ANOVA/Kruskal-Wallis)
- ‚è≥ Pruebas de proporciones (chi¬≤ o z): antecedentes familiares, PCOS, tabaquismo vs GDM
- ‚è≥ Reportar tama√±o de efecto (d de Cohen o r) para todas las pruebas
- ‚è≥ Interpretar resultados en contexto cl√≠nico

---

### Comparaci√≥n de presi√≥n arterial entre grupos GDM (ejemplo preliminar)

In [None]:
def compare_two_groups_numeric(df, y_col, group_col="label_gdm", alpha=0.05, tail="two-sided"):
    """
    Compara una variable num√©rica (y_col) entre dos grupos binarios (group_col).
    Verifica supuestos: normalidad por grupo (Shapiro) y homogeneidad (Levene).
    Decide autom√°ticamente entre:
      - t de Student cl√°sico (varianzas iguales)
      - Welch t-test (varianzas desiguales)
      - Mann‚ÄìWhitney U (si falla normalidad)
    Retorna un dict con todo lo necesario para el informe.
    """
    d = df[[y_col, group_col]].dropna()
    g0 = d[d[group_col] == 0][y_col].astype(float).values
    g1 = d[d[group_col] == 1][y_col].astype(float).values

    # Hip√≥tesis
    H0 = f"Œº_{y_col}|GDM=0 == Œº_{y_col}|GDM=1"
    H1 = f"Œº_{y_col}|GDM=0 != Œº_{y_col}|GDM=1" if tail=="two-sided" else f"Œº diferencias unilaterales ({tail})"

    # Normalidad por grupo (solo si n>=3)
    sh0 = stats.shapiro(g0) if len(g0) >= 3 else (np.nan, np.nan)
    sh1 = stats.shapiro(g1) if len(g1) >= 3 else (np.nan, np.nan)
    normal_ok = (not np.isnan(sh0[1]) and sh0[1] > alpha) and (not np.isnan(sh1[1]) and sh1[1] > alpha)

    # Homogeneidad de varianzas (Levene)
    lev = stats.levene(g0, g1, center='median')
    equal_var = lev.pvalue > alpha

    # Elecci√≥n de prueba
    if normal_ok:
        res = stats.ttest_ind(g0, g1, equal_var=equal_var, alternative="two-sided")
        test_name = "t-test (Welch)" if not equal_var else "t-test (varianzas iguales)"
        stat, p = res.statistic, res.pvalue
    else:
        res = stats.mannwhitneyu(g0, g1, alternative="two-sided")
        test_name = "Mann‚ÄìWhitney U"
        stat, p = res.statistic, res.pvalue

    decision = "Rechazo H0" if p < alpha else "No rechazo H0"

    return {
        "variable": y_col,
        "n_gdm0": len(g0), "mean_gdm0": np.mean(g0), "sd_gdm0": np.std(g0, ddof=1),
        "n_gdm1": len(g1), "mean_gdm1": np.mean(g1), "sd_gdm1": np.std(g1, ddof=1),
        "shapiro_g0_p": (np.nan if np.isnan(sh0[1]) else sh0[1]),
        "shapiro_g1_p": (np.nan if np.isnan(sh1[1]) else sh1[1]),
        "levene_p": lev.pvalue,
        "test": test_name, "stat": stat, "p_value": p,
        "alpha": alpha, "decision": decision,
        "H0": H0, "H1": H1
    }

# Ejemplo: Comparaci√≥n de presi√≥n arterial
print("Comparaci√≥n de presi√≥n arterial entre grupos GDM vs No-GDM:")
print("=" * 70)
for col in ["systolic_bp_mmHg", "diastolic_bp_mmHg", "map_mmHg"]:
    out = compare_two_groups_numeric(df_data, y_col=col, group_col="label_gdm", alpha=0.05)
    print(f"\n{col}:")
    print(out)

---

## 2.4 Evaluaci√≥n de Normalidad

**Estado**: üü¢ 85% completado - **CASI COMPLETO**  
**Pendiente**: Solo visualizaciones (QQ-plots) y transformaciones

### Tareas realizadas:
- ‚úÖ Prueba de Shapiro-Wilk para todas las variables continuas
- ‚úÖ Prueba de Kolmogorov-Smirnov (Lilliefors) para todas las variables continuas
- ‚úÖ Resumen tabular de resultados con decisi√≥n (Normal / No normal)
- ‚úÖ Comparaci√≥n de ambos tests y priorizaci√≥n de Shapiro-Wilk

### Tareas pendientes:
- ‚è≥ Generar QQ-plots para cada variable continua
- ‚è≥ Histogramas con curva normal superpuesta
- ‚è≥ Probar transformaciones (log, Box-Cox) en variables asim√©tricas
- ‚è≥ Re-evaluar normalidad post-transformaci√≥n

---

### Pruebas de normalidad: Shapiro-Wilk y Kolmogorov-Smirnov

In [None]:
continuous_variables = [
    "age_years", "bmi_prepreg_kg_m2", "systolic_bp_mmHg", "diastolic_bp_mmHg", 
    "map_mmHg", "gestational_weeks", "fpg_mmol_l", "hba1c_percent", 
    "insulin_uIU_ml", "homa_ir", "triglycerides_mmol_l", "hdl_mmol_l", 
    "physical_activity_level", "diet_score_0_100"
]

# Inicializar estructuras
clean_data_descriptors = []
n_val = []
n_invalid = []

# Limpiar NaN por variable
for var in continuous_variables:
    valid_data = df_data[var].dropna()
    n_validos = valid_data.size
    n_faltantes = df_data[var].isna().sum()

    clean_data_descriptors.append(valid_data)
    n_val.append(n_validos)
    n_invalid.append(n_faltantes)

# Prueba de normalidad
normality_results = []
alpha = 0.05

# Evaluar cada variable
for idx, var in enumerate(continuous_variables):
    x = clean_data_descriptors[idx]

    # Shapiro‚ÄìWilk
    W, p_sw = stats.shapiro(x)
    
    # KS-Lilliefors (usando par√°metros estimados)
    mu, sigma = x.mean(), x.std(ddof=1)
    D, p_ks = stats.kstest(x, 'norm', args=(mu, sigma))
    
    # Decisi√≥n
    decision_sw = "Normal" if p_sw >= alpha else "No normal"
    decision_ks = "Normal" if p_ks >= alpha else "No normal"
    
    # Guardar resultado
    normality_results.append({
        "Variable": var,
        "n": len(x),
        "SW_W": W,
        "SW_p": p_sw,
        "SW_decisi√≥n": decision_sw,
        "KS_D": D,
        "KS_p": p_ks,
        "KS_decisi√≥n": decision_ks
    })

# Mostrar resultados
print("Resultados de pruebas de normalidad:")
print("=" * 100)
for result in normality_results:
    print(f"\n{result['Variable']}:")
    print(f"  n={result['n']}")
    print(f"  Shapiro-Wilk: W={result['SW_W']:.4f}, p={result['SW_p']:.4f} ‚Üí {result['SW_decisi√≥n']}")
    print(f"  KS-Lilliefors: D={result['KS_D']:.4f}, p={result['KS_p']:.4f} ‚Üí {result['KS_decisi√≥n']}")

---

## 2.5 An√°lisis Bivariado

**Estado**: ‚úÖ 100% completado - **COMPLETO**  
**Actualizaci√≥n:** C√≥digo migrado completamente desde `1_check_data.ipynb`

### Tareas realizadas:
- ‚úÖ Preparaci√≥n de datos (drop de columnas de outliers y categ√≥ricas)
- ‚úÖ Matriz de correlaci√≥n de Pearson calculada
- ‚úÖ **Matriz de correlaci√≥n de Spearman calculada**
- ‚úÖ Heatmap de correlaci√≥n Pearson generado
- ‚úÖ **Identificaci√≥n autom√°tica de correlaciones fuertes (|r| > 0.7)**
- ‚úÖ **Correlaciones separadas por grupo (GDM+ vs GDM-)**
- ‚úÖ **Heatmaps individuales por grupo**
- ‚úÖ **Heatmap de diferencias entre grupos**
- ‚úÖ **Pairplot completo con visualizaci√≥n por grupo GDM**

### Tareas pendientes:
- ‚è≥ Scatterplots con regresi√≥n para pares clave (FPG vs HbA1c, Insulina vs HOMA-IR) - opcional
- ‚è≥ Incluir ecuaci√≥n de regresi√≥n y R¬≤ en gr√°ficos - opcional
- ‚è≥ Boxplots comparativos adicionales por grupo GDM - opcional
- ‚è≥ Interpretaci√≥n cl√≠nica detallada de asociaciones encontradas
- ‚è≥ Relacionar hallazgos con literatura sobre GDM

---

### Matriz de correlaci√≥n y heatmap

In [None]:
# Exploraci√≥n: Recordatorio de variables categ√≥ricas a excluir del an√°lisis
# Utilidad: Clarificar qu√© variables no deben incluirse en correlaciones
# Las correlaciones de Pearson/Spearman son para variables continuas
print("üìù Recordatorio - Variables categ√≥ricas/binarias (excluidas de correlaciones):")
print(columns_to_ignore)
print(f"\nEstas {len(columns_to_ignore)} variables ser√°n eliminadas junto con las de detecci√≥n de outliers")

In [None]:
# Exploraci√≥n: Verificar estructura del dataset filtrado antes del an√°lisis bivariado
# Utilidad: Confirmar qu√© columnas est√°n disponibles y cu√°les deben eliminarse
# para el an√°lisis de correlaciones (solo variables continuas)
print("üîç INSPECCI√ìN PRE-AN√ÅLISIS BIVARIADO:")
print("=" * 70)
print(f"Dimensiones de df_filter: {df_filter.shape}")
print(f"\nüìã Columnas actuales en df_filter:")
print(df_filter.columns.tolist())
print(f"\nüìä Total de columnas: {len(df_filter.columns)}")
print(f"   - Variables originales: {len([c for c in df_filter.columns if not c.startswith('is_outlier') and c != 'vote_outlier'])}")
print(f"   - Columnas de detecci√≥n de outliers: {len([c for c in df_filter.columns if c.startswith('is_outlier') or c == 'vote_outlier'])}")

In [None]:
# Preparar datos para an√°lisis bivariado: eliminar columnas de detecci√≥n de outliers
df_filter_clean = df_filter.drop(columns=['is_outlier_by_IQR', 'is_outlier_by_IF_all', 
                                           'is_outlier_by_IF_just_values', 'is_outlier_by_IF_just_cat', 
                                           'vote_outlier', 'parity', 'family_history_t2d', 'previous_gdm',
                                           'pcos', 'smoking_first_trimester', 'physical_activity_level'])

print("‚úÖ Dataset limpio para an√°lisis bivariado creado")
print(f"üìä Variables para correlaci√≥n: {df_filter_clean.shape[1] - 1} (excluyendo label_gdm)")
print(f"Variables: {list(df_filter_clean.drop(columns=['label_gdm']).columns)}")

In [None]:
# Calcular correlaci√≥n de Pearson y Spearman
df_corr_pearson = df_filter_clean.drop(columns=["label_gdm"]).corr(method="pearson")
df_corr_spearman = df_filter_clean.drop(columns=["label_gdm"]).corr(method="spearman")

print("‚úÖ Correlaciones calculadas:")
print("  - Pearson (lineal)")
print("  - Spearman (monot√≥nica)")

# Visualizar heatmap de Pearson
plt.figure(figsize=(14, 12))
sns.heatmap(data=df_corr_pearson, annot=True, fmt=".2f", cmap="Blues", cbar_kws={'label': 'Correlaci√≥n de Pearson'})
plt.title("Matriz de Correlaci√≥n de Pearson - Variables Continuas", fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nüîç Correlaciones fuertes encontradas (|r| > 0.7):")
print("=" * 50)
# Identificar correlaciones fuertes
strong_corr_found = False
for i in range(len(df_corr_pearson.columns)):
    for j in range(i+1, len(df_corr_pearson.columns)):
        corr_value = df_corr_pearson.iloc[i, j]
        if abs(corr_value) > 0.7:
            print(f"{df_corr_pearson.columns[i]} vs {df_corr_pearson.columns[j]}: r = {corr_value:.3f}")
            strong_corr_found = True

if not strong_corr_found:
    print("No se encontraron correlaciones > 0.7 (esperado en datos sint√©ticos)")

#### An√°lisis de correlaciones por grupo GDM

Se calculan correlaciones separadas para pacientes con y sin GDM para identificar patrones diferenciados.

In [None]:
# Correlaciones separadas por grupo
df_corr_pearson_pos = df_filter_clean[df_filter_clean["label_gdm"] == 1].drop(columns=["label_gdm"]).corr(method="pearson")
df_corr_pearson_neg = df_filter_clean[df_filter_clean["label_gdm"] == 0].drop(columns=["label_gdm"]).corr(method="pearson")

print(f"‚úÖ Correlaciones por grupo calculadas:")
print(f"  - GDM+ (positivo): {(df_filter_clean['label_gdm'] == 1).sum()} pacientes")
print(f"  - GDM- (negativo): {(df_filter_clean['label_gdm'] == 0).sum()} pacientes")

In [None]:
# Heatmap para grupo GDM+ (positivo)
plt.figure(figsize=(14, 12))
sns.heatmap(data=df_corr_pearson_pos, annot=True, fmt=".2f", cmap="Reds", 
            cbar_kws={'label': 'Correlaci√≥n de Pearson'})
plt.title("Correlaci√≥n de Pearson - Pacientes con GDM (Positivo)", fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Heatmap para grupo GDM- (negativo)
plt.figure(figsize=(14, 12))
sns.heatmap(data=df_corr_pearson_neg, annot=True, fmt=".2f", cmap="Greens", 
            cbar_kws={'label': 'Correlaci√≥n de Pearson'})
plt.title("Correlaci√≥n de Pearson - Pacientes sin GDM (Negativo)", fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Heatmap de diferencias entre grupos (GDM- menos GDM+)
plt.figure(figsize=(14, 12))
df_corr_diff = df_corr_pearson_neg - df_corr_pearson_pos
sns.heatmap(data=df_corr_diff, annot=True, fmt=".2f", cmap="coolwarm", center=0,
            cbar_kws={'label': 'Diferencia de Correlaci√≥n (GDM- - GDM+)'})
plt.title("Diferencias en Correlaci√≥n entre Grupos (GDM- - GDM+)", fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nüîç Mayores diferencias en correlaci√≥n entre grupos:")
print("=" * 70)
# Encontrar las mayores diferencias
diff_values = []
for i in range(len(df_corr_diff.columns)):
    for j in range(i+1, len(df_corr_diff.columns)):
        diff = df_corr_diff.iloc[i, j]
        if abs(diff) > 0.2:  # Diferencias mayores a 0.2
            diff_values.append((df_corr_diff.columns[i], df_corr_diff.columns[j], diff))

if diff_values:
    for var1, var2, diff in sorted(diff_values, key=lambda x: abs(x[2]), reverse=True)[:5]:
        print(f"{var1} vs {var2}: Œîr = {diff:.3f}")
else:
    print("No se encontraron diferencias sustanciales (> 0.2) entre grupos")

#### Pairplot: Relaciones entre todas las variables

Visualizaci√≥n comprehensiva de las relaciones bivariadas entre todas las variables continuas, separadas por grupo GDM.

In [None]:
# Pairplot completo con separaci√≥n por grupo GDM
print("‚è≥ Generando pairplot (puede tardar unos segundos)...")
pairplot_fig = sns.pairplot(data=df_filter_clean, hue="label_gdm", 
                             diag_kind="kde", plot_kws={'alpha': 0.6},
                             palette={0: "green", 1: "red"})
pairplot_fig.fig.suptitle("Relaciones Bivariadas - Todas las Variables por Grupo GDM", 
                          y=1.01, fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()
print("‚úÖ Pairplot generado exitosamente")

In [None]:
# Exploraci√≥n final: Verificaci√≥n del dataset limpio usado en an√°lisis bivariado
# Utilidad: Confirmar que df_filter_clean contiene solo variables continuas + label_gdm
# y que no hay valores faltantes que puedan afectar las correlaciones
print("‚úÖ VERIFICACI√ìN FINAL DEL DATASET PARA AN√ÅLISIS BIVARIADO:")
print("=" * 70)
print(f"\nüìä Dimensiones de df_filter_clean: {df_filter_clean.shape}")
print(f"   Registros: {df_filter_clean.shape[0]} (despu√©s de filtrar outliers)")
print(f"   Variables: {df_filter_clean.shape[1]} (solo continuas + label_gdm)")
print(f"\nüìã Variables incluidas:")
print(df_filter_clean.columns.tolist())
print(f"\nüîç Valores faltantes por variable:")
missing = df_filter_clean.isna().sum()
if missing.sum() == 0:
    print("   ‚úì No hay valores faltantes en el dataset limpio")
else:
    print(missing[missing > 0])
print(f"\n‚úì Dataset listo para an√°lisis de correlaciones y visualizaciones bivariadas")

---

## 2.6 Interpretaci√≥n Cl√≠nica y Conclusiones

**Estado**: üî¥ 0% completado - **CR√çTICO**  
**Pendiente**: Toda la secci√≥n de conclusiones

### Tareas pendientes:
- ‚è≥ S√≠ntesis de variables con distribuci√≥n no normal y consecuencias
- ‚è≥ Resumen de diferencias significativas entre grupos (GDM vs No-GDM)
- ‚è≥ Destacar direcci√≥n de diferencias (qu√© grupo tiene valores m√°s altos/bajos)
- ‚è≥ Listar correlaciones cl√≠nicamente relevantes y su significado
- ‚è≥ Discutir posibles relaciones causales vs correlaci√≥n espuria
- ‚è≥ Comentar sobre datos faltantes y su posible impacto
- ‚è≥ Discutir sesgos potenciales en la muestra
- ‚è≥ Mencionar variables confusoras no controladas
- ‚è≥ Proponer an√°lisis multivariado (regresi√≥n log√≠stica)
- ‚è≥ Sugerir validaci√≥n cruzada de modelos predictivos
- ‚è≥ Recomendar estudios adicionales

---

### Secci√≥n a completar

**Estructura sugerida para las conclusiones:**

1. **Resumen de hallazgos principales**
   - Variables no normales y sus implicancias
   - Diferencias significativas entre grupos
   - Correlaciones relevantes encontradas

2. **Interpretaci√≥n cl√≠nica**
   - Significado de las diferencias entre GDM vs No-GDM
   - Relevancia de las correlaciones para el diagn√≥stico/pron√≥stico
   - Comparaci√≥n con rangos cl√≠nicos de referencia

3. **Limitaciones del estudio**
   - Impacto de datos faltantes
   - Sesgos y variables confusoras
   - Naturaleza del dataset sint√©tico

4. **Pr√≥ximos pasos**
   - An√°lisis multivariado recomendado
   - Validaci√≥n de modelos predictivos
   - Estudios complementarios necesarios

---

# 3. Entregables y Archivos Adjuntos

## Archivos incluidos en la entrega

Este trabajo pr√°ctico incluye los siguientes archivos que deben ser entregados en un archivo comprimido (`.tar.gz` o `.zip`):

### Archivos principales

1. **`Entregable.ipynb`** (este documento)
   - Notebook principal con todo el an√°lisis organizado por secciones
   - Incluye c√≥digo, visualizaciones e interpretaciones
   - Indicadores de progreso por secci√≥n

2. **`gdm_first_trimester_ml_dataset.csv`**
   - Dataset original con los datos cl√≠nicos
   - N ‚âà 1500 registros de pacientes embarazadas
   - Variables cl√≠nicas, bioqu√≠micas y de estilo de vida

3. **`gdm_first_trimester_ml_dataset_metadata.json`**
   - Metadata del dataset
   - Descripci√≥n de variables y tipos de datos
   - Informaci√≥n sobre valores faltantes y rangos esperados

4. **`auxiliar_functions.py`**
   - Funciones auxiliares implementadas para el an√°lisis
   - Incluye funciones para:
     - C√°lculo de intervalos de confianza (media, varianza, desviaci√≥n)
     - Detecci√≥n de outliers
     - Generaci√≥n de res√∫menes de conteos
     - Otras utilidades

### Archivos de referencia y documentaci√≥n

5. **`INSTRUCCIONES.md`**
   - Gu√≠a pr√°ctica original del profesor
   - Descripci√≥n de actividades y entregables
   - Criterios de evaluaci√≥n

6. **`TASKS.md` / `TASK2.md`**
   - Lista detallada de tareas pendientes
   - Organizaci√≥n por prioridad (`TASKS.md`) y por secci√≥n (`TASK2.md`)
   - Indicadores de progreso y estimaciones de tiempo

7. **`README.md` (en carpeta `__pycache__/`)**
   - Evaluaci√≥n de estado del progreso
   - Retroalimentaci√≥n detallada por secci√≥n
   - Porcentajes de avance y correcci√≥n

8. **`.gitignore`**
   - Configuraci√≥n de archivos ignorados por Git
   - Incluye: `__pycache__/`, `*.pyc`, entornos virtuales, etc.

### Archivos de trabajo (prototipos)

9. **`1_check_data.ipynb`**
   - Prototipo inicial del an√°lisis
   - Contiene desarrollo del c√≥digo que luego se organiz√≥ en `Entregable.ipynb`

10. **`check_data.ipynb`**
    - Versi√≥n preliminar del prototipo (obsoleta)

---

## Herramientas utilizadas

### Software y entorno

- **Python 3.x**
- **Jupyter Notebook / JupyterLab**
- **Git** (control de versiones)

### Librer√≠as principales

- **pandas**: Manipulaci√≥n y an√°lisis de datos
- **numpy**: Operaciones num√©ricas y √°lgebra lineal
- **matplotlib**: Visualizaci√≥n b√°sica
- **seaborn**: Visualizaci√≥n estad√≠stica avanzada
- **scipy.stats**: Pruebas estad√≠sticas (Shapiro-Wilk, KS, t-test, Mann-Whitney, Levene, etc.)
- **sklearn.ensemble.IsolationForest**: Detecci√≥n de anomal√≠as/outliers

### Herramientas de IA (si aplica)

**[Indicar aqu√≠ si se us√≥ ChatGPT, GitHub Copilot u otra herramienta de IA, especificando para qu√© tareas]**

Ejemplo:
> Se utiliz√≥ GitHub Copilot para:
> - Generaci√≥n de c√≥digo auxiliar para funciones estad√≠sticas
> - Sugerencias de visualizaci√≥n con seaborn
> - Redacci√≥n de comentarios y documentaci√≥n

---

## Instrucciones de ejecuci√≥n

### Requisitos previos

1. Instalar Python 3.8 o superior
2. Instalar las librer√≠as necesarias:

```bash
pip install pandas numpy matplotlib seaborn scipy scikit-learn
```

### Ejecuci√≥n del notebook

1. Abrir `Entregable.ipynb` en Jupyter Notebook/Lab
2. Asegurar que `gdm_first_trimester_ml_dataset.csv` y `auxiliar_functions.py` est√°n en el mismo directorio
3. Ejecutar las celdas secuencialmente desde el inicio

### Notas importantes

- Algunas celdas en secciones incompletas (üî¥) pueden fallar si no se han ejecutado celdas previas necesarias
- El dataset filtrado `df_filter` se genera en la secci√≥n 2.1 y se usa en secciones posteriores
- Los resultados de normalidad (secci√≥n 2.4) deben usarse para justificar elecciones de tests en secci√≥n 2.3

---

## Informaci√≥n de contacto

**Estudiante(s):** [Completar nombre(s)]  
**Correo:** [Completar correo(s)]  
**Fecha de entrega:** 15 de noviembre de 2025  
**Profesor:** David Medina Ortiz  
**Correo del profesor:** david.medina@umag.cl

---

**Fin del documento**