# An√°lisis Exploratorio de Datos - Diabetes Gestacional (GDM)

**Universidad de Magallanes**  
**Facultad de Ingenier√≠a, Departamento de Ingenier√≠a en Computaci√≥n**  
**Asignatura:** Matem√°tica para Ciencias de la Computaci√≥n  
**Profesor:** David Medina Ortiz  

---

**Estudiante(s):** [Nombre(s) del/los estudiante(s)]  
**Fecha de entrega:** 15 de noviembre de 2025  

---

## Tabla de Progreso Global

| Secci√≥n | T√≠tulo | Progreso | Estado |
|---------|--------|----------|--------|
| 1 | Descripci√≥n General del Dataset | 100% | ‚úÖ |
| 2.1 | An√°lisis Exploratorio de Datos (EDA) | 56% | üü° |
| 2.2 | Intervalos de Confianza | 54% | üü° |
| 2.3 | Pruebas de Hip√≥tesis | 8% | üî¥ |
| 2.4 | Evaluaci√≥n de Normalidad | 85% | üü¢ |
| 2.5 | An√°lisis Bivariado | 28% | üî¥ |
| 2.6 | Interpretaci√≥n Cl√≠nica y Conclusiones | 0% | üî¥ |
| 3 | Entregables y Archivos | 100% | ‚úÖ |
| **GLOBAL** | **Progreso Total** | **39%** | üü° |

---

# 1. Descripci√≥n General del Dataset

## Contexto

Este trabajo utiliza un **dataset sint√©tico** que simula informaci√≥n cl√≠nica del **primer trimestre del embarazo** para el estudio de la **diabetes gestacional (GDM)**. El objetivo es caracterizar estad√≠sticamente los datos y explorar asociaciones entre variables cl√≠nicas y el riesgo de desarrollar GDM.

## Caracter√≠sticas del Dataset

- **N**: Aproximadamente 1500 registros de pacientes embarazadas
- **Variables incluidas**:
  - **Cl√≠nicas**: edad, IMC pregestacional, presi√≥n arterial (sist√≥lica, diast√≥lica, MAP), semanas de gestaci√≥n
  - **Bioqu√≠micas**: FPG (glucosa en ayunas), HbA1c, insulina, HOMA-IR, triglic√©ridos, HDL
  - **Factores de riesgo**: paridad, antecedentes familiares de diabetes tipo 2, GDM previa, PCOS, tabaquismo
  - **Estilo de vida**: nivel de actividad f√≠sica, puntuaci√≥n de dieta (0-100)
  - **Variable objetivo**: `label_gdm` (0 = No GDM, 1 = GDM)

## Caracter√≠sticas Especiales

- **Datos faltantes**: Presencia de valores nulos con patrones MCAR (Missing Completely At Random) y MAR (Missing At Random)
- **Outliers**: El dataset contiene valores at√≠picos que requieren identificaci√≥n y tratamiento
- **Desbalance de clases**: Aproximadamente 17% de casos positivos de GDM
- **Tipos de variables**: Mixto (continuas, discretas y categ√≥ricas binarias)

## Objetivo del An√°lisis

Realizar un an√°lisis exploratorio exhaustivo que permita:
1. Caracterizar la distribuci√≥n de las variables
2. Identificar patrones y asociaciones relevantes
3. Comparar grupos (GDM vs No-GDM)
4. Evaluar supuestos estad√≠sticos
5. Generar insights cl√≠nicos para la comprensi√≥n del riesgo de GDM

---

# 2. Actividades Desarrolladas

Esta secci√≥n contiene el an√°lisis exploratorio organizado por subsecciones seg√∫n la gu√≠a pr√°ctica.

---

## 2.1 An√°lisis Exploratorio de Datos (EDA)

**Estado**: üü° 56% completado  
**Pendiente**: Visualizaciones adicionales e interpretaci√≥n textual de variables

### Tareas realizadas:
- ‚úÖ Carga de datos y verificaci√≥n de dimensiones
- ‚úÖ An√°lisis de tipos de datos
- ‚úÖ Detecci√≥n de valores faltantes
- ‚úÖ Estad√≠stica descriptiva (media, mediana, IQR, percentiles)
- ‚úÖ Detecci√≥n de outliers por IQR e Isolation Forest
- ‚úÖ Filtrado de outliers por votaci√≥n
- ‚úÖ Visualizaciones iniciales (histogramas, boxplots, violinplots)

### Tareas pendientes:
- ‚è≥ Histogramas individuales con interpretaci√≥n
- ‚è≥ Superposici√≥n de curva normal en histogramas
- ‚è≥ Gr√°ficos de densidad (KDE) para variables clave
- ‚è≥ Interpretaci√≥n textual detallada por variable
- ‚è≥ Documentaci√≥n de estrategia para outliers

---

### Importaci√≥n de librer√≠as

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from auxiliar_functions import *
from sklearn.ensemble import IsolationForest
from scipy import stats

# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

### Carga y exploraci√≥n inicial del dataset

In [None]:
# Carga del dataset
df_data = pd.read_csv("gdm_first_trimester_ml_dataset.csv")

# Primeras filas
print("Primeras 5 filas del dataset:")
df_data.head(5)

In [None]:
# Dimensiones del dataset
print(f"Dimensiones: {df_data.shape}")
print(f"Total de registros: {df_data.shape[0]}")
print(f"Total de variables: {df_data.shape[1]}")
df_data.shape

In [None]:
# Distribuci√≥n de la variable objetivo
print("Distribuci√≥n de GDM:")
print(df_data["label_gdm"].value_counts())
print(f"\nProporci√≥n de casos positivos: {df_data['label_gdm'].mean():.2%}")

In [None]:
# Tipos de datos
print("Tipos de datos por variable:")
df_data.dtypes

### An√°lisis de valores faltantes

In [None]:
df_nulls = df_data.isna().astype(int)
df_summary_null = generate_df_counts(df_nulls, columns_name=["descriptor", "count_Nulls", "count_Falses"])
print("Resumen de valores faltantes:")
df_summary_null

### Estad√≠stica descriptiva

Definimos las variables categ√≥ricas que se excluir√°n del an√°lisis descriptivo de variables continuas:

In [None]:
columns_to_ignore = [
    "parity", 
    "family_history_t2d",
    "previous_gdm",
    "pcos", 
    "smoking_first_trimester",
    "label_gdm",
    "physical_activity_level"
]

print("Variables categ√≥ricas/binarias a excluir del an√°lisis descriptivo:")
print(columns_to_ignore)

In [None]:
# Estad√≠stica descriptiva para todas las variables
print("Estad√≠sticas descriptivas del dataset completo:")
df_data.describe()

In [None]:
statistical_descriptors = []

for column in df_data.columns:
    if column not in columns_to_ignore:
        descriptive_values = df_data[column].describe()

        IQR = descriptive_values["75%"] - descriptive_values["25%"]
        min_value, max_value = get_range_outlier(
            descriptive_values["25%"], 
            descriptive_values["75%"], 
            IQR)

        row = {
            "descriptor" : column,
            "mean":descriptive_values["mean"],
            "std" :descriptive_values["std"],
            "median" : descriptive_values["50%"],
            "IQR" : IQR,
            "25%" : descriptive_values["25%"],
            "75%" :descriptive_values["75%"],
            "min_value_for_outlier" : min_value,
            "max_value_for_outlier" : max_value

        }
        statistical_descriptors.append(row)

df_statistical = pd.DataFrame(statistical_descriptors)
print("Estad√≠sticas descriptivas con IQR y umbrales para outliers:")
df_statistical

### Detecci√≥n de outliers

**Nota**: Se implementa detecci√≥n por IQR e Isolation Forest con sistema de votaci√≥n.

---

## 2.2 Intervalos de Confianza

**Estado**: üü° 54% completado  
**Pendiente**: IC para proporciones, diferencias de medias e interpretaci√≥n cl√≠nica

### Tareas realizadas:
- ‚úÖ Funciones de c√°lculo de IC implementadas en `auxiliar_functions.py`
- ‚úÖ IC para media y varianza de IMC, FPG, HbA1c con m√∫ltiples tama√±os de muestra

### Tareas pendientes:
- ‚è≥ IC para medias de: HDL, presi√≥n arterial (sist√≥lica, diast√≥lica, MAP), triglic√©ridos
- ‚è≥ IC para proporciones (fumadoras, antecedentes familiares, PCOS, GDM previa)
- ‚è≥ IC para diferencia de medias entre grupos GDM vs No-GDM
- ‚è≥ Interpretaci√≥n cl√≠nica comparando con rangos de referencia

---

### C√°lculo de intervalos de confianza para diferentes tama√±os de muestra

In [None]:
n = np.linspace(10, 100, 10)  # Tama√±os de muestra de 10 a 100
print("Tama√±os de muestra a evaluar:")
print(n)

nro_tamanhos = n.size
np.random.seed(42)

# Intervalos de confianza
for i in range(0, nro_tamanhos):
    df_mini = pd.DataFrame()
    picked_up_indexs = []
    index = None

    for j in range(0, int(n[i])):    
        while index in picked_up_indexs:
            index = np.random.randint(0, df_data.shape[0])
            df_mini = pd.concat([df_mini, df_data.iloc[[index]]])
        picked_up_indexs.append(index)
    
    # Intervalos de confianza para variables clave
    interesting_descriptors_names = ["bmi_prepreg_kg_m2", "fpg_mmol_l", "hba1c_percent"]

    for descriptor_name in interesting_descriptors_names:
        descriptor = df_mini[descriptor_name]
        descriptor_mean = descriptor.mean()
        descriptor_std = descriptor.std()
        IC_mean = calculate_ic_mean(descriptor_mean, descriptor_std, int(n[i]))
        IC_std = calculate_ic_std(descriptor_std, int(n[i]))
        print(f"Para n={int(n[i])} el intervalo de confianza para la media (Œº) del descriptor '{descriptor_name}' es [{IC_mean[0]:.4f}, {IC_mean[1]:.4f}]")
        print(f"Para n={int(n[i])} el intervalo de confianza para la varianza (œÉ¬≤) del descriptor '{descriptor_name}' es [{IC_std[0]:.4f}, {IC_std[1]:.4f}]")
    
    print()

---

## 2.3 Pruebas de Hip√≥tesis

**Estado**: üî¥ 8% completado - **CR√çTICO**  
**Pendiente**: Casi todas las pruebas de hip√≥tesis

### Tareas realizadas:
- ‚úÖ Funci√≥n `compare_two_groups_numeric` implementada (t-test/Welch/Mann-Whitney autom√°tico)
- ‚úÖ Comparaci√≥n preliminar de presi√≥n arterial (sist√≥lica, diast√≥lica, MAP) entre grupos GDM

### Tareas pendientes:
- ‚è≥ Formular H‚ÇÄ y H‚ÇÅ para todas las comparaciones
- ‚è≥ Comparar IMC, FPG, HbA1c entre GDM vs No-GDM
- ‚è≥ Comparar dieta seg√∫n nivel de actividad f√≠sica (ANOVA/Kruskal-Wallis)
- ‚è≥ Pruebas de proporciones (chi¬≤ o z): antecedentes familiares, PCOS, tabaquismo vs GDM
- ‚è≥ Reportar tama√±o de efecto (d de Cohen o r) para todas las pruebas
- ‚è≥ Interpretar resultados en contexto cl√≠nico

---

### Comparaci√≥n de presi√≥n arterial entre grupos GDM (ejemplo preliminar)

In [None]:
def compare_two_groups_numeric(df, y_col, group_col="label_gdm", alpha=0.05, tail="two-sided"):
    """
    Compara una variable num√©rica (y_col) entre dos grupos binarios (group_col).
    Verifica supuestos: normalidad por grupo (Shapiro) y homogeneidad (Levene).
    Decide autom√°ticamente entre:
      - t de Student cl√°sico (varianzas iguales)
      - Welch t-test (varianzas desiguales)
      - Mann‚ÄìWhitney U (si falla normalidad)
    Retorna un dict con todo lo necesario para el informe.
    """
    d = df[[y_col, group_col]].dropna()
    g0 = d[d[group_col] == 0][y_col].astype(float).values
    g1 = d[d[group_col] == 1][y_col].astype(float).values

    # Hip√≥tesis
    H0 = f"Œº_{y_col}|GDM=0 == Œº_{y_col}|GDM=1"
    H1 = f"Œº_{y_col}|GDM=0 != Œº_{y_col}|GDM=1" if tail=="two-sided" else f"Œº diferencias unilaterales ({tail})"

    # Normalidad por grupo (solo si n>=3)
    sh0 = stats.shapiro(g0) if len(g0) >= 3 else (np.nan, np.nan)
    sh1 = stats.shapiro(g1) if len(g1) >= 3 else (np.nan, np.nan)
    normal_ok = (not np.isnan(sh0[1]) and sh0[1] > alpha) and (not np.isnan(sh1[1]) and sh1[1] > alpha)

    # Homogeneidad de varianzas (Levene)
    lev = stats.levene(g0, g1, center='median')
    equal_var = lev.pvalue > alpha

    # Elecci√≥n de prueba
    if normal_ok:
        res = stats.ttest_ind(g0, g1, equal_var=equal_var, alternative="two-sided")
        test_name = "t-test (Welch)" if not equal_var else "t-test (varianzas iguales)"
        stat, p = res.statistic, res.pvalue
    else:
        res = stats.mannwhitneyu(g0, g1, alternative="two-sided")
        test_name = "Mann‚ÄìWhitney U"
        stat, p = res.statistic, res.pvalue

    decision = "Rechazo H0" if p < alpha else "No rechazo H0"

    return {
        "variable": y_col,
        "n_gdm0": len(g0), "mean_gdm0": np.mean(g0), "sd_gdm0": np.std(g0, ddof=1),
        "n_gdm1": len(g1), "mean_gdm1": np.mean(g1), "sd_gdm1": np.std(g1, ddof=1),
        "shapiro_g0_p": (np.nan if np.isnan(sh0[1]) else sh0[1]),
        "shapiro_g1_p": (np.nan if np.isnan(sh1[1]) else sh1[1]),
        "levene_p": lev.pvalue,
        "test": test_name, "stat": stat, "p_value": p,
        "alpha": alpha, "decision": decision,
        "H0": H0, "H1": H1
    }

# Ejemplo: Comparaci√≥n de presi√≥n arterial
print("Comparaci√≥n de presi√≥n arterial entre grupos GDM vs No-GDM:")
print("=" * 70)
for col in ["systolic_bp_mmHg", "diastolic_bp_mmHg", "map_mmHg"]:
    out = compare_two_groups_numeric(df_data, y_col=col, group_col="label_gdm", alpha=0.05)
    print(f"\n{col}:")
    print(out)

---

## 2.4 Evaluaci√≥n de Normalidad

**Estado**: üü¢ 85% completado - **CASI COMPLETO**  
**Pendiente**: Solo visualizaciones (QQ-plots) y transformaciones

### Tareas realizadas:
- ‚úÖ Prueba de Shapiro-Wilk para todas las variables continuas
- ‚úÖ Prueba de Kolmogorov-Smirnov (Lilliefors) para todas las variables continuas
- ‚úÖ Resumen tabular de resultados con decisi√≥n (Normal / No normal)
- ‚úÖ Comparaci√≥n de ambos tests y priorizaci√≥n de Shapiro-Wilk

### Tareas pendientes:
- ‚è≥ Generar QQ-plots para cada variable continua
- ‚è≥ Histogramas con curva normal superpuesta
- ‚è≥ Probar transformaciones (log, Box-Cox) en variables asim√©tricas
- ‚è≥ Re-evaluar normalidad post-transformaci√≥n

---

### Pruebas de normalidad: Shapiro-Wilk y Kolmogorov-Smirnov

In [None]:
continuous_variables = [
    "age_years", "bmi_prepreg_kg_m2", "systolic_bp_mmHg", "diastolic_bp_mmHg", 
    "map_mmHg", "gestational_weeks", "fpg_mmol_l", "hba1c_percent", 
    "insulin_uIU_ml", "homa_ir", "triglycerides_mmol_l", "hdl_mmol_l", 
    "physical_activity_level", "diet_score_0_100"
]

# Inicializar estructuras
clean_data_descriptors = []
n_val = []
n_invalid = []

# Limpiar NaN por variable
for var in continuous_variables:
    valid_data = df_data[var].dropna()
    n_validos = valid_data.size
    n_faltantes = df_data[var].isna().sum()

    clean_data_descriptors.append(valid_data)
    n_val.append(n_validos)
    n_invalid.append(n_faltantes)

# Prueba de normalidad
normality_results = []
alpha = 0.05

# Evaluar cada variable
for idx, var in enumerate(continuous_variables):
    x = clean_data_descriptors[idx]

    # Shapiro‚ÄìWilk
    W, p_sw = stats.shapiro(x)
    
    # KS-Lilliefors (usando par√°metros estimados)
    mu, sigma = x.mean(), x.std(ddof=1)
    D, p_ks = stats.kstest(x, 'norm', args=(mu, sigma))
    
    # Decisi√≥n
    decision_sw = "Normal" if p_sw >= alpha else "No normal"
    decision_ks = "Normal" if p_ks >= alpha else "No normal"
    
    # Guardar resultado
    normality_results.append({
        "Variable": var,
        "n": len(x),
        "SW_W": W,
        "SW_p": p_sw,
        "SW_decisi√≥n": decision_sw,
        "KS_D": D,
        "KS_p": p_ks,
        "KS_decisi√≥n": decision_ks
    })

# Mostrar resultados
print("Resultados de pruebas de normalidad:")
print("=" * 100)
for result in normality_results:
    print(f"\n{result['Variable']}:")
    print(f"  n={result['n']}")
    print(f"  Shapiro-Wilk: W={result['SW_W']:.4f}, p={result['SW_p']:.4f} ‚Üí {result['SW_decisi√≥n']}")
    print(f"  KS-Lilliefors: D={result['KS_D']:.4f}, p={result['KS_p']:.4f} ‚Üí {result['KS_decisi√≥n']}")

---

## 2.5 An√°lisis Bivariado

**Estado**: üî¥ 28% completado - **CR√çTICO**  
**Pendiente**: Visualizaciones completas e interpretaci√≥n cl√≠nica

### Tareas realizadas:
- ‚úÖ Matriz de correlaci√≥n de Pearson calculada
- ‚úÖ Heatmap de correlaci√≥n generado
- ‚úÖ Pairplot preliminar con visualizaci√≥n por grupo GDM

### Tareas pendientes:
- ‚è≥ Identificar y discutir correlaciones fuertes (|r| > 0.7)
- ‚è≥ Scatterplots con regresi√≥n para pares clave (FPG vs HbA1c, Insulina vs HOMA-IR, etc.)
- ‚è≥ Incluir ecuaci√≥n de regresi√≥n y R¬≤ en gr√°ficos
- ‚è≥ Boxplots comparativos por grupo GDM para variables clave
- ‚è≥ Interpretaci√≥n cl√≠nica de asociaciones encontradas
- ‚è≥ Relacionar hallazgos con literatura sobre GDM

---

### Matriz de correlaci√≥n y heatmap

In [None]:
# Nota: Esta celda usa df_filter del prototipo. Asegurar que est√© creado previamente con:
# df_filter = df_data[df_data["vote_outlier"]<3].drop(columns=['is_outlier_by_IQR', etc.])

# Calcular correlaci√≥n de Pearson
df_corr_pearson = df_filter.drop(columns=["label_gdm"]).corr(method="pearson")

# Visualizar heatmap
plt.figure(figsize=(14, 12))
sns.heatmap(data=df_corr_pearson, annot=True, fmt=".2f", cmap="Blues", cbar_kws={'label': 'Correlaci√≥n de Pearson'})
plt.title("Matriz de Correlaci√≥n de Pearson - Variables Continuas", fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nCorrelaciones fuertes encontradas (|r| > 0.7):")
print("=" * 50)
# Identificar correlaciones fuertes
for i in range(len(df_corr_pearson.columns)):
    for j in range(i+1, len(df_corr_pearson.columns)):
        corr_value = df_corr_pearson.iloc[i, j]
        if abs(corr_value) > 0.7:
            print(f"{df_corr_pearson.columns[i]} vs {df_corr_pearson.columns[j]}: r = {corr_value:.3f}")

---

## 2.6 Interpretaci√≥n Cl√≠nica y Conclusiones

**Estado**: üî¥ 0% completado - **CR√çTICO**  
**Pendiente**: Toda la secci√≥n de conclusiones

### Tareas pendientes:
- ‚è≥ S√≠ntesis de variables con distribuci√≥n no normal y consecuencias
- ‚è≥ Resumen de diferencias significativas entre grupos (GDM vs No-GDM)
- ‚è≥ Destacar direcci√≥n de diferencias (qu√© grupo tiene valores m√°s altos/bajos)
- ‚è≥ Listar correlaciones cl√≠nicamente relevantes y su significado
- ‚è≥ Discutir posibles relaciones causales vs correlaci√≥n espuria
- ‚è≥ Comentar sobre datos faltantes y su posible impacto
- ‚è≥ Discutir sesgos potenciales en la muestra
- ‚è≥ Mencionar variables confusoras no controladas
- ‚è≥ Proponer an√°lisis multivariado (regresi√≥n log√≠stica)
- ‚è≥ Sugerir validaci√≥n cruzada de modelos predictivos
- ‚è≥ Recomendar estudios adicionales

---

### Secci√≥n a completar

**Estructura sugerida para las conclusiones:**

1. **Resumen de hallazgos principales**
   - Variables no normales y sus implicancias
   - Diferencias significativas entre grupos
   - Correlaciones relevantes encontradas

2. **Interpretaci√≥n cl√≠nica**
   - Significado de las diferencias entre GDM vs No-GDM
   - Relevancia de las correlaciones para el diagn√≥stico/pron√≥stico
   - Comparaci√≥n con rangos cl√≠nicos de referencia

3. **Limitaciones del estudio**
   - Impacto de datos faltantes
   - Sesgos y variables confusoras
   - Naturaleza del dataset sint√©tico

4. **Pr√≥ximos pasos**
   - An√°lisis multivariado recomendado
   - Validaci√≥n de modelos predictivos
   - Estudios complementarios necesarios

---

# 3. Entregables y Archivos Adjuntos

## Archivos incluidos en la entrega

Este trabajo pr√°ctico incluye los siguientes archivos que deben ser entregados en un archivo comprimido (`.tar.gz` o `.zip`):

### Archivos principales

1. **`Entregable.ipynb`** (este documento)
   - Notebook principal con todo el an√°lisis organizado por secciones
   - Incluye c√≥digo, visualizaciones e interpretaciones
   - Indicadores de progreso por secci√≥n

2. **`gdm_first_trimester_ml_dataset.csv`**
   - Dataset original con los datos cl√≠nicos
   - N ‚âà 1500 registros de pacientes embarazadas
   - Variables cl√≠nicas, bioqu√≠micas y de estilo de vida

3. **`gdm_first_trimester_ml_dataset_metadata.json`**
   - Metadata del dataset
   - Descripci√≥n de variables y tipos de datos
   - Informaci√≥n sobre valores faltantes y rangos esperados

4. **`auxiliar_functions.py`**
   - Funciones auxiliares implementadas para el an√°lisis
   - Incluye funciones para:
     - C√°lculo de intervalos de confianza (media, varianza, desviaci√≥n)
     - Detecci√≥n de outliers
     - Generaci√≥n de res√∫menes de conteos
     - Otras utilidades

### Archivos de referencia y documentaci√≥n

5. **`INSTRUCCIONES.md`**
   - Gu√≠a pr√°ctica original del profesor
   - Descripci√≥n de actividades y entregables
   - Criterios de evaluaci√≥n

6. **`TASKS.md` / `TASK2.md`**
   - Lista detallada de tareas pendientes
   - Organizaci√≥n por prioridad (`TASKS.md`) y por secci√≥n (`TASK2.md`)
   - Indicadores de progreso y estimaciones de tiempo

7. **`README.md` (en carpeta `__pycache__/`)**
   - Evaluaci√≥n de estado del progreso
   - Retroalimentaci√≥n detallada por secci√≥n
   - Porcentajes de avance y correcci√≥n

8. **`.gitignore`**
   - Configuraci√≥n de archivos ignorados por Git
   - Incluye: `__pycache__/`, `*.pyc`, entornos virtuales, etc.

### Archivos de trabajo (prototipos)

9. **`1_check_data.ipynb`**
   - Prototipo inicial del an√°lisis
   - Contiene desarrollo del c√≥digo que luego se organiz√≥ en `Entregable.ipynb`

10. **`check_data.ipynb`**
    - Versi√≥n preliminar del prototipo (obsoleta)

---

## Herramientas utilizadas

### Software y entorno

- **Python 3.x**
- **Jupyter Notebook / JupyterLab**
- **Git** (control de versiones)

### Librer√≠as principales

- **pandas**: Manipulaci√≥n y an√°lisis de datos
- **numpy**: Operaciones num√©ricas y √°lgebra lineal
- **matplotlib**: Visualizaci√≥n b√°sica
- **seaborn**: Visualizaci√≥n estad√≠stica avanzada
- **scipy.stats**: Pruebas estad√≠sticas (Shapiro-Wilk, KS, t-test, Mann-Whitney, Levene, etc.)
- **sklearn.ensemble.IsolationForest**: Detecci√≥n de anomal√≠as/outliers

### Herramientas de IA (si aplica)

**[Indicar aqu√≠ si se us√≥ ChatGPT, GitHub Copilot u otra herramienta de IA, especificando para qu√© tareas]**

Ejemplo:
> Se utiliz√≥ GitHub Copilot para:
> - Generaci√≥n de c√≥digo auxiliar para funciones estad√≠sticas
> - Sugerencias de visualizaci√≥n con seaborn
> - Redacci√≥n de comentarios y documentaci√≥n

---

## Instrucciones de ejecuci√≥n

### Requisitos previos

1. Instalar Python 3.8 o superior
2. Instalar las librer√≠as necesarias:

```bash
pip install pandas numpy matplotlib seaborn scipy scikit-learn
```

### Ejecuci√≥n del notebook

1. Abrir `Entregable.ipynb` en Jupyter Notebook/Lab
2. Asegurar que `gdm_first_trimester_ml_dataset.csv` y `auxiliar_functions.py` est√°n en el mismo directorio
3. Ejecutar las celdas secuencialmente desde el inicio

### Notas importantes

- Algunas celdas en secciones incompletas (üî¥) pueden fallar si no se han ejecutado celdas previas necesarias
- El dataset filtrado `df_filter` se genera en la secci√≥n 2.1 y se usa en secciones posteriores
- Los resultados de normalidad (secci√≥n 2.4) deben usarse para justificar elecciones de tests en secci√≥n 2.3

---

## Informaci√≥n de contacto

**Estudiante(s):** [Completar nombre(s)]  
**Correo:** [Completar correo(s)]  
**Fecha de entrega:** 15 de noviembre de 2025  
**Profesor:** David Medina Ortiz  
**Correo del profesor:** david.medina@umag.cl

---

**Fin del documento**