# Exploración del Dataset – Diagnóstico de Endometriosis
Autor: Guillermo Cárcamo  
Materia: Aprendizaje Automático – 2025  
Segunda Entrega: Descripción y Análisis Inicial del Dataset


# Importacion y lectura del dataset

In [13]:
import pandas as pd
from pathlib import Path

# Ruta al dataset
DATA_PATH = Path("../data/raw/structured_endometriosis_data.csv")

# Carga de datos
df = pd.read_csv(DATA_PATH)
print("Dataset cargado correctamente")
print("Forma del DataFrame:", df.shape)
df.head(3)

Dataset cargado correctamente
Forma del DataFrame: (10000, 7)


Unnamed: 0,Age,Menstrual_Irregularity,Chronic_Pain_Level,Hormone_Level_Abnormality,Infertility,BMI,Diagnosis
0,24,1,8.362,0,0,19.451,0
1,37,1,4.996,0,0,22.388,0
2,46,1,3.364,1,0,21.32,0


# Descripción general del dataset

In [9]:
# Número de filas e instancias
n_filas, n_columnas = df.shape
print(f"Cantidad de instancias: {n_filas}")
print(f"Cantidad de características: {n_columnas}")

# Tipos de datos y no nulos
df.info()


Cantidad de instancias: 10000
Cantidad de características: 7
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Age                        10000 non-null  int64  
 1   Menstrual_Irregularity     10000 non-null  int64  
 2   Chronic_Pain_Level         10000 non-null  float64
 3   Hormone_Level_Abnormality  10000 non-null  int64  
 4   Infertility                10000 non-null  int64  
 5   BMI                        10000 non-null  float64
 6   Diagnosis                  10000 non-null  int64  
dtypes: float64(2), int64(5)
memory usage: 547.0 KB


# Resumen estadístico y estructura

In [10]:
# Resumen numérico (solo columnas numéricas)
display(df.describe())

# Si hay variables categóricas, ver valores únicos
cat_cols = df.select_dtypes(exclude=["int64", "float64"]).columns.tolist()
for col in cat_cols:
    print(f"\n{col}: {df[col].nunique()} valores únicos → {df[col].unique()[:10]}")


Unnamed: 0,Age,Menstrual_Irregularity,Chronic_Pain_Level,Hormone_Level_Abnormality,Infertility,BMI,Diagnosis
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,33.692,0.698,5.031,0.591,0.298,23.053,0.408
std,9.205,0.459,1.984,0.492,0.458,3.892,0.491
min,18.0,0.0,0.0,0.0,0.0,15.0,0.0
25%,26.0,0.0,3.672,0.0,0.0,20.329,0.0
50%,34.0,1.0,5.036,1.0,0.0,23.036,0.0
75%,42.0,1.0,6.397,1.0,1.0,25.713,1.0
max,49.0,1.0,10.0,1.0,1.0,37.146,1.0


# Verificación de datos faltantes y duplicados

In [11]:
print("Valores nulos por columna:")
print(df.isna().sum())

print("\nFilas duplicadas:", df.duplicated().sum())


Valores nulos por columna:
Age                          0
Menstrual_Irregularity       0
Chronic_Pain_Level           0
Hormone_Level_Abnormality    0
Infertility                  0
BMI                          0
Diagnosis                    0
dtype: int64

Filas duplicadas: 0


# Distribución de la variable objetivo

In [14]:
if "Diagnosis" in df.columns:
    conteo = df["Diagnosis"].value_counts()
    porcentaje = (conteo / len(df) * 100).round(2)
    print("Distribución de Diagnosis (0=No Endometriosis, 1=Endometriosis):")
    display(pd.DataFrame({"Frecuencia": conteo, "%": porcentaje}))


Distribución de Diagnosis (0=No Endometriosis, 1=Endometriosis):


Unnamed: 0_level_0,Frecuencia,%
Diagnosis,Unnamed: 1_level_1,Unnamed: 2_level_1
0,5921,59.21
1,4079,40.79


# Descripción general del dataset

El dataset **“structured_endometriosis_data.csv”** contiene 10.000 registros sintéticos de pacientes con y sin diagnóstico de endometriosis.

Cada fila representa un conjunto de variables clínicas asociadas a la condición.

- **Cantidad de instancias:** 10 000

- **Cantidad de características:** (según el conteo obtenido arriba)

- **Variable objetivo:** Diagnosis → indica si la paciente presenta endometriosis (1) o no (0).

- **Principales variables predictoras:**

    -    **Age:** edad de la paciente (años)

    -    **BMI:** índice de masa corporal

    -    **Pain_Level:** nivel de dolor reportado (1–10)

    -    **Menstrual_Irregularity:** irregularidad en el ciclo menstrual (0/1)

    -    **Hormonal_Imbalance:** desequilibrio hormonal detectado (0/1)

    -    **Infertility:** presencia de infertilidad (0/1)

    -    **Pelvic_Pain:** dolor pélvico crónico (0/1)

    -    (…y otras variables relacionadas con síntomas clínicos)

# Origen de los datos

Fuente: Dataset sintético obtenido de Kaggle – Predicting Endometriosis from Symptoms

Link: https://www.kaggle.com/datasets/michaelanietie/endometriosis-dataset

**Procesamiento previo:**

No se realizaron modificaciones estructurales.

Se verificó integridad (sin duplicados ni nulos).

Se mantuvo el formato .csv original para trazabilidad.

# Conclusión

El dataset presenta una estructura limpia, balanceada y adecuada para tareas de clasificación binaria supervisada, donde la variable **Diagnosis** será la variable objetivo.