# Preparación de Datos 

Este notebook utiliza los módulos creados en `src/data` para preparar los datos.

In [3]:
import os
import sys


In [None]:
# Agregar src al path
sys.path.append(os.path.abspath('../src'))
#sys.path.append(os.path.abspath('/content/TIC_CNN_Modelo_Melanoma/src')) # Descomentar si se usa Colab


from data.data_loader import load_and_clean_data
from data.split_data import create_splits
from config.config import OUTPUT_FOLDER, CSV_SPLIT_FOLDER

In [48]:
# Crear carpeta de salida
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

### 1. Cargar y limpiar datos

In [49]:
df_simple = load_and_clean_data()
print(f"Total de imágenes: {len(df_simple)}")
print(f"\nDistribución de clases:")
print(df_simple['label'].value_counts())

Total de imágenes: 16702

Distribución de clases:
label
1    8871
0    7831
Name: count, dtype: int64


### 2. División de datos (Train/Val/Test)

In [50]:
train_df, val_df, test_df = create_splits(df_simple)

print(f"Train: {len(train_df)} imágenes")
print(f"Val: {len(val_df)} imágenes")
print(f"Test: {len(test_df)} imágenes")

Train: 11691 imágenes
Val: 2505 imágenes
Test: 2506 imágenes


### 3. Verificar estratificación

In [51]:
print("Distribución en Train:")
print(train_df['label'].value_counts(normalize=True))
print("\nDistribución en Val:")
print(val_df['label'].value_counts(normalize=True))
print("\nDistribución en Test:")
print(test_df['label'].value_counts(normalize=True))

Distribución en Train:
label
1    0.531092
0    0.468908
Name: proportion, dtype: float64

Distribución en Val:
label
1    0.531337
0    0.468663
Name: proportion, dtype: float64

Distribución en Test:
label
1    0.531125
0    0.468875
Name: proportion, dtype: float64
