# Preparación de Datos - Modelo CNN Melanoma

Este notebook utiliza los módulos creados en `src/` para preparar los datos.

In [None]:
import os
import sys
from google.colab import drive

# Montar Google Drive
drive.mount('/content/drive')

In [None]:
# Agregar src al path
sys.path.append('/content/drive/MyDrive/TIC_CNN_Modelo_Melanoma')

from src.data.data_loader import load_and_clean_data
from src.data.split_data import create_splits
from src.config.config import OUTPUT_FOLDER, CSV_SPLIT_FOLDER

In [None]:
# Crear carpeta de salida
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

## 1. Cargar y limpiar datos

In [None]:
df_simple = load_and_clean_data()
print(f"Total de imágenes: {len(df_simple)}")
print(f"\nDistribución de clases:")
print(df_simple['label'].value_counts())

## 2. División de datos (Train/Val/Test)

In [None]:
train_df, val_df, test_df = create_splits(df_simple)

print(f"Train: {len(train_df)} imágenes")
print(f"Val: {len(val_df)} imágenes")
print(f"Test: {len(test_df)} imágenes")

## 3. Verificar estratificación

In [None]:
print("Distribución en Train:")
print(train_df['label'].value_counts(normalize=True))
print("\nDistribución en Val:")
print(val_df['label'].value_counts(normalize=True))
print("\nDistribución en Test:")
print(test_df['label'].value_counts(normalize=True))

## 4. Verificar archivos guardados

In [None]:
print(f"Archivos CSV guardados en: {CSV_SPLIT_FOLDER}")
print("\nArchivos creados:")
for file in os.listdir(CSV_SPLIT_FOLDER):
    filepath = os.path.join(CSV_SPLIT_FOLDER, file)
    if file.endswith('.csv'):
        df_check = pd.read_csv(filepath)
        print(f"  - {file}: {len(df_check)} filas")