# Preparación del Dataset - Detección de Melanomas
Este notebook documenta la preparación del dataset HAM10000 para entrenamiento de una red neuronal convolucional en PyTorch.
Incluye carga, preprocesamiento, normalización y creación de DataLoaders.

In [None]:
# Librerías necesarias
import os
import pandas as pd
from glob import glob
from PIL import Image
from sklearn.model_selection import train_test_split
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader

## Configuración de paths y etiquetas

In [None]:
# Directorio base con imágenes y metadata CSV
data_dir = '../data/HAM10000_images'
metadata_path = '../data/HAM10000_metadata.csv'

# Códigos a clases descriptivas
lesion_type_dict = {
    'nv': 'Nevus melanocítico',
    'mel': 'Melanoma',
    'bkl': 'Lesiones benignas tipo queratosis',
    'bcc': 'Carcinoma basocelular',
    'akiec': 'Queratosis actínica o carcinoma intraepitelial',
    'vasc': 'Lesiones vasculares',
    'df': 'Dermatofibroma'
}



## Carga de metadata y creación de columnas auxiliares

In [None]:
df = pd.read_csv(metadata_path)
df['path'] = df['image_id'].apply(lambda x: os.path.join(data_dir, f"{x}.jpg"))
df['cell_type'] = df['dx'].map(lesion_type_dict)
df['label'] = pd.Categorical(df['cell_type']).codes
df.head()

## División de datos en entrenamiento y validación

In [None]:
train_df, val_df = train_test_split(df, test_size=0.2, stratify=df['label'], random_state=42)
train_df.to_csv('../data/training_data.csv', index=False)
val_df.to_csv('../data/test_data.csv', index=False)
print('Archivos CSV guardados.')

## Transformaciones de imagen

In [None]:
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.7630, 0.5456, 0.5700], [0.1409, 0.1523, 0.1692])
])

## Clase personalizada SkinCancerDataset

In [None]:
class SkinCancerDataset(Dataset):
    def __init__(self, dataframe, transform=None):
        self.dataframe = dataframe.reset_index(drop=True)
        self.transform = transform

    def __len__(self):
        return len(self.dataframe)

    def __getitem__(self, idx):
        img_path = self.dataframe.loc[idx, 'path']
        image = Image.open(img_path).convert('RGB')
        label = self.dataframe.loc[idx, 'label']
        if self.transform:
            image = self.transform(image)
        return image, label

## Creación de Datasets y DataLoaders

In [None]:
# Crear datasets y loaders
train_dataset = SkinCancerDataset(train_df, transform=transform)
val_dataset = SkinCancerDataset(val_df, transform=transform)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32)

print(f'Tamaño de entrenamiento: {len(train_dataset)}')
print(f'Tamaño de validación: {len(val_dataset)}')