In [None]:
import os
import numpy as np
from PIL import Image
from typing import List, Tuple, Dict, Any
import pytorch_lightning as pl

# --- PyTorch Imports ---
# Import Dataset to inherit from it
from torch.utils.data import Dataset, DataLoader
# Import for the demonstration code
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import transforms, models
# --- End PyTorch Imports ---

class ImageDatasetWrapper(Dataset):
    """
    Un Dataset compatible con PyTorch que escanea subdirectorios de clases.
    Hereda de torch.utils.data.Dataset.
    Devuelve etiquetas como vectores one-hot (np.ndarray).
    
    ¡NUEVO! También crea una lista 'self.targets' con etiquetas enteras
    (ej. 0, 1, 2) para ser usada por 'sklearn.model_selection.train_test_split'.
    """

    def __init__(self, root_dir: str, transform: Any = None):
        """
        Inicializa el dataset, escanea el directorio y crea el mapa de índices.
        """
        self.root_dir = root_dir
        self.transform = transform
        
        # data_index almacenará (filepath, one_hot_label)
        self.data_index: List[Tuple[str, np.ndarray]] = []
        
        # --- ¡CORRECCIÓN AÑADIDA AQUÍ! ---
        # self.targets almacenará el índice entero (0, 1, 2...) para la estratificación
        self.targets: List[int] = []
        # --- FIN DE LA CORRECCIÓN ---
        
        self.class_names: List[str] = []
        self.class_to_label: Dict[str, np.ndarray] = {}
        self._build_index()

    def _build_index(self):
        """
        Escanea el directorio raíz en busca de carpetas de clases y rellena 
        data_index (para los datos) y targets (para la división).
        """
        print(f"Escaneando directorio: {self.root_dir}")

        # 1. Descubrir nombres de clases (subdirectorios)
        subdirs = [d for d in os.listdir(self.root_dir)
                   if os.path.isdir(os.path.join(self.root_dir, d))]
        self.class_names = sorted(subdirs)
        num_classes = len(self.class_names)

        if num_classes == 0:
            raise ValueError(f"No se encontraron subdirectorios de clases en {self.root_dir}")

        # 2. Crear mapeo class_to_label (para arrays one-hot)
        for i, class_name in enumerate(self.class_names):
            one_hot = np.zeros(num_classes, dtype=np.float32)
            one_hot[i] = 1.0
            self.class_to_label[class_name] = one_hot

        print(f"Se encontraron {num_classes} clases: {self.class_names}")

        # 3. Rellenar la lista de índices maestros
        image_extensions = ('.jpg', '.jpeg', '.png', '.bmp', '.tiff')
        for class_index, class_name in enumerate(self.class_names):
            class_path = os.path.join(self.root_dir, class_name)
            one_hot_label = self.class_to_label[class_name]

            # Listar archivos en el directorio de la clase
            for filename in os.listdir(class_path):
                if filename.lower().endswith(image_extensions):
                    filepath = os.path.join(class_path, filename)
                    # Almacenar (filepath, one_hot_label)
                    self.data_index.append((filepath, one_hot_label))
                    
                    # --- ¡CORRECCIÓN AÑADIDA AQUÍ! ---
                    # Almacenar el índice entero (0, 1, 2...)
                    self.targets.append(class_index)
                    # --- FIN DE LA CORRECCIÓN ---

        print(f"Total de imágenes indexadas: {len(self.data_index)}")

    def __len__(self) -> int:
        """Devuelve el número total de items (imágenes) en el dataset."""
        return len(self.data_index)

    def __getitem__(self, idx: int) -> Tuple[Any, np.ndarray]:
        """
        Recupera la imagen y su etiqueta one-hot correspondiente.
        Aplica transformaciones si se proporcionan.
        """
        if idx >= len(self.data_index) or idx < 0:
            raise IndexError("Índice fuera de rango")

        filepath, label_vector = self.data_index[idx]

        # 1. Cargar la imagen con PIL
        try:
            image = Image.open(filepath).convert('RGB')
        except Exception as e:
            print(f"Error al cargar la imagen {filepath}: {e}")
            raise

        # 2. Aplicar transformaciones (ej. ToTensor, Normalize)
        if self.transform:
            image = self.transform(image)

        # Devuelve la imagen transformada y el vector one-hot
        return image, label_vector

In [None]:
from sklearn.model_selection import train_test_split

# ---------------------------------------------------------------
# 2. Un NUEVO Dataset Wrapper (más simple)
# ---------------------------------------------------------------
class PreSplitDataset(Dataset):
    """
    Un Dataset que acepta una lista de datos (filepath, label) 
    pre-dividida en su constructor.
    """
    def __init__(self, data_list: List[Tuple[str, np.ndarray]], transform: Any = None):
        self.data_list = data_list
        self.transform = transform

    def __len__(self) -> int:
        return len(self.data_list)

    def __getitem__(self, idx: int) -> Tuple[Any, np.ndarray]:
        from PIL import Image
        
        # Obtener el filepath y la etiqueta de la lista
        filepath, label_vector = self.data_list[idx]

        # Cargar la imagen
        try:
            image = Image.open(filepath).convert('RGB')
        except Exception as e:
            print(f"Error loading image {filepath}: {e}")
            raise
            
        # Aplicar transformaciones
        if self.transform:
            image = self.transform(image)
            
        return image, label_vector

# ---------------------------------------------------------------
# 3. Configuración y Proceso de División
# ---------------------------------------------------------------
# --- Configuración ---
dataset_root = "/lustre/proyectos/p032/datasets/images/3kvasir"
BATCH_SIZE = 64
SEED = 42

# Definir los ratios
TRAIN_RATIO = 0.70
VAL_RATIO = 0.15
TEST_RATIO = 0.15 # (debe sumar 1.0)

# Transformaciones
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                            std=[0.229, 0.224, 0.225])
])

# --- 1. Cargar el dataset COMPLETO ---
print("Cargando el dataset completo para indexar...")
# (Necesitamos la clase 'ImageDatasetWrapper' original para esto)
# (He añadido .targets a la clase para que esto funcione)
full_dataset = ImageDatasetWrapper(root_dir=dataset_root)

# Extraer los datos y las etiquetas para sklearn
# data_index es List[Tuple[str, np.ndarray]]
# targets es List[int] (ej. 0, 1, 2, 0, 1...)
all_data = full_dataset.data_index 
all_targets = full_dataset.targets 

if len(all_data) == 0:
    raise RuntimeError("Error: No se encontraron datos en el dataset.")

print(f"Total de imágenes encontradas: {len(all_data)}")

# --- 2. Primera División (Train+Val vs Test) ---
# Dividimos el 85% para (train+val) y el 15% para test
print("Realizando primera división (estratificada)...")
train_val_data, test_data, train_val_targets, test_targets = train_test_split(
    all_data,
    all_targets,
    test_size=TEST_RATIO,
    stratify=all_targets, # ¡La clave es esta!
    random_state=SEED
)

# --- 3. Segunda División (Train vs Val) ---
# Dividimos (train+val) en train y val
# El ratio debe recalcularse: VAL_RATIO / (TRAIN_RATIO + VAL_RATIO)
val_split_ratio = VAL_RATIO / (TRAIN_RATIO + VAL_RATIO)

print("Realizando segunda división (estratificada)...")
train_data, val_data, train_targets, val_targets = train_test_split(
    train_val_data,
    train_val_targets,
    test_size=val_split_ratio,
    stratify=train_val_targets, # Estratificar de nuevo
    random_state=SEED
)

print("\n--- ¡División completada! ---")
print(f"Total:      {len(all_data)}")
print(f"Set Train:  {len(train_data)}")
print(f"Set Val:    {len(val_data)}")
print(f"Set Test:   {len(test_data)}")

# --- 4. Crear los Datasets y DataLoaders ---

# Aplicar la transformación a cada set
train_dataset = PreSplitDataset(train_data, transform=transform)
val_dataset = PreSplitDataset(val_data, transform=transform)
test_dataset = PreSplitDataset(test_data, transform=transform)

# Crear los DataLoaders
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=4)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False, num_workers=4)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False, num_workers=4)

print("\nDataLoaders estratificados (train, val, test) creados.")

# --- 5. (Opcional) Verificar la distribución de clases ---
print("\nVerificando distribución (ejemplo):")

def get_class_counts(targets_list):
    counts = np.bincount(targets_list)
    return [f"{count/len(targets_list)*100:.2f}%" for count in counts]
    
print(f"  Train: {get_class_counts(train_targets)}")
print(f"  Val:   {get_class_counts(val_targets)}")
print(f"  Test:  {get_class_counts(test_targets)}")


Cargando el dataset completo para indexar...
Escaneando directorio: /lustre/proyectos/p032/datasets/images/3kvasir
Se encontraron 3 clases: ['normal-cecum', 'normal-pylorus', 'normal-z-line']
Total de imágenes indexadas: 1500
Total de imágenes encontradas: 1500
Realizando primera división (estratificada)...
Realizando segunda división (estratificada)...

--- ¡División completada! ---
Total:      1500
Set Train:  1049
Set Val:    226
Set Test:   225

DataLoaders estratificados (train, val, test) creados.

Verificando distribución (ejemplo):
  Train: ['33.37%', '33.37%', '33.27%']
  Val:   ['33.19%', '33.19%', '33.63%']
  Test:  ['33.33%', '33.33%', '33.33%']




In [None]:
# --- 1. CONFIGURACIÓN INICIAL ---
# ==========================================================
# PATH_MODELO_SSL = "/lustre/proyectos/p032/models/multi_pretext_model2.ckpt" # No se usa
# MODEL_PATH = "/lustre/home/opacheco/MEDA_Challenge/models/221025MG_backbone.ssl.pth" # No se usa

# ¿Cuántas clases tiene tu dataset de PRUEBA?
NUM_CLASES = 3 # Esto sigue siendo correcto para tu 3kvasir

# Parámetros (¡Importante usar los mismos!)
BATCH_SIZE = 64
EPOCHS_DE_PRUEBA = 10
LEARNING_RATE = 0.001 # Este LR se usó para el Linear Probe, ¡mantenerlo!
# JIGSAW_N = 2 # No aplica aquí
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(f"Usando dispositivo: {DEVICE}")
print(f"Número de clases: {NUM_CLASES}")