#### Imports

In [1]:
import cv2
from pathlib import Path
from omegaconf import OmegaConf
import torch
import numpy as np
import wandb
from hydra import initialize, compose
import pytorch_lightning as pl
from pytorch_lightning.loggers import WandbLogger
from pytorch_lightning.callbacks import ModelCheckpoint, EarlyStopping
from torch import nn
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from torchvision import transforms
import wandb
from datetime import datetime
import matplotlib.pyplot as plt 


### Se toman las 4 carpetas (cable, capsule, screw y transistor) y se separa su informaci√≥n de testing training y se juntan en un solo dataset, igualmente guardando las etiquetas y se setea el tama√±o de cada imagen en 128x128 como se indica en el documento

In [None]:
# Configuraci√≥n
DATASETS = ['cable', 'capsule', 'screw', 'transistor']
BASE_PATH = Path('../TareaAutoEncoders')
OUTPUT_PATH = BASE_PATH / 'DATASET_128x128'
IMAGE_SIZE = (128, 128)

# Crear estructura de salida (carpetas planas)
for split in ['train', 'test', 'ground_truth']:
    (OUTPUT_PATH / split).mkdir(parents=True, exist_ok=True)

def process_and_save(src_path: Path, dest_dir: Path, prefix: str, is_mask=False):
    """Lee, redimensiona y guarda. Si is_mask usa INTER_NEAREST."""
    try:
        img = cv2.imread(str(src_path), cv2.IMREAD_UNCHANGED)
        if img is None:
            print(f"No se pudo leer: {src_path}")
            return False
        interp = cv2.INTER_NEAREST if is_mask else cv2.INTER_AREA
        resized = cv2.resize(img, IMAGE_SIZE, interpolation=interp)
        dest = dest_dir / f"{prefix}_{src_path.stem}{src_path.suffix}"
        cv2.imwrite(str(dest), resized)
        return True
    except Exception as e:
        print(f"Error con {src_path}: {e}")
        return False

# Procesar datasets
for dataset in DATASETS:
    base = BASE_PATH / dataset

    # train -> normalmente s√≥lo 'good' en estos datasets
    train_dir = base / 'train'
    if train_dir.exists():
        for cls in train_dir.iterdir():
            if not cls.is_dir(): 
                continue
            for img in cls.glob('*.*'):
                prefix = f"{dataset}_train_{cls.name}"
                process_and_save(img, OUTPUT_PATH / 'train', prefix, is_mask=False)

    # test -> incluir good y defectos
    test_dir = base / 'test'
    if test_dir.exists():
        for cls in test_dir.iterdir():
            if not cls.is_dir():
                continue
            for img in cls.glob('*.*'):
                prefix = f"{dataset}_test_{cls.name}"
                process_and_save(img, OUTPUT_PATH / 'test', prefix, is_mask=False)

    # ground_truth -> m√°scaras (usar nearest)
    gt_dir = base / 'ground_truth'
    if gt_dir.exists():
        for cls in gt_dir.iterdir():
            if not cls.is_dir():
                continue
            for img in cls.glob('*.*'):
                prefix = f"{dataset}_gt_{cls.name}"
                process_and_save(img, OUTPUT_PATH / 'ground_truth', prefix, is_mask=True)


## Configuraci√≥n de los archivos Hydra

### ¬øPor qu√©?
La librer√≠a Hydra permite establecer las configuraciones que va a tener la ejecuci√≥n del modelo, lo cual permite una forma eficaz de cambiar los par√°metros con los que ser√° entrenado el mismo sin tener que hacer variaciones en los par√°metros del c√≥digo

In [2]:
# Crear estructura base
conf_path = Path("conf")
conf_path.mkdir(exist_ok=True)

print("Directorio conf/ creado")

Directorio conf/ creado


In [3]:
# Celda 2: Crear carpetas necesarias
subdirs = ["model", "trainer", "logger", "loss", "optimizer"]
for subdir in subdirs:
    (conf_path / subdir).mkdir(exist_ok=True)

print("Subdirectorios creados:")
for subdir in subdirs:
    print(f"   - conf/{subdir}/")

Subdirectorios creados:
   - conf/model/
   - conf/trainer/
   - conf/logger/
   - conf/loss/
   - conf/optimizer/


### Solicitudes del enunciado:

A como estaba solicitado en el enunciado, se crean diferentes sets de configuraciones .yaml que ser√°n guardadas en la carpeta conf para su posterior uso


In [4]:
# Celda: Crear variaciones de configuraci√≥n para experimentos
# Variaci√≥n 1: Latent dim peque√±o
latent_small_yaml = """name: autoencoder_latent_small
in_channels: 3
hidden_dims: [32, 64, 128, 256]
latent_dim: 128
use_batch_norm: true
dropout_rate: 0.0
"""

with open("conf/model/autoencoder_latent_small.yaml", "w") as f:
    f.write(latent_small_yaml)

# Variaci√≥n 2: Latent dim grande
latent_large_yaml = """name: autoencoder_latent_large
in_channels: 3
hidden_dims: [32, 64, 128, 256]
latent_dim: 1024
use_batch_norm: true
dropout_rate: 0.0
"""

with open("conf/model/autoencoder_latent_large.yaml", "w") as f:
    f.write(latent_large_yaml)

print("Variaciones de modelo creadas:")
print("   - autoencoder_latent_small (128)")
print("   - autoenceoder_latent_large (1024)")

Variaciones de modelo creadas:
   - autoencoder_latent_small (128)
   - autoenceoder_latent_large (1024)


In [5]:
# Crear conf/config.yaml (configuraci√≥n principal)
config_yaml = """defaults:
  - model: autoencoder
  - trainer: default
  - logger: wandb
  - loss: l2
  - optimizer: adam_mid

seed: 42

data:
  data_dir: 'DATASET_128x128'
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15

callbacks:
  monitor: "val/loss"
  mode: "min"
  filename: "{epoch:02d}-{val/loss:.4f}"
  save_top_k: 3

experiment:
  name: "default_experiment"
  description: "Default autoencoder experiment"
"""

with open("conf/config.yaml", "w") as f:
    f.write(config_yaml)

print("conf/config.yaml creado")

conf/config.yaml creado


In [6]:
# Crear modelos - conf/model/autoencoder.yaml
autoencoder_yaml = """name: autoencoder
in_channels: 3
hidden_dims: [32, 64, 128, 256]
latent_dim: 512
use_batch_norm: true
dropout_rate: 0.0
"""

with open("conf/model/autoencoder.yaml", "w") as f:
    f.write(autoencoder_yaml)

print("conf/model/autoencoder.yaml creado")

conf/model/autoencoder.yaml creado


In [7]:
# Crear modelos - conf/model/unet.yaml
unet_yaml = """name: unet
in_channels: 3
base_channels: 32
depth: 4
use_batch_norm: true
dropout_rate: 0.0
"""

with open("conf/model/unet.yaml", "w") as f:
    f.write(unet_yaml)

print("conf/model/unet.yaml creado")

conf/model/unet.yaml creado


In [8]:
# Variaciones de autoencoder con latent_dim peque√±o
autoencoder_small_yaml = """name: autoencoder_small
in_channels: 3
hidden_dims: [32, 64, 128]
latent_dim: 128
use_batch_norm: true
dropout_rate: 0.0
"""

with open("conf/model/autoencoder_small.yaml", "w") as f:
    f.write(autoencoder_small_yaml)

print("conf/model/autoencoder_small.yaml creado (latent_dim: 128)")

conf/model/autoencoder_small.yaml creado (latent_dim: 128)


In [9]:
# Variaciones de autoencoder con latent_dim grande
autoencoder_large_yaml = """name: autoencoder_large
in_channels: 3
hidden_dims: [32, 64, 128, 256, 512]
latent_dim: 1024
use_batch_norm: true
dropout_rate: 0.1
"""

with open("conf/model/autoencoder_large.yaml", "w") as f:
    f.write(autoencoder_large_yaml)

print("conf/model/autoencoder_large.yaml creado (latent_dim: 1024)")

conf/model/autoencoder_large.yaml creado (latent_dim: 1024)


In [10]:
# Funciones de p√©rdida - L1
l1_yaml = """name: l1
type: L1Loss
weight: 1.0
"""

with open("conf/loss/l1.yaml", "w") as f:
    f.write(l1_yaml)

print("conf/loss/l1.yaml creado")

conf/loss/l1.yaml creado


In [11]:
# Funciones de p√©rdida - L2 (MSE)
l2_yaml = """name: l2
type: MSELoss
weight: 1.0
"""

with open("conf/loss/l2.yaml", "w") as f:
    f.write(l2_yaml)

print("conf/loss/l2.yaml creado")

conf/loss/l2.yaml creado


In [12]:
# Funciones de p√©rdida - SSIM
ssim_yaml = """name: ssim
type: SSIMLoss
weight: 1.0
window_size: 11
sigma: 1.5
data_range: 1.0
"""

with open("conf/loss/ssim.yaml", "w") as f:
    f.write(ssim_yaml)

print("conf/loss/ssim.yaml creado")

conf/loss/ssim.yaml creado


In [13]:
# Funciones de p√©rdida - SSIM + L1
ssim_l1_yaml = """name: ssim_l1
type: SSIMLoss_L1
weight_ssim: 0.5
weight_l1: 0.5
window_size: 11
sigma: 1.5
data_range: 1.0
"""

with open("conf/loss/ssim_l1.yaml", "w") as f:
    f.write(ssim_l1_yaml)

print("conf/loss/ssim_l1.yaml creado")

conf/loss/ssim_l1.yaml creado


In [14]:
# Trainer - conf/trainer/default.yaml
trainer_yaml = """max_epochs: 20
gpus: 1
precision: 32
deterministic: true
check_val_every_n_epoch: 1
log_every_n_steps: 10
enable_model_summary: true
gradient_clip_val: 0.0
enable_progress_bar: true
"""

with open("conf/trainer/default.yaml", "w") as f:
    f.write(trainer_yaml)

print("conf/trainer/default.yaml creado")

conf/trainer/default.yaml creado


In [15]:
# Logger - conf/logger/wandb.yaml
wandb_yaml = """project: ae_experiments
entity: null
log_model: false
offline: false
tags: []
"""

with open("conf/logger/wandb.yaml", "w") as f:
    f.write(wandb_yaml)

print("conf/logger/wandb.yaml creado")

conf/logger/wandb.yaml creado


In [16]:
# Optimizer - Adam con LR bajo
adam_low_yaml = """name: adam_low
type: Adam
lr: 1e-4
weight_decay: 0.0
betas: [0.9, 0.999]
"""

with open("conf/optimizer/adam_low.yaml", "w") as f:
    f.write(adam_low_yaml)

print("conf/optimizer/adam_low.yaml creado (lr: 1e-4)")

conf/optimizer/adam_low.yaml creado (lr: 1e-4)


In [17]:
# Optimizer - Adam con LR medio
adam_mid_yaml = """name: adam_mid
type: Adam
lr: 1e-3
weight_decay: 0.0
betas: [0.9, 0.999]
"""

with open("conf/optimizer/adam_mid.yaml", "w") as f:
    f.write(adam_mid_yaml)

print("conf/optimizer/adam_mid.yaml creado (lr: 1e-3)")

conf/optimizer/adam_mid.yaml creado (lr: 1e-3)


In [18]:
# Optimizer - Adam con LR alto
adam_high_yaml = """name: adam_high
type: Adam
lr: 5e-3
weight_decay: 1e-5
betas: [0.9, 0.999]
"""

with open("conf/optimizer/adam_high.yaml", "w") as f:
    f.write(adam_high_yaml)

print("conf/optimizer/adam_high.yaml creado (lr: 5e-3)")

conf/optimizer/adam_high.yaml creado (lr: 5e-3)


## Definici√≥n del DataModule y modelo base (Autoencoder cl√°sico con Hydra + PyTorch Lightning)


### Definici√≥n del Dataset para DATASET_128x128

En esta secci√≥n definimos una clase `MVTecDataset` basada en `torch.utils.data.Dataset`
que carga las im√°genes ya preprocesadas a tama√±o **128√ó128**.

Las im√°genes se cargan en formato RGB y se convierten a tensores normalizados en \[0, 1].
Este dataset se utilizar√° dentro del `LightningDataModule` para separar train/val/test.


In [19]:
class MVTecDataset(Dataset):

    def __init__(self, root_dir, split="train", transform=None):
        super().__init__()
        self.root_dir = Path(root_dir)
        self.split = split
        self.transform = transform

        split_dir = self.root_dir / split
        exts = (".png", ".jpg", ".jpeg")

        self.image_paths = sorted(
            [p for p in split_dir.glob("*.*") if p.suffix.lower() in exts],
            key=lambda p: p.name
        )

        if len(self.image_paths) == 0:
            print(f"[WARNING] No se encontraron im√°genes en {split_dir}")

    def __len__(self):
        return len(self.image_paths)

    def __getitem__(self, idx):
        img_path = self.image_paths[idx]
        img = Image.open(img_path).convert("RGB")

        if self.transform is not None:
            img = self.transform(img)

        # Para autoencoder solo necesitamos la imagen (entrada = salida)
        return img


### LightningDataModule para MVTec

Para estructurar el flujo de datos usando PyTorch Lightning, se define un
`LightningDataModule` llamado `MVTecDataModule`.

Este m√≥dulo:

- Recibe los hiperpar√°metros desde la configuraci√≥n (`cfg.data`):
  - `data_dir`, `batch_size`, `num_workers`, `validation_split`.
- Construye el `Dataset` de entrenamiento completo y lo separa en:
  - subconjunto de **train**
  - subconjunto de **validation** (usando `validation_split`).
- Crea el `Dataset` de **test**.
- Expone los `DataLoader`:
  - `train_dataloader()`
  - `val_dataloader()`
  - `test_dataloader()`

De esta forma, el mismo `DataModule` se reutiliza para todos los modelos y
experimentos (distintas funciones de p√©rdida, arquitecturas, etc.).


In [20]:
class MVTecDataModule(pl.LightningDataModule):
    def __init__(
        self,
        data_dir,
        batch_size=32,
        num_workers=2,
        val_split=0.15,
    ):
        super().__init__()
        self.data_dir = data_dir
        self.batch_size = batch_size
        self.num_workers = num_workers
        self.val_split = val_split

        # Transformaci√≥n b√°sica: convertir a tensor en [0,1]
        self.transform = transforms.ToTensor()

    def setup(self, stage=None):
        # Dataset completo de entrenamiento (despu√©s se divide en train/val)
        full_train = MVTecDataset(
            root_dir=self.data_dir,
            split="train",
            transform=self.transform,
        )

        n_total = len(full_train)
        n_val = int(self.val_split * n_total)
        n_train = n_total - n_val

        self.train_set, self.val_set = torch.utils.data.random_split(
            full_train,
            [n_train, n_val],
            generator=torch.Generator().manual_seed(42),
        )

        # Dataset de test
        self.test_set = MVTecDataset(
            root_dir=self.data_dir,
            split="test",
            transform=self.transform,
        )

    def train_dataloader(self):
        return DataLoader(
            self.train_set,
            batch_size=self.batch_size,
            shuffle=True,
            num_workers=self.num_workers,
        )

    def val_dataloader(self):
        return DataLoader(
            self.val_set,
            batch_size=self.batch_size,
            shuffle=False,
            num_workers=self.num_workers,
        )

    def test_dataloader(self):
        return DataLoader(
            self.test_set,
            batch_size=self.batch_size,
            shuffle=False,
            num_workers=self.num_workers,
        )


### Construcci√≥n de funci√≥n de p√©rdida y optimizador desde Hydra

La configuraci√≥n de la tarea se maneja con Hydra. En particular:

- `conf/loss/*.yaml` define el tipo de funci√≥n de p√©rdida a usar
  (L1, L2, SSIM, SSIM + L1).
- `conf/optimizer/*.yaml` define el tipo de optimizador y sus hiperpar√°metros
  (por ejemplo, Adam con distintas tasas de aprendizaje).

Para desacoplar el modelo de estas decisiones, se implementan dos funciones:

- `build_loss(loss_cfg)`: a partir de `cfg.loss` devuelve un objeto de p√©rdida
  de PyTorch.
- `build_optimizer(optimizer_cfg, parameters)`: a partir de `cfg.optimizer`
  devuelve una instancia del optimizador apropiado.



In [21]:
def build_loss(loss_cfg): #Loss_cfg es el diccionario generado por Hydra a partir de las configuraciones .yaml
    """
    Construye la funci√≥n de p√©rdida a partir de cfg.loss.
    Por ahora se implementan L1 y L2 (MSE).
    """
    loss_type = loss_cfg.type # Se asignan los valores ajustados a la configuracion

    if loss_type == "L1Loss":
        return nn.L1Loss()
    elif loss_type == "MSELoss":
        return nn.MSELoss()
    else:
        # Aqu√≠ luego se agregar√°n SSIM y SSIM+L1
        raise NotImplementedError(f"P√©rdida '{loss_type}' a√∫n no implementada en este notebook.")
    

def build_optimizer(optimizer_cfg, parameters):
    """
    Construye el optimizador a partir de cfg.optimizer.
    Actualmente soporta Adam con lr configurable.
    """
    opt_type = optimizer_cfg.type

    if opt_type == "Adam":
        return torch.optim.Adam(
            parameters,
            lr=optimizer_cfg.lr,
            weight_decay=optimizer_cfg.weight_decay,
            betas=tuple(optimizer_cfg.betas),
        )
    else:
        raise NotImplementedError(f"Optimizer '{opt_type}' no implementado.")


### Modelo base: Autoencoder cl√°sico con PyTorch Lightning

En esta secci√≥n se define el modelo de **autoencoder cl√°sico** como un
`LightningModule` llamado `LitAutoencoder`.

Este m√≥dulo:

- Lee su configuraci√≥n desde `cfg.model`:
  - `in_channels`
  - `hidden_dims` (lista de canales intermedios)
  - `latent_dim`
- Construye un **encoder** convolucional que reduce la resoluci√≥n de la imagen.
- Aplica capas totalmente conectadas para:
  - Proyectar la salida del encoder a un espacio latente de dimensi√≥n `latent_dim`.
  - Reconstruir desde el espacio latente a la forma intermedia del decoder.
- Construye un **decoder** con convoluciones transpuestas para recuperar
  una imagen de tama√±o 128√ó128 y 3 canales.
- Utiliza la funci√≥n de p√©rdida definida en `cfg.loss`.
- Utiliza el optimizador definido en `cfg.optimizer`.

Este modelo ser√° el primero en usarse para los experimentos de la tarea
(con distintas funciones de p√©rdida). 


In [22]:
class LitAutoencoder(pl.LightningModule):
    def __init__(self, model_cfg, loss_cfg, optimizer_cfg, image_size=128):
        super().__init__()
        # Guardamos la config de modelo como hyperparams (para reproducibilidad)
        self.save_hyperparameters(OmegaConf.to_container(model_cfg, resolve=True))

        self.model_cfg = model_cfg
        self.loss_cfg = loss_cfg
        self.optimizer_cfg = optimizer_cfg
        self.image_size = image_size

        in_channels = model_cfg.in_channels
        hidden_dims = list(model_cfg.hidden_dims)
        latent_dim = model_cfg.latent_dim

        # Encoder: secuencia de convoluciones con stride 2
        modules = []
        channels = in_channels
        size = image_size
        for h in hidden_dims:
            modules.append(nn.Conv2d(channels, h, kernel_size=3, stride=2, padding=1))
            modules.append(nn.ReLU())
            channels = h
            size = size // 2  # cada conv con stride 2 reduce la mitad

        self.encoder = nn.Sequential(*modules)
        self.enc_out_channels = channels
        self.enc_out_size = size

        self.flatten = nn.Flatten()
        self.fc_mu = nn.Linear(channels * size * size, latent_dim)
        self.fc_decode = nn.Linear(latent_dim, channels * size * size)

        # Decoder: conv transpuestas para volver a 3x128x128
        modules = []
        hidden_dims_rev = list(hidden_dims[::-1])

        for i in range(len(hidden_dims_rev) - 1):
            modules.append(
                nn.ConvTranspose2d(
                    hidden_dims_rev[i],
                    hidden_dims_rev[i + 1],
                    kernel_size=4,
                    stride=2,
                    padding=1,
                )
            )
            modules.append(nn.ReLU())

        modules.append(
            nn.ConvTranspose2d(
                hidden_dims_rev[-1],
                in_channels,
                kernel_size=4,
                stride=2,
                padding=1,
            )
        )
        modules.append(nn.Sigmoid())  # salida en [0,1]

        self.decoder = nn.Sequential(*modules)

        # P√©rdida
        self.criterion = build_loss(loss_cfg)

    def forward(self, x):
        x_enc = self.encoder(x)
        x_flat = self.flatten(x_enc)
        z = self.fc_mu(x_flat)
        x_dec_flat = self.fc_decode(z)
        x_dec = x_dec_flat.view(
            x.shape[0],
            self.enc_out_channels,
            self.enc_out_size,
            self.enc_out_size,
        )
        x_hat = self.decoder(x_dec)
        return x_hat

    def _shared_step(self, batch, stage):
        x = batch
        x_hat = self(x)
        loss = self.criterion(x_hat, x)
        self.log(f"{stage}_loss", loss, prog_bar=True)
        return loss

    def training_step(self, batch, batch_idx):
        return self._shared_step(batch, "train")

    def validation_step(self, batch, batch_idx):
        self._shared_step(batch, "val")

    def test_step(self, batch, batch_idx):
        self._shared_step(batch, "test")

    def configure_optimizers(self):
        optimizer = build_optimizer(self.optimizer_cfg, self.parameters())
        return optimizer


### Funci√≥n principal de entrenamiento con Hydra y WandB

Finalmente, se define una funci√≥n `train_autoencoder_with_hydra()` que
integra todos los componentes anteriores:

1. Inicializa Hydra y carga la configuraci√≥n desde `conf/config.yaml`.
2. Construye el `MVTecDataModule` usando `cfg.data`.
3. Construye el `LitAutoencoder` usando:
   - `cfg.model` (arquitectura del autoencoder cl√°sico),
   - `cfg.loss` (funci√≥n de p√©rdida),
   - `cfg.optimizer` (optimizador).
4. Inicializa un `WandbLogger` con los par√°metros de `cfg.logger`.
5. Crea un `Trainer` de PyTorch Lightning con los par√°metros definidos en `cfg.trainer`.
6. Llama a `trainer.fit(model, datamodule=dm)` para entrenar el modelo.



In [23]:
def train_autoencoder_with_hydra():
    """
    Funci√≥n de entrenamiento principal.
    Usa Hydra para cargar conf/config.yaml y los subarchivos.
    """
    with initialize(config_path="conf", version_base=None):
        cfg = compose(config_name="config")

    print("Configuraci√≥n cargada:")
    print(OmegaConf.to_yaml(cfg))

    # DataModule
    dm = MVTecDataModule(
        data_dir=cfg.data.data_dir,
        batch_size=cfg.data.batch_size,
        num_workers=cfg.data.num_workers,
        val_split=cfg.data.validation_split,
    )

    # Modelo (autoencoder cl√°sico)
    model = LitAutoencoder(
        model_cfg=cfg.model,
        loss_cfg=cfg.loss,
        optimizer_cfg=cfg.optimizer,
        image_size=cfg.data.image_size,
    )

    # Logger de WandB
    wandb_logger = WandbLogger(
        project=cfg.logger.project,
        entity=cfg.logger.entity,
        log_model=cfg.logger.log_model,
    )

    # Trainer a partir de cfg.trainer
    trainer = pl.Trainer(
        max_epochs=cfg.trainer.max_epochs,
        log_every_n_steps=cfg.trainer.log_every_n_steps,
        deterministic=cfg.trainer.deterministic,
        enable_model_summary=cfg.trainer.enable_model_summary,
        enable_progress_bar=cfg.trainer.enable_progress_bar,
        logger=wandb_logger,
    )

    trainer.fit(model, datamodule=dm)


### Configuraciones de funciones de p√©rdida (Hydra)

Se requiere evaluar distintas funciones de p√©rdida para el autoencoder:

- **L1**  
- **L2 (MSE)**  
- **SSIM**  
- **SSIM + L1**

Para permitir cambiar entre estas variantes desde Hydra sin modificar c√≥digo,
se definen cuatro archivos de configuraci√≥n en `conf/loss/`:

- `l1.yaml`
- `l2.yaml`
- `ssim.yaml`
- `ssim_l1.yaml`

Cada uno especifica el tipo de p√©rdida a usar (`type`) y, en el caso de SSIM,
algunos hiperpar√°metros adicionales.


In [24]:
Path("conf/loss").mkdir(parents=True, exist_ok=True)

l1_yaml = """type: L1Loss
name: "L1"
"""

l2_yaml = """type: MSELoss
name: "L2"
"""

ssim_yaml = """type: SSIM
name: "SSIM"
window_size: 11
sigma: 1.5
data_range: 1.0
"""

ssim_l1_yaml = """type: SSIM_L1
name: "SSIM+L1"
window_size: 11
sigma: 1.5
data_range: 1.0
l1_weight: 0.1
"""

with open("conf/loss/l1.yaml", "w") as f:
    f.write(l1_yaml)

with open("conf/loss/l2.yaml", "w") as f:
    f.write(l2_yaml)

with open("conf/loss/ssim.yaml", "w") as f:
    f.write(ssim_yaml)

with open("conf/loss/ssim_l1.yaml", "w") as f:
    f.write(ssim_l1_yaml)

print("Archivos de configuraci√≥n de p√©rdidas creados/actualizados en conf/loss/")


Archivos de configuraci√≥n de p√©rdidas creados/actualizados en conf/loss/


### Implementaci√≥n de la p√©rdida SSIM

La m√©trica **Structural Similarity Index (SSIM)** mide la similitud estructural
entre dos im√°genes. A diferencia de L1/L2, que comparan p√≠xel a p√≠xel,
SSIM toma en cuenta:

- luminancia,
- contraste,
- estructura local.

Para usar SSIM como p√©rdida, se suele minimizar `1 - SSIM(x, y)`, donde `x` es
la imagen original y `y` la reconstrucci√≥n del autoencoder.

A continuaci√≥n se define una implementaci√≥n en PyTorch que:

- Convierte la f√≥rmula de SSIM a operaciones de convoluci√≥n 2D con un kernel
  gaussiano.
- Calcula SSIM de forma local y luego promedia el resultado.
- Devuelve `1 - SSIM` como valor de p√©rdida.


In [25]:

class SSIMLoss(nn.Module):
    def __init__(
        self,
        window_size=11,
        sigma=1.5,
        data_range=1.0,
        channel=3,
        K1=0.01,
        K2=0.03,
    ):
        """
        Implementaci√≥n de SSIM como p√©rdida: loss = 1 - SSIM.
        Asume im√°genes en rango [0, data_range] y 3 canales por defecto.
        """
        super().__init__()
        self.window_size = window_size
        self.sigma = sigma
        self.data_range = data_range
        self.channel = channel
        self.K1 = K1
        self.K2 = K2

        self.register_buffer("window", self._create_window(window_size, sigma, channel))

    def _gaussian(self, window_size, sigma):
        gauss = torch.tensor(
            [
                (-(x - window_size // 2) ** 2) / float(2 * sigma**2)
                for x in range(window_size)
            ]
        )
        gauss = torch.exp(gauss)
        return gauss / gauss.sum()

    def _create_window(self, window_size, sigma, channel):
        _1d_window = self._gaussian(window_size, sigma).unsqueeze(1)
        _2d_window = _1d_window @ _1d_window.t()  # producto externo
        _2d_window = _2d_window.float().unsqueeze(0).unsqueeze(0)  # [1,1,H,W]
        window = _2d_window.expand(channel, 1, window_size, window_size).contiguous()
        return window

    def forward(self, x, y):
        """
        x, y: tensores [B, C, H, W] en rango [0, data_range]
        Devuelve 1 - SSIM promedio en el batch.
        """
        if x.size(1) != self.channel or y.size(1) != self.channel:
            # Simplemente adaptamos el canal si es distinto (por si acaso)
            self.channel = x.size(1)
            self.window = self._create_window(self.window_size, self.sigma, self.channel).to(x.device)

        # Constantes de SSIM
        C1 = (self.K1 * self.data_range) ** 2
        C2 = (self.K2 * self.data_range) ** 2

        # Media local
        mu_x = torch.nn.functional.conv2d(
            x, self.window, padding=self.window_size // 2, groups=self.channel
        )
        mu_y = torch.nn.functional.conv2d(
            y, self.window, padding=self.window_size // 2, groups=self.channel
        )

        mu_x2 = mu_x * mu_x
        mu_y2 = mu_y * mu_y
        mu_xy = mu_x * mu_y

        # Varianzas y covarianza
        sigma_x2 = torch.nn.functional.conv2d(
            x * x, self.window, padding=self.window_size // 2, groups=self.channel
        ) - mu_x2
        sigma_y2 = torch.nn.functional.conv2d(
            y * y, self.window, padding=self.window_size // 2, groups=self.channel
        ) - mu_y2
        sigma_xy = torch.nn.functional.conv2d(
            x * y, self.window, padding=self.window_size // 2, groups=self.channel
        ) - mu_xy

        # F√≥rmula de SSIM
        num = (2 * mu_xy + C1) * (2 * sigma_xy + C2)
        den = (mu_x2 + mu_y2 + C1) * (sigma_x2 + sigma_y2 + C2)

        ssim_map = num / (den + 1e-8)
        ssim = ssim_map.mean()

        # P√©rdida = 1 - SSIM promedio
        loss = 1 - ssim
        return loss


### Actualizaci√≥n de `build_loss` para incluir SSIM y SSIM+L1

Con la clase `SSIMLoss` definida, se extiende la funci√≥n `build_loss` para
reconocer cuatro tipos de p√©rdida:

- `L1Loss`  ‚Üí L1 est√°ndar.
- `MSELoss` ‚Üí L2 (MSE).
- `SSIM`    ‚Üí `1 - SSIM(x, y)`.
- `SSIM_L1` ‚Üí combinaci√≥n lineal de SSIM y L1.


In [26]:
def build_loss(loss_cfg):
    """
    Construye la funci√≥n de p√©rdida a partir de cfg.loss.

    Soporta:
      - L1Loss
      - MSELoss
      - SSIM
      - SSIM_L1 (combinaci√≥n SSIM + L1)
    """
    loss_type = loss_cfg.type

    if loss_type == "L1Loss":
        return nn.L1Loss()

    elif loss_type == "MSELoss":
        return nn.MSELoss()

    elif loss_type == "SSIM":
        return SSIMLoss(
            window_size=loss_cfg.window_size,
            sigma=loss_cfg.sigma,
            data_range=loss_cfg.data_range,
            channel=3,  # nuestras im√°genes son RGB
        )

    elif loss_type == "SSIM_L1":
        ssim_loss = SSIMLoss(
            window_size=loss_cfg.window_size,
            sigma=loss_cfg.sigma,
            data_range=loss_cfg.data_range,
            channel=3,
        )
        l1 = nn.L1Loss()
        l1_weight = loss_cfg.l1_weight

        class SSIML1Combined(nn.Module):
            def __init__(self, ssim_loss, l1, l1_weight):
                super().__init__()
                self.ssim_loss = ssim_loss
                self.l1 = l1
                self.l1_weight = l1_weight

            def forward(self, x, y):
                loss_ssim = self.ssim_loss(x, y)        # 1 - SSIM
                loss_l1 = self.l1(x, y)
                return loss_ssim + self.l1_weight * loss_l1

        return SSIML1Combined(ssim_loss, l1, l1_weight)

    else:
        raise NotImplementedError(f"P√©rdida '{loss_type}' a√∫n no implementada.")


### Configuraci√≥n del modelo U-Net (Hydra)

Se requiere evaluar un autoencoder cl√°sico y un autoencoder tipo **U-Net**.

Para permitir seleccionar esta arquitectura desde Hydra sin modificar el c√≥digo,
se crea el archivo `conf/model/unet.yaml`, donde se definen sus par√°metros:

- `in_channels`: n√∫mero de canales de entrada (3 para RGB)
- `base_channels`: n√∫mero inicial de filtros del encoder
- `depth`: cantidad de niveles de downsampling / upsampling
- `latent_dim`: tama√±o del cuello (opcional)


In [27]:
Path("conf/model").mkdir(exist_ok=True)

unet_yaml = """in_channels: 3
base_channels: 32
depth: 4
latent_dim: 128
"""

with open("conf/model/unet.yaml", "w") as f:
    f.write(unet_yaml)

print("conf/model/unet.yaml creado")


conf/model/unet.yaml creado


### Implementaci√≥n del Autoencoder U-Net

Este modelo sigue una estructura t√≠pica de U-Net:

1. **Encoder**:
   - M√∫ltiples niveles de convoluciones + downsampling (stride 2).
   - Se almacenan caracter√≠sticas para las conexiones tipo "skip".

2. **Bottleneck**:
   - Capa completamente conectada para pasar al espacio latente.

3. **Decoder**:
   - ConvTransposed2D para upsampling sim√©trico.
   - Se concatenan los "skip connections" del encoder.

Este modelo debe:
- Usar la misma funci√≥n de p√©rdida configurada en `cfg.loss`
- Usar el mismo optimizador configurado en `cfg.optimizer`
- Ser llamado desde Hydra con:
  `defaults: - model: unet`


In [28]:
class UNetEncoderBlock(nn.Module):
    def _init_(self, in_ch, out_ch):
        super()._init_()
        self.block = nn.Sequential(
            nn.Conv2d(in_ch, out_ch, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(out_ch, out_ch, 3, padding=1),
            nn.ReLU(),
        )

    def forward(self, x):
        return self.block(x)


class UNetDecoderBlock(nn.Module):
    def _init_(self, in_ch, out_ch):
        """
        in_ch: n√∫mero de canales de entrada al bloque (antes del upsample)
        out_ch: n√∫mero de canales de salida deseados despu√©s del bloque
        Este bloque realiza el upsample internamente (ConvTranspose2d) y luego
        procesa la concatenaci√≥n con el skip connection.
        """
        super()._init_()
        # up transforma de in_ch -> out_ch (upsample)
        self.up = nn.ConvTranspose2d(in_ch, out_ch, kernel_size=2, stride=2)
        # luego se concatena con skip (out_ch + skip_ch), asumimos skip_ch == out_ch
        self.block = nn.Sequential(
            nn.Conv2d(out_ch * 2, out_ch, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(out_ch, out_ch, 3, padding=1),
            nn.ReLU(),
        )

    def forward(self, x, skip):
        x = self.up(x)
        x = torch.cat([x, skip], dim=1)
        return self.block(x)


class LitUNetAutoencoder(pl.LightningModule):
    def _init_(self, model_cfg, loss_cfg, optimizer_cfg):
        super()._init_()
        self.save_hyperparameters(OmegaConf.to_container(model_cfg, resolve=True))

        self.model_cfg = model_cfg
        self.loss_cfg = loss_cfg
        self.optimizer_cfg = optimizer_cfg

        base = model_cfg.base_channels
        depth = model_cfg.depth
        in_ch = model_cfg.in_channels

        # ----- Encoder -----
        self.enc_blocks = nn.ModuleList()
        self.downsamples = nn.ModuleList()
        ch = in_ch
        channels = []

        for d in range(depth):
            out_ch = base * (2 ** d)
            self.enc_blocks.append(UNetEncoderBlock(ch, out_ch))
            channels.append(out_ch)
            ch = out_ch
            self.downsamples.append(nn.Conv2d(out_ch, out_ch, kernel_size=2, stride=2))

        # Bottleneck
        self.bottleneck = UNetEncoderBlock(ch, ch * 2)

        # ----- Decoder -----
        # Nota: cada UNetDecoderBlock ya hace su propio upsampling internamente.
        # Guardamos los bloques decoders en orden inverso.
        self.dec_blocks = nn.ModuleList()
        ch = ch * 2  # canales salientes del bottleneck

        for d in reversed(range(depth)):
            out_ch = base * (2 ** d)
            # dec block espera in_ch = ch (canales actuales antes de up), out_ch = canales deseados despu√©s
            self.dec_blocks.append(UNetDecoderBlock(ch, out_ch))
            ch = out_ch

        # Output (3 canales)
        self.final_conv = nn.Conv2d(base, 3, kernel_size=1)
        self.activation = nn.Sigmoid()

        # Loss
        self.criterion = build_loss(loss_cfg)

    def forward(self, x):
        skips = []
        out = x

        # Encoder
        for enc, down in zip(self.enc_blocks, self.downsamples):
            out = enc(out)
            skips.append(out)
            out = down(out)

        # Bottleneck
        out = self.bottleneck(out)

        # Decoder
        # IMPORTANTE: aqu√≠ NO hacemos up(out) ni cat manualmente porque cada dec_block
        # hace el up + concat internamente. Solo llamamos a cada dec_block con (out, skip).
        for dec, skip in zip(self.dec_blocks, reversed(skips)):
            out = dec(out, skip)

        out = self.final_conv(out)
        return self.activation(out)

    def _shared_step(self, batch, stage):
        x = batch
        x_hat = self(x)
        loss = self.criterion(x_hat, x)
        self.log(f"{stage}_loss", loss, prog_bar=True)
        return loss

    def training_step(self, batch, batch_idx):
        return self._shared_step(batch, "train")

    def validation_step(self, batch, batch_idx):
        return self._shared_step(batch, "val")

    def test_step(self, batch, batch_idx):
        return self._shared_step(batch, "test")

    def configure_optimizers(self):
        return build_optimizer(self.optimizer_cfg, self.parameters())

### Funci√≥n de entrenamiento para soportar Autoencoder y U-Net

Se reescribe la funci√≥n `train_autoencoder_with_hydra()` para:

- Cargar la configuraci√≥n completa desde Hydra.
- Crear autom√°ticamente el DataModule.
- Instanciar el modelo seg√∫n `cfg.model`:
  - `autoencoder` ‚Üí `LitAutoencoder`
  - `unet` ‚Üí `LitUNetAutoencoder`
- Inicializar WandB.
- Crear un Trainer de Lightning.
- Entrenar el modelo.



In [None]:
def train_autoencoder_with_hydra():
    """
    Versi√≥n actualizada: soporta modelos 'autoencoder' y 'unet'.
    Utiliza Hydra + Lightning + WandB para ejecutar entrenamientos reproducibles.
    """

    # 1. Cargar configuraci√≥n completa desde Hydra
    with initialize(config_path="conf", version_base=None):
        cfg = compose(config_name="config")

    print("=========== CONFIGURACI√ìN CARGADA ===========")
    print(OmegaConf.to_yaml(cfg))
    print("==============================================")

    # 2. Crear DataModule con los par√°metros de cfg.data
    dm = MVTecDataModule(
        data_dir=cfg.data.data_dir,
        batch_size=cfg.data.batch_size,
        num_workers=cfg.data.num_workers,
        val_split=cfg.data.validation_split,
    )

    # 3. Instanciar modelo seg√∫n cfg.model
    model_type = cfg.model._target_ if "_target_" in cfg.model else None

    # Detectar cu√°l modelo estamos usando
    if "unet" in cfg.model.__dict__['_content'] or "unet" in str(cfg.model):
        print("Instanciando modelo: U-Net Autoencoder")
        model = LitUNetAutoencoder(
            model_cfg=cfg.model,
            loss_cfg=cfg.loss,
            optimizer_cfg=cfg.optimizer,
        )
    else:
        print("Instanciando modelo: Autoencoder cl√°sico")
        model = LitAutoencoder(
            model_cfg=cfg.model,
            loss_cfg=cfg.loss,
            optimizer_cfg=cfg.optimizer,
            image_size=cfg.data.image_size,
        )

    # 4. WandB Logger
    wandb_logger = WandbLogger(
        project=cfg.logger.project,
        entity=cfg.logger.entity,
        log_model=cfg.logger.log_model,
    )

    # 5. Trainer de Lightning con par√°metros de Hydra
    trainer = pl.Trainer(
        max_epochs=cfg.trainer.max_epochs,
        log_every_n_steps=cfg.trainer.log_every_n_steps,
        deterministic=cfg.trainer.deterministic,
        enable_model_summary=cfg.trainer.enable_model_summary,
        enable_progress_bar=cfg.trainer.enable_progress_bar,
        logger=wandb_logger,
    )

    # 6. Entrenamiento
    trainer.fit(model, datamodule=dm)

    print("Entrenamiento finalizado correctamente")

    return model, dm, cfg


## Experimentaci√≥n con WandB(Weight and Biases)

#### Proposito
      Este callback de PyTorch Lightning captura las p√©rdidas durante el entrenamiento y las visualiza al final

#### Hooks utilizados:
- on_train_epoch_end: Captura train_loss despu√©s de   cada √©poca
- on_validation_epoch_end: Captura val_loss despu√©s de cada validaci√≥n
- on_fit_end: Crea una gr√°fica matplotlib y la sube a Weights & Biases


#### Manejo de errores: 
Intenta .item() primero, luego float() para compatibilidad con diferentes versiones de PyTorch

In [30]:
class LossPlotCallback(pl.Callback):
    """Callback para graficar train/val loss al final del entrenamiento"""
    
    def __init__(self):
        super().__init__()
        self.train_losses = []
        self.val_losses = []
    
    def on_train_epoch_end(self, trainer, pl_module):
        """Guarda el train loss de cada epoch"""
        metrics = trainer.callback_metrics
        if 'train_loss' in metrics:
            try:
                self.train_losses.append(metrics['train_loss'].item())
            except Exception:
                self.train_losses.append(float(metrics['train_loss']))
    
    def on_validation_epoch_end(self, trainer, pl_module):
        """Guarda el val loss de cada epoch"""
        metrics = trainer.callback_metrics
        if 'val_loss' in metrics:
            try:
                self.val_losses.append(metrics['val_loss'].item())
            except Exception:
                self.val_losses.append(float(metrics['val_loss']))
    
    def on_fit_end(self, trainer, pl_module):
        """Grafica y loguea al final del entrenamiento"""
        if len(self.train_losses) == 0 or len(self.val_losses) == 0:
            return
        
        import matplotlib.pyplot as plt
        
        fig, ax = plt.subplots(figsize=(10, 6))
        epochs = range(1, len(self.train_losses) + 1)
        
        ax.plot(epochs, self.train_losses, label='Train Loss', marker='o', linewidth=2)
        ax.plot(epochs, self.val_losses, label='Val Loss', marker='s', linewidth=2)
        
        ax.set_xlabel('Epoch', fontsize=12)
        ax.set_ylabel('Loss', fontsize=12)
        ax.set_title('Training and Validation Loss', fontsize=14)
        ax.legend(fontsize=11)
        ax.grid(True, alpha=0.3)
        plt.tight_layout()
        
        # Loguear en WandB
        wandb.log({"loss_curve": wandb.Image(fig)})
        plt.close(fig)

## Callback para reconstrucci√≥n de im√°genes

### Explicaci√≥n:

- Prop√≥sito: Loguea comparaciones lado-a-lado de im√°genes originales vs reconstruidas durante validaci√≥n
- Estrategia de selecci√≥n: Intenta elegir 1 imagen de cada tipo de producto MVTec (cable, capsule, screw, transistor) para mostrar diversidad

### Proceso:
- Obtiene un batch del validation loader
- Intenta seleccionar muestras diversas por categor√≠a de producto
- Reconstruye las im√°genes usando el modelo (sin gradientes)
- Concatena original y reconstrucci√≥n horizontalmente
- Sube las im√°genes a WandB


In [None]:
class ImageReconstructionLogger(pl.Callback):
    """Callback para loguear reconstrucciones de im√°genes (elige muestras diversas por dataset)."""

    def __init__(self, num_images=4):
        super().__init__()
        self.num_images = num_images
        self.logged_count = 0

    def on_validation_epoch_end(self, trainer, pl_module):
        try:
            # Intentar obtener directamente un batch r√°pido (por compatibilidad)
            val_loader = trainer.datamodule.val_dataloader()
            batch = next(iter(val_loader))

            if isinstance(batch, (list, tuple)):
                batch_data = batch[0]
            else:
                batch_data = batch

            # DEBUG: mostrar forma del batch
            try:
                print(f"Batch shape: {getattr(batch_data, 'shape', None)}, necesito {self.num_images}")
            except Exception:
                pass

            # Intentar seleccionar muestras deterministas y diversas (una por dataset si es posible)
            try:
                val_subset = trainer.datamodule.val_set
                if val_subset is not None and hasattr(val_subset, "dataset"):
                    ds = val_subset.dataset  # MVTecDataset (full dataset antes del split)
                    indices = getattr(val_subset, "indices", None) or getattr(val_subset, "_indices", None)
                    if indices is not None and len(indices) > 0:
                        # Intentar escoger una muestra por cada dataset (cable, capsule, screw, transistor)
                        datasets_names = ['cable', 'capsule', 'screw', 'transistor']
                        chosen = []
                        seen = set()
                        for idx in indices:
                            name = ds.image_paths[idx].name.lower()
                            for d in datasets_names:
                                if d in name and d not in seen:
                                    chosen.append(idx)
                                    seen.add(d)
                                    break
                            if len(chosen) >= self.num_images:
                                break
                        # Si no conseguimos diversidad suficiente, usar los primeros √≠ndices del subset
                        if len(chosen) < self.num_images:
                            chosen = list(indices[: self.num_images])
                        sample_idx = chosen[: self.num_images]
                        sample_paths = [str(ds.image_paths[i]) for i in sample_idx]
                        print(" Rutas de validaci√≥n (muestras que se usar√°n):", sample_paths)

                        # Construir batch_data a partir de los paths seleccionados para evitar confusiones
                        batch_tensors = []
                        for p in sample_paths:
                            img = Image.open(p).convert("RGB")
                            if hasattr(ds, "transform") and ds.transform is not None:
                                t = ds.transform(img)
                            else:
                                t = transforms.ToTensor()(img)
                            batch_tensors.append(t.unsqueeze(0))
                        if len(batch_tensors) > 0:
                            batch_data = torch.cat(batch_tensors, dim=0).to(pl_module.device)
            except Exception as e:
                print(f"Warning selection diversity failed: {e}")

            # Limitar a num_images (por si vino de val_loader)
            batch_data = batch_data[: self.num_images].to(pl_module.device)

            with torch.no_grad():
                reconstructed = pl_module(batch_data)

            # Pasar a CPU / numpy y crear visualizaci√≥n
            batch_cpu = batch_data.cpu()
            reconstructed_cpu = reconstructed.cpu()

            original_imgs = batch_cpu.numpy().transpose(0, 2, 3, 1)
            reconstructed_imgs = reconstructed_cpu.numpy().transpose(0, 2, 3, 1)

            images_to_log = []
            for i in range(len(original_imgs)):
                original = original_imgs[i]
                recon = reconstructed_imgs[i]
                combined = np.concatenate([original, recon], axis=1)
                combined = np.clip(combined, 0, 1)
                images_to_log.append(wandb.Image(combined, caption=f"Original vs Reconstructed {i}"))

            if len(images_to_log) > 0:
                self.logged_count += len(images_to_log)
                print(f"Logueadas {len(images_to_log)} im√°genes. Total: {self.logged_count}")
                wandb.log({"reconstructions": images_to_log}, step=trainer.global_step)

        except Exception as e:
            print(f"Error en ImageReconstructionLogger: {type(e).__name__}: {e}")
            import traceback
            traceback.print_exc()

## Visualizador del espacio latente (PCA)

### Explicaci√≥n:

Prop√≥sito: Visualiza el espacio latente del autoencoder reducido a 2D usando PCA cada 5 √©pocas

### Proceso:

- Extrae vectores latentes (z) de ~100 im√°genes del validation set
- Aplica PCA para reducir dimensionalidad a 2D
- Crea scatter plot coloreado secuencialmente
- Muestra varianza explicada por cada componente principal

Compatibilidad: Verifica que el modelo tenga la estructura esperada (encoder, flatten, fc_mu)

In [34]:
class LatentSpaceVisualizer(pl.Callback):
    """Callback para visualizar el espacio latente con PCA"""
    
    def __init__(self, num_images=100):
        super().__init__()
        self.num_images = num_images
    
    def _get_latent(self, pl_module, batch):
        """Extrae vector latente para Autoencoder y UNet."""

        # Caso 1: Autoencoder cl√°sico
        if hasattr(pl_module, "encoder") and hasattr(pl_module, "fc_mu"):
            x_enc = pl_module.encoder(batch)
            x_flat = pl_module.flatten(x_enc)
            z = pl_module.fc_mu(x_flat)
            return z

        # Caso 2: U-Net Autoencoder (usa bottleneck)
        if hasattr(pl_module, "bottleneck"):
            out = batch
            # Pasar por encoder UNet
            for enc, down in zip(pl_module.enc_blocks, pl_module.downsamples):
                out = enc(out)
                out = down(out)

            # Bottleneck real
            out = pl_module.bottleneck(out)

            # Aplanar (vector)
            z = out.view(out.size(0), -1)
            return z

        raise AttributeError("El modelo no tiene encoder ni bottleneck.")

    def on_validation_epoch_end(self, trainer, pl_module):
        """Visualiza el espacio latente cada N epochs"""
        if trainer.current_epoch % 5 != 0:
            return
        
        try:
            from sklearn.decomposition import PCA
            import matplotlib.pyplot as plt  # ‚Üê IMPORTAR AQUI TAMBI√âN
        except ImportError as e:
            print(f"Error de importaci√≥n: {e}")
            return
        
        val_loader = trainer.datamodule.val_dataloader()
        latent_vectors = []
        
        with torch.no_grad():
            for batch_idx, batch in enumerate(val_loader):
                if batch_idx * len(batch) >= self.num_images:
                    break
                
                batch = batch.to(pl_module.device)
                
                try:
                    z = self._get_latent(pl_module, batch)
                    latent_vectors.append(z.cpu().numpy())
                except AttributeError as e:
                    print(f"‚ö†Ô∏è Modelo incompatible: {e}")
                    return
        
        if len(latent_vectors) == 0:
            print("No hay vectores latentes")
            return
        
        latent_vectors = np.concatenate(latent_vectors, axis=0)
        
        print(f"Aplicando PCA a {len(latent_vectors)} muestras...")
        try:
            pca = PCA(n_components=2, random_state=42)
            latent_2d = pca.fit_transform(latent_vectors)
            
            fig = self._create_plot(latent_2d, pca)
            wandb.log({"latent_space": wandb.Image(fig)}, step=trainer.global_step)
            plt.close(fig)
            
        except Exception as e:
            print(f"‚ö†Ô∏è Error en PCA: {e}")
    
    @staticmethod
    def _create_plot(latent_2d, pca):
        """Crea figura con PCA"""
        import matplotlib.pyplot as plt
        
        fig, ax = plt.subplots(figsize=(10, 8))
        scatter = ax.scatter(
            latent_2d[:, 0], 
            latent_2d[:, 1], 
            c=range(len(latent_2d)), 
            cmap='viridis', 
            alpha=0.6, 
            s=50
        )
        ax.set_xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.2%})')
        ax.set_ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.2%})')
        ax.set_title('Latent Space Visualization (PCA)')
        plt.colorbar(scatter, ax=ax)
        plt.tight_layout()
        return fig

### Visualizador de detecci√≥n de anomal√≠as 

#### Explicaci√≥n:
Prop√≥sito: Eval√∫a el modelo en el test set cada 5 √©pocas y visualiza la capacidad de detecci√≥n de anomal√≠as

#### Proceso:
- Carga dataset de test (contiene im√°genes normales y an√≥malas)
- Selecciona muestras aleatorias y las reconstruye
- Calcula MSE (Mean Squared Error) por imagen
- Normaliza el error y lo convierte en mapa de calor
- Crea visualizaci√≥n de 3 paneles: Original | Reconstrucci√≥n | Error Map
- Clasifica como "Good" o "Anomaly" seg√∫n la mediana del MSE


#### Utilidad

Permite monitorear si el modelo aprende a detectar anomal√≠as por tener mayor error de reconstrucci√≥n

In [35]:
class AnomalyDetectionVisualizer(pl.Callback):
    """Callback para visualizar reconstrucciones de im√°genes normales y an√≥malas"""
    
    def __init__(self, data_dir='DATASET_128x128', num_images=4):
        super().__init__()
        self.data_dir = data_dir
        self.num_images = num_images
        self.test_dataset = None
    
    def setup(self, trainer, pl_module, stage=None):
        """Configurar dataset de prueba"""
        if self.test_dataset is None:
            self.test_dataset = MVTecDataset(
                root_dir=self.data_dir,
                split='test',
                transform=transforms.ToTensor()
            )
    
    def on_validation_epoch_end(self, trainer, pl_module):
        """Visualiza reconstrucciones del set de prueba"""
        if trainer.current_epoch % 5 != 0:
            return
        
        if self.test_dataset is None or len(self.test_dataset) == 0:
            return
        
        try:
            # Obtener muestras aleatorias
            n_samples = min(self.num_images, len(self.test_dataset))
            indices = np.random.choice(len(self.test_dataset), n_samples, replace=False)
            test_images = []
            
            for idx in indices:
                test_images.append(self.test_dataset[idx])
            
            test_batch = torch.stack(test_images).to(pl_module.device)
            
            with torch.no_grad():
                reconstructed = pl_module(test_batch)
            
            # Calcular MSE
            mse = torch.mean((test_batch - reconstructed) ** 2, dim=[1, 2, 3])
            
            # Pasar a CPU
            test_batch_cpu = test_batch.cpu()
            reconstructed_cpu = reconstructed.cpu()
            
            # Convertir a numpy
            original_imgs = test_batch_cpu.numpy().transpose(0, 2, 3, 1)
            reconstructed_imgs = reconstructed_cpu.numpy().transpose(0, 2, 3, 1)
            error_maps = mse.cpu().numpy()
            
            # Crear visualizaciones
            images_to_log = []
            median_error = np.median(error_maps)
            
            for i in range(len(original_imgs)):
                original = original_imgs[i]
                recon = reconstructed_imgs[i]
                error = error_maps[i]
                
                # Normalizar error map a [0, 1]
                error_normalized = (error - error_maps.min()) / (error_maps.max() - error_maps.min() + 1e-8)
                error_map_3ch = np.stack([error_normalized] * 3, axis=-1)
                
                # Concatenar paneles
                combined = np.concatenate([original, recon, error_map_3ch], axis=1)
                combined = np.clip(combined, 0, 1)
                
                label = "Good" if error < median_error else "Anomaly"
                images_to_log.append(
                    wandb.Image(combined, caption=f"{label} - MSE: {error:.4f}")
                )
            
            if len(images_to_log) > 0:
                wandb.log({"test_reconstructions": images_to_log}, step=trainer.global_step)
                
        except Exception as e:
            print(f"Error en AnomalyDetectionVisualizer: {e}")

### Funci√≥n principal de experimentaci√≥n

#### Explicaci√≥n:
Prop√≥sito: Funci√≥n orquestadora que ejecuta un experimento completo de entrenamiento

#### Pasos:
- Detecci√≥n de hardware: Verifica GPU disponible y muestra informaci√≥n
- Inicializaci√≥n WandB: Crea run para tracking de experimento
- Configuraci√≥n Hydra: Carga configs YAML composables (modelo, loss, optimizer)
- DataModule: Instancia el cargador de datos MVTec
-Modelo: Selecciona entre autoencoder cl√°sico o U-Net seg√∫n nombre
- Callbacks: Configura ModelCheckpoint, EarlyStopping y visualizadores personalizados
- Trainer: Configura PyTorch Lightning con GPU forzado
- Entrenamiento: trainer.fit()
- Evaluaci√≥n: trainer.test() en test set
- Cleanup: Cierra WandB con finally

In [36]:
def run_experiment(config_name, model_name, loss_name, optimizer_name, run_name):
    """
    Ejecuta un experimento con la configuraci√≥n especificada
    
    Args:
        config_name: nombre de la configuraci√≥n base (default: 'config')
        model_name: nombre del modelo en conf/model/
        loss_name: nombre de la funci√≥n de p√©rdida en conf/loss/
        optimizer_name: nombre del optimizador en conf/optimizer/
        run_name: nombre del run en WandB
    """
    
    # VERIFICA GPU DISPONIBLE
    if not torch.cuda.is_available():
        print("WARNING: No hay GPU disponible. Se usar√° CPU.")
        device = "cpu"
    else:
        device = "cuda"
        print(f"GPU detectada: {torch.cuda.get_device_name(0)}")
        print(f"Memoria: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
    
    # Inicializar WandB
    wandb.init(
        project="ae_experiments",
        name=run_name,
        config={
            "model": model_name,
            "loss": loss_name,
            "optimizer": optimizer_name,
            "device": device,
        }
    )
    
    try:
        # Cargar configuraci√≥n con Hydra
        with initialize(config_path="conf", version_base=None):
            cfg = compose(
                config_name=config_name,
                overrides=[
                    f"model={model_name}",
                    f"loss={loss_name}",
                    f"optimizer={optimizer_name}",
                ]
            )
        
        print(f"\n{'='*60}")
        print(f"Ejecutando experimento: {run_name}")
        print(f"{'='*60}")
        print(OmegaConf.to_yaml(cfg))
        
        # Crear DataModule
        dm = MVTecDataModule(
            data_dir=cfg.data.data_dir,
            batch_size=cfg.data.batch_size,
            num_workers=cfg.data.num_workers,
            val_split=cfg.data.validation_split,
        )
        
        # Instanciar modelo
        model_type = model_name.lower()
        if "unet" in model_type:
            print("Modelo: U-Net Autoencoder")
            model = LitUNetAutoencoder(
                model_cfg=cfg.model,
                loss_cfg=cfg.loss,
                optimizer_cfg=cfg.optimizer,
            )
        else:
            print("Modelo: Autoencoder Cl√°sico")
            model = LitAutoencoder(
                model_cfg=cfg.model,
                loss_cfg=cfg.loss,
                optimizer_cfg=cfg.optimizer,
                image_size=cfg.data.image_size,
            )
        
        # Callbacks personalizados
        callbacks = [
            ModelCheckpoint(
                monitor='val_loss',
                mode='min',
                save_top_k=3,
                save_last=True,
                dirpath=f"checkpoints/{run_name}",
            ),
            EarlyStopping(
                monitor='val_loss',
                mode='min',
                patience=10,
                verbose=True,
            ),
            ImageReconstructionLogger(num_images=4),
            LatentSpaceVisualizer(num_images=100),
            AnomalyDetectionVisualizer(num_images=4),
        ]
        
        # Logger de WandB
        wandb_logger = WandbLogger(
            project="ae_experiments",
            name=run_name,
            log_model=True,
        )
        
        # TRAINER CON GPU FORZADO
        trainer = pl.Trainer(
            max_epochs=cfg.trainer.max_epochs,
            logger=wandb_logger,
            callbacks=callbacks,
            log_every_n_steps=cfg.trainer.log_every_n_steps,
            deterministic=cfg.trainer.deterministic,
            enable_model_summary=cfg.trainer.enable_model_summary,
            enable_progress_bar=cfg.trainer.enable_progress_bar,
            accelerator="gpu", 
            devices=1,
            precision=32,
        )
        
        # Entrenar
        print(f"\nIniciando entrenamiento en {device.upper()}...")
        trainer.fit(model, datamodule=dm)
        
        # Evaluar en test set
        print(f"\nEvaluando en test set...")
        trainer.test(model, datamodule=dm)
        
        # Loguear m√©tricas finales
        wandb.log({
            "final_train_loss": trainer.callback_metrics.get('train_loss', 0),
            "final_val_loss": trainer.callback_metrics.get('val_loss', 0),
            "device": device,
        })
        
        print(f"\nExperimento completado: {run_name}")
    
    finally:
        wandb.finish()

### Funci√≥n para comparaci√≥n de m√∫ltiples experimentos

#### Explicaci√≥n:

Prop√≥sito: Automatiza la comparaci√≥n de funciones de p√©rdida para un modelo espec√≠fico

#### Estrategia: 
Mantiene constantes todos los hiperpar√°metros (optimizador, arquitectura) y solo var√≠a la funci√≥n de p√©rdida

#### Proceso:
- Escanea el directorio conf/loss/ para encontrar YAMLs de p√©rdidas disponibles
- Itera sobre cada funci√≥n de p√©rdida
- Ejecuta run_experiment() con optimizador fijo (adam_mid)
- Recopila resultados (√©xitos/fallos)
- Genera reporte final


#### Robustez: 
Captura excepciones para que un fallo no detenga toda la comparaci√≥n

In [None]:

def run_all_experiments(model_name, num_loss_functions=4):
    """
    Ejecuta exactamente 4 entrenamientos del mismo modelo
    con diferentes funciones de p√©rdida y MISMOS hiperpar√°metros
    
    Args:
        model_name: 'autoencoder' o 'unet'
        num_loss_functions: n√∫mero de funciones de p√©rdida a probar
    """
    
    from pathlib import Path
    
    # Obtener funciones de p√©rdida disponibles
    conf_path = Path("conf")
    losses = sorted([f.stem for f in (conf_path / "loss").glob("*.yaml")])[:num_loss_functions]
    
    print(f"\n{'='*70}")
    print(f"COMPARACI√ìN: {model_name.upper()}")
    print(f"{'='*70}")
    print(f"Modelo: {model_name}")
    print(f"P√©rdidas a probar: {losses}")
    print(f"Optimizador fijo: adam_mid (lr=1e-3)")
    print(f"{'='*70}\n")
    
    successful = 0
    failed = 0
    results = []
    
    for i, loss in enumerate(losses, 1):
        run_name = f"{model_name}_{loss}_comparison"
        
        print(f"\n[{i}/{len(losses)}] Entrenando {model_name} con {loss.upper()}...")
        
        try:
            run_experiment(
                config_name="config",
                model_name=model_name,
                loss_name=loss,
                optimizer_name="adam_mid", 
                run_name=run_name,
            )
            successful += 1
            results.append({
                "model": model_name,
                "loss": loss,
                "status": "Exitoso"
            })
        except Exception as e:
            print(f"Error: {str(e)}")
            failed += 1
            results.append({
                "model": model_name,
                "loss": loss,
                "status": f"{str(e)[:50]}"
            })
    
    print(f"\n{'='*70}")
    print(f"COMPARACI√ìN COMPLETADA: {model_name}")
    print(f"{'='*70}")
    print(f"Exitosos: {successful}/{len(losses)}")
    print(f"Fallidos: {failed}/{len(losses)}")
    print(f"{'='*70}\n")
    
    return results
    


### Script principal

#### Explicaci√≥n:

#### Prop√≥sito: 
Script ejecutable que corre todos los experimentos de manera secuencial

#### Experimentos ejecutados:

- Autoencoder cl√°sico: Prueba 4 funciones de p√©rdida diferentes
- U-Net autoencoder: Prueba las mismas 4 funciones de p√©rdida

Total: 8 entrenamientos completos


Output:  Tabla resumen con estado de cada experimento

Utilidad: Permite comparar arquitecturas (Autoencoder vs U-Net) y funciones de p√©rdida en un solo run

In [39]:
if __name__ == "__main__":
    # Crear directorio para checkpoints
    Path("checkpoints").mkdir(exist_ok=True)
    
    print("\n" + "="*70)
    print("üöÄ INICIANDO EXPERIMENTACI√ìN CON AUTOENCODERS")
    print("="*70 + "\n")
    
    all_results = []

    # ‚ë° Entrenamientos con U-Net
    print("\nU-NET - Comparaci√≥n de p√©rdidas")
    unet_results = run_all_experiments(model_name="unet", num_loss_functions=4)
    all_results.extend(unet_results)
    
    # ‚ë† Entrenamientos con Autoencoder
    print("AUTOENCODER - Comparaci√≥n de p√©rdidas")
    ae_results = run_all_experiments(model_name="autoencoder_small", num_loss_functions=4)
    all_results.extend(ae_results)
    
    # ‚ë¢ Resumen final
    print("\n" + "="*70)
    print("RESUMEN FINAL DE EXPERIMENTACI√ìN")
    print("="*70)
    for result in all_results:
        print(f"  {result['model']:20} | {result['loss']:10} | {result['status']}")
    print("="*70 + "\n")


üöÄ INICIANDO EXPERIMENTACI√ìN CON AUTOENCODERS


U-NET - Comparaci√≥n de p√©rdidas

üî¨ COMPARACI√ìN: UNET
Modelo: unet
P√©rdidas a probar: ['l1', 'l2', 'ssim', 'ssim_l1']
Optimizador fijo: adam_mid (lr=1e-3)


[1/4] Entrenando unet con L1...
GPU detectada: NVIDIA GeForce RTX 3060
Memoria: 8.59 GB



Ejecutando experimento: unet_l1_comparison
model:
  in_channels: 3
  base_channels: 32
  depth: 4
  latent_dim: 128
trainer:
  max_epochs: 20
  gpus: 1
  precision: 32
  deterministic: true
  check_val_every_n_epoch: 1
  log_every_n_steps: 10
  enable_model_summary: true
  gradient_clip_val: 0.0
  enable_progress_bar: true
logger:
  project: ae_experiments
  entity: null
  log_model: false
  offline: false
  tags: []
loss:
  type: L1Loss
  name: L1
optimizer:
  name: adam_mid
  type: Adam
  lr: 0.001
  weight_decay: 0.0
  betas:
  - 0.9
  - 0.999
seed: 42
data:
  data_dir: DATASET_128x128
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15
callbacks:
  monitor: val/loss
  mode: min
  filename: '{epoch:02d}-{val/loss:.4f}'
  save_top_k: 3
experiment:
  name: default_experiment
  description: Default autoencoder experiment

Modelo: U-Net Autoencoder


Error: _DeviceDtypeModuleMixin.__init__() got an unexpected keyword argument 'model_cfg'

[2/4] Entrenando unet con L2...
GPU detectada: NVIDIA GeForce RTX 3060
Memoria: 8.59 GB



Ejecutando experimento: unet_l2_comparison
model:
  in_channels: 3
  base_channels: 32
  depth: 4
  latent_dim: 128
trainer:
  max_epochs: 20
  gpus: 1
  precision: 32
  deterministic: true
  check_val_every_n_epoch: 1
  log_every_n_steps: 10
  enable_model_summary: true
  gradient_clip_val: 0.0
  enable_progress_bar: true
logger:
  project: ae_experiments
  entity: null
  log_model: false
  offline: false
  tags: []
loss:
  type: MSELoss
  name: L2
optimizer:
  name: adam_mid
  type: Adam
  lr: 0.001
  weight_decay: 0.0
  betas:
  - 0.9
  - 0.999
seed: 42
data:
  data_dir: DATASET_128x128
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15
callbacks:
  monitor: val/loss
  mode: min
  filename: '{epoch:02d}-{val/loss:.4f}'
  save_top_k: 3
experiment:
  name: default_experiment
  description: Default autoencoder experiment

Modelo: U-Net Autoencoder


Error: _DeviceDtypeModuleMixin.__init__() got an unexpected keyword argument 'model_cfg'

[3/4] Entrenando unet con SSIM...
GPU detectada: NVIDIA GeForce RTX 3060
Memoria: 8.59 GB



Ejecutando experimento: unet_ssim_comparison
model:
  in_channels: 3
  base_channels: 32
  depth: 4
  latent_dim: 128
trainer:
  max_epochs: 20
  gpus: 1
  precision: 32
  deterministic: true
  check_val_every_n_epoch: 1
  log_every_n_steps: 10
  enable_model_summary: true
  gradient_clip_val: 0.0
  enable_progress_bar: true
logger:
  project: ae_experiments
  entity: null
  log_model: false
  offline: false
  tags: []
loss:
  type: SSIM
  name: SSIM
  window_size: 11
  sigma: 1.5
  data_range: 1.0
optimizer:
  name: adam_mid
  type: Adam
  lr: 0.001
  weight_decay: 0.0
  betas:
  - 0.9
  - 0.999
seed: 42
data:
  data_dir: DATASET_128x128
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15
callbacks:
  monitor: val/loss
  mode: min
  filename: '{epoch:02d}-{val/loss:.4f}'
  save_top_k: 3
experiment:
  name: default_experiment
  description: Default autoencoder experiment

Modelo: U-Net Autoencoder


Error: _DeviceDtypeModuleMixin.__init__() got an unexpected keyword argument 'model_cfg'

[4/4] Entrenando unet con SSIM_L1...
GPU detectada: NVIDIA GeForce RTX 3060
Memoria: 8.59 GB



Ejecutando experimento: unet_ssim_l1_comparison
model:
  in_channels: 3
  base_channels: 32
  depth: 4
  latent_dim: 128
trainer:
  max_epochs: 20
  gpus: 1
  precision: 32
  deterministic: true
  check_val_every_n_epoch: 1
  log_every_n_steps: 10
  enable_model_summary: true
  gradient_clip_val: 0.0
  enable_progress_bar: true
logger:
  project: ae_experiments
  entity: null
  log_model: false
  offline: false
  tags: []
loss:
  type: SSIM_L1
  name: SSIM+L1
  window_size: 11
  sigma: 1.5
  data_range: 1.0
  l1_weight: 0.1
optimizer:
  name: adam_mid
  type: Adam
  lr: 0.001
  weight_decay: 0.0
  betas:
  - 0.9
  - 0.999
seed: 42
data:
  data_dir: DATASET_128x128
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15
callbacks:
  monitor: val/loss
  mode: min
  filename: '{epoch:02d}-{val/loss:.4f}'
  save_top_k: 3
experiment:
  name: default_experiment
  description: Default autoencoder experiment

Modelo: U-Net Autoencoder


Error: _DeviceDtypeModuleMixin.__init__() got an unexpected keyword argument 'model_cfg'

COMPARACI√ìN COMPLETADA: unet
Exitosos: 0/4
Fallidos: 4/4

AUTOENCODER - Comparaci√≥n de p√©rdidas

üî¨ COMPARACI√ìN: AUTOENCODER_SMALL
Modelo: autoencoder_small
P√©rdidas a probar: ['l1', 'l2', 'ssim', 'ssim_l1']
Optimizador fijo: adam_mid (lr=1e-3)


[1/4] Entrenando autoencoder_small con L1...
GPU detectada: NVIDIA GeForce RTX 3060
Memoria: 8.59 GB



Ejecutando experimento: autoencoder_small_l1_comparison
model:
  name: autoencoder_small
  in_channels: 3
  hidden_dims:
  - 32
  - 64
  - 128
  latent_dim: 128
  use_batch_norm: true
  dropout_rate: 0.0
trainer:
  max_epochs: 20
  gpus: 1
  precision: 32
  deterministic: true
  check_val_every_n_epoch: 1
  log_every_n_steps: 10
  enable_model_summary: true
  gradient_clip_val: 0.0
  enable_progress_bar: true
logger:
  project: ae_experiments
  entity: null
  log_model: false
  offline: false
  tags: []
loss:
  type: L1Loss
  name: L1
optimizer:
  name: adam_mid
  type: Adam
  lr: 0.001
  weight_decay: 0.0
  betas:
  - 0.9
  - 0.999
seed: 42
data:
  data_dir: DATASET_128x128
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15
callbacks:
  monitor: val/loss
  mode: min
  filename: '{epoch:02d}-{val/loss:.4f}'
  save_top_k: 3
experiment:
  name: default_experiment
  description: Default autoencoder experiment

Modelo: Autoencoder Cl√°sico


GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores



Iniciando entrenamiento en CUDA...


e:\Scripts\Lib\site-packages\pytorch_lightning\loggers\wandb.py:397: There is a wandb run already in progress and newly created instances of `WandbLogger` will reuse this run. If this is not desired, call `wandb.finish()` before instantiating `WandbLogger`.
e:\Scripts\Lib\site-packages\pytorch_lightning\callbacks\model_checkpoint.py:751: Checkpoint directory E:\IA\TareaAutoEncoders\checkpoints\autoencoder_small_l1_comparison exists and is not empty.
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]

  | Name      | Type       | Params | Mode 
-------------------------------------------------
0 | encoder   | Sequential | 93.2 K | train
1 | flatten   | Flatten    | 0      | train
2 | fc_mu     | Linear     | 4.2 M  | train
3 | fc_decode | Linear     | 4.2 M  | train
4 | decoder   | Sequential | 165 K  | train
5 | criterion | L1Loss     | 0      | train
-------------------------------------------------
8.7 M     Trainable params
0         Non-trainable params
8.7 M     Total params
34.721    Tota

Sanity Checking: |          | 0/? [00:00<?, ?it/s]

e:\Scripts\Lib\site-packages\pytorch_lightning\trainer\connectors\data_connector.py:433: The 'val_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=11` in the `DataLoader` to improve performance.


üì∏ Batch shape: torch.Size([32, 3, 128, 128]), necesito 4
 Rutas de validaci√≥n (muestras que se usar√°n): ['DATASET_128x128\\train\\capsule_train_good_020.png', 'DATASET_128x128\\train\\transistor_train_good_034.png', 'DATASET_128x128\\train\\cable_train_good_159.png', 'DATASET_128x128\\train\\screw_train_good_084.png']
Logueadas 4 im√°genes. Total: 4
Aplicando PCA a 146 muestras...
Error en AnomalyDetectionVisualizer: all the input arrays must have same number of dimensions, but the array at index 0 has 3 dimension(s) and the array at index 2 has 1 dimension(s)


e:\Scripts\Lib\site-packages\pytorch_lightning\trainer\connectors\data_connector.py:433: The 'train_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=11` in the `DataLoader` to improve performance.


Training: |          | 0/? [00:00<?, ?it/s]

Validation: |          | 0/? [00:00<?, ?it/s]

üì∏ Batch shape: torch.Size([32, 3, 128, 128]), necesito 4
 Rutas de validaci√≥n (muestras que se usar√°n): ['DATASET_128x128\\train\\capsule_train_good_020.png', 'DATASET_128x128\\train\\transistor_train_good_034.png', 'DATASET_128x128\\train\\cable_train_good_159.png', 'DATASET_128x128\\train\\screw_train_good_084.png']
Logueadas 4 im√°genes. Total: 8
Aplicando PCA a 146 muestras...
Error en AnomalyDetectionVisualizer: all the input arrays must have same number of dimensions, but the array at index 0 has 3 dimension(s) and the array at index 2 has 1 dimension(s)


Metric val_loss improved. New best score: 0.138


0,1
epoch,‚ñÅ‚ñÅ‚ñÅ
train_loss,‚ñà‚ñÅ
trainer/global_step,‚ñÅ‚ñÖ‚ñà
val_loss,‚ñÅ

0,1
epoch,0.0
train_loss,0.14524
trainer/global_step,25.0
val_loss,0.13797


Error: [Errno 28] No space left on device

[2/4] Entrenando autoencoder_small con L2...
GPU detectada: NVIDIA GeForce RTX 3060
Memoria: 8.59 GB





Ejecutando experimento: autoencoder_small_l2_comparison
model:
  name: autoencoder_small
  in_channels: 3
  hidden_dims:
  - 32
  - 64
  - 128
  latent_dim: 128
  use_batch_norm: true
  dropout_rate: 0.0
trainer:
  max_epochs: 20
  gpus: 1
  precision: 32
  deterministic: true
  check_val_every_n_epoch: 1
  log_every_n_steps: 10
  enable_model_summary: true
  gradient_clip_val: 0.0
  enable_progress_bar: true
logger:
  project: ae_experiments
  entity: null
  log_model: false
  offline: false
  tags: []
loss:
  type: MSELoss
  name: L2
optimizer:
  name: adam_mid
  type: Adam
  lr: 0.001
  weight_decay: 0.0
  betas:
  - 0.9
  - 0.999
seed: 42
data:
  data_dir: DATASET_128x128
  image_size: 128
  batch_size: 32
  num_workers: 0
  validation_split: 0.15
  test_split: 0.15
callbacks:
  monitor: val/loss
  mode: min
  filename: '{epoch:02d}-{val/loss:.4f}'
  save_top_k: 3
experiment:
  name: default_experiment
  description: Default autoencoder experiment

Modelo: Autoencoder Cl√°sico


GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores



Iniciando entrenamiento en CUDA...


e:\Scripts\Lib\site-packages\pytorch_lightning\loggers\wandb.py:397: There is a wandb run already in progress and newly created instances of `WandbLogger` will reuse this run. If this is not desired, call `wandb.finish()` before instantiating `WandbLogger`.
e:\Scripts\Lib\site-packages\pytorch_lightning\callbacks\model_checkpoint.py:751: Checkpoint directory E:\IA\TareaAutoEncoders\checkpoints\autoencoder_small_l2_comparison exists and is not empty.
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]

  | Name      | Type       | Params | Mode 
-------------------------------------------------
0 | encoder   | Sequential | 93.2 K | train
1 | flatten   | Flatten    | 0      | train
2 | fc_mu     | Linear     | 4.2 M  | train
3 | fc_decode | Linear     | 4.2 M  | train
4 | decoder   | Sequential | 165 K  | train
5 | criterion | MSELoss    | 0      | train
-------------------------------------------------
8.7 M     Trainable params
0         Non-trainable params
8.7 M     Total params
34.721    Tota

Sanity Checking: |          | 0/? [00:00<?, ?it/s]

e:\Scripts\Lib\site-packages\pytorch_lightning\trainer\connectors\data_connector.py:433: The 'val_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=11` in the `DataLoader` to improve performance.


üì∏ Batch shape: torch.Size([32, 3, 128, 128]), necesito 4
 Rutas de validaci√≥n (muestras que se usar√°n): ['DATASET_128x128\\train\\capsule_train_good_020.png', 'DATASET_128x128\\train\\transistor_train_good_034.png', 'DATASET_128x128\\train\\cable_train_good_159.png', 'DATASET_128x128\\train\\screw_train_good_084.png']
Logueadas 4 im√°genes. Total: 4
Aplicando PCA a 146 muestras...
Error en AnomalyDetectionVisualizer: all the input arrays must have same number of dimensions, but the array at index 0 has 3 dimension(s) and the array at index 2 has 1 dimension(s)


e:\Scripts\Lib\site-packages\pytorch_lightning\trainer\connectors\data_connector.py:433: The 'train_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=11` in the `DataLoader` to improve performance.


Training: |          | 0/? [00:00<?, ?it/s]


Detected KeyboardInterrupt, attempting graceful shutdown ...


SystemExit: 1

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


## An√°lisis cualitativo de las im√°genes reconstruidas

En esta secci√≥n comparamos visualmente las reconstrucciones obtenidas por:

- El **autoencoder peque√±o** (`autoencoder_small`)
- La **U-Net** (`unet`)

bajo cuatro funciones de p√©rdida diferentes:

- **L1**
- **L2**
- **SSIM**
- **SSIM + L1**

La idea es observar qu√© tan bien cada modelo logra:

1. Reconstruir correctamente las regiones **normales** de la imagen.
2. Mantener o resaltar las **diferencias** en las regiones donde hay **defectos/anomal√≠as** (zonas que queremos detectar).



### Clase: cable

#### Ejemplo de imagen cable con un error

<img src="cable/test/bent_wire/002.png" width="150">

#### Autoencoder peque√±o

![cable ‚Äì Autoencoder peque√±o (L1)](Images/cable/autoencoder_small_l1_comparison_cable.png)

![cable ‚Äì Autoencoder peque√±o (L2)](Images/cable/autoencoder_small_l2_comparison_cable.png)

![cable ‚Äì Autoencoder peque√±o (SSIM)](Images/cable/autoencoder_small_ssim_comparison_cable.png)

![cable ‚Äì Autoencoder peque√±o (SSIM + L1)](Images/cable/autoencoder_small_ssim_l1_comparison_cable.png)

#### U-Net

![cable ‚Äì U-Net (L1)](Images/cable/unet_l1_comparison_cable.png)

![cable ‚Äì U-Net (L2)](Images/cable/unet_l2_comparison_cable.png)

![cable ‚Äì U-Net (SSIM)](Images/cable/unet_ssim_comparison_cable.png)

![cable ‚Äì U-Net (SSIM + L1)](Images/cable/unet_ssim_l1_comparison_cable.png)

**Analisis**

- En general, la **U-Net** produce reconstrucciones m√°s n√≠tidas que el autoencoder peque√±o, con mejor definici√≥n en bordes y estructura del cable.
- El **autoencoder peque√±o** tiende a generar reconstrucciones algo m√°s borrosas, especialmente alrededor de las zonas donde hay defectos. Esto puede hacer que la diferencia entre imagen original y reconstruida sea menos clara.
- Las p√©rdidas basadas en **SSIM** (SSIM y SSIM + L1) favorecen la preservaci√≥n de la estructura global del cable, mientras que L1/L2 se enfocan m√°s en errores pixel a pixel.
- Visualmente, cuando hay defectos, las reconstrucciones que se ven ‚Äúdemasiado suaves‚Äù o ‚Äúpromediadas‚Äù tienden a ocultar parte de la anomal√≠a, mientras que las reconstrucciones m√°s fieles a las regiones sanas dejan m√°s evidente el error en la zona defectuosa (mayor diferencia entre original y reconstruida).


### Clase: capsule

#### Ejemplo de una imagen de una c√°psula con un error

<img src="capsule/test/crack/001.png" width="150">

#### Autoencoder peque√±o

![capsule ‚Äì Autoencoder peque√±o (L1)](Images/capsule/autoencoder_small_l1_comparison_capsule.png)

![capsule ‚Äì Autoencoder peque√±o (L2)](Images/capsule/autoencoder_small_l2_comparison_capsule.png)

![capsule ‚Äì Autoencoder peque√±o (SSIM)](Images/capsule/autoencoder_small_ssim_comparison_capsule.png)

![capsule ‚Äì Autoencoder peque√±o (SSIM + L1)](Images/capsule/autoencoder_small_ssim_l1_comparison_capsule.png)

#### U-Net

![capsule ‚Äì U-Net (L1)](Images/capsule/unet_l1_comparison_capsule.png)

![capsule ‚Äì U-Net (L2)](Images/capsule/unet_l2_comparison_capsule.png)

![capsule ‚Äì U-Net (SSIM)](Images/capsule/unet_ssim_comparison_capsule.png)

![capsule ‚Äì U-Net (SSIM + L1)](Images/capsule/unet_ssim_l1_comparison_capsule.png)

**Analisis**

- En las c√°psulas es importante mantener la forma, contorno y textura de la superficie.
- La **U-Net** suele conservar mejor las formas geom√©tricas y los bordes, lo que facilita notar cuando una c√°psula tiene da√±o o textura an√≥mala.
- El **autoencoder peque√±o** puede introducir m√°s suavizado, lo que dificulta separar visualmente una c√°psula sana de una defectuosa.
- Las variantes con **SSIM** tienden a respetar mejor el contraste y la estructura general de la c√°psula, mientras que L1/L2 pueden producir reconstrucciones con menos ruido pero tambi√©n menos detalle fino.


### Clase: screw

#### Ejemplo de una imagen de un tornillo con un error

<img src="screw/test/scratch_head/008.png" width="150">

#### Autoencoder peque√±o

![screw ‚Äì Autoencoder peque√±o (L1)](Images/screw/autoencoder_small_l1_comparison_screw.png)

![screw ‚Äì Autoencoder peque√±o (L2)](Images/screw/autoencoder_small_l2_comparison_screw.png)

![screw ‚Äì Autoencoder peque√±o (SSIM)](Images/screw/autoencoder_small_ssim_comparison_screw.png)

![screw ‚Äì Autoencoder peque√±o (SSIM + L1)](Images/screw/autoencoder_small_ssim_l1_comparison_screw.png)

#### U-Net

![screw ‚Äì U-Net (L1)](Images/screw/unet_l1_comparison_screw.png)

![screw ‚Äì U-Net (L2)](Images/screw/unet_l2_comparison_screw.png)

![screw ‚Äì U-Net (SSIM)](Images/screw/unet_ssim_comparison_screw.png)

![screw ‚Äì U-Net (SSIM + L1)](Images/screw/unet_ssim_l1_comparison_screw.png)

**Analisis**

- En tornillos, los detalles de la rosca y la geometr√≠a met√°lica son importantes.
- La **U-Net** tiende a preservar mejor la forma de la rosca y los contornos met√°licos, lo que ayuda a que los defectos resalten como diferencias claras entre original y reconstrucci√≥n.
- El **autoencoder peque√±o** puede perder detalles finos de textura, haciendo que las partes defectuosas se vean menos destacadas.
- Otra observaci√≥n t√≠pica es que las p√©rdidas **L2/SSIM** ayudan a reconstruir mejor el patr√≥n repetitivo de la rosca, mientras que L1 puede producir bordes algo m√°s ‚Äúcortados‚Äù o menos suaves.


### Clase: transistor

#### Ejemplo de una imagen de un transistor con un error

<img src="transistor/test/damaged_case/001.png" width="150">

#### Autoencoder peque√±o

![transistor ‚Äì Autoencoder peque√±o (L1)](Images/transistor/autoencoder_small_l1_comparison_transistor.png)

![transistor ‚Äì Autoencoder peque√±o (L2)](Images/transistor/autoencoder_small_l2_comparison_transistor.png)

![transistor ‚Äì Autoencoder peque√±o (SSIM)](Images/transistor/autoencoder_small_ssim_comparison_transistor.png)

![transistor ‚Äì Autoencoder peque√±o (SSIM + L1)](Images/transistor/autoencoder_small_ssim_l1_comparison_transistor.png)

#### U-Net

![transistor ‚Äì U-Net (L1)](Images/transistor/unet_l1_comparison_transistor.png)

![transistor ‚Äì U-Net (L2)](Images/transistor/unet_l2_comparison_transistor.png)

![transistor ‚Äì U-Net (SSIM)](Images/transistor/unet_ssim_comparison_transistor.png)

![transistor ‚Äì U-Net (SSIM + L1)](Images/transistor/unet_ssim_l1_comparison_transistor.png)

**Analisis**

- En transistores hay muchos detalles peque√±os: bordes de componentes, pistas, uniones, etc.
- La **U-Net** suele manejar mejor estas estructuras locales complejas, reconstruyendo de forma m√°s limpia las regiones sanas y dejando diferencias m√°s claras donde hay anomal√≠as.
- El **autoencoder peque√±o**, al tener menos capacidad, tiende a promediar m√°s la informaci√≥n en regiones con muchos detalles, lo que puede ‚Äúdifuminar‚Äù parte de los defectos.
- De nuevo, las p√©rdidas basadas en **SSIM** favorecen la coherencia estructural de la imagen, lo que es √∫til en este tipo de objetos con patrones finos.


### Conclusiones generales del an√°lisis cualitativo

- En todas las clases (**cable, capsule, screw, transistor**) se observa un patr√≥n similar:
  - La **U-Net** produce reconstrucciones m√°s detalladas y estructuralmente coherentes.
  - El **autoencoder peque√±o** genera im√°genes m√°s suaves y con menos detalle fino, especialmente en zonas complejas.
- Respecto a las funciones de p√©rdida:
  - Las p√©rdidas **L2** y **SSIM** suelen dar reconstrucciones muy limpias de las regiones sanas.
  - Las p√©rdidas con **L1** tienden a ser un poco m√°s robustas a outliers, pero pueden introducir artefactos o menos suavidad.
  - Las combinaciones como **SSIM + L1** buscan un balance entre estructura global y penalizaci√≥n por error absoluto.
- Para detecci√≥n de anomal√≠as, lo que interesa no es solo que la reconstrucci√≥n sea ‚Äúbonita‚Äù, sino que:
  1. Las partes **normales** se reconstruyan bien (error bajo).
  2. Las partes **an√≥malas** se reconstruyan mal (error alto), de forma que el mapa de error permita separar claramente sano vs defectuoso.

En la siguiente secci√≥n se puede complementar este an√°lisis visual con m√©tricas cuantitativas (por ejemplo, usando el `test_loss` de cada configuraci√≥n) y discutir c√≥mo se relaciona la calidad visual de las reconstrucciones con el desempe√±o num√©rico del modelo.


## An√°lisis cuantitativo de los resultados

Esta secci√≥n presenta un an√°lisis cuantitativo integral del desempe√±o de los modelos entrenados. Se incluyen:

- Comparaci√≥n de desempe√±o (test_loss)
- La evoluci√≥n de la p√©rdida durante el entrenamiento y validaci√≥n.
- Un an√°lisis de convergencia para comparar estabilidad y velocidad de aprendizaje.
- Interpretaci√≥n del espacio latente para ambas arquitecturas.
- Conclusiones sobre la capacidad de generalizaci√≥n y su relaci√≥n con las funciones de p√©rdida.

## 1. Comparaci√≥n de desempe√±o (test_loss)

Los siguientes valores corresponden al error final en el conjunto de prueba para cada combinaci√≥n de modelo y funci√≥n de p√©rdida. Un valor m√°s bajo indica mejor reconstrucci√≥n de las regiones normales y, por lo tanto, mejor capacidad de diferenciar anomal√≠as.

| Modelo                 | Funci√≥n de p√©rdida | Test Loss     |
|------------------------|--------------------|----------------|
| unet                   | l2                 | 0.00054789     |
| autoencoder_small      | l2                 | 0.0040282      |
| unet                   | ssim               | 0.0051722      |
| unet                   | ssim_l1            | 0.0064004      |
| unet                   | l1                 | 0.019768       |
| autoencoder_small      | l1                 | 0.036579       |
| autoencoder_small      | ssim               | 0.16097        |
| autoencoder_small      | ssim_l1            | 0.16594        |

### Observaciones principales
- El mejor resultado lo obtiene **U-Net con p√©rdida L2**, con un error extremadamente bajo.
- El autoencoder peque√±o obtiene su mejor resultado tambi√©n con **L2**, pero se queda claramente atr√°s respecto a U-Net.
- Las funciones basadas en **SSIM** obtienen valores m√°s altos debido a que su m√©trica no est√° alineada con la medida usada en test_loss (que normalmente es MSE o similar).
- El peor desempe√±o global corresponde a **autoencoder_small con SSIM y SSIM+L1**, lo cual coincide con las limitaciones visuales observadas.




## 2. Curvas de entrenamiento y validaci√≥n

Las siguientes figuras muestran c√≥mo evoluciona la p√©rdida durante el proceso de entrenamiento para todos los experimentos registrados. Incluyen promedios de las corridas cargadas y reflejan la estabilidad del proceso de optimizaci√≥n.

### P√©rdida de entrenamiento
![train loss](wandb/lossFunction/train_loss.png)

### P√©rdida de validaci√≥n
![val loss](wandb/lossFunction/val_loss.png)

### Interpretaci√≥n de las curvas

**1. Estabilidad del entrenamiento**
- Las curvas de entrenamiento tienden a ser m√°s suaves que las curvas de validaci√≥n, lo cual es esperado.
- U-Net en la mayor√≠a de sus p√©rdidas converge de manera m√°s estable que el autoencoder peque√±o.
- El autoencoder peque√±o presenta fluctuaciones m√°s marcadas, reflejando su limitada capacidad representacional.

**2. Velocidad de convergencia**
- La p√©rdida **L2** muestra la convergencia m√°s r√°pida y estable en ambos modelos.
- Las p√©rdidas basadas en SSIM convergen m√°s lentamente y de manera menos mon√≥tona debido a que capturan estad√≠sticas estructurales y no √∫nicamente errores pixel a pixel.

**3. Diferencia entre training y validation loss**
- Para U-Net, la brecha entre ambas curvas es peque√±a, lo que indica buena generalizaci√≥n.
- En el autoencoder peque√±o, la brecha es mayor, lo que sugiere sobreajuste por capacidad limitada.


## 3. Interpretaci√≥n del espacio latente

Las siguientes im√°genes muestran c√≥mo cada modelo representa la informaci√≥n comprimida antes de la fase de decodificaci√≥n.

### Autoencoder ‚Äì L1
![ae_l1_latent](wandb/latentSpace/autoencoder_l1_comparison.png)

### Autoencoder ‚Äì L2
![ae_l2_latent](wandb/latentSpace/autoencoder_l2_comparison.png)

### Autoencoder ‚Äì SSIM
![ae_ssim_latent](wandb/latentSpace/autoencoder_ssim_comparison.png)

### Autoencoder ‚Äì SSIM + L1
![ae_ssim_l1_latent](wandb/latentSpace/autoencoder_ssim_l1_comparison.png)

### U-Net ‚Äì L1
![unet_l1_latent](wandb/latentSpace/unet_l1_comparison.png)

### U-Net ‚Äì L2
![unet_l2_latent](wandb/latentSpace/unet_l2_comparison.png)

### U-Net ‚Äì SSIM
![unet_ssim_latent](wandb/latentSpace/unet_ssim_comparison.png)

### U-Net ‚Äì SSIM + L1
![unet_ssim_l1_latent](wandb/latentSpace/unet_ssim_l1_comparison.png)

### Interpretaci√≥n del espacio latente

**1. Autoencoder**
- El espacio latente es m√°s difuso: representa la informaci√≥n de manera comprimida pero con p√©rdida notable.
- Los vectores latentes muestran colapsos de informaci√≥n en configuraciones con SSIM, lo cual explica los altos `test_loss`.
- Con L2, las representaciones son m√°s compactas y separables, lo cual coincide con su mejor desempe√±o cuantitativo.

**2. U-Net**
- Aunque U-Net no tiene un ‚Äúlatente puro‚Äù como el autoencoder, sus activaciones internas muestran patrones mucho m√°s estructurados.
- Se observa mayor diferenciaci√≥n entre regiones normales y an√≥malas incluso antes de la decodificaci√≥n.
- Todas las p√©rdidas producen representaciones m√°s limpias que las del autoencoder peque√±o.

**3. Consistencia entre latente y reconstrucci√≥n**
- Cuando el espacio latente est√° bien estructurado, la reconstrucci√≥n suele ser m√°s precisa.
- Esto se observa claramente en U-Net con L2 y SSIM.
- Cuando el espacio latente es ruidoso (autoencoder + SSIM), la reconstrucci√≥n tambi√©n se degrada.


## 4. Relaci√≥n entre test_loss y las curvas de entrenamiento

El resumen comparativo de `test_loss`  muestra que:

- U-Net con L2 alcanza el mejor error num√©rico debido a su capacidad para conservar detalles.
- El autoencoder presenta mayor error tanto en entrenamiento como en prueba.
- Las p√©rdidas basadas en SSIM no buscan minimizar el error pixel a pixel, lo que explica sus valores altos en `test_loss`.

Al observar las gr√°ficas:

- Los modelos con menor test_loss corresponden tambi√©n a curvas m√°s suaves y monot√≥nicas.
- La p√©rdida de validaci√≥n confirma que U-Net no solo aprende m√°s r√°pido sino tambi√©n m√°s consistentemente.
- El autoencoder muestra tendencia a caer en m√≠nimos pobres, especialmente con funciones de p√©rdida no alineadas con el criterio de evaluaci√≥n.


## 5. Conclusiones cuantitativas

1. **U-Net con p√©rdida L2 es la configuraci√≥n m√°s efectiva**, mostrando:
   - La convergencia m√°s estable.
   - Las representaciones latentes m√°s diferenciadas.
   - El menor error final en validaci√≥n y prueba.
   - La mejor consistencia entre entrenamiento y validaci√≥n.

2. **Las funciones de p√©rdida basadas en SSIM generan resultados visualmente aceptables, pero no √≥ptimos bajo la m√©trica de evaluaci√≥n**, debido a que su enfoque es estructural, no pixel a pixel.

3. **El autoencoder peque√±o muestra limitaciones significativas**, especialmente cuando se utilizan p√©rdidas como SSIM y SSIM + L1, lo que se refleja tanto en las gr√°ficas como en los valores finales.

4. **La relaci√≥n entre complejidad del modelo, funci√≥n de p√©rdida y estabilidad de aprendizaje queda clara**:
   - Modelos m√°s capaces toleran p√©rdidas m√°s complejas.
   - Modelos m√°s simples necesitan p√©rdidas estrictas como L2 para converger adecuadamente.

Este an√°lisis cuantitativo complementa el an√°lisis visual previo y juntos permiten concluir cu√°l modelo y funci√≥n de p√©rdida son m√°s adecuados para la tarea de reconstrucci√≥n y detecci√≥n de anomal√≠as.
