In [None]:
# Install necessary packages
!pip install tqdm torch torchvision pytorch-msssim

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
import torchvision.transforms as transforms
from tqdm import tqdm
from pathlib import Path
from PIL import Image
import random
import numpy as np
import torch.nn.functional as F
from torch.optim.lr_scheduler import CosineAnnealingLR
from pytorch_msssim import ssim
import sys
import os

# Add the parent directory to the Python path
sys.path.append(os.path.dirname(os.getcwd()))

from models.autoencoder.auto import Auto  # Import your custom Auto class

# ✅ Use GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# ✅ Paths
DATA_DIR = Path("../data/SD1")
PROCESSED_TRAIN_DIR = DATA_DIR / "processed_train"
PROCESSED_VAL_DIR = DATA_DIR / "processed_val"
MODEL_DIR = Path("../models")
MODEL_DIR.mkdir(parents=True, exist_ok=True)  # Ensure model directory exists

# ✅ Dataset class
class GlareRemovalDataset(Dataset):
    def __init__(self, root_dir: str, transform: transforms.Compose = None, limit: int = None):
        self.root_dir = Path(root_dir)
        self.transform = transform
        self.image_pairs = []

        glare_images = sorted(self.root_dir.glob("glare_*.png"))
        gt_images = sorted(self.root_dir.glob("gt_*.png"))

        for glare_img in glare_images:
            gt_img = self.root_dir / glare_img.name.replace("glare_", "gt_")
            if gt_img.exists():
                self.image_pairs.append((glare_img, gt_img))

        if limit:
            self.image_pairs = random.sample(self.image_pairs, min(limit, len(self.image_pairs)))

    def __len__(self) -> int:
        return len(self.image_pairs)

    def __getitem__(self, idx: int):
        glare_path, gt_path = self.image_pairs[idx]
        glare_img = Image.open(glare_path).convert("RGB")
        gt_img = Image.open(gt_path).convert("RGB")

        if self.transform:
            glare_img = self.transform(glare_img)
            gt_img = self.transform(gt_img)

        return glare_img, gt_img

# ✅ Transformations with data augmentation
transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomVerticalFlip(),
    transforms.RandomRotation(10),
    transforms.ColorJitter(brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1),
    transforms.ToTensor(),
])

# ✅ Data loaders (Optimized)
train_dataset = GlareRemovalDataset(PROCESSED_TRAIN_DIR, transform=transform)
val_dataset = GlareRemovalDataset(PROCESSED_VAL_DIR, transform=transforms.ToTensor())

train_loader = DataLoader(
    train_dataset, batch_size=16, shuffle=True, num_workers=0, pin_memory=True
)
val_loader = DataLoader(
    val_dataset, batch_size=16, shuffle=False, num_workers=0, pin_memory=True
)

# ✅ Instantiate Model
model = Auto().to(device)

# ✅ Custom Loss (L1 + SSIM Loss)
def custom_loss(predicted: torch.Tensor, target: torch.Tensor) -> torch.Tensor:
    l1_loss = F.l1_loss(predicted, target)
    ssim_loss = 1 - ssim(predicted, target, data_range=1, size_average=True)
    return 0.5 * l1_loss + 0.5 * ssim_loss

# ✅ Optimizer & Scheduler
optimizer = optim.Adam(model.parameters(), lr=1e-3, weight_decay=1e-5)
scheduler = CosineAnnealingLR(optimizer, T_max=30, eta_min=1e-6)

# ✅ Training loop
num_epochs = 30  # Increased for better learning
best_val_loss = float("inf")
patience = 15
counter = 0

for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0

    for images, targets in tqdm(train_loader, desc=f"Epoch {epoch + 1}/{num_epochs}"):
        images, targets = images.to(device), targets.to(device)

        optimizer.zero_grad()
        outputs = model(images)

        loss = custom_loss(outputs, targets)
        loss.backward()

        # ✅ Gradient Clipping to avoid exploding gradients
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

        optimizer.step()
        running_loss += loss.item()

    avg_train_loss = running_loss / len(train_loader)
    print(f"Epoch {epoch+1} - Training Loss: {avg_train_loss:.4f}")

    # ✅ Validation loop
    model.eval()
    val_loss = 0.0
    with torch.no_grad():
        for images, targets in val_loader:
            images, targets = images.to(device), targets.to(device)
            outputs = model(images)
            val_loss += custom_loss(outputs, targets).item()

    avg_val_loss = val_loss / len(val_loader)
    print(f"Epoch {epoch+1} - Validation Loss: {avg_val_loss:.4f}")

    # ✅ Adjust learning rate
    scheduler.step()

    # ✅ Early stopping and model saving
    if avg_val_loss < best_val_loss:
        best_val_loss = avg_val_loss
        counter = 0
        best_model_path = MODEL_DIR / "best_glare_removal_autoencoder_augmented.pth"
        torch.save(model.state_dict(), best_model_path)
        print(f"✅ Best Model Saved at: {best_model_path}")
    else:
        counter += 1
        if counter >= patience:
            print(f"Early stopping triggered after {epoch+1} epochs")
            break

    # ✅ Periodic checkpoint saving
    if (epoch + 1) % 10 == 0:
        checkpoint_path = MODEL_DIR / f"glare_autoencoder_augmented_epoch_{epoch + 1}.pth"
        torch.save(model.state_dict(), checkpoint_path)
        print(f"📌 Checkpoint saved at: {checkpoint_path}")

# ✅ Save final model
final_model_path = MODEL_DIR / "final_glare_removal_autoencoder_augemented.pth"
torch.save(model.state_dict(), final_model_path)
print(f"🎉 Final Model Saved at: {final_model_path}")


Using device: cpu


Epoch 1/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [15:02<00:00,  1.20s/it]


Epoch 1 - Training Loss: 0.3755
Epoch 1 - Validation Loss: 0.2316
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 2/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [15:09<00:00,  1.21s/it]


Epoch 2 - Training Loss: 0.2482
Epoch 2 - Validation Loss: 0.2239
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 3/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [15:05<00:00,  1.21s/it]


Epoch 3 - Training Loss: 0.2427
Epoch 3 - Validation Loss: 0.2243


Epoch 4/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [15:12<00:00,  1.22s/it]


Epoch 4 - Training Loss: 0.2418
Epoch 4 - Validation Loss: 0.2154
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 5/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [15:06<00:00,  1.21s/it]


Epoch 5 - Training Loss: 0.2418
Epoch 5 - Validation Loss: 0.2153
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 6/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [15:33<00:00,  1.24s/it]


Epoch 6 - Training Loss: 0.2415
Epoch 6 - Validation Loss: 0.2178


Epoch 7/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [16:37<00:00,  1.33s/it]


Epoch 7 - Training Loss: 0.2411
Epoch 7 - Validation Loss: 0.2199


Epoch 8/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [18:19<00:00,  1.47s/it]


Epoch 8 - Training Loss: 0.2414
Epoch 8 - Validation Loss: 0.2108
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 9/30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [20:14<00:00,  1.62s/it]


Epoch 9 - Training Loss: 0.2407
Epoch 9 - Validation Loss: 0.2163


Epoch 10/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [20:18<00:00,  1.63s/it]


Epoch 10 - Training Loss: 0.2401
Epoch 10 - Validation Loss: 0.2204
📌 Checkpoint saved at: ..\models\glare_autoencoder_augmented_epoch_10.pth


Epoch 11/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [20:45<00:00,  1.66s/it]


Epoch 11 - Training Loss: 0.2403
Epoch 11 - Validation Loss: 0.2205


Epoch 12/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [20:42<00:00,  1.66s/it]


Epoch 12 - Training Loss: 0.2397
Epoch 12 - Validation Loss: 0.2080
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 13/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [21:24<00:00,  1.71s/it]


Epoch 13 - Training Loss: 0.2395
Epoch 13 - Validation Loss: 0.2078
✅ Best Model Saved at: ..\models\best_glare_removal_autoencoder_augmented.pth


Epoch 14/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [22:48<00:00,  1.82s/it]


Epoch 14 - Training Loss: 0.2392
Epoch 14 - Validation Loss: 0.2197


Epoch 15/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [24:20<00:00,  1.95s/it]


Epoch 15 - Training Loss: 0.2394
Epoch 15 - Validation Loss: 0.2158


Epoch 16/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [24:36<00:00,  1.97s/it]


Epoch 16 - Training Loss: 0.2387
Epoch 16 - Validation Loss: 0.2189


Epoch 17/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [25:24<00:00,  2.03s/it]


Epoch 17 - Training Loss: 0.2388
Epoch 17 - Validation Loss: 0.2113


Epoch 18/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [28:44<00:00,  2.30s/it]


Epoch 18 - Training Loss: 0.2389
Epoch 18 - Validation Loss: 0.2102


Epoch 19/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [27:15<00:00,  2.18s/it]


Epoch 19 - Training Loss: 0.2394
Epoch 19 - Validation Loss: 0.2222


Epoch 20/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [26:48<00:00,  2.15s/it]


Epoch 20 - Training Loss: 0.2386
Epoch 20 - Validation Loss: 0.2125
📌 Checkpoint saved at: ..\models\glare_autoencoder_augmented_epoch_20.pth


Epoch 21/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [25:27<00:00,  2.04s/it]


Epoch 21 - Training Loss: 0.2389
Epoch 21 - Validation Loss: 0.2142


Epoch 22/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [25:45<00:00,  2.06s/it]


Epoch 22 - Training Loss: 0.2388
Epoch 22 - Validation Loss: 0.2133


Epoch 23/30: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [29:43<00:00,  2.38s/it]


Epoch 23 - Training Loss: 0.2386
Epoch 23 - Validation Loss: 0.2122


Epoch 24/30:   1%|█▌                                                                                                                                                                          | 7/750 [00:16<29:28,  2.38s/it]