## Import libraries


In [3]:
import os
import sys
import time

source_folder = "/beegfs/halder/GITHUB/RESEARCH/wheat-yield-forecasting-germany/src"
sys.path.append(source_folder)

import config.config as cfg
import numpy as np
import torch
from config.config import model_config, train_config
from dataset.dataset import CropFusionNetDataset
from loss.loss import QuantileLoss
from models.CropFusionNet.model import CropFusionNet
from torch import nn
from torch.optim import Adam
from torch.optim.lr_scheduler import ReduceLROnPlateau
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from tqdm import tqdm
from utils.utils import set_seed

device = model_config["device"]
set_seed(42)

## Create datasets and dataloaders


In [4]:
train_dataset = CropFusionNetDataset(cfg, mode="train", scale=True)
val_dataset = CropFusionNetDataset(cfg, mode="val", scale=True)

train_loader = DataLoader(
    train_dataset,
    batch_size=train_config["batch_size"],
    shuffle=True,
    num_workers=32,
    pin_memory=True,
    persistent_workers=True,
    prefetch_factor=4,
)

val_loader = DataLoader(
    val_dataset,
    batch_size=train_config["batch_size"],
    shuffle=False,
    num_workers=32,
    pin_memory=True,
    persistent_workers=True,
    prefetch_factor=4,
)

‚ö†Ô∏è Filtered dataset: Dropped 13 samples missing from Yield Table.


## Model, optimizer and loss


In [5]:
model = CropFusionNet(model_config).to(device)
criterion = QuantileLoss(quantiles=model_config["quantiles"]).to(device)
optimizer = Adam(
    model.parameters(), lr=train_config["lr"], weight_decay=train_config["weight_decay"]
)
num_epochs = train_config.get("num_epochs", 50)
patience = train_config.get("early_stopping_patience", 10)
batch_size = train_config.get("batch_size", 32)

# Learning rate scheduler
scheduler = ReduceLROnPlateau(
    optimizer,
    mode="min",  # minimize validation loss
    factor=0.5,  # reduce LR by 50%
    patience=3,  # wait for 3 epochs before reducing
    threshold=1e-4,  # minimal improvement threshold
    min_lr=1e-6,  # lower bound for learning rate
)

## Training


In [6]:
def train_model(
    model,
    train_loader,
    val_loader,
    criterion,
    optimizer,
    device,
    num_epochs,
    patience,
    scheduler=None,
    checkpoint_dir="checkpoints",
    exp_name="CropFusionNet_experiment",
):
    # 1. Setup Logging
    timestamp = time.strftime("%Y%m%d-%H%M%S")
    log_id = f"run_{exp_name}_{timestamp}"
    log_dir = os.path.join("runs", log_id)
    writer = SummaryWriter(log_dir=log_dir)

    save_folder = os.path.join(checkpoint_dir, log_id)
    os.makedirs(save_folder, exist_ok=True)

    print(f"üìò TensorBoard logs: {log_dir}")
    print(f"üíæ Checkpoints: {save_folder}")

    best_val_loss = np.inf
    epochs_no_improve = 0
    best_model_state = None

    for epoch in range(1, num_epochs + 1):
        start_time = time.time()

        # --- TRAINING PHASE ---
        model.train()
        train_loss_accum = 0.0

        train_pbar = tqdm(train_loader, desc=f"Epoch {epoch}/{num_epochs} [Train]")
        for batch in train_pbar:
            optimizer.zero_grad()

            # Move inputs to device
            inputs = {
                "inputs": batch["inputs"].to(device),
                "identifier": batch["identifier"].to(device),
                "mask": batch["mask"].to(device),
                "variable_mask": (
                    batch.get("variable_mask").to(device)
                    if batch.get("variable_mask") is not None
                    else None
                ),
            }
            targets = batch["target"].to(device)

            # Forward Pass
            output_dict = model(inputs)
            preds = output_dict["prediction"]

            # Loss Calculation
            loss = criterion(preds, targets)

            # Backward Pass
            loss.backward()

            # Gradient Clipping
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=5.0)

            # Optimization Step
            optimizer.step()

            train_loss_accum += loss.item()
            train_pbar.set_postfix({"loss": f"{loss.item():.4f}"})

        avg_train_loss = train_loss_accum / len(train_loader)

        # --- VALIDATION PHASE ---
        model.eval()
        val_loss_accum = 0.0

        with torch.no_grad():
            for batch in tqdm(val_loader, desc="Validation"):
                inputs = {
                    "inputs": batch["inputs"].to(device),
                    "identifier": batch["identifier"].to(device),
                    "mask": batch["mask"].to(device),
                    "variable_mask": (
                        batch.get("variable_mask").to(device)
                        if batch.get("variable_mask") is not None
                        else None
                    ),
                }
                targets = batch["target"].to(device)

                output_dict = model(inputs)
                preds = output_dict["prediction"]

                loss = criterion(preds, targets)
                val_loss_accum += loss.item()

        avg_val_loss = val_loss_accum / len(val_loader)

        # --- LOGGING & SCHEDULING ---
        elapsed = time.time() - start_time
        current_lr = optimizer.param_groups[0]["lr"]

        print(
            f"Epoch {epoch:03d} | Train: {avg_train_loss:.4f} | Val: {avg_val_loss:.4f} | LR: {current_lr:.2e} | T: {elapsed:.1f}s"
        )

        writer.add_scalars(
            "Loss", {"Train": avg_train_loss, "Val": avg_val_loss}, epoch
        )
        writer.add_scalar("LR", current_lr, epoch)

        if scheduler:
            scheduler.step(avg_val_loss)

        # Early Stopping
        if avg_val_loss < best_val_loss - 1e-4:
            best_val_loss = avg_val_loss
            epochs_no_improve = 0
            best_model_state = model.state_dict()
            torch.save(best_model_state, os.path.join(save_folder, "best_model.pt"))
            print(f"‚ú® New best model saved.")
        else:
            epochs_no_improve += 1
            if epochs_no_improve >= patience:
                print(f"‚èπÔ∏è Early stopping at epoch {epoch}")
                break

    writer.close()
    return best_model_state

In [7]:
train_model(
    model,
    train_loader,
    val_loader,
    criterion,
    optimizer,
    device,
    num_epochs,
    patience,
    scheduler,
    exp_name=train_config["exp_name"],
)

üìò TensorBoard logs: runs/run_exp_66_20260214-152513
üíæ Checkpoints: checkpoints/run_exp_66_20260214-152513


Epoch 1/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:14<00:00, 12.91it/s, loss=0.8732]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:01<00:00, 17.06it/s]


Epoch 001 | Train: 0.7216 | Val: 0.6411 | LR: 1.00e-05 | T: 15.9s
‚ú® New best model saved.


Epoch 2/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.59it/s, loss=0.6324]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.09it/s]


Epoch 002 | Train: 0.6040 | Val: 0.6451 | LR: 1.00e-05 | T: 14.5s


Epoch 3/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.41it/s, loss=0.7536]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.13it/s]


Epoch 003 | Train: 0.5691 | Val: 0.6350 | LR: 1.00e-05 | T: 14.6s
‚ú® New best model saved.


Epoch 4/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.62it/s, loss=0.5445]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.23it/s]


Epoch 004 | Train: 0.5495 | Val: 0.5916 | LR: 1.00e-05 | T: 14.5s
‚ú® New best model saved.


Epoch 5/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:14<00:00, 13.19it/s, loss=0.7319]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.03it/s]


Epoch 005 | Train: 0.5362 | Val: 0.5879 | LR: 1.00e-05 | T: 14.9s
‚ú® New best model saved.


Epoch 6/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.34it/s, loss=0.6856]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 28.95it/s]


Epoch 006 | Train: 0.5193 | Val: 0.6138 | LR: 1.00e-05 | T: 14.8s


Epoch 7/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.11it/s, loss=0.6395]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.51it/s]


Epoch 007 | Train: 0.5104 | Val: 0.6056 | LR: 1.00e-05 | T: 14.0s


Epoch 8/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.38it/s, loss=0.6031]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.63it/s]


Epoch 008 | Train: 0.5001 | Val: 0.5641 | LR: 1.00e-05 | T: 13.7s
‚ú® New best model saved.


Epoch 9/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.53it/s, loss=0.2127]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.35it/s]


Epoch 009 | Train: 0.4897 | Val: 0.5534 | LR: 1.00e-05 | T: 13.6s
‚ú® New best model saved.


Epoch 10/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.38it/s, loss=0.6688]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.12it/s]


Epoch 010 | Train: 0.4825 | Val: 0.5640 | LR: 1.00e-05 | T: 13.7s


Epoch 11/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.31it/s, loss=0.4487]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.74it/s]


Epoch 011 | Train: 0.4704 | Val: 0.5287 | LR: 1.00e-05 | T: 13.8s
‚ú® New best model saved.


Epoch 12/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.94it/s, loss=0.3547]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.85it/s]


Epoch 012 | Train: 0.4659 | Val: 0.5269 | LR: 1.00e-05 | T: 14.1s
‚ú® New best model saved.


Epoch 13/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.45it/s, loss=0.5381]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.15it/s]


Epoch 013 | Train: 0.4523 | Val: 0.5357 | LR: 1.00e-05 | T: 13.6s


Epoch 14/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.38it/s, loss=0.4919]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.99it/s]


Epoch 014 | Train: 0.4476 | Val: 0.5112 | LR: 1.00e-05 | T: 13.7s
‚ú® New best model saved.


Epoch 15/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.65it/s, loss=0.3170]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 28.16it/s]


Epoch 015 | Train: 0.4356 | Val: 0.5196 | LR: 1.00e-05 | T: 14.5s


Epoch 16/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.53it/s, loss=0.6724]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.55it/s]


Epoch 016 | Train: 0.4376 | Val: 0.5597 | LR: 1.00e-05 | T: 13.6s


Epoch 17/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.80it/s, loss=0.4518]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.92it/s]


Epoch 017 | Train: 0.4337 | Val: 0.5398 | LR: 1.00e-05 | T: 13.3s


Epoch 18/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.30it/s, loss=0.3606]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.25it/s]


Epoch 018 | Train: 0.4269 | Val: 0.5119 | LR: 1.00e-05 | T: 13.8s


Epoch 19/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.11it/s, loss=0.7176]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 29.68it/s]


Epoch 019 | Train: 0.4206 | Val: 0.5123 | LR: 5.00e-06 | T: 14.0s


Epoch 20/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.65it/s, loss=0.3440]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.57it/s]


Epoch 020 | Train: 0.4156 | Val: 0.5863 | LR: 5.00e-06 | T: 13.5s


Epoch 21/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.11it/s, loss=0.3681]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.24it/s]


Epoch 021 | Train: 0.4119 | Val: 0.5004 | LR: 5.00e-06 | T: 14.0s
‚ú® New best model saved.


Epoch 22/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.12it/s, loss=0.3018]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.57it/s]


Epoch 022 | Train: 0.4092 | Val: 0.4916 | LR: 5.00e-06 | T: 14.0s
‚ú® New best model saved.


Epoch 23/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.28it/s, loss=0.6883]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 29.37it/s]


Epoch 023 | Train: 0.4093 | Val: 0.5273 | LR: 5.00e-06 | T: 13.8s


Epoch 24/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.29it/s, loss=0.2953]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 29.83it/s]


Epoch 024 | Train: 0.4020 | Val: 0.4923 | LR: 5.00e-06 | T: 13.8s


Epoch 25/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.13it/s, loss=0.3851]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.53it/s]


Epoch 025 | Train: 0.3990 | Val: 0.5431 | LR: 5.00e-06 | T: 13.9s


Epoch 26/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.07it/s, loss=0.4523]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.39it/s]


Epoch 026 | Train: 0.3956 | Val: 0.4839 | LR: 5.00e-06 | T: 14.0s
‚ú® New best model saved.


Epoch 27/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.14it/s, loss=0.7533]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 29.88it/s]


Epoch 027 | Train: 0.3957 | Val: 0.5383 | LR: 5.00e-06 | T: 14.0s


Epoch 28/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.20it/s, loss=0.3628]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.47it/s]


Epoch 028 | Train: 0.3934 | Val: 0.5148 | LR: 5.00e-06 | T: 13.9s


Epoch 29/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.31it/s, loss=0.4941]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.84it/s]


Epoch 029 | Train: 0.3910 | Val: 0.5115 | LR: 5.00e-06 | T: 13.8s


Epoch 30/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.63it/s, loss=0.3985]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.43it/s]


Epoch 030 | Train: 0.3880 | Val: 0.4790 | LR: 5.00e-06 | T: 13.5s
‚ú® New best model saved.


Epoch 31/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.17it/s, loss=0.4134]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.63it/s]


Epoch 031 | Train: 0.3869 | Val: 0.4966 | LR: 5.00e-06 | T: 13.9s


Epoch 32/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.27it/s, loss=0.2776]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.94it/s]


Epoch 032 | Train: 0.3848 | Val: 0.4963 | LR: 5.00e-06 | T: 13.8s


Epoch 33/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.85it/s, loss=0.6501]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.56it/s]


Epoch 033 | Train: 0.3827 | Val: 0.4817 | LR: 5.00e-06 | T: 14.2s


Epoch 34/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.01it/s, loss=0.2966]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.12it/s]


Epoch 034 | Train: 0.3817 | Val: 0.4855 | LR: 5.00e-06 | T: 14.1s


Epoch 35/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.10it/s, loss=0.5044]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.17it/s]


Epoch 035 | Train: 0.3767 | Val: 0.5051 | LR: 2.50e-06 | T: 14.0s


Epoch 36/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.24it/s, loss=0.2988]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.96it/s]


Epoch 036 | Train: 0.3750 | Val: 0.4922 | LR: 2.50e-06 | T: 13.8s


Epoch 37/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.34it/s, loss=0.4790]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.84it/s]


Epoch 037 | Train: 0.3739 | Val: 0.5069 | LR: 2.50e-06 | T: 13.7s


Epoch 38/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 13.88it/s, loss=0.6094]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.19it/s]


Epoch 038 | Train: 0.3752 | Val: 0.5088 | LR: 2.50e-06 | T: 14.2s


Epoch 39/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.17it/s, loss=0.2412]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.59it/s]


Epoch 039 | Train: 0.3695 | Val: 0.4858 | LR: 1.25e-06 | T: 13.9s


Epoch 40/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.42it/s, loss=0.3658]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 29.98it/s]


Epoch 040 | Train: 0.3674 | Val: 0.4903 | LR: 1.25e-06 | T: 13.7s


Epoch 41/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.36it/s, loss=0.4321]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.28it/s]


Epoch 041 | Train: 0.3665 | Val: 0.5032 | LR: 1.25e-06 | T: 13.7s


Epoch 42/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.15it/s, loss=0.4585]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 29.47it/s]


Epoch 042 | Train: 0.3691 | Val: 0.4894 | LR: 1.25e-06 | T: 14.0s


Epoch 43/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.55it/s, loss=0.6278]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.97it/s]


Epoch 043 | Train: 0.3650 | Val: 0.4941 | LR: 1.00e-06 | T: 13.6s


Epoch 44/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:13<00:00, 14.09it/s, loss=0.2708]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.70it/s]


Epoch 044 | Train: 0.3646 | Val: 0.4887 | LR: 1.00e-06 | T: 14.0s


Epoch 45/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.59it/s, loss=0.4638]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.29it/s]


Epoch 045 | Train: 0.3644 | Val: 0.4926 | LR: 1.00e-06 | T: 13.5s


Epoch 46/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.57it/s, loss=0.2575]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.79it/s]


Epoch 046 | Train: 0.3643 | Val: 0.4868 | LR: 1.00e-06 | T: 13.5s


Epoch 47/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.47it/s, loss=0.3060]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.37it/s]


Epoch 047 | Train: 0.3636 | Val: 0.4854 | LR: 1.00e-06 | T: 13.6s


Epoch 48/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.63it/s, loss=0.4568]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 30.93it/s]


Epoch 048 | Train: 0.3641 | Val: 0.4900 | LR: 1.00e-06 | T: 13.5s


Epoch 49/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.40it/s, loss=0.2158]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.51it/s]


Epoch 049 | Train: 0.3630 | Val: 0.4876 | LR: 1.00e-06 | T: 13.7s


Epoch 50/500 [Train]: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 185/185 [00:12<00:00, 14.41it/s, loss=0.4225]
Validation: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [00:00<00:00, 31.07it/s]


Epoch 050 | Train: 0.3652 | Val: 0.4870 | LR: 1.00e-06 | T: 13.7s
‚èπÔ∏è Early stopping at epoch 50


OrderedDict([('static_linear_layers.0.weight',
              tensor([[ 0.7647],
                      [ 0.8336],
                      [-0.2336],
                      [ 0.9136],
                      [-0.2144],
                      [ 0.2021],
                      [-0.4923],
                      [ 0.5848],
                      [ 0.8806],
                      [-0.7374],
                      [ 0.8676],
                      [ 0.1864],
                      [ 0.7371],
                      [ 0.1366],
                      [ 0.4844],
                      [-0.1470]], device='cuda:0')),
             ('static_linear_layers.0.bias',
              tensor([ 0.7716,  0.1456, -0.4662,  0.2562, -0.4641, -0.1175, -0.4050,  0.6646,
                      -0.7880, -0.4593, -0.2823, -0.6023,  0.0948, -0.9878,  0.9021, -0.8480],
                     device='cuda:0')),
             ('static_linear_layers.1.weight',
              tensor([[ 0.7695],
                      [ 0.1622],
                  