In [1]:
import torch
import torch.nn as nn
import json
from torch_geometric.loader import DataLoader
from pathlib import Path
import numpy as np
from tqdm import tqdm
from typing import Set
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict
import os

# Import your existing modules
from src.models import CoGraphNet
from src.data.document_dataset import DocumentGraphDataset
from src.train import FocalLoss


In [2]:
# -------------------------
# Create Plots Folder
# -------------------------
PLOT_DIR = "plots"
if not os.path.exists(PLOT_DIR):
    os.makedirs(PLOT_DIR)

In [3]:
# -------------------------
# Helper Functions for Calibration
# -------------------------
def compute_ece(probs, labels, n_bins=10):
    bins = np.linspace(0.0, 1.0, n_bins + 1)
    ece = 0.0
    max_probs = probs.max(axis=1)
    pred_labels = probs.argmax(axis=1)
    for i in range(n_bins):
        bin_lower = bins[i]
        bin_upper = bins[i+1]
        in_bin = (max_probs > bin_lower) & (max_probs <= bin_upper)
        prop_in_bin = np.mean(in_bin)
        if prop_in_bin > 0:
            accuracy_in_bin = np.mean(labels[in_bin] == pred_labels[in_bin])
            avg_confidence_in_bin = np.mean(max_probs[in_bin])
            ece += np.abs(avg_confidence_in_bin - accuracy_in_bin) * prop_in_bin
    return ece

In [4]:
def plot_reliability_diagram(probs, labels, n_bins=10, save_path=None):
    bins = np.linspace(0.0, 1.0, n_bins + 1)
    bin_centers = (bins[:-1] + bins[1:]) / 2.0
    max_probs = probs.max(axis=1)
    pred_labels = probs.argmax(axis=1)
    accuracies = []
    confidences = []
    for i in range(n_bins):
        bin_lower = bins[i]
        bin_upper = bins[i+1]
        in_bin = (max_probs > bin_lower) & (max_probs <= bin_upper)
        if np.sum(in_bin) > 0:
            accuracy = np.mean(labels[in_bin] == pred_labels[in_bin])
            confidence = np.mean(max_probs[in_bin])
        else:
            accuracy = 0.0
            confidence = 0.0
        accuracies.append(accuracy)
        confidences.append(confidence)
    plt.figure(figsize=(8, 6))
    plt.plot(bin_centers, accuracies, marker='o', label="Empirical Accuracy")
    plt.plot(bin_centers, confidences, marker='s', label="Average Confidence")
    plt.plot([0, 1], [0, 1], linestyle='--', color='gray', label="Perfect Calibration")
    plt.xlabel("Confidence")
    plt.ylabel("Accuracy")
    plt.title("Reliability Diagram")
    plt.legend()
    plt.grid(True)
    if save_path:
        plt.savefig(save_path)
    plt.close()

In [5]:
# -------------------------
# Utility Functions
# -------------------------
def get_all_categories(train_dir: str, test_dir: str) -> Set[str]:
    """Get all unique categories across all datasets."""
    categories = set()
    for data_dir in [train_dir, test_dir]:
        for file in Path(data_dir).glob('*.json'):
            with open(file, 'r', encoding='utf-8') as f:
                doc = json.load(f)
                if 'text' in doc and 'category' in doc and doc['text'].strip() and doc['category'].strip():
                    categories.add(doc['category'])
    return categories

In [6]:
def create_dataloaders(root: str, train_dir: str, test_dir: str, batch_size: int):
    """Create DataLoader instances with a train/validation split."""
    all_categories = get_all_categories(train_dir, test_dir)
    category_to_idx = {cat: idx for idx, cat in enumerate(sorted(all_categories))}
    num_classes = len(category_to_idx)
    
    full_train_dataset = DocumentGraphDataset(
        f"{root}/train", 
        train_dir, 
        category_to_idx=category_to_idx
    )
    
    dataset_size = len(full_train_dataset)
    val_size = int(dataset_size * 0.1)  # 10% for validation
    train_size = dataset_size - val_size
    
    generator = torch.Generator().manual_seed(42)
    train_dataset, val_dataset = torch.utils.data.random_split(
        full_train_dataset, 
        [train_size, val_size],
        generator=generator
    )
    
    train_loader = DataLoader(
        train_dataset,
        batch_size=batch_size,
        shuffle=True,
        num_workers=4,
        pin_memory=True
    )
    
    val_loader = DataLoader(
        val_dataset,
        batch_size=batch_size,
        shuffle=False,
        num_workers=4,
        pin_memory=True
    )
    
    print("\nClass Distribution:")
    train_labels = [data.y.item() for data in train_dataset]
    val_labels = [data.y.item() for data in val_dataset]
    print("Training set:", {cls: train_labels.count(cls) for cls in set(train_labels)})
    print("Validation set:", {cls: val_labels.count(cls) for cls in set(val_labels)})
    
    return train_loader, val_loader, num_classes, category_to_idx

In [7]:
def validate(model, val_loader, criterion, device, category_to_idx, epoch, phase):
    """Validate the model and generate diagnostic plots including predicted vs true class counts."""
    model.eval()
    total_loss = 0
    correct = 0
    total = 0
    
    all_preds = []
    all_labels = []
    all_logits = []
    
    with torch.no_grad():
        for batch in val_loader:
            word_x = batch['word'].x.to(device)
            word_edge_index = batch['word', 'co_occurs', 'word'].edge_index.to(device)
            word_edge_weight = batch['word', 'co_occurs', 'word'].edge_attr.to(device)
            word_batch = batch['word'].batch.to(device)
            
            sent_x = batch['sentence'].x.to(device)
            sent_edge_index = batch['sentence', 'related_to', 'sentence'].edge_index.to(device)
            sent_edge_weight = batch['sentence', 'related_to', 'sentence'].edge_attr.to(device)
            sent_batch = batch['sentence'].batch.to(device)
            
            outputs = model(
                word_x, word_edge_index, word_batch, word_edge_weight,
                sent_x, sent_edge_index, sent_batch, sent_edge_weight
            )
            
            curr_logits = outputs[:batch.y.size(0)].cpu()
            all_logits.append(curr_logits)
            
            batch = batch.to(device)
            curr_batch_size = batch.y.size(0)
            loss = criterion(outputs[:curr_batch_size], batch.y)
            total_loss += loss.item() * curr_batch_size
            preds = outputs[:curr_batch_size].argmax(dim=1)
            correct += (preds == batch.y).sum().item()
            total += curr_batch_size
            
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(batch.y.cpu().numpy())
    
    # Concatenate logits and compute probabilities
    all_logits = torch.cat(all_logits, dim=0)
    all_probs = torch.softmax(all_logits, dim=1).numpy()
    all_labels_np = np.array(all_labels)
    
    # Plot histogram of predicted classes
    plt.figure(figsize=(8, 6))
    sns.histplot(all_preds, bins=np.arange(len(category_to_idx)+1)-0.5, kde=False)
    plt.xlabel("Predicted Class")
    plt.ylabel("Count")
    plt.title(f"Validation Prediction Distribution (Phase {phase}, Epoch {epoch+1})")
    plt.savefig(os.path.join(PLOT_DIR, f"val_pred_distribution_phase_{phase}_epoch_{epoch+1}.png"))
    plt.close()
    
    # NEW: Plot bar chart comparing predicted vs. true class counts
    indices = np.arange(len(category_to_idx))
    pred_counts = [np.sum(np.array(all_preds)==i) for i in range(len(category_to_idx))]
    true_counts = [np.sum(np.array(all_labels)==i) for i in range(len(category_to_idx))]
    width = 0.35
    plt.figure(figsize=(8,6))
    plt.bar(indices - width/2, pred_counts, width=width, label="Predicted")
    plt.bar(indices + width/2, true_counts, width=width, label="True")
    plt.xlabel("Class")
    plt.ylabel("Count")
    plt.title(f"Validation Class Distribution (Phase {phase}, Epoch {epoch+1})")
    plt.xticks(indices, list(range(len(category_to_idx))))
    plt.legend()
    plt.savefig(os.path.join(PLOT_DIR, f"val_class_distribution_phase_{phase}_epoch_{epoch+1}.png"))
    plt.close()
    
    # Calibration diagnostics
    logits_mean = all_logits.mean().item()
    logits_std = all_logits.std().item()
    print(f"[Phase {phase}, Epoch {epoch+1}] Logits Mean: {logits_mean:.4f}, Std: {logits_std:.4f}")
    ece = compute_ece(all_probs, all_labels_np, n_bins=10)
    print(f"[Phase {phase}, Epoch {epoch+1}] Expected Calibration Error (ECE): {ece:.4f}")
    plot_reliability_diagram(all_probs, all_labels_np, n_bins=10,
                             save_path=os.path.join(PLOT_DIR, f"reliability_diagram_phase_{phase}_epoch_{epoch+1}.png"))
    
    val_loss = total_loss / total
    val_acc = correct / total
    return val_loss, val_acc, all_preds, all_labels

In [8]:
def freeze_module(module):
    for param in module.parameters():
        param.requires_grad = False

def unfreeze_module(module):
    for param in module.parameters():
        param.requires_grad = True

In [9]:
def train_one_epoch(model, train_loader, optimizer, criterion, device, epoch, phase, num_classes):
    model.train()
    total_loss = 0
    batch_indices = []
    batch_unique_pred = []
    batch_unique_true = []
    
    for batch_idx, batch in enumerate(tqdm(train_loader, desc=f"Phase {phase} - Epoch {epoch+1}")):
        word_x = batch['word'].x.to(device)
        word_edge_index = batch['word', 'co_occurs', 'word'].edge_index.to(device)
        word_edge_weight = batch['word', 'co_occurs', 'word'].edge_attr.to(device)
        word_batch = batch['word'].batch.to(device)
        
        sent_x = batch['sentence'].x.to(device)
        sent_edge_index = batch['sentence', 'related_to', 'sentence'].edge_index.to(device)
        sent_edge_weight = batch['sentence', 'related_to', 'sentence'].edge_attr.to(device)
        sent_batch = batch['sentence'].batch.to(device)
        
        optimizer.zero_grad()
        outputs = model(
            word_x, word_edge_index, word_batch, word_edge_weight,
            sent_x, sent_edge_index, sent_batch, sent_edge_weight
        )
        
        batch = batch.to(device)
        curr_batch_size = batch.y.size(0)
        loss = criterion(outputs[:curr_batch_size], batch.y)
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
        
        preds = outputs[:curr_batch_size].argmax(dim=1)
        unique_pred = len(torch.unique(preds).cpu().numpy())
        unique_true = len(torch.unique(batch.y).cpu().numpy())
        batch_indices.append(batch_idx + 1)
        batch_unique_pred.append(unique_pred)
        batch_unique_true.append(unique_true)
    
    plt.figure(figsize=(10,6))
    plt.plot(batch_indices, batch_unique_pred, marker='o', linestyle='-', label='Unique Predicted Classes')
    plt.plot(batch_indices, batch_unique_true, marker='s', linestyle='-', label='Unique True Classes')
    plt.xlabel("Batch Index")
    plt.ylabel("Number of Unique Classes")
    plt.title(f"Training Unique Classes per Batch (Phase {phase}, Epoch {epoch+1})")
    plt.ylim(0, num_classes + 1)
    plt.legend()
    plt.grid(True)
    plt.savefig(os.path.join(PLOT_DIR, f"train_unique_classes_phase_{phase}_epoch_{epoch+1}.png"))
    plt.close()
    
    avg_loss = total_loss / len(train_loader)
    return avg_loss

In [10]:
# -------------------------
# Main Training Function with Phased Training
# -------------------------
def main():
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    # Use best hyperparameters:
    batch_size = 16
    hidden_dim = 148
    learning_rate = 0.000363022060695821
    total_phases = 4
    epochs_per_phase = 50  # 50 epochs per phase
    
    # Create dataloaders
    train_loader, val_loader, num_classes, category_to_idx = create_dataloaders(
        root="processed_graphs_ohsumed",
        train_dir="processed_data_ohsumed/train",
        test_dir="processed_data_ohsumed/test",
        batch_size=batch_size
    )

    dropout_rate = {
        'word': 0.3,
        'sent': 0.3,
        'fusion': 0.3,
        'co_graph': 0.3,
        'final': 0.3
    }

    dropout_config = {
        'word': True,
        'sent': True,
        'fusion': True,
        'co_graph': True,
        'final': True
    }
    
    # Create model with best params (note: num_layers set to 3, dropout_rate added)
    model = CoGraphNet(
        word_in_channels=768,
        sent_in_channels=768,
        hidden_channels=hidden_dim,
        num_word_layers=3,
        num_sent_layers=3,
        num_classes=num_classes,
        dropout_rate=dropout_rate,
        dropout_config=dropout_config
    ).to(device)
    
    # Compute separate class weights for training and validation sets
    train_labels = torch.tensor([data.y.item() for data in train_loader.dataset])
    train_class_counts = torch.bincount(train_labels, minlength=num_classes)
    train_total_samples = len(train_labels)
    train_class_weights = train_total_samples / (num_classes * train_class_counts.float())
    train_class_weights = train_class_weights.to(device)

    val_labels = torch.tensor([data.y.item() for data in val_loader.dataset])
    val_class_counts = torch.bincount(val_labels, minlength=num_classes)
    val_total_samples = len(val_labels)
    val_class_weights = val_total_samples / (num_classes * val_class_counts.float())
    val_class_weights = val_class_weights.to(device)
    
    # Create separate loss functions for training and validation
    train_criterion = FocalLoss(gamma=params['gamma'], weight=train_class_weights)
    val_criterion = FocalLoss(gamma=params['gamma'], weight=val_class_weights)
    
    overall_train_losses = defaultdict(list)
    overall_val_losses = defaultdict(list)
    overall_val_accs = defaultdict(list)
    
    best_val_acc = 0
    best_model_state = None
    
    # PHASE 1: Train Sentence Network Only
    print("\n--- Phase 1: Train Sentence Network Only ---")
    freeze_module(model.word_net)
    freeze_module(model.fusion)
    freeze_module(model.final_mlp)
    unfreeze_module(model.sent_net)
    
    optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()),
                                 lr=learning_rate, weight_decay=2.7910370279837748e-08)
    scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.1)
    
    for epoch in range(epochs_per_phase):
        train_loss = train_one_epoch(model, train_loader, optimizer, train_criterion, device, epoch, phase=1, num_classes=num_classes)
        val_loss, val_acc, all_preds, all_labels = validate(model, val_loader, val_criterion, device, category_to_idx, epoch, phase=1)
        scheduler.step(val_loss)
        overall_train_losses['Phase 1'].append(train_loss)
        overall_val_losses['Phase 1'].append(val_loss)
        overall_val_accs['Phase 1'].append(val_acc)
        print(f"Phase 1, Epoch {epoch+1}: Train Loss = {train_loss:.4f}, Val Loss = {val_loss:.4f}, Val Acc = {val_acc:.4f}")
    
    # PHASE 2: Train Word Network Only
    print("\n--- Phase 2: Train Word Network Only ---")
    freeze_module(model.sent_net)
    freeze_module(model.fusion)
    freeze_module(model.final_mlp)
    unfreeze_module(model.word_net)
    
    optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()),
                                 lr=learning_rate, weight_decay=2.7910370279837748e-08)
    scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.1)
    
    for epoch in range(epochs_per_phase):
        train_loss = train_one_epoch(model, train_loader, optimizer, train_criterion, device, epoch, phase=2, num_classes=num_classes)
        val_loss, val_acc, all_preds, all_labels = validate(model, val_loader, val_criterion, device, category_to_idx, epoch, phase=2)
        scheduler.step(val_loss)
        overall_train_losses['Phase 2'].append(train_loss)
        overall_val_losses['Phase 2'].append(val_loss)
        overall_val_accs['Phase 2'].append(val_acc)
        print(f"Phase 2, Epoch {epoch+1}: Train Loss = {train_loss:.4f}, Val Loss = {val_loss:.4f}, Val Acc = {val_acc:.4f}")
    
    # PHASE 3: Train Fusion Layer Only
    print("\n--- Phase 3: Train Fusion Layer Only ---")
    freeze_module(model.word_net)
    freeze_module(model.sent_net)
    freeze_module(model.final_mlp)
    unfreeze_module(model.fusion)
    
    optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()),
                                 lr=learning_rate, weight_decay=2.7910370279837748e-08)
    scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=5, factor=0.5)
    
    for epoch in range(epochs_per_phase):
        train_loss = train_one_epoch(model, train_loader, optimizer, train_criterion, device, epoch, phase=3, num_classes=num_classes)
        val_loss, val_acc, all_preds, all_labels = validate(model, val_loader, val_criterion, device, category_to_idx, epoch, phase=3)
        scheduler.step(val_loss)
        overall_train_losses['Phase 3'].append(train_loss)
        overall_val_losses['Phase 3'].append(val_loss)
        overall_val_accs['Phase 3'].append(val_acc)
        print(f"Phase 3, Epoch {epoch+1}: Train Loss = {train_loss:.4f}, Val Loss = {val_loss:.4f}, Val Acc = {val_acc:.4f}")
    
    # PHASE 4: Fine-Tune Entire Model
    print("\n--- Phase 4: Fine Tune Entire Model ---")
    unfreeze_module(model.word_net)
    unfreeze_module(model.sent_net)
    unfreeze_module(model.fusion)
    unfreeze_module(model.final_mlp)
    
    optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()),
                                 lr=learning_rate, weight_decay=2.7910370279837748e-08)
    scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.1)
    
    for epoch in range(epochs_per_phase):
        train_loss = train_one_epoch(model, train_loader, optimizer, train_criterion, device, epoch, phase=4, num_classes=num_classes)
        val_loss, val_acc, all_preds, all_labels = validate(model, val_loader, val_criterion, device, category_to_idx, epoch, phase=4)
        scheduler.step(val_loss)
        overall_train_losses['Phase 4'].append(train_loss)
        overall_val_losses['Phase 4'].append(val_loss)
        overall_val_accs['Phase 4'].append(val_acc)
        print(f"Phase 4, Epoch {epoch+1}: Train Loss = {train_loss:.4f}, Val Loss = {val_loss:.4f}, Val Acc = {val_acc:.4f}")
        
        if val_acc > best_val_acc:
            best_val_acc = val_acc
            best_model_state = {
                'phase': 4,
                'epoch': epoch,
                'model_state_dict': model.state_dict(),
                'optimizer_state_dict': optimizer.state_dict(),
                'val_acc': val_acc,
            }
            torch.save(best_model_state, os.path.join(PLOT_DIR, 'best_model.pt'))
    
    # Plot Overall Training and Validation Loss Across Phases
    phases = list(overall_train_losses.keys())
    plt.figure(figsize=(12, 5))
    for phase in phases:
        plt.plot(range(1, epochs_per_phase+1), overall_train_losses[phase], label=f'{phase} Train Loss')
        plt.plot(range(1, epochs_per_phase+1), overall_val_losses[phase], label=f'{phase} Val Loss')
    plt.xlabel("Epoch (per phase)")
    plt.ylabel("Loss")
    plt.title("Training vs. Validation Loss Across Phases")
    plt.legend()
    plt.grid(True)
    plt.savefig(os.path.join(PLOT_DIR, "overall_loss_across_phases.png"))
    plt.close()
    
    plt.figure(figsize=(12, 5))
    for phase in phases:
        plt.plot(range(1, epochs_per_phase+1), overall_val_accs[phase], label=f'{phase} Val Accuracy')
    plt.xlabel("Epoch (per phase)")
    plt.ylabel("Validation Accuracy")
    plt.title("Validation Accuracy Across Phases")
    plt.legend()
    plt.grid(True)
    plt.savefig(os.path.join(PLOT_DIR, "overall_val_accuracy_across_phases.png"))
    plt.close()
    
    print(f"Best Validation Accuracy: {best_val_acc:.4f}")

if __name__ == "__main__":
    main()


Loading existing valid indices from metadata
Found 10409 processed documents

Class Distribution:
Training set: {0: 379, 1: 144, 2: 58, 3: 1048, 4: 250, 5: 527, 6: 85, 7: 432, 8: 114, 9: 550, 10: 143, 11: 431, 12: 249, 13: 1127, 14: 198, 15: 172, 16: 265, 17: 358, 18: 171, 19: 469, 20: 499, 21: 79, 22: 1621}
Validation set: {0: 44, 1: 14, 2: 7, 3: 112, 4: 33, 5: 61, 6: 15, 7: 41, 8: 11, 9: 70, 10: 19, 11: 58, 12: 31, 13: 116, 14: 17, 15: 25, 16: 29, 17: 30, 18: 19, 19: 55, 20: 46, 21: 13, 22: 174}

--- Phase 1: Train Sentence Network Only ---


Phase 1 - Epoch 1: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [05:06<00:00,  1.91it/s]


[Phase 1, Epoch 1] Logits Mean: 0.0133, Std: 0.1327
[Phase 1, Epoch 1] Expected Calibration Error (ECE): 0.0075
Phase 1, Epoch 1: Train Loss = 2.4678, Val Loss = 2.6417, Val Acc = 0.0490


Phase 1 - Epoch 2: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [06:02<00:00,  1.62it/s]


[Phase 1, Epoch 2] Logits Mean: 0.0144, Std: 0.1115
[Phase 1, Epoch 2] Expected Calibration Error (ECE): 0.0104
Phase 1, Epoch 2: Train Loss = 2.4609, Val Loss = 2.6554, Val Acc = 0.0423


Phase 1 - Epoch 3: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:17<00:00,  1.16s/it]


[Phase 1, Epoch 3] Logits Mean: 0.0086, Std: 0.1209
[Phase 1, Epoch 3] Expected Calibration Error (ECE): 0.0120
Phase 1, Epoch 3: Train Loss = 2.4613, Val Loss = 2.6470, Val Acc = 0.0423


Phase 1 - Epoch 4: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:22<00:00,  1.16s/it]


[Phase 1, Epoch 4] Logits Mean: -0.0008, Std: 0.2438
[Phase 1, Epoch 4] Expected Calibration Error (ECE): 0.0045
Phase 1, Epoch 4: Train Loss = 2.4428, Val Loss = 2.5841, Val Acc = 0.0615


Phase 1 - Epoch 5: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:50<00:00,  1.21s/it]


[Phase 1, Epoch 5] Logits Mean: -0.0472, Std: 0.2895
[Phase 1, Epoch 5] Expected Calibration Error (ECE): 0.0074
Phase 1, Epoch 5: Train Loss = 2.4403, Val Loss = 2.5760, Val Acc = 0.0644


Phase 1 - Epoch 6: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:17<00:00,  1.26s/it]


[Phase 1, Epoch 6] Logits Mean: -0.0173, Std: 0.2112
[Phase 1, Epoch 6] Expected Calibration Error (ECE): 0.0100
Phase 1, Epoch 6: Train Loss = 2.4052, Val Loss = 2.5729, Val Acc = 0.0731


Phase 1 - Epoch 7: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:03<00:00,  1.03s/it]


[Phase 1, Epoch 7] Logits Mean: -0.0313, Std: 0.5062
[Phase 1, Epoch 7] Expected Calibration Error (ECE): 0.0500
Phase 1, Epoch 7: Train Loss = 2.3923, Val Loss = 2.5227, Val Acc = 0.0452


Phase 1 - Epoch 8: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:05<00:00,  1.14s/it]


[Phase 1, Epoch 8] Logits Mean: -0.0126, Std: 0.4187
[Phase 1, Epoch 8] Expected Calibration Error (ECE): 0.0374
Phase 1, Epoch 8: Train Loss = 2.3844, Val Loss = 2.4902, Val Acc = 0.0423


Phase 1 - Epoch 9: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:17<00:00,  1.16s/it]


[Phase 1, Epoch 9] Logits Mean: 0.0001, Std: 0.2562
[Phase 1, Epoch 9] Expected Calibration Error (ECE): 0.0203
Phase 1, Epoch 9: Train Loss = 2.3647, Val Loss = 2.5206, Val Acc = 0.0856


Phase 1 - Epoch 10: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:53<00:00,  1.99it/s]


[Phase 1, Epoch 10] Logits Mean: 0.0184, Std: 0.2867
[Phase 1, Epoch 10] Expected Calibration Error (ECE): 0.0192
Phase 1, Epoch 10: Train Loss = 2.3510, Val Loss = 2.4889, Val Acc = 0.0817


Phase 1 - Epoch 11: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:00<00:00,  2.44it/s]


[Phase 1, Epoch 11] Logits Mean: -0.0214, Std: 0.2859
[Phase 1, Epoch 11] Expected Calibration Error (ECE): 0.0089
Phase 1, Epoch 11: Train Loss = 2.3424, Val Loss = 2.5042, Val Acc = 0.0635


Phase 1 - Epoch 12: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:24<00:00,  2.22it/s]


[Phase 1, Epoch 12] Logits Mean: 0.0043, Std: 0.2902
[Phase 1, Epoch 12] Expected Calibration Error (ECE): 0.0065
Phase 1, Epoch 12: Train Loss = 2.3251, Val Loss = 2.4839, Val Acc = 0.0740


Phase 1 - Epoch 13: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [03:53<00:00,  2.51it/s]


[Phase 1, Epoch 13] Logits Mean: 0.0027, Std: 0.3560
[Phase 1, Epoch 13] Expected Calibration Error (ECE): 0.0193
Phase 1, Epoch 13: Train Loss = 2.3242, Val Loss = 2.4470, Val Acc = 0.0538


Phase 1 - Epoch 14: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [05:08<00:00,  1.90it/s]


[Phase 1, Epoch 14] Logits Mean: -0.0049, Std: 0.3919
[Phase 1, Epoch 14] Expected Calibration Error (ECE): 0.0293
Phase 1, Epoch 14: Train Loss = 2.3022, Val Loss = 2.4204, Val Acc = 0.0587


Phase 1 - Epoch 15: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:00<00:00,  1.03s/it]


[Phase 1, Epoch 15] Logits Mean: 0.0341, Std: 0.3620
[Phase 1, Epoch 15] Expected Calibration Error (ECE): 0.0040
Phase 1, Epoch 15: Train Loss = 2.2884, Val Loss = 2.4425, Val Acc = 0.0837


Phase 1 - Epoch 16: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [08:42<00:00,  1.12it/s]


[Phase 1, Epoch 16] Logits Mean: -0.0053, Std: 0.4112
[Phase 1, Epoch 16] Expected Calibration Error (ECE): 0.0221
Phase 1, Epoch 16: Train Loss = 2.2766, Val Loss = 2.3788, Val Acc = 0.0654


Phase 1 - Epoch 17: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:05<00:00,  2.38it/s]


[Phase 1, Epoch 17] Logits Mean: -0.0198, Std: 0.3609
[Phase 1, Epoch 17] Expected Calibration Error (ECE): 0.0309
Phase 1, Epoch 17: Train Loss = 2.2680, Val Loss = 2.4120, Val Acc = 0.0510


Phase 1 - Epoch 18: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [07:51<00:00,  1.24it/s]


[Phase 1, Epoch 18] Logits Mean: 0.0020, Std: 0.4530
[Phase 1, Epoch 18] Expected Calibration Error (ECE): 0.0232
Phase 1, Epoch 18: Train Loss = 2.2450, Val Loss = 2.3818, Val Acc = 0.0673


Phase 1 - Epoch 19: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:34<00:00,  1.08s/it]


[Phase 1, Epoch 19] Logits Mean: 0.0100, Std: 0.4689
[Phase 1, Epoch 19] Expected Calibration Error (ECE): 0.0326
Phase 1, Epoch 19: Train Loss = 2.2352, Val Loss = 2.3677, Val Acc = 0.0779


Phase 1 - Epoch 20: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:41<00:00,  1.20s/it]


[Phase 1, Epoch 20] Logits Mean: 0.0160, Std: 0.4443
[Phase 1, Epoch 20] Expected Calibration Error (ECE): 0.0073
Phase 1, Epoch 20: Train Loss = 2.2355, Val Loss = 2.3949, Val Acc = 0.0875


Phase 1 - Epoch 21: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:41<00:00,  1.20s/it]


[Phase 1, Epoch 21] Logits Mean: 0.0194, Std: 0.4860
[Phase 1, Epoch 21] Expected Calibration Error (ECE): 0.0259
Phase 1, Epoch 21: Train Loss = 2.2221, Val Loss = 2.3354, Val Acc = 0.0808


Phase 1 - Epoch 22: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:36<00:00,  1.09s/it]


[Phase 1, Epoch 22] Logits Mean: 0.0625, Std: 0.4674
[Phase 1, Epoch 22] Expected Calibration Error (ECE): 0.0239
Phase 1, Epoch 22: Train Loss = 2.2149, Val Loss = 2.3603, Val Acc = 0.0808


Phase 1 - Epoch 23: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [08:22<00:00,  1.17it/s]


[Phase 1, Epoch 23] Logits Mean: -0.0098, Std: 0.4413
[Phase 1, Epoch 23] Expected Calibration Error (ECE): 0.0189
Phase 1, Epoch 23: Train Loss = 2.1921, Val Loss = 2.3437, Val Acc = 0.0779


Phase 1 - Epoch 24: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:48<00:00,  1.11s/it]


[Phase 1, Epoch 24] Logits Mean: 0.0026, Std: 0.4503
[Phase 1, Epoch 24] Expected Calibration Error (ECE): 0.0153
Phase 1, Epoch 24: Train Loss = 2.1780, Val Loss = 2.3253, Val Acc = 0.0875


Phase 1 - Epoch 25: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:44<00:00,  1.30s/it]


[Phase 1, Epoch 25] Logits Mean: -0.0354, Std: 0.5128
[Phase 1, Epoch 25] Expected Calibration Error (ECE): 0.0188
Phase 1, Epoch 25: Train Loss = 2.1515, Val Loss = 2.3635, Val Acc = 0.0971


Phase 1 - Epoch 26: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [03:57<00:00,  2.47it/s]


[Phase 1, Epoch 26] Logits Mean: 0.0195, Std: 0.5113
[Phase 1, Epoch 26] Expected Calibration Error (ECE): 0.0221
Phase 1, Epoch 26: Train Loss = 2.1499, Val Loss = 2.2990, Val Acc = 0.1106


Phase 1 - Epoch 27: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:21<00:00,  2.24it/s]


[Phase 1, Epoch 27] Logits Mean: -0.0150, Std: 0.5364
[Phase 1, Epoch 27] Expected Calibration Error (ECE): 0.0165
Phase 1, Epoch 27: Train Loss = 2.1478, Val Loss = 2.2980, Val Acc = 0.1029


Phase 1 - Epoch 28: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:00<00:00,  1.08it/s]


[Phase 1, Epoch 28] Logits Mean: 0.0301, Std: 0.4913
[Phase 1, Epoch 28] Expected Calibration Error (ECE): 0.0193
Phase 1, Epoch 28: Train Loss = 2.1296, Val Loss = 2.3083, Val Acc = 0.1048


Phase 1 - Epoch 29: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:30<00:00,  1.08s/it]


[Phase 1, Epoch 29] Logits Mean: -0.0493, Std: 0.5285
[Phase 1, Epoch 29] Expected Calibration Error (ECE): 0.0231
Phase 1, Epoch 29: Train Loss = 2.1322, Val Loss = 2.2948, Val Acc = 0.0933


Phase 1 - Epoch 30: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:21<00:00,  2.24it/s]


[Phase 1, Epoch 30] Logits Mean: 0.0238, Std: 0.5317
[Phase 1, Epoch 30] Expected Calibration Error (ECE): 0.0101
Phase 1, Epoch 30: Train Loss = 2.1021, Val Loss = 2.2948, Val Acc = 0.1135


Phase 1 - Epoch 31: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:31<00:00,  2.16it/s]


[Phase 1, Epoch 31] Logits Mean: -0.0072, Std: 0.4641
[Phase 1, Epoch 31] Expected Calibration Error (ECE): 0.0201
Phase 1, Epoch 31: Train Loss = 2.1334, Val Loss = 2.3293, Val Acc = 0.1038


Phase 1 - Epoch 32: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:50<00:00,  1.11s/it]


[Phase 1, Epoch 32] Logits Mean: 0.0239, Std: 0.5137
[Phase 1, Epoch 32] Expected Calibration Error (ECE): 0.0063
Phase 1, Epoch 32: Train Loss = 2.1325, Val Loss = 2.3231, Val Acc = 0.1087


Phase 1 - Epoch 33: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:41<00:00,  1.01it/s]


[Phase 1, Epoch 33] Logits Mean: 0.0141, Std: 0.4940
[Phase 1, Epoch 33] Expected Calibration Error (ECE): 0.0225
Phase 1, Epoch 33: Train Loss = 2.1141, Val Loss = 2.3142, Val Acc = 0.0962


Phase 1 - Epoch 34: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:18<00:00,  2.27it/s]


[Phase 1, Epoch 34] Logits Mean: -0.0020, Std: 0.5718
[Phase 1, Epoch 34] Expected Calibration Error (ECE): 0.0244
Phase 1, Epoch 34: Train Loss = 2.0325, Val Loss = 2.2561, Val Acc = 0.1038


Phase 1 - Epoch 35: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:53<00:00,  2.00it/s]


[Phase 1, Epoch 35] Logits Mean: 0.0135, Std: 0.5789
[Phase 1, Epoch 35] Expected Calibration Error (ECE): 0.0232
Phase 1, Epoch 35: Train Loss = 1.9806, Val Loss = 2.2387, Val Acc = 0.1106


Phase 1 - Epoch 36: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:11<00:00,  2.33it/s]


[Phase 1, Epoch 36] Logits Mean: 0.0189, Std: 0.5713
[Phase 1, Epoch 36] Expected Calibration Error (ECE): 0.0192
Phase 1, Epoch 36: Train Loss = 1.9830, Val Loss = 2.2463, Val Acc = 0.1125


Phase 1 - Epoch 37: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [05:11<00:00,  1.88it/s]


[Phase 1, Epoch 37] Logits Mean: 0.0172, Std: 0.5878
[Phase 1, Epoch 37] Expected Calibration Error (ECE): 0.0306
Phase 1, Epoch 37: Train Loss = 1.9589, Val Loss = 2.2459, Val Acc = 0.1067


Phase 1 - Epoch 38: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:25<00:00,  1.04it/s]


[Phase 1, Epoch 38] Logits Mean: 0.0047, Std: 0.5853
[Phase 1, Epoch 38] Expected Calibration Error (ECE): 0.0288
Phase 1, Epoch 38: Train Loss = 1.9674, Val Loss = 2.2512, Val Acc = 0.1067


Phase 1 - Epoch 39: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:44<00:00,  1.10s/it]


[Phase 1, Epoch 39] Logits Mean: 0.0092, Std: 0.5859
[Phase 1, Epoch 39] Expected Calibration Error (ECE): 0.0296
Phase 1, Epoch 39: Train Loss = 1.9414, Val Loss = 2.2387, Val Acc = 0.1115


Phase 1 - Epoch 40: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [05:11<00:00,  1.88it/s]


[Phase 1, Epoch 40] Logits Mean: 0.0080, Std: 0.5911
[Phase 1, Epoch 40] Expected Calibration Error (ECE): 0.0289
Phase 1, Epoch 40: Train Loss = 1.9142, Val Loss = 2.2376, Val Acc = 0.1096


Phase 1 - Epoch 41: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [05:07<00:00,  1.91it/s]


[Phase 1, Epoch 41] Logits Mean: 0.0075, Std: 0.5985
[Phase 1, Epoch 41] Expected Calibration Error (ECE): 0.0285
Phase 1, Epoch 41: Train Loss = 1.8855, Val Loss = 2.2354, Val Acc = 0.1115


Phase 1 - Epoch 42: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:37<00:00,  2.11it/s]


[Phase 1, Epoch 42] Logits Mean: 0.0032, Std: 0.6029
[Phase 1, Epoch 42] Expected Calibration Error (ECE): 0.0334
Phase 1, Epoch 42: Train Loss = 1.9092, Val Loss = 2.2360, Val Acc = 0.1077


Phase 1 - Epoch 43: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:00<00:00,  2.44it/s]


[Phase 1, Epoch 43] Logits Mean: 0.0058, Std: 0.6009
[Phase 1, Epoch 43] Expected Calibration Error (ECE): 0.0346
Phase 1, Epoch 43: Train Loss = 1.9309, Val Loss = 2.2375, Val Acc = 0.1058


Phase 1 - Epoch 44: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:23<00:00,  2.22it/s]


[Phase 1, Epoch 44] Logits Mean: 0.0036, Std: 0.6029
[Phase 1, Epoch 44] Expected Calibration Error (ECE): 0.0330
Phase 1, Epoch 44: Train Loss = 1.9161, Val Loss = 2.2383, Val Acc = 0.1077


Phase 1 - Epoch 45: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:41<00:00,  1.01it/s]


[Phase 1, Epoch 45] Logits Mean: 0.0061, Std: 0.6010
[Phase 1, Epoch 45] Expected Calibration Error (ECE): 0.0326
Phase 1, Epoch 45: Train Loss = 1.9256, Val Loss = 2.2391, Val Acc = 0.1077


Phase 1 - Epoch 46: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:32<00:00,  2.15it/s]


[Phase 1, Epoch 46] Logits Mean: 0.0059, Std: 0.6016
[Phase 1, Epoch 46] Expected Calibration Error (ECE): 0.0328
Phase 1, Epoch 46: Train Loss = 1.8946, Val Loss = 2.2391, Val Acc = 0.1077


Phase 1 - Epoch 47: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:33<00:00,  2.14it/s]


[Phase 1, Epoch 47] Logits Mean: 0.0063, Std: 0.6014
[Phase 1, Epoch 47] Expected Calibration Error (ECE): 0.0328
Phase 1, Epoch 47: Train Loss = 1.9204, Val Loss = 2.2390, Val Acc = 0.1077


Phase 1 - Epoch 48: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:04<00:00,  2.40it/s]


[Phase 1, Epoch 48] Logits Mean: 0.0060, Std: 0.6019
[Phase 1, Epoch 48] Expected Calibration Error (ECE): 0.0338
Phase 1, Epoch 48: Train Loss = 1.8968, Val Loss = 2.2391, Val Acc = 0.1067


Phase 1 - Epoch 49: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:06<00:00,  2.38it/s]


[Phase 1, Epoch 49] Logits Mean: 0.0055, Std: 0.6026
[Phase 1, Epoch 49] Expected Calibration Error (ECE): 0.0340
Phase 1, Epoch 49: Train Loss = 1.9150, Val Loss = 2.2390, Val Acc = 0.1067


Phase 1 - Epoch 50: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:18<00:00,  2.27it/s]


[Phase 1, Epoch 50] Logits Mean: 0.0055, Std: 0.6026
[Phase 1, Epoch 50] Expected Calibration Error (ECE): 0.0341
Phase 1, Epoch 50: Train Loss = 1.9053, Val Loss = 2.2389, Val Acc = 0.1067

--- Phase 2: Train Word Network Only ---


Phase 2 - Epoch 1: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:17<00:00,  7.53it/s]


[Phase 2, Epoch 1] Logits Mean: 0.0053, Std: 0.6019
[Phase 2, Epoch 1] Expected Calibration Error (ECE): 0.0350
Phase 2, Epoch 1: Train Loss = 1.9159, Val Loss = 2.2390, Val Acc = 0.1058


Phase 2 - Epoch 2: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.64it/s]


[Phase 2, Epoch 2] Logits Mean: 0.0070, Std: 0.6017
[Phase 2, Epoch 2] Expected Calibration Error (ECE): 0.0331
Phase 2, Epoch 2: Train Loss = 1.8935, Val Loss = 2.2392, Val Acc = 0.1077


Phase 2 - Epoch 3: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:15<00:00,  7.72it/s]


[Phase 2, Epoch 3] Logits Mean: 0.0066, Std: 0.6023
[Phase 2, Epoch 3] Expected Calibration Error (ECE): 0.0332
Phase 2, Epoch 3: Train Loss = 1.9005, Val Loss = 2.2395, Val Acc = 0.1077


Phase 2 - Epoch 4: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.65it/s]


[Phase 2, Epoch 4] Logits Mean: 0.0066, Std: 0.6024
[Phase 2, Epoch 4] Expected Calibration Error (ECE): 0.0333
Phase 2, Epoch 4: Train Loss = 1.9139, Val Loss = 2.2393, Val Acc = 0.1077


Phase 2 - Epoch 5: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:20<00:00,  7.25it/s]


[Phase 2, Epoch 5] Logits Mean: 0.0066, Std: 0.6020
[Phase 2, Epoch 5] Expected Calibration Error (ECE): 0.0323
Phase 2, Epoch 5: Train Loss = 1.8967, Val Loss = 2.2391, Val Acc = 0.1087


Phase 2 - Epoch 6: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:14<00:00,  7.90it/s]


[Phase 2, Epoch 6] Logits Mean: 0.0067, Std: 0.6020
[Phase 2, Epoch 6] Expected Calibration Error (ECE): 0.0323
Phase 2, Epoch 6: Train Loss = 1.8929, Val Loss = 2.2389, Val Acc = 0.1087


Phase 2 - Epoch 7: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.64it/s]


[Phase 2, Epoch 7] Logits Mean: 0.0067, Std: 0.6019
[Phase 2, Epoch 7] Expected Calibration Error (ECE): 0.0305
Phase 2, Epoch 7: Train Loss = 1.8777, Val Loss = 2.2385, Val Acc = 0.1106


Phase 2 - Epoch 8: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:14<00:00,  7.82it/s]


[Phase 2, Epoch 8] Logits Mean: 0.0069, Std: 0.6026
[Phase 2, Epoch 8] Expected Calibration Error (ECE): 0.0309
Phase 2, Epoch 8: Train Loss = 1.8971, Val Loss = 2.2373, Val Acc = 0.1106


Phase 2 - Epoch 9: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:15<00:00,  7.81it/s]


[Phase 2, Epoch 9] Logits Mean: 0.0074, Std: 0.6049
[Phase 2, Epoch 9] Expected Calibration Error (ECE): 0.0326
Phase 2, Epoch 9: Train Loss = 1.8705, Val Loss = 2.2350, Val Acc = 0.1096


Phase 2 - Epoch 10: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:15<00:00,  7.73it/s]


[Phase 2, Epoch 10] Logits Mean: 0.0097, Std: 0.6112
[Phase 2, Epoch 10] Expected Calibration Error (ECE): 0.0285
Phase 2, Epoch 10: Train Loss = 1.8872, Val Loss = 2.2359, Val Acc = 0.1154


Phase 2 - Epoch 11: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:15<00:00,  7.80it/s]


[Phase 2, Epoch 11] Logits Mean: 0.0076, Std: 0.6078
[Phase 2, Epoch 11] Expected Calibration Error (ECE): 0.0272
Phase 2, Epoch 11: Train Loss = 1.8567, Val Loss = 2.2320, Val Acc = 0.1163


Phase 2 - Epoch 12: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:19<00:00,  7.38it/s]


[Phase 2, Epoch 12] Logits Mean: 0.0058, Std: 0.6081
[Phase 2, Epoch 12] Expected Calibration Error (ECE): 0.0264
Phase 2, Epoch 12: Train Loss = 1.8756, Val Loss = 2.2300, Val Acc = 0.1173


Phase 2 - Epoch 13: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:23<00:00,  7.04it/s]


[Phase 2, Epoch 13] Logits Mean: 0.0049, Std: 0.6093
[Phase 2, Epoch 13] Expected Calibration Error (ECE): 0.0240
Phase 2, Epoch 13: Train Loss = 1.9063, Val Loss = 2.2271, Val Acc = 0.1202


Phase 2 - Epoch 14: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:34<00:00,  6.20it/s]


[Phase 2, Epoch 14] Logits Mean: 0.0025, Std: 0.6105
[Phase 2, Epoch 14] Expected Calibration Error (ECE): 0.0207
Phase 2, Epoch 14: Train Loss = 1.8749, Val Loss = 2.2243, Val Acc = 0.1240


Phase 2 - Epoch 15: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:23<00:00,  7.00it/s]


[Phase 2, Epoch 15] Logits Mean: 0.0045, Std: 0.6123
[Phase 2, Epoch 15] Expected Calibration Error (ECE): 0.0241
Phase 2, Epoch 15: Train Loss = 1.8884, Val Loss = 2.2240, Val Acc = 0.1221


Phase 2 - Epoch 16: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:27<00:00,  6.72it/s]


[Phase 2, Epoch 16] Logits Mean: -0.0014, Std: 0.6152
[Phase 2, Epoch 16] Expected Calibration Error (ECE): 0.0202
Phase 2, Epoch 16: Train Loss = 1.8869, Val Loss = 2.2207, Val Acc = 0.1250


Phase 2 - Epoch 17: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.17it/s]


[Phase 2, Epoch 17] Logits Mean: -0.0009, Std: 0.6163
[Phase 2, Epoch 17] Expected Calibration Error (ECE): 0.0188
Phase 2, Epoch 17: Train Loss = 1.8582, Val Loss = 2.2186, Val Acc = 0.1288


Phase 2 - Epoch 18: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.20it/s]


[Phase 2, Epoch 18] Logits Mean: -0.0022, Std: 0.6290
[Phase 2, Epoch 18] Expected Calibration Error (ECE): 0.0200
Phase 2, Epoch 18: Train Loss = 1.8769, Val Loss = 2.2082, Val Acc = 0.1288


Phase 2 - Epoch 19: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:20<00:00,  7.25it/s]


[Phase 2, Epoch 19] Logits Mean: 0.0051, Std: 0.6248
[Phase 2, Epoch 19] Expected Calibration Error (ECE): 0.0229
Phase 2, Epoch 19: Train Loss = 1.8641, Val Loss = 2.2080, Val Acc = 0.1308


Phase 2 - Epoch 20: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:22<00:00,  7.10it/s]


[Phase 2, Epoch 20] Logits Mean: -0.0022, Std: 0.6220
[Phase 2, Epoch 20] Expected Calibration Error (ECE): 0.0229
Phase 2, Epoch 20: Train Loss = 1.8901, Val Loss = 2.2059, Val Acc = 0.1327


Phase 2 - Epoch 21: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:31<00:00,  6.38it/s]


[Phase 2, Epoch 21] Logits Mean: -0.0005, Std: 0.6269
[Phase 2, Epoch 21] Expected Calibration Error (ECE): 0.0238
Phase 2, Epoch 21: Train Loss = 1.8597, Val Loss = 2.2023, Val Acc = 0.1317


Phase 2 - Epoch 22: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:19<00:00,  7.38it/s]


[Phase 2, Epoch 22] Logits Mean: -0.0115, Std: 0.6404
[Phase 2, Epoch 22] Expected Calibration Error (ECE): 0.0237
Phase 2, Epoch 22: Train Loss = 1.8551, Val Loss = 2.1980, Val Acc = 0.1317


Phase 2 - Epoch 23: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:19<00:00,  7.36it/s]


[Phase 2, Epoch 23] Logits Mean: -0.0047, Std: 0.6316
[Phase 2, Epoch 23] Expected Calibration Error (ECE): 0.0254
Phase 2, Epoch 23: Train Loss = 1.8697, Val Loss = 2.1952, Val Acc = 0.1337


Phase 2 - Epoch 24: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:22<00:00,  7.07it/s]


[Phase 2, Epoch 24] Logits Mean: -0.0052, Std: 0.6374
[Phase 2, Epoch 24] Expected Calibration Error (ECE): 0.0234
Phase 2, Epoch 24: Train Loss = 1.8298, Val Loss = 2.1900, Val Acc = 0.1346


Phase 2 - Epoch 25: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:20<00:00,  7.31it/s]


[Phase 2, Epoch 25] Logits Mean: -0.0022, Std: 0.6375
[Phase 2, Epoch 25] Expected Calibration Error (ECE): 0.0228
Phase 2, Epoch 25: Train Loss = 1.8437, Val Loss = 2.1900, Val Acc = 0.1337


Phase 2 - Epoch 26: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:19<00:00,  7.38it/s]


[Phase 2, Epoch 26] Logits Mean: -0.0031, Std: 0.6298
[Phase 2, Epoch 26] Expected Calibration Error (ECE): 0.0240
Phase 2, Epoch 26: Train Loss = 1.8654, Val Loss = 2.1937, Val Acc = 0.1327


Phase 2 - Epoch 27: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.21it/s]


[Phase 2, Epoch 27] Logits Mean: -0.0068, Std: 0.6476
[Phase 2, Epoch 27] Expected Calibration Error (ECE): 0.0216
Phase 2, Epoch 27: Train Loss = 1.8506, Val Loss = 2.1834, Val Acc = 0.1288


Phase 2 - Epoch 28: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:18<00:00,  7.48it/s]


[Phase 2, Epoch 28] Logits Mean: -0.0178, Std: 0.6494
[Phase 2, Epoch 28] Expected Calibration Error (ECE): 0.0246
Phase 2, Epoch 28: Train Loss = 1.8458, Val Loss = 2.1828, Val Acc = 0.1279


Phase 2 - Epoch 29: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.16it/s]


[Phase 2, Epoch 29] Logits Mean: -0.0072, Std: 0.6525
[Phase 2, Epoch 29] Expected Calibration Error (ECE): 0.0226
Phase 2, Epoch 29: Train Loss = 1.8191, Val Loss = 2.1837, Val Acc = 0.1298


Phase 2 - Epoch 30: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:20<00:00,  7.31it/s]


[Phase 2, Epoch 30] Logits Mean: -0.0258, Std: 0.6564
[Phase 2, Epoch 30] Expected Calibration Error (ECE): 0.0339
Phase 2, Epoch 30: Train Loss = 1.8223, Val Loss = 2.1773, Val Acc = 0.1308


Phase 2 - Epoch 31: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:19<00:00,  7.38it/s]


[Phase 2, Epoch 31] Logits Mean: -0.0069, Std: 0.6551
[Phase 2, Epoch 31] Expected Calibration Error (ECE): 0.0285
Phase 2, Epoch 31: Train Loss = 1.8288, Val Loss = 2.1731, Val Acc = 0.1279


Phase 2 - Epoch 32: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.19it/s]


[Phase 2, Epoch 32] Logits Mean: 0.0203, Std: 0.6548
[Phase 2, Epoch 32] Expected Calibration Error (ECE): 0.0282
Phase 2, Epoch 32: Train Loss = 1.8180, Val Loss = 2.1791, Val Acc = 0.1250


Phase 2 - Epoch 33: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:23<00:00,  7.02it/s]


[Phase 2, Epoch 33] Logits Mean: -0.0104, Std: 0.6546
[Phase 2, Epoch 33] Expected Calibration Error (ECE): 0.0320
Phase 2, Epoch 33: Train Loss = 1.8473, Val Loss = 2.1716, Val Acc = 0.1298


Phase 2 - Epoch 34: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.20it/s]


[Phase 2, Epoch 34] Logits Mean: -0.0076, Std: 0.6760
[Phase 2, Epoch 34] Expected Calibration Error (ECE): 0.0295
Phase 2, Epoch 34: Train Loss = 1.8403, Val Loss = 2.1657, Val Acc = 0.1327


Phase 2 - Epoch 35: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:21<00:00,  7.18it/s]


[Phase 2, Epoch 35] Logits Mean: -0.0056, Std: 0.6710
[Phase 2, Epoch 35] Expected Calibration Error (ECE): 0.0297
Phase 2, Epoch 35: Train Loss = 1.8080, Val Loss = 2.1680, Val Acc = 0.1298


Phase 2 - Epoch 36: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:15<00:00,  7.72it/s]


[Phase 2, Epoch 36] Logits Mean: -0.0125, Std: 0.6523
[Phase 2, Epoch 36] Expected Calibration Error (ECE): 0.0355
Phase 2, Epoch 36: Train Loss = 1.8017, Val Loss = 2.1680, Val Acc = 0.1337


Phase 2 - Epoch 37: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.70it/s]


[Phase 2, Epoch 37] Logits Mean: -0.0015, Std: 0.6680
[Phase 2, Epoch 37] Expected Calibration Error (ECE): 0.0316
Phase 2, Epoch 37: Train Loss = 1.8082, Val Loss = 2.1608, Val Acc = 0.1337


Phase 2 - Epoch 38: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.62it/s]


[Phase 2, Epoch 38] Logits Mean: -0.0039, Std: 0.6723
[Phase 2, Epoch 38] Expected Calibration Error (ECE): 0.0287
Phase 2, Epoch 38: Train Loss = 1.7990, Val Loss = 2.1588, Val Acc = 0.1346


Phase 2 - Epoch 39: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.69it/s]


[Phase 2, Epoch 39] Logits Mean: 0.0095, Std: 0.6697
[Phase 2, Epoch 39] Expected Calibration Error (ECE): 0.0263
Phase 2, Epoch 39: Train Loss = 1.7806, Val Loss = 2.1591, Val Acc = 0.1356


Phase 2 - Epoch 40: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.70it/s]


[Phase 2, Epoch 40] Logits Mean: 0.0134, Std: 0.6626
[Phase 2, Epoch 40] Expected Calibration Error (ECE): 0.0245
Phase 2, Epoch 40: Train Loss = 1.7942, Val Loss = 2.1609, Val Acc = 0.1327


Phase 2 - Epoch 41: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:26<00:00,  6.74it/s]


[Phase 2, Epoch 41] Logits Mean: 0.0076, Std: 0.6872
[Phase 2, Epoch 41] Expected Calibration Error (ECE): 0.0280
Phase 2, Epoch 41: Train Loss = 1.7858, Val Loss = 2.1536, Val Acc = 0.1298


Phase 2 - Epoch 42: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:18<00:00,  7.49it/s]


[Phase 2, Epoch 42] Logits Mean: 0.0085, Std: 0.6726
[Phase 2, Epoch 42] Expected Calibration Error (ECE): 0.0253
Phase 2, Epoch 42: Train Loss = 1.8147, Val Loss = 2.1580, Val Acc = 0.1346


Phase 2 - Epoch 43: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:18<00:00,  7.48it/s]


[Phase 2, Epoch 43] Logits Mean: -0.0039, Std: 0.6755
[Phase 2, Epoch 43] Expected Calibration Error (ECE): 0.0292
Phase 2, Epoch 43: Train Loss = 1.7872, Val Loss = 2.1489, Val Acc = 0.1365


Phase 2 - Epoch 44: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.69it/s]


[Phase 2, Epoch 44] Logits Mean: -0.0133, Std: 0.6790
[Phase 2, Epoch 44] Expected Calibration Error (ECE): 0.0305
Phase 2, Epoch 44: Train Loss = 1.7776, Val Loss = 2.1450, Val Acc = 0.1346


Phase 2 - Epoch 45: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.64it/s]


[Phase 2, Epoch 45] Logits Mean: 0.0186, Std: 0.6830
[Phase 2, Epoch 45] Expected Calibration Error (ECE): 0.0278
Phase 2, Epoch 45: Train Loss = 1.7942, Val Loss = 2.1517, Val Acc = 0.1346


Phase 2 - Epoch 46: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.70it/s]


[Phase 2, Epoch 46] Logits Mean: 0.0071, Std: 0.6786
[Phase 2, Epoch 46] Expected Calibration Error (ECE): 0.0278
Phase 2, Epoch 46: Train Loss = 1.7983, Val Loss = 2.1488, Val Acc = 0.1423


Phase 2 - Epoch 47: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:16<00:00,  7.63it/s]


[Phase 2, Epoch 47] Logits Mean: 0.0096, Std: 0.6894
[Phase 2, Epoch 47] Expected Calibration Error (ECE): 0.0256
Phase 2, Epoch 47: Train Loss = 1.7668, Val Loss = 2.1484, Val Acc = 0.1413


Phase 2 - Epoch 48: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:14<00:00,  7.87it/s]


[Phase 2, Epoch 48] Logits Mean: -0.0020, Std: 0.6744
[Phase 2, Epoch 48] Expected Calibration Error (ECE): 0.0267
Phase 2, Epoch 48: Train Loss = 1.8065, Val Loss = 2.1449, Val Acc = 0.1375


Phase 2 - Epoch 49: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:17<00:00,  7.58it/s]


[Phase 2, Epoch 49] Logits Mean: -0.0011, Std: 0.6808
[Phase 2, Epoch 49] Expected Calibration Error (ECE): 0.0221
Phase 2, Epoch 49: Train Loss = 1.7637, Val Loss = 2.1443, Val Acc = 0.1385


Phase 2 - Epoch 50: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:22<00:00,  7.14it/s]


[Phase 2, Epoch 50] Logits Mean: -0.0032, Std: 0.6848
[Phase 2, Epoch 50] Expected Calibration Error (ECE): 0.0222
Phase 2, Epoch 50: Train Loss = 1.7911, Val Loss = 2.1436, Val Acc = 0.1404

--- Phase 3: Train Fusion Layer Only ---


Phase 3 - Epoch 1: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:04<00:00,  9.11it/s]


[Phase 3, Epoch 1] Logits Mean: -0.0034, Std: 0.6848
[Phase 3, Epoch 1] Expected Calibration Error (ECE): 0.0229
Phase 3, Epoch 1: Train Loss = 1.7981, Val Loss = 2.1437, Val Acc = 0.1404


Phase 3 - Epoch 2: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.37it/s]


[Phase 3, Epoch 2] Logits Mean: -0.0039, Std: 0.6966
[Phase 3, Epoch 2] Expected Calibration Error (ECE): 0.0250
Phase 3, Epoch 2: Train Loss = 1.7744, Val Loss = 2.1406, Val Acc = 0.1385


Phase 3 - Epoch 3: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:07<00:00,  8.74it/s]


[Phase 3, Epoch 3] Logits Mean: -0.0037, Std: 0.6896
[Phase 3, Epoch 3] Expected Calibration Error (ECE): 0.0250
Phase 3, Epoch 3: Train Loss = 1.7776, Val Loss = 2.1426, Val Acc = 0.1385


Phase 3 - Epoch 4: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.40it/s]


[Phase 3, Epoch 4] Logits Mean: -0.0041, Std: 0.7021
[Phase 3, Epoch 4] Expected Calibration Error (ECE): 0.0277
Phase 3, Epoch 4: Train Loss = 1.7593, Val Loss = 2.1391, Val Acc = 0.1385


Phase 3 - Epoch 5: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.38it/s]


[Phase 3, Epoch 5] Logits Mean: -0.0039, Std: 0.7010
[Phase 3, Epoch 5] Expected Calibration Error (ECE): 0.0272
Phase 3, Epoch 5: Train Loss = 1.7784, Val Loss = 2.1392, Val Acc = 0.1385


Phase 3 - Epoch 6: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.59it/s]


[Phase 3, Epoch 6] Logits Mean: -0.0039, Std: 0.7027
[Phase 3, Epoch 6] Expected Calibration Error (ECE): 0.0279
Phase 3, Epoch 6: Train Loss = 1.7800, Val Loss = 2.1387, Val Acc = 0.1385


Phase 3 - Epoch 7: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:04<00:00,  9.03it/s]


[Phase 3, Epoch 7] Logits Mean: -0.0041, Std: 0.7081
[Phase 3, Epoch 7] Expected Calibration Error (ECE): 0.0288
Phase 3, Epoch 7: Train Loss = 1.7425, Val Loss = 2.1374, Val Acc = 0.1385


Phase 3 - Epoch 8: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:07<00:00,  8.65it/s]


[Phase 3, Epoch 8] Logits Mean: -0.0038, Std: 0.6930
[Phase 3, Epoch 8] Expected Calibration Error (ECE): 0.0263
Phase 3, Epoch 8: Train Loss = 1.7828, Val Loss = 2.1416, Val Acc = 0.1385


Phase 3 - Epoch 9: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:06<00:00,  8.77it/s]


[Phase 3, Epoch 9] Logits Mean: -0.0038, Std: 0.6971
[Phase 3, Epoch 9] Expected Calibration Error (ECE): 0.0288
Phase 3, Epoch 9: Train Loss = 1.7845, Val Loss = 2.1404, Val Acc = 0.1385


Phase 3 - Epoch 10: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.54it/s]


[Phase 3, Epoch 10] Logits Mean: -0.0039, Std: 0.7008
[Phase 3, Epoch 10] Expected Calibration Error (ECE): 0.0274
Phase 3, Epoch 10: Train Loss = 1.7725, Val Loss = 2.1392, Val Acc = 0.1385


Phase 3 - Epoch 11: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.44it/s]


[Phase 3, Epoch 11] Logits Mean: -0.0038, Std: 0.6986
[Phase 3, Epoch 11] Expected Calibration Error (ECE): 0.0284
Phase 3, Epoch 11: Train Loss = 1.7705, Val Loss = 2.1398, Val Acc = 0.1385


Phase 3 - Epoch 12: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.49it/s]


[Phase 3, Epoch 12] Logits Mean: -0.0039, Std: 0.7049
[Phase 3, Epoch 12] Expected Calibration Error (ECE): 0.0290
Phase 3, Epoch 12: Train Loss = 1.7625, Val Loss = 2.1381, Val Acc = 0.1385


Phase 3 - Epoch 13: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.40it/s]


[Phase 3, Epoch 13] Logits Mean: -0.0039, Std: 0.7052
[Phase 3, Epoch 13] Expected Calibration Error (ECE): 0.0285
Phase 3, Epoch 13: Train Loss = 1.7857, Val Loss = 2.1380, Val Acc = 0.1394


Phase 3 - Epoch 14: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.32it/s]


[Phase 3, Epoch 14] Logits Mean: -0.0040, Std: 0.7070
[Phase 3, Epoch 14] Expected Calibration Error (ECE): 0.0301
Phase 3, Epoch 14: Train Loss = 1.7511, Val Loss = 2.1376, Val Acc = 0.1385


Phase 3 - Epoch 15: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:11<00:00,  8.24it/s]


[Phase 3, Epoch 15] Logits Mean: -0.0040, Std: 0.7035
[Phase 3, Epoch 15] Expected Calibration Error (ECE): 0.0281
Phase 3, Epoch 15: Train Loss = 1.7665, Val Loss = 2.1386, Val Acc = 0.1385


Phase 3 - Epoch 16: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.35it/s]


[Phase 3, Epoch 16] Logits Mean: -0.0039, Std: 0.6979
[Phase 3, Epoch 16] Expected Calibration Error (ECE): 0.0274
Phase 3, Epoch 16: Train Loss = 1.7852, Val Loss = 2.1402, Val Acc = 0.1385


Phase 3 - Epoch 17: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.27it/s]


[Phase 3, Epoch 17] Logits Mean: -0.0038, Std: 0.6974
[Phase 3, Epoch 17] Expected Calibration Error (ECE): 0.0290
Phase 3, Epoch 17: Train Loss = 1.7880, Val Loss = 2.1402, Val Acc = 0.1385


Phase 3 - Epoch 18: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:11<00:00,  8.25it/s]


[Phase 3, Epoch 18] Logits Mean: -0.0039, Std: 0.6998
[Phase 3, Epoch 18] Expected Calibration Error (ECE): 0.0284
Phase 3, Epoch 18: Train Loss = 1.7574, Val Loss = 2.1396, Val Acc = 0.1385


Phase 3 - Epoch 19: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:11<00:00,  8.21it/s]


[Phase 3, Epoch 19] Logits Mean: -0.0038, Std: 0.6963
[Phase 3, Epoch 19] Expected Calibration Error (ECE): 0.0286
Phase 3, Epoch 19: Train Loss = 1.7931, Val Loss = 2.1406, Val Acc = 0.1385


Phase 3 - Epoch 20: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:12<00:00,  8.07it/s]


[Phase 3, Epoch 20] Logits Mean: -0.0038, Std: 0.6970
[Phase 3, Epoch 20] Expected Calibration Error (ECE): 0.0288
Phase 3, Epoch 20: Train Loss = 1.7728, Val Loss = 2.1404, Val Acc = 0.1385


Phase 3 - Epoch 21: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:15<00:00,  7.81it/s]


[Phase 3, Epoch 21] Logits Mean: -0.0038, Std: 0.6948
[Phase 3, Epoch 21] Expected Calibration Error (ECE): 0.0284
Phase 3, Epoch 21: Train Loss = 1.8116, Val Loss = 2.1410, Val Acc = 0.1385


Phase 3 - Epoch 22: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:12<00:00,  8.06it/s]


[Phase 3, Epoch 22] Logits Mean: -0.0038, Std: 0.6956
[Phase 3, Epoch 22] Expected Calibration Error (ECE): 0.0285
Phase 3, Epoch 22: Train Loss = 1.7797, Val Loss = 2.1408, Val Acc = 0.1385


Phase 3 - Epoch 23: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:11<00:00,  8.23it/s]


[Phase 3, Epoch 23] Logits Mean: -0.0038, Std: 0.6954
[Phase 3, Epoch 23] Expected Calibration Error (ECE): 0.0285
Phase 3, Epoch 23: Train Loss = 1.7809, Val Loss = 2.1408, Val Acc = 0.1385


Phase 3 - Epoch 24: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.51it/s]


[Phase 3, Epoch 24] Logits Mean: -0.0038, Std: 0.6983
[Phase 3, Epoch 24] Expected Calibration Error (ECE): 0.0295
Phase 3, Epoch 24: Train Loss = 1.7663, Val Loss = 2.1400, Val Acc = 0.1385


Phase 3 - Epoch 25: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.59it/s]


[Phase 3, Epoch 25] Logits Mean: -0.0038, Std: 0.6974
[Phase 3, Epoch 25] Expected Calibration Error (ECE): 0.0289
Phase 3, Epoch 25: Train Loss = 1.7822, Val Loss = 2.1402, Val Acc = 0.1385


Phase 3 - Epoch 26: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.39it/s]


[Phase 3, Epoch 26] Logits Mean: -0.0038, Std: 0.6976
[Phase 3, Epoch 26] Expected Calibration Error (ECE): 0.0290
Phase 3, Epoch 26: Train Loss = 1.7796, Val Loss = 2.1402, Val Acc = 0.1385


Phase 3 - Epoch 27: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.38it/s]


[Phase 3, Epoch 27] Logits Mean: -0.0039, Std: 0.6988
[Phase 3, Epoch 27] Expected Calibration Error (ECE): 0.0263
Phase 3, Epoch 27: Train Loss = 1.7659, Val Loss = 2.1398, Val Acc = 0.1385


Phase 3 - Epoch 28: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:18<00:00,  7.50it/s]


[Phase 3, Epoch 28] Logits Mean: -0.0039, Std: 0.6990
[Phase 3, Epoch 28] Expected Calibration Error (ECE): 0.0264
Phase 3, Epoch 28: Train Loss = 1.7815, Val Loss = 2.1398, Val Acc = 0.1385


Phase 3 - Epoch 29: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.60it/s]


[Phase 3, Epoch 29] Logits Mean: -0.0038, Std: 0.6986
[Phase 3, Epoch 29] Expected Calibration Error (ECE): 0.0278
Phase 3, Epoch 29: Train Loss = 1.7980, Val Loss = 2.1399, Val Acc = 0.1385


Phase 3 - Epoch 30: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:05<00:00,  8.90it/s]


[Phase 3, Epoch 30] Logits Mean: -0.0039, Std: 0.6991
[Phase 3, Epoch 30] Expected Calibration Error (ECE): 0.0283
Phase 3, Epoch 30: Train Loss = 1.7689, Val Loss = 2.1398, Val Acc = 0.1385


Phase 3 - Epoch 31: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:05<00:00,  8.90it/s]


[Phase 3, Epoch 31] Logits Mean: -0.0039, Std: 0.6988
[Phase 3, Epoch 31] Expected Calibration Error (ECE): 0.0281
Phase 3, Epoch 31: Train Loss = 1.7832, Val Loss = 2.1399, Val Acc = 0.1385


Phase 3 - Epoch 32: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:06<00:00,  8.83it/s]


[Phase 3, Epoch 32] Logits Mean: -0.0039, Std: 0.6988
[Phase 3, Epoch 32] Expected Calibration Error (ECE): 0.0281
Phase 3, Epoch 32: Train Loss = 1.7820, Val Loss = 2.1398, Val Acc = 0.1385


Phase 3 - Epoch 33: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:06<00:00,  8.80it/s]


[Phase 3, Epoch 33] Logits Mean: -0.0038, Std: 0.6986
[Phase 3, Epoch 33] Expected Calibration Error (ECE): 0.0278
Phase 3, Epoch 33: Train Loss = 1.7780, Val Loss = 2.1399, Val Acc = 0.1385


Phase 3 - Epoch 34: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:06<00:00,  8.85it/s]


[Phase 3, Epoch 34] Logits Mean: -0.0039, Std: 0.6993
[Phase 3, Epoch 34] Expected Calibration Error (ECE): 0.0266
Phase 3, Epoch 34: Train Loss = 1.7561, Val Loss = 2.1397, Val Acc = 0.1385


Phase 3 - Epoch 35: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:05<00:00,  8.96it/s]


[Phase 3, Epoch 35] Logits Mean: -0.0039, Std: 0.6998
[Phase 3, Epoch 35] Expected Calibration Error (ECE): 0.0267
Phase 3, Epoch 35: Train Loss = 1.7699, Val Loss = 2.1396, Val Acc = 0.1385


Phase 3 - Epoch 36: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:07<00:00,  8.70it/s]


[Phase 3, Epoch 36] Logits Mean: -0.0039, Std: 0.6998
[Phase 3, Epoch 36] Expected Calibration Error (ECE): 0.0268
Phase 3, Epoch 36: Train Loss = 1.7796, Val Loss = 2.1396, Val Acc = 0.1385


Phase 3 - Epoch 37: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:05<00:00,  8.89it/s]


[Phase 3, Epoch 37] Logits Mean: -0.0039, Std: 0.7003
[Phase 3, Epoch 37] Expected Calibration Error (ECE): 0.0270
Phase 3, Epoch 37: Train Loss = 1.7710, Val Loss = 2.1394, Val Acc = 0.1385


Phase 3 - Epoch 38: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:13<00:00,  7.94it/s]


[Phase 3, Epoch 38] Logits Mean: -0.0039, Std: 0.7003
[Phase 3, Epoch 38] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 38: Train Loss = 1.7807, Val Loss = 2.1394, Val Acc = 0.1385


Phase 3 - Epoch 39: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:07<00:00,  8.72it/s]


[Phase 3, Epoch 39] Logits Mean: -0.0039, Std: 0.7005
[Phase 3, Epoch 39] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 39: Train Loss = 1.7615, Val Loss = 2.1394, Val Acc = 0.1385


Phase 3 - Epoch 40: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:12<00:00,  8.09it/s]


[Phase 3, Epoch 40] Logits Mean: -0.0039, Std: 0.7006
[Phase 3, Epoch 40] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 40: Train Loss = 1.7678, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 41: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.40it/s]


[Phase 3, Epoch 41] Logits Mean: -0.0039, Std: 0.7006
[Phase 3, Epoch 41] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 41: Train Loss = 1.7762, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 42: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.36it/s]


[Phase 3, Epoch 42] Logits Mean: -0.0039, Std: 0.7007
[Phase 3, Epoch 42] Expected Calibration Error (ECE): 0.0273
Phase 3, Epoch 42: Train Loss = 1.7713, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 43: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:12<00:00,  8.03it/s]


[Phase 3, Epoch 43] Logits Mean: -0.0039, Std: 0.7007
[Phase 3, Epoch 43] Expected Calibration Error (ECE): 0.0273
Phase 3, Epoch 43: Train Loss = 1.7704, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 44: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:11<00:00,  8.17it/s]


[Phase 3, Epoch 44] Logits Mean: -0.0039, Std: 0.7007
[Phase 3, Epoch 44] Expected Calibration Error (ECE): 0.0273
Phase 3, Epoch 44: Train Loss = 1.7845, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 45: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:09<00:00,  8.46it/s]


[Phase 3, Epoch 45] Logits Mean: -0.0039, Std: 0.7005
[Phase 3, Epoch 45] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 45: Train Loss = 1.7935, Val Loss = 2.1394, Val Acc = 0.1385


Phase 3 - Epoch 46: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:14<00:00,  7.91it/s]


[Phase 3, Epoch 46] Logits Mean: -0.0039, Std: 0.7007
[Phase 3, Epoch 46] Expected Calibration Error (ECE): 0.0274
Phase 3, Epoch 46: Train Loss = 1.7658, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 47: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.30it/s]


[Phase 3, Epoch 47] Logits Mean: -0.0039, Std: 0.7006
[Phase 3, Epoch 47] Expected Calibration Error (ECE): 0.0273
Phase 3, Epoch 47: Train Loss = 1.7811, Val Loss = 2.1393, Val Acc = 0.1385


Phase 3 - Epoch 48: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:12<00:00,  8.09it/s]


[Phase 3, Epoch 48] Logits Mean: -0.0039, Std: 0.7004
[Phase 3, Epoch 48] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 48: Train Loss = 1.7834, Val Loss = 2.1394, Val Acc = 0.1385


Phase 3 - Epoch 49: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:10<00:00,  8.30it/s]


[Phase 3, Epoch 49] Logits Mean: -0.0039, Std: 0.7004
[Phase 3, Epoch 49] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 49: Train Loss = 1.7942, Val Loss = 2.1394, Val Acc = 0.1385


Phase 3 - Epoch 50: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [01:08<00:00,  8.51it/s]


[Phase 3, Epoch 50] Logits Mean: -0.0039, Std: 0.7002
[Phase 3, Epoch 50] Expected Calibration Error (ECE): 0.0271
Phase 3, Epoch 50: Train Loss = 1.8258, Val Loss = 2.1394, Val Acc = 0.1385

--- Phase 4: Fine Tune Entire Model ---


Phase 4 - Epoch 1: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:33<00:00,  2.14it/s]


[Phase 4, Epoch 1] Logits Mean: -0.0929, Std: 0.6681
[Phase 4, Epoch 1] Expected Calibration Error (ECE): 0.0236
Phase 4, Epoch 1: Train Loss = 1.9520, Val Loss = 2.1611, Val Acc = 0.1308


Phase 4 - Epoch 2: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:33<00:00,  2.14it/s]


[Phase 4, Epoch 2] Logits Mean: -0.0410, Std: 0.6003
[Phase 4, Epoch 2] Expected Calibration Error (ECE): 0.0160
Phase 4, Epoch 2: Train Loss = 1.9542, Val Loss = 2.1595, Val Acc = 0.1385


Phase 4 - Epoch 3: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:42<00:00,  2.08it/s]


[Phase 4, Epoch 3] Logits Mean: -0.1305, Std: 0.6603
[Phase 4, Epoch 3] Expected Calibration Error (ECE): 0.0234
Phase 4, Epoch 3: Train Loss = 2.0067, Val Loss = 2.0823, Val Acc = 0.1192


Phase 4 - Epoch 4: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:30<00:00,  2.16it/s]


[Phase 4, Epoch 4] Logits Mean: -0.1207, Std: 0.7436
[Phase 4, Epoch 4] Expected Calibration Error (ECE): 0.0252
Phase 4, Epoch 4: Train Loss = 1.9012, Val Loss = 1.9856, Val Acc = 0.1490


Phase 4 - Epoch 5: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:28<00:00,  2.19it/s]


[Phase 4, Epoch 5] Logits Mean: -0.1034, Std: 0.7312
[Phase 4, Epoch 5] Expected Calibration Error (ECE): 0.0151
Phase 4, Epoch 5: Train Loss = 1.8719, Val Loss = 1.9478, Val Acc = 0.1587


Phase 4 - Epoch 6: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:45<00:00,  2.05it/s]


[Phase 4, Epoch 6] Logits Mean: -0.1265, Std: 0.6676
[Phase 4, Epoch 6] Expected Calibration Error (ECE): 0.0264
Phase 4, Epoch 6: Train Loss = 1.9688, Val Loss = 2.0920, Val Acc = 0.1192


Phase 4 - Epoch 7: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:26<00:00,  2.20it/s]


[Phase 4, Epoch 7] Logits Mean: -0.1257, Std: 0.5585
[Phase 4, Epoch 7] Expected Calibration Error (ECE): 0.0557
Phase 4, Epoch 7: Train Loss = 2.0550, Val Loss = 2.1540, Val Acc = 0.1635


Phase 4 - Epoch 8: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:45<00:00,  2.05it/s]


[Phase 4, Epoch 8] Logits Mean: -0.1293, Std: 0.6249
[Phase 4, Epoch 8] Expected Calibration Error (ECE): 0.0638
Phase 4, Epoch 8: Train Loss = 2.0053, Val Loss = 2.0391, Val Acc = 0.1779


Phase 4 - Epoch 9: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:36<00:00,  2.12it/s]


[Phase 4, Epoch 9] Logits Mean: -0.1348, Std: 0.6605
[Phase 4, Epoch 9] Expected Calibration Error (ECE): 0.0354
Phase 4, Epoch 9: Train Loss = 1.9255, Val Loss = 2.0244, Val Acc = 0.1615


Phase 4 - Epoch 10: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:39<00:00,  2.09it/s]


[Phase 4, Epoch 10] Logits Mean: -0.1896, Std: 0.7875
[Phase 4, Epoch 10] Expected Calibration Error (ECE): 0.0315
Phase 4, Epoch 10: Train Loss = 1.8041, Val Loss = 1.9149, Val Acc = 0.1673


Phase 4 - Epoch 11: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:29<00:00,  2.17it/s]


[Phase 4, Epoch 11] Logits Mean: -0.1955, Std: 0.8041
[Phase 4, Epoch 11] Expected Calibration Error (ECE): 0.0336
Phase 4, Epoch 11: Train Loss = 1.7687, Val Loss = 1.8780, Val Acc = 0.1779


Phase 4 - Epoch 12: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [04:30<00:00,  2.17it/s]


[Phase 4, Epoch 12] Logits Mean: -0.2129, Std: 0.8008
[Phase 4, Epoch 12] Expected Calibration Error (ECE): 0.0295
Phase 4, Epoch 12: Train Loss = 1.7619, Val Loss = 1.8616, Val Acc = 0.1731


Phase 4 - Epoch 13: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [05:47<00:00,  1.68it/s]


[Phase 4, Epoch 13] Logits Mean: -0.2495, Std: 0.8541
[Phase 4, Epoch 13] Expected Calibration Error (ECE): 0.0268
Phase 4, Epoch 13: Train Loss = 1.7400, Val Loss = 1.8468, Val Acc = 0.1740


Phase 4 - Epoch 14: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:55<00:00,  1.02s/it]


[Phase 4, Epoch 14] Logits Mean: -0.2411, Std: 0.8560
[Phase 4, Epoch 14] Expected Calibration Error (ECE): 0.0184
Phase 4, Epoch 14: Train Loss = 1.7220, Val Loss = 1.8493, Val Acc = 0.1702


Phase 4 - Epoch 15: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [06:58<00:00,  1.40it/s]


[Phase 4, Epoch 15] Logits Mean: -0.2377, Std: 0.8430
[Phase 4, Epoch 15] Expected Calibration Error (ECE): 0.0412
Phase 4, Epoch 15: Train Loss = 1.7267, Val Loss = 1.8501, Val Acc = 0.1827


Phase 4 - Epoch 16: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:36<00:00,  1.09s/it]


[Phase 4, Epoch 16] Logits Mean: -0.2716, Std: 0.8402
[Phase 4, Epoch 16] Expected Calibration Error (ECE): 0.0386
Phase 4, Epoch 16: Train Loss = 1.7416, Val Loss = 1.8535, Val Acc = 0.1885


Phase 4 - Epoch 17: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:15<00:00,  1.15s/it]


[Phase 4, Epoch 17] Logits Mean: -0.2797, Std: 0.8657
[Phase 4, Epoch 17] Expected Calibration Error (ECE): 0.0324
Phase 4, Epoch 17: Train Loss = 1.7051, Val Loss = 1.8404, Val Acc = 0.1769


Phase 4 - Epoch 18: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:06<00:00,  1.04s/it]


[Phase 4, Epoch 18] Logits Mean: -0.2729, Std: 0.8735
[Phase 4, Epoch 18] Expected Calibration Error (ECE): 0.0322
Phase 4, Epoch 18: Train Loss = 1.6865, Val Loss = 1.8325, Val Acc = 0.1808


Phase 4 - Epoch 19: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:57<00:00,  1.33s/it]


[Phase 4, Epoch 19] Logits Mean: -0.2818, Std: 0.8617
[Phase 4, Epoch 19] Expected Calibration Error (ECE): 0.0347
Phase 4, Epoch 19: Train Loss = 1.6951, Val Loss = 1.8407, Val Acc = 0.1731


Phase 4 - Epoch 20: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [07:19<00:00,  1.33it/s]


[Phase 4, Epoch 20] Logits Mean: -0.3350, Std: 0.9291
[Phase 4, Epoch 20] Expected Calibration Error (ECE): 0.0206
Phase 4, Epoch 20: Train Loss = 1.6416, Val Loss = 1.8220, Val Acc = 0.1654


Phase 4 - Epoch 21: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [07:13<00:00,  1.35it/s]


[Phase 4, Epoch 21] Logits Mean: -0.3301, Std: 0.8995
[Phase 4, Epoch 21] Expected Calibration Error (ECE): 0.0231
Phase 4, Epoch 21: Train Loss = 1.6447, Val Loss = 1.8136, Val Acc = 0.1731


Phase 4 - Epoch 22: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:49<00:00,  1.21s/it]


[Phase 4, Epoch 22] Logits Mean: -0.3267, Std: 0.9500
[Phase 4, Epoch 22] Expected Calibration Error (ECE): 0.0170
Phase 4, Epoch 22: Train Loss = 1.6360, Val Loss = 1.8167, Val Acc = 0.1663


Phase 4 - Epoch 23: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:58<00:00,  1.02s/it]


[Phase 4, Epoch 23] Logits Mean: -0.3239, Std: 0.9210
[Phase 4, Epoch 23] Expected Calibration Error (ECE): 0.0235
Phase 4, Epoch 23: Train Loss = 1.6305, Val Loss = 1.8061, Val Acc = 0.1712


Phase 4 - Epoch 24: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:23<00:00,  1.06s/it]


[Phase 4, Epoch 24] Logits Mean: -0.3188, Std: 0.9087
[Phase 4, Epoch 24] Expected Calibration Error (ECE): 0.0261
Phase 4, Epoch 24: Train Loss = 1.6269, Val Loss = 1.8088, Val Acc = 0.1769


Phase 4 - Epoch 25: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:58<00:00,  1.12s/it]


[Phase 4, Epoch 25] Logits Mean: -0.3539, Std: 0.9361
[Phase 4, Epoch 25] Expected Calibration Error (ECE): 0.0255
Phase 4, Epoch 25: Train Loss = 1.6243, Val Loss = 1.8032, Val Acc = 0.1750


Phase 4 - Epoch 26: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:18<00:00,  1.05s/it]


[Phase 4, Epoch 26] Logits Mean: -0.3313, Std: 0.9097
[Phase 4, Epoch 26] Expected Calibration Error (ECE): 0.0382
Phase 4, Epoch 26: Train Loss = 1.6136, Val Loss = 1.8091, Val Acc = 0.1683


Phase 4 - Epoch 27: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:24<00:00,  1.04it/s]


[Phase 4, Epoch 27] Logits Mean: -0.3453, Std: 0.9046
[Phase 4, Epoch 27] Expected Calibration Error (ECE): 0.0243
Phase 4, Epoch 27: Train Loss = 1.6071, Val Loss = 1.8080, Val Acc = 0.1712


Phase 4 - Epoch 28: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:47<00:00,  1.21s/it]


[Phase 4, Epoch 28] Logits Mean: -0.3512, Std: 0.9140
[Phase 4, Epoch 28] Expected Calibration Error (ECE): 0.0283
Phase 4, Epoch 28: Train Loss = 1.6254, Val Loss = 1.8142, Val Acc = 0.1683


Phase 4 - Epoch 29: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:01<00:00,  1.13s/it]


[Phase 4, Epoch 29] Logits Mean: -0.3504, Std: 0.9061
[Phase 4, Epoch 29] Expected Calibration Error (ECE): 0.0390
Phase 4, Epoch 29: Train Loss = 1.5905, Val Loss = 1.8137, Val Acc = 0.1817


Phase 4 - Epoch 30: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:11<00:00,  1.15s/it]


[Phase 4, Epoch 30] Logits Mean: -0.3541, Std: 0.9199
[Phase 4, Epoch 30] Expected Calibration Error (ECE): 0.0383
Phase 4, Epoch 30: Train Loss = 1.5878, Val Loss = 1.8034, Val Acc = 0.1875


Phase 4 - Epoch 31: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [08:59<00:00,  1.09it/s]


[Phase 4, Epoch 31] Logits Mean: -0.3582, Std: 0.9296
[Phase 4, Epoch 31] Expected Calibration Error (ECE): 0.0453
Phase 4, Epoch 31: Train Loss = 1.5814, Val Loss = 1.7932, Val Acc = 0.1865


Phase 4 - Epoch 32: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:09<00:00,  1.04s/it]


[Phase 4, Epoch 32] Logits Mean: -0.3627, Std: 0.9355
[Phase 4, Epoch 32] Expected Calibration Error (ECE): 0.0424
Phase 4, Epoch 32: Train Loss = 1.5730, Val Loss = 1.7888, Val Acc = 0.1856


Phase 4 - Epoch 33: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:52<00:00,  1.32s/it]


[Phase 4, Epoch 33] Logits Mean: -0.3671, Std: 0.9391
[Phase 4, Epoch 33] Expected Calibration Error (ECE): 0.0373
Phase 4, Epoch 33: Train Loss = 1.5833, Val Loss = 1.7912, Val Acc = 0.1779


Phase 4 - Epoch 34: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:24<00:00,  1.06s/it]


[Phase 4, Epoch 34] Logits Mean: -0.3700, Std: 0.9394
[Phase 4, Epoch 34] Expected Calibration Error (ECE): 0.0435
Phase 4, Epoch 34: Train Loss = 1.5655, Val Loss = 1.7915, Val Acc = 0.1827


Phase 4 - Epoch 35: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:56<00:00,  1.12s/it]


[Phase 4, Epoch 35] Logits Mean: -0.3653, Std: 0.9379
[Phase 4, Epoch 35] Expected Calibration Error (ECE): 0.0436
Phase 4, Epoch 35: Train Loss = 1.5802, Val Loss = 1.7912, Val Acc = 0.1769


Phase 4 - Epoch 36: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:19<00:00,  1.06s/it]


[Phase 4, Epoch 36] Logits Mean: -0.3728, Std: 0.9423
[Phase 4, Epoch 36] Expected Calibration Error (ECE): 0.0417
Phase 4, Epoch 36: Train Loss = 1.5570, Val Loss = 1.7897, Val Acc = 0.1779


Phase 4 - Epoch 37: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:29<00:00,  1.28s/it]


[Phase 4, Epoch 37] Logits Mean: -0.3728, Std: 0.9424
[Phase 4, Epoch 37] Expected Calibration Error (ECE): 0.0442
Phase 4, Epoch 37: Train Loss = 1.5807, Val Loss = 1.7886, Val Acc = 0.1808


Phase 4 - Epoch 38: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [09:00<00:00,  1.08it/s]


[Phase 4, Epoch 38] Logits Mean: -0.3732, Std: 0.9424
[Phase 4, Epoch 38] Expected Calibration Error (ECE): 0.0405
Phase 4, Epoch 38: Train Loss = 1.5836, Val Loss = 1.7898, Val Acc = 0.1808


Phase 4 - Epoch 39: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:00<00:00,  1.03s/it]


[Phase 4, Epoch 39] Logits Mean: -0.3734, Std: 0.9429
[Phase 4, Epoch 39] Expected Calibration Error (ECE): 0.0406
Phase 4, Epoch 39: Train Loss = 1.5575, Val Loss = 1.7895, Val Acc = 0.1788


Phase 4 - Epoch 40: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:24<00:00,  1.07s/it]


[Phase 4, Epoch 40] Logits Mean: -0.3730, Std: 0.9434
[Phase 4, Epoch 40] Expected Calibration Error (ECE): 0.0408
Phase 4, Epoch 40: Train Loss = 1.5651, Val Loss = 1.7884, Val Acc = 0.1788


Phase 4 - Epoch 41: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:29<00:00,  1.07s/it]


[Phase 4, Epoch 41] Logits Mean: -0.3726, Std: 0.9436
[Phase 4, Epoch 41] Expected Calibration Error (ECE): 0.0390
Phase 4, Epoch 41: Train Loss = 1.5662, Val Loss = 1.7898, Val Acc = 0.1788


Phase 4 - Epoch 42: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [08:33<00:00,  1.14it/s]


[Phase 4, Epoch 42] Logits Mean: -0.3730, Std: 0.9431
[Phase 4, Epoch 42] Expected Calibration Error (ECE): 0.0404
Phase 4, Epoch 42: Train Loss = 1.5725, Val Loss = 1.7911, Val Acc = 0.1788


Phase 4 - Epoch 43: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:31<00:00,  1.28s/it]


[Phase 4, Epoch 43] Logits Mean: -0.3731, Std: 0.9445
[Phase 4, Epoch 43] Expected Calibration Error (ECE): 0.0413
Phase 4, Epoch 43: Train Loss = 1.5631, Val Loss = 1.7898, Val Acc = 0.1779


Phase 4 - Epoch 44: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [07:08<00:00,  1.37it/s]


[Phase 4, Epoch 44] Logits Mean: -0.3725, Std: 0.9450
[Phase 4, Epoch 44] Expected Calibration Error (ECE): 0.0382
Phase 4, Epoch 44: Train Loss = 1.5717, Val Loss = 1.7899, Val Acc = 0.1798


Phase 4 - Epoch 45: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [08:49<00:00,  1.11it/s]


[Phase 4, Epoch 45] Logits Mean: -0.3727, Std: 0.9448
[Phase 4, Epoch 45] Expected Calibration Error (ECE): 0.0376
Phase 4, Epoch 45: Train Loss = 1.5496, Val Loss = 1.7902, Val Acc = 0.1808


Phase 4 - Epoch 46: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:13<00:00,  1.05s/it]


[Phase 4, Epoch 46] Logits Mean: -0.3724, Std: 0.9449
[Phase 4, Epoch 46] Expected Calibration Error (ECE): 0.0391
Phase 4, Epoch 46: Train Loss = 1.5899, Val Loss = 1.7894, Val Acc = 0.1808


Phase 4 - Epoch 47: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [11:07<00:00,  1.14s/it]


[Phase 4, Epoch 47] Logits Mean: -0.3725, Std: 0.9447
[Phase 4, Epoch 47] Expected Calibration Error (ECE): 0.0391
Phase 4, Epoch 47: Train Loss = 1.5859, Val Loss = 1.7903, Val Acc = 0.1808


Phase 4 - Epoch 48: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [10:28<00:00,  1.07s/it]


[Phase 4, Epoch 48] Logits Mean: -0.3726, Std: 0.9449
[Phase 4, Epoch 48] Expected Calibration Error (ECE): 0.0391
Phase 4, Epoch 48: Train Loss = 1.5880, Val Loss = 1.7894, Val Acc = 0.1808


Phase 4 - Epoch 49: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [12:33<00:00,  1.29s/it]


[Phase 4, Epoch 49] Logits Mean: -0.3726, Std: 0.9449
[Phase 4, Epoch 49] Expected Calibration Error (ECE): 0.0391
Phase 4, Epoch 49: Train Loss = 1.5620, Val Loss = 1.7894, Val Acc = 0.1808


Phase 4 - Epoch 50: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 586/586 [07:25<00:00,  1.32it/s]


[Phase 4, Epoch 50] Logits Mean: -0.3726, Std: 0.9449
[Phase 4, Epoch 50] Expected Calibration Error (ECE): 0.0391
Phase 4, Epoch 50: Train Loss = 1.5736, Val Loss = 1.7895, Val Acc = 0.1808
Best Validation Accuracy: 0.1885


In [17]:
from sklearn.metrics import confusion_matrix

def create_test_loader(root: str, test_dir: str, batch_size: int, category_to_idx):
    """Create a DataLoader for the test dataset."""
    test_dataset = DocumentGraphDataset(
        f"{root}/test", 
        test_dir, 
        category_to_idx=category_to_idx
    )
    test_loader = DataLoader(
        test_dataset,
        batch_size=batch_size,
        shuffle=False,
        num_workers=4,
        pin_memory=True
    )
    return test_loader

def test_model(model, test_loader, device, category_to_idx):
    """Test the model on the test dataset, print accuracy, and plot the confusion matrix."""
    model.eval()
    total = 0
    correct = 0
    all_preds = []
    all_labels = []
    with torch.no_grad():
        for batch in test_loader:
            word_x = batch['word'].x.to(device)
            word_edge_index = batch['word', 'co_occurs', 'word'].edge_index.to(device)
            word_edge_weight = batch['word', 'co_occurs', 'word'].edge_attr.to(device)
            word_batch = batch['word'].batch.to(device)
            
            sent_x = batch['sentence'].x.to(device)
            sent_edge_index = batch['sentence', 'related_to', 'sentence'].edge_index.to(device)
            sent_edge_weight = batch['sentence', 'related_to', 'sentence'].edge_attr.to(device)
            sent_batch = batch['sentence'].batch.to(device)
            
            outputs = model(
                word_x, word_edge_index, word_batch, word_edge_weight,
                sent_x, sent_edge_index, sent_batch, sent_edge_weight
            )
            curr_batch_size = batch.y.size(0)
            preds = outputs[:curr_batch_size].argmax(dim=1)
            correct += (preds == batch.y.to(device)).sum().item()
            total += curr_batch_size
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(batch.y.cpu().numpy())
    
    test_acc = correct / total
    print("Test Accuracy:", test_acc)
    
    # Plot confusion matrix
    cm = confusion_matrix(all_labels, all_preds)
    plt.figure(figsize=(8, 8))
    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
    plt.xlabel("Predicted Class")
    plt.ylabel("True Class")
    plt.title("Confusion Matrix on Test Data")
    plt.savefig(os.path.join(PLOT_DIR, "confusion_matrix_test.png"))
    plt.close()

# -------------------------
# Load the Test Dataset and Evaluate
# -------------------------
if __name__ == "__main__":
    # Create test loader using the same root and test_dir as in training
    root = "processed_graphs_ohsumed"
    test_dir = "processed_data_ohsumed/test"
    # Use best hyperparameters:
    batch_size = 16
    hidden_dim = 148
    learning_rate = 0.000363022060695821
    total_phases = 4
    epochs_per_phase = 50  # 50 epochs per phase
    device="cpu"
    # Re-use create_dataloaders to get the category mapping
    _, _, num_classes, category_to_idx = create_dataloaders(root, "processed_data_ohsumed/train", test_dir, batch_size)
    test_loader = create_test_loader(root, test_dir, batch_size, category_to_idx)
    
    # Load the best model state (assumed saved in the plots folder as "best_model.pt")
    best_state = torch.load(os.path.join(PLOT_DIR, "best_model.pt"), map_location=device)
    # Create model with best params (note: num_layers set to 3, dropout_rate added)
    model = CoGraphNet(
        word_in_channels=768,
        sent_in_channels=768,
        hidden_channels=hidden_dim,
        num_layers=3,
        num_classes=num_classes,
        dropout_rate=0.16716698278231815
    ).to(device)
    model.load_state_dict(best_state['model_state_dict'])
    
    # Evaluate the model on the test set and plot confusion matrix
    test_model(model, test_loader, device, category_to_idx)


Loading existing valid indices from metadata
Found 10409 processed documents

Class Distribution:
Training set: {0: 379, 1: 144, 2: 58, 3: 1048, 4: 250, 5: 527, 6: 85, 7: 432, 8: 114, 9: 550, 10: 143, 11: 431, 12: 249, 13: 1127, 14: 198, 15: 172, 16: 265, 17: 358, 18: 171, 19: 469, 20: 499, 21: 79, 22: 1621}
Validation set: {0: 44, 1: 14, 2: 7, 3: 112, 4: 33, 5: 61, 6: 15, 7: 41, 8: 11, 9: 70, 10: 19, 11: 58, 12: 31, 13: 116, 14: 17, 15: 25, 16: 29, 17: 30, 18: 19, 19: 55, 20: 46, 21: 13, 22: 174}
Loading existing valid indices from metadata
Found 12699 processed documents
Test Accuracy: 0.1785967399007796
