In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torchvision import models
import matplotlib.pyplot as plt
import numpy as np
import os
from tqdm import tqdm  # 导入 tqdm 库

# 设置随机种子以确保结果可复现
torch.manual_seed(42)
np.random.seed(42)

# 检查设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f'使用设备: {device}')

# 1. 数据预处理与加载
def get_dataloaders(batch_size=128, num_workers=2):
    # 数据增强与标准化
    transform_train = transforms.Compose([
        transforms.RandomCrop(32, padding=4),  # 随机裁剪
        transforms.RandomHorizontalFlip(),     # 随机水平翻转
        transforms.ToTensor(),
        transforms.Normalize((0.5071, 0.4867, 0.4408), 
                             (0.2675, 0.2565, 0.2761)),  # CIFAR-100 的均值和标准差
    ])

    transform_test = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.5071, 0.4867, 0.4408), 
                             (0.2675, 0.2565, 0.2761)),
    ])

    # 加载训练集
    trainset = torchvision.datasets.CIFAR100(
        root='./data', train=True, download=True, transform=transform_train)
    trainloader = torch.utils.data.DataLoader(
        trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers)

    # 加载验证集
    testset = torchvision.datasets.CIFAR100(
        root='./data', train=False, download=True, transform=transform_test)
    testloader = torch.utils.data.DataLoader(
        testset, batch_size=100, shuffle=False, num_workers=num_workers)

    return trainloader, testloader

# 2. 模型定义与调整
def get_model(num_classes=100, pretrained=True):
    # 加载预训练的 ResNet50 模型
    model = models.resnet50(pretrained=pretrained)

    if pretrained:
        # 修改第一层卷积层以适应 CIFAR-100 的输入（32x32）
        # 原始 ResNet50 的 conv1: kernel_size=7, stride=2, padding=3
        # 调整为 kernel_size=3, stride=1, padding=1
        model.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False)
        # 移除最大池化层
        model.maxpool = nn.Identity()
    else:
        # 如果不使用预训练权重，保持之前的修改
        model.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False)
        model.maxpool = nn.Identity()

    # 修改最后的全连接层以适应 CIFAR-100
    num_ftrs = model.fc.in_features
    model.fc = nn.Linear(num_ftrs, num_classes)

    return model.to(device)

# 3. 定义损失函数与优化器
class LabelSmoothingCrossEntropy(nn.Module):
    """
    标签平滑交叉熵损失函数
    """
    def __init__(self, smoothing=0.1):
        super(LabelSmoothingCrossEntropy, self).__init__()
        self.smoothing = smoothing
        self.confidence = 1.0 - smoothing

    def forward(self, x, target):
        log_probs = nn.functional.log_softmax(x, dim=-1)
        # 创建平滑后的标签
        targets = torch.zeros_like(x).scatter_(1, target.unsqueeze(1), 1)
        targets = targets * self.confidence + self.smoothing / x.size(1)
        loss = (-targets * log_probs).sum(dim=1).mean()
        return loss

# 4. 训练与验证函数
def train_one_epoch(model, criterion, optimizer, dataloader, epoch):
    model.train()
    running_loss = 0.0
    correct = 0
    total = 0
    progress_bar = tqdm(enumerate(dataloader), total=len(dataloader), desc=f'训练 Epoch {epoch}')
    for batch_idx, (inputs, targets) in progress_bar:
        inputs, targets = inputs.to(device), targets.to(device)

        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, targets)
        loss.backward()
        optimizer.step()

        running_loss += loss.item() * inputs.size(0)
        _, predicted = outputs.max(1)
        total += targets.size(0)
        correct += predicted.eq(targets).sum().item()

        # 更新进度条描述
        progress_bar.set_postfix({'Loss': f'{loss.item():.4f}'})

    epoch_loss = running_loss / total
    epoch_acc = 100. * correct / total
    print(f'训练集 - Epoch: {epoch} | Loss: {epoch_loss:.4f} | 准确率: {epoch_acc:.2f}%')
    return epoch_loss, epoch_acc

def validate(model, criterion, dataloader, epoch, print_softmax=True, samples_to_print=5):
    model.eval()
    running_loss = 0.0
    correct = 0
    total = 0
    softmax_distributions = []
    all_softmax = []
    progress_bar = tqdm(enumerate(dataloader), total=len(dataloader), desc=f'验证 Epoch {epoch}')
    with torch.no_grad():
        for batch_idx, (inputs, targets) in progress_bar:
            inputs, targets = inputs.to(device), targets.to(device)
            outputs = model(inputs)
            loss = criterion(outputs, targets)

            running_loss += loss.item() * inputs.size(0)
            _, predicted = outputs.max(1)
            total += targets.size(0)
            correct += predicted.eq(targets).sum().item()

            # 计算 Softmax 分布
            softmax = nn.functional.softmax(outputs, dim=1)
            softmax_distributions.append(softmax.cpu().numpy())
            all_softmax.append(softmax.cpu())

            # 更新进度条描述
            progress_bar.set_postfix({'Loss': f'{loss.item():.4f}'})

    epoch_loss = running_loss / total
    epoch_acc = 100. * correct / total
    print(f'验证集 - Epoch: {epoch} | Loss: {epoch_loss:.4f} | 准确率: {epoch_acc:.2f}%')

    # 计算 Softmax 分散情况（标准差）
    softmax_distributions = np.concatenate(softmax_distributions, axis=0)
    std_softmax = np.std(softmax_distributions, axis=0)
    mean_std = np.mean(std_softmax)
    print(f'Softmax 平均标准差: {mean_std:.4f}')

    # 打印部分 Softmax 概率分布
    if print_softmax:
        all_softmax = torch.cat(all_softmax, dim=0)  # (N, C)
        print(f'\n--- 前 {samples_to_print} 个样本的 Softmax 概率分布 ---')
        for i in range(min(samples_to_print, all_softmax.size(0))):
            probs = all_softmax[i].cpu().numpy()
            top3_idx = probs.argsort()[-3:][::-1]
            top3_probs = probs[top3_idx]
            top3_classes = [f'{idx}' for idx in top3_idx]
            print(f'样本 {i+1}:')
            for cls, prob in zip(top3_classes, top3_probs):
                print(f'  类别 {cls}: {prob:.4f}')
            print('')

    return epoch_loss, epoch_acc, mean_std, softmax_distributions

# 5. 绘制损失与准确率曲线
def plot_metrics(epochs, train_losses, val_losses, train_accuracies, val_accuracies):
    plt.figure(figsize=(12,5))

    # 损失曲线
    plt.subplot(1,2,1)
    plt.plot(epochs, train_losses, label='训练损失')
    plt.plot(epochs, val_losses, label='验证损失')
    plt.xlabel('Epoch')
    plt.ylabel('Loss')
    plt.title('训练与验证损失')
    plt.legend()

    # 准确率曲线
    plt.subplot(1,2,2)
    plt.plot(epochs, train_accuracies, label='训练准确率')
    plt.plot(epochs, val_accuracies, label='验证准确率')
    plt.xlabel('Epoch')
    plt.ylabel('Accuracy (%)')
    plt.title('训练与验证准确率')
    plt.legend()

    plt.tight_layout()
    plt.show()

# 6. 主训练过程
def main():
    # 超参数
    num_epochs = 100
    batch_size = 128
    learning_rate = 0.1
    smoothing = 0.1
    use_pretrained = True  # 是否使用预训练权重

    # 创建数据加载器
    trainloader, testloader = get_dataloaders(batch_size=batch_size)

    # 初始化模型
    model = get_model(num_classes=100, pretrained=use_pretrained)

    # 定义损失函数与优化器
    criterion = LabelSmoothingCrossEntropy(smoothing=smoothing)
    optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=0.9, weight_decay=5e-4)
    scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

    # 存储训练过程中的指标
    train_losses = []
    train_accuracies = []
    val_losses = []
    val_accuracies = []
    softmax_stds = []

    # 创建保存模型的目录
    os.makedirs('checkpoints', exist_ok=True)

    for epoch in range(1, num_epochs + 1):
        print(f'\n--- Epoch {epoch}/{num_epochs} ---')
        train_loss, train_acc = train_one_epoch(model, criterion, optimizer, trainloader, epoch)
        val_loss, val_acc, softmax_std, softmax_distributions = validate(model, criterion, testloader, epoch)

        train_losses.append(train_loss)
        train_accuracies.append(train_acc)
        val_losses.append(val_loss)
        val_accuracies.append(val_acc)
        softmax_stds.append(softmax_std)

        scheduler.step()

        # 每10个epoch保存一次模型
        if epoch % 10 == 0:
            checkpoint_path = f'checkpoints/resnet50_cifar100_epoch{epoch}.pth'
            torch.save(model.state_dict(), checkpoint_path)
            print(f'已保存模型到 {checkpoint_path}')

    # 绘制训练与验证的损失与准确率
    epochs_range = range(1, num_epochs + 1)
    plot_metrics(epochs_range, train_losses, val_losses, train_accuracies, val_accuracies)

    # 打印详细的 Softmax 分散情况
    print('\n--- Softmax 分散情况 ---')
    std_per_class = np.std(softmax_distributions, axis=0)
    for i, std in enumerate(std_per_class[:10]):  # 仅显示前10个类别，避免过长输出
        print(f'类别 {i:3d} 的 Softmax 标准差: {std:.4f}')
    print(f'所有类别的平均 Softmax 标准差: {np.mean(std_per_class):.4f}')

if __name__ == '__main__':
    main()


使用设备: cuda
Files already downloaded and verified
Files already downloaded and verified

--- Epoch 1/100 ---


训练 Epoch 1: 100%|██████████| 391/391 [01:32<00:00,  4.22it/s, Loss=2.8819]


训练集 - Epoch: 1 | Loss: 3.5082 | 准确率: 21.46%


验证 Epoch 1: 100%|██████████| 100/100 [00:06<00:00, 14.79it/s, Loss=3.8754]


验证集 - Epoch: 1 | Loss: 4.8640 | 准确率: 24.04%
Softmax 平均标准差: 0.0314

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 39: 0.1487
  类别 68: 0.1362
  类别 54: 0.0574

样本 2:
  类别 33: 0.1370
  类别 65: 0.1042
  类别 96: 0.0533

样本 3:
  类别 30: 0.1335
  类别 55: 0.0767
  类别 54: 0.0732

样本 4:
  类别 65: 0.0756
  类别 37: 0.0662
  类别 54: 0.0618

样本 5:
  类别 71: 0.6843
  类别 23: 0.2059
  类别 60: 0.0709


--- Epoch 2/100 ---


训练 Epoch 2: 100%|██████████| 391/391 [01:31<00:00,  4.28it/s, Loss=2.4511]


训练集 - Epoch: 2 | Loss: 2.4843 | 准确率: 46.31%


验证 Epoch 2: 100%|██████████| 100/100 [00:06<00:00, 14.97it/s, Loss=2.6867]


验证集 - Epoch: 2 | Loss: 2.6749 | 准确率: 42.54%
Softmax 平均标准差: 0.0480

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 30: 0.2292
  类别 46: 0.0801
  类别 95: 0.0615

样本 2:
  类别 80: 0.3770
  类别 65: 0.3186
  类别 50: 0.0362

样本 3:
  类别 30: 0.6503
  类别 95: 0.0873
  类别 72: 0.0429

样本 4:
  类别 97: 0.1150
  类别 16: 0.0834
  类别 65: 0.0693

样本 5:
  类别 71: 0.3514
  类别 23: 0.3461
  类别 60: 0.2384


--- Epoch 3/100 ---


训练 Epoch 3: 100%|██████████| 391/391 [01:31<00:00,  4.28it/s, Loss=2.3879]


训练集 - Epoch: 3 | Loss: 2.2085 | 准确率: 54.01%


验证 Epoch 3: 100%|██████████| 100/100 [00:07<00:00, 14.26it/s, Loss=2.6505]


验证集 - Epoch: 3 | Loss: 2.5703 | 准确率: 46.04%
Softmax 平均标准差: 0.0501

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 49: 0.2196
  类别 68: 0.1905
  类别 71: 0.0869

样本 2:
  类别 33: 0.6781
  类别 65: 0.0322
  类别 96: 0.0294

样本 3:
  类别 72: 0.2835
  类别 55: 0.2000
  类别 4: 0.1103

样本 4:
  类别 84: 0.0899
  类别 87: 0.0794
  类别 28: 0.0763

样本 5:
  类别 71: 0.6586
  类别 23: 0.2042
  类别 60: 0.0524


--- Epoch 4/100 ---


训练 Epoch 4: 100%|██████████| 391/391 [01:30<00:00,  4.32it/s, Loss=2.1907]


训练集 - Epoch: 4 | Loss: 2.0846 | 准确率: 58.00%


验证 Epoch 4: 100%|██████████| 100/100 [00:06<00:00, 15.14it/s, Loss=2.3979]


验证集 - Epoch: 4 | Loss: 2.4172 | 准确率: 48.38%
Softmax 平均标准差: 0.0534

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.2752
  类别 12: 0.1452
  类别 79: 0.1020

样本 2:
  类别 80: 0.4202
  类别 97: 0.1873
  类别 65: 0.1694

样本 3:
  类别 55: 0.4610
  类别 72: 0.2271
  类别 30: 0.0834

样本 4:
  类别 29: 0.2843
  类别 51: 0.1017
  类别 80: 0.0515

样本 5:
  类别 71: 0.5522
  类别 60: 0.2769
  类别 23: 0.1109


--- Epoch 5/100 ---


训练 Epoch 5: 100%|██████████| 391/391 [01:31<00:00,  4.28it/s, Loss=1.9092]


训练集 - Epoch: 5 | Loss: 2.0154 | 准确率: 59.94%


验证 Epoch 5: 100%|██████████| 100/100 [00:07<00:00, 14.11it/s, Loss=2.1930]


验证集 - Epoch: 5 | Loss: 2.2266 | 准确率: 53.62%
Softmax 平均标准差: 0.0578

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.8124
  类别 71: 0.0220
  类别 12: 0.0203

样本 2:
  类别 33: 0.4068
  类别 65: 0.0716
  类别 80: 0.0606

样本 3:
  类别 55: 0.1763
  类别 15: 0.1753
  类别 30: 0.1425

样本 4:
  类别 51: 0.3538
  类别 16: 0.0557
  类别 84: 0.0426

样本 5:
  类别 71: 0.9031
  类别 60: 0.0366
  类别 23: 0.0343


--- Epoch 6/100 ---


训练 Epoch 6: 100%|██████████| 391/391 [01:33<00:00,  4.19it/s, Loss=2.0654]


训练集 - Epoch: 6 | Loss: 1.9631 | 准确率: 61.47%


验证 Epoch 6: 100%|██████████| 100/100 [00:06<00:00, 14.75it/s, Loss=2.2226]


验证集 - Epoch: 6 | Loss: 2.2596 | 准确率: 53.57%
Softmax 平均标准差: 0.0566

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.4955
  类别 79: 0.1013
  类别 71: 0.0523

样本 2:
  类别 33: 0.9357
  类别 96: 0.0242
  类别 59: 0.0048

样本 3:
  类别 15: 0.2536
  类别 44: 0.2389
  类别 27: 0.1399

样本 4:
  类别 16: 0.3120
  类别 51: 0.1065
  类别 33: 0.0979

样本 5:
  类别 71: 0.9502
  类别 60: 0.0178
  类别 23: 0.0091


--- Epoch 7/100 ---


训练 Epoch 7: 100%|██████████| 391/391 [01:31<00:00,  4.27it/s, Loss=1.9737]


训练集 - Epoch: 7 | Loss: 1.9319 | 准确率: 62.73%


验证 Epoch 7: 100%|██████████| 100/100 [00:07<00:00, 14.16it/s, Loss=2.1674]


验证集 - Epoch: 7 | Loss: 2.1973 | 准确率: 55.37%
Softmax 平均标准差: 0.0561

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 90: 0.0991
  类别 68: 0.0908
  类别 30: 0.0793

样本 2:
  类别 80: 0.3817
  类别 33: 0.0907
  类别 65: 0.0781

样本 3:
  类别 55: 0.1223
  类别 45: 0.1192
  类别 44: 0.1073

样本 4:
  类别 51: 0.1947
  类别 91: 0.0640
  类别 78: 0.0391

样本 5:
  类别 71: 0.6736
  类别 60: 0.1402
  类别 23: 0.1193


--- Epoch 8/100 ---


训练 Epoch 8: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.9035]


训练集 - Epoch: 8 | Loss: 1.9054 | 准确率: 63.19%


验证 Epoch 8: 100%|██████████| 100/100 [00:06<00:00, 14.80it/s, Loss=1.9831]


验证集 - Epoch: 8 | Loss: 2.1301 | 准确率: 57.06%
Softmax 平均标准差: 0.0594

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.2232
  类别 79: 0.2223
  类别 49: 0.1690

样本 2:
  类别 33: 0.3392
  类别 80: 0.3047
  类别 65: 0.1168

样本 3:
  类别 93: 0.7335
  类别 30: 0.0292
  类别 72: 0.0258

样本 4:
  类别 51: 0.6851
  类别 91: 0.1215
  类别 37: 0.0155

样本 5:
  类别 71: 0.7841
  类别 23: 0.1715
  类别 60: 0.0252


--- Epoch 9/100 ---


训练 Epoch 9: 100%|██████████| 391/391 [01:30<00:00,  4.31it/s, Loss=1.8743]


训练集 - Epoch: 9 | Loss: 1.8725 | 准确率: 64.31%


验证 Epoch 9: 100%|██████████| 100/100 [00:06<00:00, 14.69it/s, Loss=2.1269]


验证集 - Epoch: 9 | Loss: 2.1471 | 准确率: 56.28%
Softmax 平均标准差: 0.0584

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.5124
  类别 90: 0.1384
  类别 69: 0.0600

样本 2:
  类别 33: 0.2132
  类别 96: 0.1934
  类别 38: 0.0751

样本 3:
  类别 30: 0.3350
  类别 95: 0.2459
  类别 27: 0.0829

样本 4:
  类别 87: 0.1637
  类别 16: 0.0783
  类别 37: 0.0621

样本 5:
  类别 71: 0.5336
  类别 60: 0.2725
  类别 0: 0.0249


--- Epoch 10/100 ---


训练 Epoch 10: 100%|██████████| 391/391 [01:31<00:00,  4.30it/s, Loss=1.7607]


训练集 - Epoch: 10 | Loss: 1.8571 | 准确率: 64.96%


验证 Epoch 10: 100%|██████████| 100/100 [00:06<00:00, 14.52it/s, Loss=2.0832]


验证集 - Epoch: 10 | Loss: 2.2162 | 准确率: 54.83%
Softmax 平均标准差: 0.0587

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.7065
  类别 12: 0.0179
  类别 69: 0.0157

样本 2:
  类别 65: 0.3306
  类别 80: 0.2314
  类别 38: 0.0426

样本 3:
  类别 55: 0.1976
  类别 30: 0.1706
  类别 93: 0.0671

样本 4:
  类别 51: 0.1554
  类别 37: 0.1480
  类别 84: 0.1332

样本 5:
  类别 71: 0.7817
  类别 23: 0.1719
  类别 60: 0.0270

已保存模型到 checkpoints/resnet50_cifar100_epoch10.pth

--- Epoch 11/100 ---


训练 Epoch 11: 100%|██████████| 391/391 [01:30<00:00,  4.31it/s, Loss=1.6642]


训练集 - Epoch: 11 | Loss: 1.8428 | 准确率: 65.39%


验证 Epoch 11: 100%|██████████| 100/100 [00:06<00:00, 14.86it/s, Loss=2.2782]


验证集 - Epoch: 11 | Loss: 2.1891 | 准确率: 55.47%
Softmax 平均标准差: 0.0604

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 79: 0.6787
  类别 8: 0.0489
  类别 68: 0.0426

样本 2:
  类别 33: 0.8811
  类别 9: 0.0228
  类别 31: 0.0219

样本 3:
  类别 44: 0.1167
  类别 34: 0.1069
  类别 55: 0.0957

样本 4:
  类别 51: 0.4894
  类别 89: 0.0693
  类别 38: 0.0329

样本 5:
  类别 71: 0.9504
  类别 60: 0.0309
  类别 23: 0.0103


--- Epoch 12/100 ---


训练 Epoch 12: 100%|██████████| 391/391 [01:30<00:00,  4.31it/s, Loss=1.8817]


训练集 - Epoch: 12 | Loss: 1.8272 | 准确率: 65.91%


验证 Epoch 12: 100%|██████████| 100/100 [00:06<00:00, 14.60it/s, Loss=2.3186]


验证集 - Epoch: 12 | Loss: 2.2850 | 准确率: 54.02%
Softmax 平均标准差: 0.0620

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 90: 0.3962
  类别 68: 0.1584
  类别 12: 0.0927

样本 2:
  类别 33: 0.7345
  类别 84: 0.1094
  类别 96: 0.0305

样本 3:
  类别 90: 0.2800
  类别 91: 0.0801
  类别 27: 0.0524

样本 4:
  类别 91: 0.4011
  类别 90: 0.1005
  类别 89: 0.0694

样本 5:
  类别 71: 0.8013
  类别 60: 0.0660
  类别 23: 0.0589


--- Epoch 13/100 ---


训练 Epoch 13: 100%|██████████| 391/391 [01:33<00:00,  4.19it/s, Loss=1.8030]


训练集 - Epoch: 13 | Loss: 1.8163 | 准确率: 66.19%


验证 Epoch 13: 100%|██████████| 100/100 [00:06<00:00, 14.49it/s, Loss=2.1762]


验证集 - Epoch: 13 | Loss: 2.1920 | 准确率: 55.41%
Softmax 平均标准差: 0.0599

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 79: 0.1367
  类别 24: 0.0905
  类别 71: 0.0539

样本 2:
  类别 33: 0.1701
  类别 80: 0.1202
  类别 65: 0.1072

样本 3:
  类别 55: 0.6460
  类别 72: 0.1828
  类别 4: 0.0673

样本 4:
  类别 51: 0.4255
  类别 75: 0.0417
  类别 55: 0.0386

样本 5:
  类别 71: 0.7454
  类别 23: 0.1208
  类别 60: 0.0820


--- Epoch 14/100 ---


训练 Epoch 14: 100%|██████████| 391/391 [01:31<00:00,  4.27it/s, Loss=1.8275]


训练集 - Epoch: 14 | Loss: 1.8091 | 准确率: 66.53%


验证 Epoch 14: 100%|██████████| 100/100 [00:07<00:00, 13.89it/s, Loss=2.2605]


验证集 - Epoch: 14 | Loss: 2.2036 | 准确率: 55.18%
Softmax 平均标准差: 0.0591

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 79: 0.1372
  类别 68: 0.0713
  类别 12: 0.0670

样本 2:
  类别 96: 0.2443
  类别 59: 0.1505
  类别 33: 0.1211

样本 3:
  类别 30: 0.2121
  类别 55: 0.1474
  类别 44: 0.1400

样本 4:
  类别 91: 0.1727
  类别 30: 0.0605
  类别 51: 0.0567

样本 5:
  类别 71: 0.8194
  类别 23: 0.0714
  类别 60: 0.0707


--- Epoch 15/100 ---


训练 Epoch 15: 100%|██████████| 391/391 [01:31<00:00,  4.27it/s, Loss=2.1362]


训练集 - Epoch: 15 | Loss: 1.8015 | 准确率: 66.68%


验证 Epoch 15: 100%|██████████| 100/100 [00:06<00:00, 14.63it/s, Loss=2.1034]


验证集 - Epoch: 15 | Loss: 2.1823 | 准确率: 56.28%
Softmax 平均标准差: 0.0593

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 11: 0.1371
  类别 35: 0.1270
  类别 46: 0.0788

样本 2:
  类别 33: 0.8729
  类别 96: 0.0443
  类别 59: 0.0124

样本 3:
  类别 55: 0.4756
  类别 4: 0.1184
  类别 72: 0.0848

样本 4:
  类别 51: 0.7282
  类别 84: 0.0463
  类别 91: 0.0281

样本 5:
  类别 71: 0.9168
  类别 23: 0.0404
  类别 60: 0.0261


--- Epoch 16/100 ---


训练 Epoch 16: 100%|██████████| 391/391 [01:31<00:00,  4.29it/s, Loss=1.8742]


训练集 - Epoch: 16 | Loss: 1.7896 | 准确率: 67.08%


验证 Epoch 16: 100%|██████████| 100/100 [00:06<00:00, 14.53it/s, Loss=2.1367]


验证集 - Epoch: 16 | Loss: 2.1158 | 准确率: 57.85%
Softmax 平均标准差: 0.0610

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.5312
  类别 46: 0.0402
  类别 79: 0.0244

样本 2:
  类别 80: 0.5353
  类别 65: 0.1971
  类别 38: 0.0829

样本 3:
  类别 44: 0.2561
  类别 26: 0.1237
  类别 55: 0.1083

样本 4:
  类别 51: 0.3698
  类别 84: 0.0412
  类别 37: 0.0404

样本 5:
  类别 71: 0.9151
  类别 23: 0.0489
  类别 60: 0.0190


--- Epoch 17/100 ---


训练 Epoch 17: 100%|██████████| 391/391 [01:31<00:00,  4.29it/s, Loss=1.7418]


训练集 - Epoch: 17 | Loss: 1.7852 | 准确率: 67.26%


验证 Epoch 17: 100%|██████████| 100/100 [00:06<00:00, 14.69it/s, Loss=2.3414]


验证集 - Epoch: 17 | Loss: 2.4205 | 准确率: 49.91%
Softmax 平均标准差: 0.0556

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.5447
  类别 79: 0.0726
  类别 55: 0.0653

样本 2:
  类别 84: 0.4553
  类别 33: 0.2748
  类别 9: 0.0424

样本 3:
  类别 72: 0.3550
  类别 55: 0.2528
  类别 44: 0.1129

样本 4:
  类别 16: 0.1871
  类别 84: 0.0736
  类别 87: 0.0619

样本 5:
  类别 23: 0.9445
  类别 71: 0.0283
  类别 60: 0.0078


--- Epoch 18/100 ---


训练 Epoch 18: 100%|██████████| 391/391 [01:29<00:00,  4.38it/s, Loss=1.6388]


训练集 - Epoch: 18 | Loss: 1.7799 | 准确率: 67.42%


验证 Epoch 18: 100%|██████████| 100/100 [00:06<00:00, 15.49it/s, Loss=2.1503]


验证集 - Epoch: 18 | Loss: 2.1759 | 准确率: 56.84%
Softmax 平均标准差: 0.0631

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.4708
  类别 90: 0.1210
  类别 72: 0.0603

样本 2:
  类别 80: 0.4164
  类别 33: 0.1444
  类别 84: 0.1038

样本 3:
  类别 44: 0.4401
  类别 27: 0.2485
  类别 72: 0.0633

样本 4:
  类别 91: 0.2646
  类别 89: 0.0786
  类别 44: 0.0609

样本 5:
  类别 71: 0.6814
  类别 60: 0.1703
  类别 23: 0.1243


--- Epoch 19/100 ---


训练 Epoch 19: 100%|██████████| 391/391 [01:27<00:00,  4.48it/s, Loss=1.8671]


训练集 - Epoch: 19 | Loss: 1.7756 | 准确率: 67.54%


验证 Epoch 19: 100%|██████████| 100/100 [00:06<00:00, 15.52it/s, Loss=2.3866]


验证集 - Epoch: 19 | Loss: 2.4363 | 准确率: 50.11%
Softmax 平均标准差: 0.0571

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 23: 0.4773
  类别 71: 0.2161
  类别 49: 0.0749

样本 2:
  类别 59: 0.1245
  类别 97: 0.1028
  类别 80: 0.1011

样本 3:
  类别 71: 0.1273
  类别 27: 0.1167
  类别 4: 0.0883

样本 4:
  类别 87: 0.1929
  类别 37: 0.1424
  类别 59: 0.0667

样本 5:
  类别 71: 0.9762
  类别 60: 0.0106
  类别 23: 0.0080


--- Epoch 20/100 ---


训练 Epoch 20: 100%|██████████| 391/391 [01:27<00:00,  4.48it/s, Loss=1.8224]


训练集 - Epoch: 20 | Loss: 1.7654 | 准确率: 67.64%


验证 Epoch 20: 100%|██████████| 100/100 [00:06<00:00, 15.38it/s, Loss=1.9724]


验证集 - Epoch: 20 | Loss: 2.1179 | 准确率: 58.17%
Softmax 平均标准差: 0.0627

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.4580
  类别 39: 0.1016
  类别 90: 0.0520

样本 2:
  类别 33: 0.8720
  类别 18: 0.0403
  类别 96: 0.0353

样本 3:
  类别 30: 0.3063
  类别 95: 0.1593
  类别 27: 0.0668

样本 4:
  类别 91: 0.6918
  类别 51: 0.0694
  类别 73: 0.0377

样本 5:
  类别 23: 0.7633
  类别 71: 0.1100
  类别 60: 0.0615

已保存模型到 checkpoints/resnet50_cifar100_epoch20.pth

--- Epoch 21/100 ---


训练 Epoch 21: 100%|██████████| 391/391 [01:29<00:00,  4.36it/s, Loss=1.9181]


训练集 - Epoch: 21 | Loss: 1.7621 | 准确率: 67.90%


验证 Epoch 21: 100%|██████████| 100/100 [00:06<00:00, 14.62it/s, Loss=2.0575]


验证集 - Epoch: 21 | Loss: 2.1126 | 准确率: 58.03%
Softmax 平均标准差: 0.0614

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 79: 0.2661
  类别 55: 0.1029
  类别 77: 0.0801

样本 2:
  类别 88: 0.6147
  类别 80: 0.1308
  类别 33: 0.0655

样本 3:
  类别 55: 0.2476
  类别 34: 0.1442
  类别 72: 0.1286

样本 4:
  类别 51: 0.1912
  类别 77: 0.1298
  类别 2: 0.0689

样本 5:
  类别 71: 0.5884
  类别 23: 0.1357
  类别 60: 0.1248


--- Epoch 22/100 ---


训练 Epoch 22: 100%|██████████| 391/391 [01:31<00:00,  4.29it/s, Loss=1.7793]


训练集 - Epoch: 22 | Loss: 1.7536 | 准确率: 68.22%


验证 Epoch 22: 100%|██████████| 100/100 [00:06<00:00, 14.71it/s, Loss=2.0942]


验证集 - Epoch: 22 | Loss: 2.1236 | 准确率: 57.14%
Softmax 平均标准差: 0.0622

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 12: 0.5610
  类别 68: 0.0674
  类别 90: 0.0397

样本 2:
  类别 33: 0.4283
  类别 59: 0.0760
  类别 96: 0.0740

样本 3:
  类别 55: 0.1637
  类别 44: 0.1406
  类别 15: 0.0966

样本 4:
  类别 84: 0.4482
  类别 51: 0.4230
  类别 16: 0.0259

样本 5:
  类别 71: 0.7578
  类别 23: 0.0742
  类别 60: 0.0638


--- Epoch 23/100 ---


训练 Epoch 23: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.8461]


训练集 - Epoch: 23 | Loss: 1.7554 | 准确率: 68.00%


验证 Epoch 23: 100%|██████████| 100/100 [00:06<00:00, 14.71it/s, Loss=2.0970]


验证集 - Epoch: 23 | Loss: 2.1013 | 准确率: 59.08%
Softmax 平均标准差: 0.0659

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.1663
  类别 90: 0.1505
  类别 12: 0.1082

样本 2:
  类别 33: 0.6022
  类别 97: 0.0745
  类别 96: 0.0566

样本 3:
  类别 27: 0.1893
  类别 55: 0.1474
  类别 72: 0.1362

样本 4:
  类别 91: 0.5007
  类别 51: 0.2280
  类别 44: 0.0486

样本 5:
  类别 71: 0.9169
  类别 60: 0.0482
  类别 23: 0.0071


--- Epoch 24/100 ---


训练 Epoch 24: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.7243]


训练集 - Epoch: 24 | Loss: 1.7552 | 准确率: 68.00%


验证 Epoch 24: 100%|██████████| 100/100 [00:06<00:00, 14.79it/s, Loss=2.1308]


验证集 - Epoch: 24 | Loss: 2.1643 | 准确率: 56.63%
Softmax 平均标准差: 0.0624

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.3775
  类别 90: 0.1743
  类别 81: 0.0397

样本 2:
  类别 88: 0.7554
  类别 33: 0.1052
  类别 84: 0.0296

样本 3:
  类别 55: 0.3934
  类别 72: 0.2442
  类别 95: 0.1116

样本 4:
  类别 37: 0.3137
  类别 81: 0.2968
  类别 13: 0.1129

样本 5:
  类别 23: 0.3891
  类别 60: 0.2811
  类别 71: 0.1802


--- Epoch 25/100 ---


训练 Epoch 25: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.9124]


训练集 - Epoch: 25 | Loss: 1.7429 | 准确率: 68.68%


验证 Epoch 25: 100%|██████████| 100/100 [00:06<00:00, 14.62it/s, Loss=2.4041]


验证集 - Epoch: 25 | Loss: 2.3257 | 准确率: 52.77%
Softmax 平均标准差: 0.0602

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 49: 0.6630
  类别 68: 0.0872
  类别 76: 0.0443

样本 2:
  类别 33: 0.2191
  类别 97: 0.0894
  类别 9: 0.0720

样本 3:
  类别 32: 0.4483
  类别 93: 0.4040
  类别 51: 0.0269

样本 4:
  类别 16: 0.8181
  类别 9: 0.0201
  类别 41: 0.0187

样本 5:
  类别 71: 0.5733
  类别 23: 0.1633
  类别 60: 0.1015


--- Epoch 26/100 ---


训练 Epoch 26: 100%|██████████| 391/391 [01:31<00:00,  4.29it/s, Loss=1.8061]


训练集 - Epoch: 26 | Loss: 1.7397 | 准确率: 68.65%


验证 Epoch 26: 100%|██████████| 100/100 [00:06<00:00, 14.55it/s, Loss=2.0603]


验证集 - Epoch: 26 | Loss: 2.2343 | 准确率: 55.57%
Softmax 平均标准差: 0.0600

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.3109
  类别 77: 0.2435
  类别 72: 0.0643

样本 2:
  类别 9: 0.7518
  类别 16: 0.1707
  类别 33: 0.0198

样本 3:
  类别 72: 0.3140
  类别 34: 0.1740
  类别 95: 0.1128

样本 4:
  类别 51: 0.5087
  类别 16: 0.1846
  类别 9: 0.0675

样本 5:
  类别 71: 0.9376
  类别 60: 0.0190
  类别 23: 0.0116


--- Epoch 27/100 ---


训练 Epoch 27: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.7247]


训练集 - Epoch: 27 | Loss: 1.7471 | 准确率: 68.52%


验证 Epoch 27: 100%|██████████| 100/100 [00:06<00:00, 14.97it/s, Loss=2.1895]


验证集 - Epoch: 27 | Loss: 2.2526 | 准确率: 55.13%
Softmax 平均标准差: 0.0604

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 95: 0.2161
  类别 30: 0.1268
  类别 12: 0.1251

样本 2:
  类别 33: 0.3641
  类别 38: 0.1090
  类别 66: 0.0685

样本 3:
  类别 44: 0.3037
  类别 34: 0.1372
  类别 95: 0.1111

样本 4:
  类别 51: 0.2184
  类别 18: 0.1412
  类别 44: 0.0936

样本 5:
  类别 71: 0.7247
  类别 23: 0.1401
  类别 60: 0.0525


--- Epoch 28/100 ---


训练 Epoch 28: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.8609]


训练集 - Epoch: 28 | Loss: 1.7397 | 准确率: 68.71%


验证 Epoch 28: 100%|██████████| 100/100 [00:06<00:00, 14.62it/s, Loss=2.2380]


验证集 - Epoch: 28 | Loss: 2.1845 | 准确率: 56.33%
Softmax 平均标准差: 0.0617

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 79: 0.3934
  类别 56: 0.2453
  类别 68: 0.2316

样本 2:
  类别 84: 0.5431
  类别 33: 0.1743
  类别 97: 0.0575

样本 3:
  类别 55: 0.4891
  类别 72: 0.0713
  类别 3: 0.0657

样本 4:
  类别 51: 0.9020
  类别 77: 0.0132
  类别 84: 0.0066

样本 5:
  类别 71: 0.9575
  类别 60: 0.0177
  类别 23: 0.0102


--- Epoch 29/100 ---


训练 Epoch 29: 100%|██████████| 391/391 [01:30<00:00,  4.30it/s, Loss=1.7712]


训练集 - Epoch: 29 | Loss: 1.7337 | 准确率: 68.90%


验证 Epoch 29: 100%|██████████| 100/100 [00:06<00:00, 15.30it/s, Loss=2.1303]


验证集 - Epoch: 29 | Loss: 2.1065 | 准确率: 58.40%
Softmax 平均标准差: 0.0629

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.9692
  类别 90: 0.0122
  类别 81: 0.0014

样本 2:
  类别 84: 0.3332
  类别 9: 0.3219
  类别 33: 0.1132

样本 3:
  类别 55: 0.4829
  类别 4: 0.2891
  类别 72: 0.0531

样本 4:
  类别 84: 0.1188
  类别 35: 0.0883
  类别 51: 0.0695

样本 5:
  类别 71: 0.9934
  类别 60: 0.0027
  类别 23: 0.0013


--- Epoch 30/100 ---


训练 Epoch 30: 100%|██████████| 391/391 [01:27<00:00,  4.48it/s, Loss=1.6922]


训练集 - Epoch: 30 | Loss: 1.7272 | 准确率: 69.15%


验证 Epoch 30: 100%|██████████| 100/100 [00:06<00:00, 15.43it/s, Loss=1.7681]


验证集 - Epoch: 30 | Loss: 1.9738 | 准确率: 62.10%
Softmax 平均标准差: 0.0647

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.3768
  类别 46: 0.1226
  类别 11: 0.1066

样本 2:
  类别 33: 0.2792
  类别 9: 0.1997
  类别 84: 0.1366

样本 3:
  类别 55: 0.9318
  类别 72: 0.0349
  类别 4: 0.0181

样本 4:
  类别 91: 0.2462
  类别 84: 0.2060
  类别 29: 0.0543

样本 5:
  类别 71: 0.8987
  类别 23: 0.0240
  类别 60: 0.0169

已保存模型到 checkpoints/resnet50_cifar100_epoch30.pth

--- Epoch 31/100 ---


训练 Epoch 31: 100%|██████████| 391/391 [01:27<00:00,  4.47it/s, Loss=1.2575]


训练集 - Epoch: 31 | Loss: 1.3533 | 准确率: 81.65%


验证 Epoch 31: 100%|██████████| 100/100 [00:06<00:00, 15.44it/s, Loss=1.3727]


验证集 - Epoch: 31 | Loss: 1.5049 | 准确率: 76.25%
Softmax 平均标准差: 0.0756

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.5570
  类别 90: 0.0451
  类别 79: 0.0379

样本 2:
  类别 33: 0.9084
  类别 96: 0.0178
  类别 9: 0.0111

样本 3:
  类别 55: 0.7550
  类别 72: 0.1234
  类别 4: 0.0666

样本 4:
  类别 51: 0.8388
  类别 37: 0.0120
  类别 91: 0.0097

样本 5:
  类别 71: 0.5479
  类别 23: 0.3254
  类别 60: 0.0531


--- Epoch 32/100 ---


训练 Epoch 32: 100%|██████████| 391/391 [01:27<00:00,  4.48it/s, Loss=1.3453]


训练集 - Epoch: 32 | Loss: 1.2310 | 准确率: 85.77%


验证 Epoch 32: 100%|██████████| 100/100 [00:06<00:00, 15.24it/s, Loss=1.3398]


验证集 - Epoch: 32 | Loss: 1.4719 | 准确率: 77.63%
Softmax 平均标准差: 0.0770

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 55: 0.1823
  类别 90: 0.1784
  类别 72: 0.1183

样本 2:
  类别 33: 0.9260
  类别 96: 0.0220
  类别 84: 0.0088

样本 3:
  类别 55: 0.6490
  类别 72: 0.2397
  类别 4: 0.0781

样本 4:
  类别 51: 0.8940
  类别 37: 0.0118
  类别 84: 0.0046

样本 5:
  类别 71: 0.7844
  类别 23: 0.0882
  类别 60: 0.0543


--- Epoch 33/100 ---


训练 Epoch 33: 100%|██████████| 391/391 [01:27<00:00,  4.49it/s, Loss=1.1188]


训练集 - Epoch: 33 | Loss: 1.1802 | 准确率: 87.47%


验证 Epoch 33: 100%|██████████| 100/100 [00:06<00:00, 15.41it/s, Loss=1.3648]


验证集 - Epoch: 33 | Loss: 1.4625 | 准确率: 78.06%
Softmax 平均标准差: 0.0777

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 68: 0.2634
  类别 90: 0.1395
  类别 55: 0.1082

样本 2:
  类别 33: 0.9334
  类别 96: 0.0158
  类别 84: 0.0085

样本 3:
  类别 55: 0.4742
  类别 72: 0.3677
  类别 4: 0.0665

样本 4:
  类别 51: 0.8769
  类别 37: 0.0159
  类别 84: 0.0073

样本 5:
  类别 71: 0.6991
  类别 23: 0.1754
  类别 60: 0.0476


--- Epoch 34/100 ---


训练 Epoch 34: 100%|██████████| 391/391 [01:27<00:00,  4.48it/s, Loss=1.1400]


训练集 - Epoch: 34 | Loss: 1.1412 | 准确率: 88.84%


验证 Epoch 34: 100%|██████████| 100/100 [00:06<00:00, 15.52it/s, Loss=1.3171]


验证集 - Epoch: 34 | Loss: 1.4583 | 准确率: 77.97%
Softmax 平均标准差: 0.0782

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 55: 0.1510
  类别 79: 0.1491
  类别 68: 0.1473

样本 2:
  类别 33: 0.9409
  类别 96: 0.0098
  类别 84: 0.0063

样本 3:
  类别 72: 0.4208
  类别 55: 0.3593
  类别 4: 0.1252

样本 4:
  类别 51: 0.8855
  类别 37: 0.0053
  类别 94: 0.0051

样本 5:
  类别 71: 0.6949
  类别 23: 0.1695
  类别 60: 0.0521


--- Epoch 35/100 ---


训练 Epoch 35: 100%|██████████| 391/391 [01:27<00:00,  4.48it/s, Loss=1.0765]


训练集 - Epoch: 35 | Loss: 1.1077 | 准确率: 89.97%


验证 Epoch 35: 100%|██████████| 100/100 [00:06<00:00, 14.86it/s, Loss=1.3345]


验证集 - Epoch: 35 | Loss: 1.4727 | 准确率: 77.69%
Softmax 平均标准差: 0.0786

--- 前 5 个样本的 Softmax 概率分布 ---
样本 1:
  类别 49: 0.1391
  类别 68: 0.1172
  类别 76: 0.1124

样本 2:
  类别 33: 0.9225
  类别 96: 0.0208
  类别 84: 0.0064

样本 3:
  类别 72: 0.5175
  类别 55: 0.2772
  类别 4: 0.1372

样本 4:
  类别 51: 0.9162
  类别 91: 0.0046
  类别 37: 0.0045

样本 5:
  类别 71: 0.7923
  类别 23: 0.1081
  类别 60: 0.0262


--- Epoch 36/100 ---


训练 Epoch 36: 100%|█████████▉| 390/391 [01:30<00:00,  4.19it/s, Loss=1.0126]