In [15]:
from torchvision import datasets, transforms    # datasets用于加载数据集，transforms是各种变换
from torch.utils.data import DataLoader, random_split         # DataLoader用于分批加载数据，random_split函数用于随机分割数据集
import torch
import numpy as np

## 1. 数据集加载与分割

In [16]:
# 下载并加载数据集（官网上默认只有训练集和测试集，验证集需要自己划分）
# 创建训练集对象
train_dataset = datasets.MNIST( root="./",                          # 数据集的存放地址
                                download=True,                      # 如果本地没有，那么从官网下载数据集
                                train=True,                         # 官网数据集分为6000张训练集，10000张测试集，这里加载训练集部分
                                transform=transforms.ToTensor())    # 把从官网加载的数据转换成tensor的形式

test_dataset = datasets.MNIST(  root="./",                          # 数据集的存放地址
                                download=True,                      # 如果本地没有，那么从官网下载数据集
                                train=False,                        # 官网数据集分为6000张训练集，10000张测试集，这里加载测试集部分
                                transform=transforms.ToTensor())    # 把从官网加载的数据转换成tensor的形式

In [17]:
# 从训练集中分割验证集

# 定义训练集和验证集大小
train_size = 55000  # 训练集大小
val_size = 5000     # 验证集大小 (60000 - 55000 = 5000)

# 设置随机种子
def set_seed(seed=42):
    torch.manual_seed(seed) # 设置PyTorch的随机种子，影响CPU上的随机数生成。
    np.random.seed(seed)    # 设置NumPy的随机种子，因为random_split可能使用NumPy的随机数生成器。
    if torch.cuda.is_available():   # 如果GPU可用，设置CUDA的随机种子。
        torch.cuda.manual_seed(seed)    # 设置当前GPU的随机种子。
        torch.cuda.manual_seed_all(seed)    # 如果使用多GPU，设置所有GPU的随机种子。

set_seed(42)

# 使用random_split划分训练集和验证集
train_dataset, val_dataset = random_split(
    train_dataset,
    [train_size, val_size]
)

In [24]:
# 检验三个数据集
print("训练集尺寸：{}".format(len(train_dataset)))
print("验证集尺寸：{}".format(len(val_dataset)))
print("测试集尺寸：{}".format(len(test_dataset)))

训练集尺寸：55000
验证集尺寸：5000
测试集尺寸：10000
