# 如何加载官方数据集
以CIFAR10为例

CIFAR10是一个常用的小型图像数据集，包含10个类别的彩色图像。


In [1]:
# CIFAR10 Dataset.
# Parameters:
#     root (str or pathlib.Path)                数据集路径，指定数据集存储的目录。
#     train (bool, optional)                    True: 加载训练集；False: 加载测试集。
#     transform (callable, optional)            对数据集的图像进行变换处理，例如归一化、数据增强等。
#     target_transform (callable, optional)     对标签(target)进行变换处理。
#     download (bool, optional)                 True: 如果数据集不存在则自动下载；False: 不会下载。


In [2]:
import torchvision
from tensorboard.notebook import display
from torch.utils.tensorboard import SummaryWriter


In [5]:
# 加载CIFAR10训练集和测试集，未进行任何变换。
train_set = torchvision.datasets.CIFAR10("./data/CIFAR10", train=True, download=True)  # 下载并加载训练集
test_set = torchvision.datasets.CIFAR10("./data/CIFAR10", train=False, download=True)  # 下载并加载测试集


Files already downloaded and verified
Files already downloaded and verified


In [8]:
# 打印训练集的第一个样本，包含图像和对应的标签。
print(train_set[0])  
# 最后的数字是每张图片的target（标签）。
# CIFAR10的类别映射关系如下：
# classes{'airplane': 0, 'automobile': 1, 'bird': 2, 'cat': 3, 'deer': 4, 'dog': 5, 'frog': 6, 'horse': 7, 'ship': 8, 'truck': 9}

# 打印数据集的类别名称。
print(train_set.classes)

# 获取训练集的第一个样本的图像和标签。
img, target = train_set[0]
# 打印该样本的类别名称。
print(train_set.classes[target])
# 打印图像对象和对应的标签值。
print(img)
print(target)
# 显示图像
img.show()  # 显示图像对象，调用show方法会弹出一个窗口显示图像。

(<PIL.Image.Image image mode=RGB size=32x32 at 0x127773340>, 6)
['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
frog
<PIL.Image.Image image mode=RGB size=32x32 at 0x127773250>
6


In [10]:
# 如何将Datasets中的数据转换为Tensor类型
# 使用torchvision.transforms对数据进行变换处理。

# 定义数据变换，包括将图像转换为Tensor和归一化。
Dataset_transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor(),  # 将PIL图像或numpy数组转换为Tensor。
    torchvision.transforms.Normalize([0.1, 0.2, 0.5], [0.9, 1.3, 0.7])  # 对图像进行归一化处理。
])

# 使用定义的变换重新加载训练集和测试集。
train_set = torchvision.datasets.CIFAR10("./data/CIFAR10", train=True, transform=Dataset_transform, download=True)
test_set = torchvision.datasets.CIFAR10("./data/CIFAR10", train=False, transform=Dataset_transform, download=True)

# 打印训练集的第一个样本，经过变换处理。
print(train_set[0])

# 使用SummaryWriter将数据写入TensorBoard日志。
writer = SummaryWriter("./logs/4_Torchvision_Datasets")
# 遍历训练集的前100张图像，将其写入日志文件。
for i in range(100):
    img, target = train_set[i]  # 获取图像和标签。
    writer.add_image("train_set", img, i)  # 将图像添加到TensorBoard。


Files already downloaded and verified
Files already downloaded and verified
(tensor([[[ 0.1460,  0.0763,  0.1068,  ...,  0.5773,  0.5512,  0.5338],
         [-0.0414, -0.1111, -0.0327,  ...,  0.4248,  0.4074,  0.4205],
         [-0.0022, -0.0414,  0.1024,  ...,  0.4031,  0.4118,  0.3638],
         ...,
         [ 0.7952,  0.7647,  0.7516,  ...,  0.5861,  0.1329,  0.1198],
         [ 0.6732,  0.6427,  0.6993,  ...,  0.6906,  0.3115,  0.2505],
         [ 0.6601,  0.6209,  0.6688,  ...,  0.8301,  0.5468,  0.4248]],

        [[ 0.0332, -0.0151, -0.0090,  ...,  0.2443,  0.2232,  0.2202],
         [-0.0935, -0.1538, -0.1297,  ...,  0.1116,  0.0965,  0.1086],
         [-0.0814, -0.1327, -0.0724,  ...,  0.0995,  0.0995,  0.0664],
         ...,
         [ 0.3590,  0.3077,  0.3318,  ...,  0.2474, -0.0603, -0.0513],
         [ 0.2655,  0.2172,  0.2805,  ...,  0.2926,  0.0332,  0.0060],
         [ 0.2805,  0.2353,  0.2745,  ...,  0.4012,  0.2021,  0.1237]],

        [[-0.3613, -0.4622, -0.4734,  .

In [11]:
# 关闭SummaryWriter。
#writer.close()