# 如何加载数据集
# 本文档展示了如何使用Pytorch的Dataset和DataLoader加载自定义数据集。


In [1]:
# 导入Pytorch相关数据集处理和数据加载工具
from torch.utils.data import Dataset, DataLoader  # Dataset用于自定义数据集，DataLoader用于批量加载数据
import numpy as np  # 用于数值计算
from PIL import Image  # 用于加载和处理图片
import os  # 用于文件路径操作
from torchvision import transforms  # 用于数据增强和预处理
from torch.utils.tensorboard import SummaryWriter  # 用于可视化
from torchvision.utils import make_grid  # 用于将多张图片拼接成网格


In [2]:
class MyData(Dataset):
    # 自定义数据集类，继承自Pytorch的Dataset类
    def __init__(self, root_dir, label_dir):
        """
        初始化函数，传入数据集的根目录和标签目录。
        :param root_dir: 数据集根目录
        :param label_dir: 标签目录（子文件夹名）
        """
        self.root_dir = root_dir  # 保存根目录路径
        self.label_dir = label_dir  # 保存标签目录路径
        self.path = os.path.join(self.root_dir, self.label_dir)  # 拼接成完整路径
        self.img_path = os.listdir(self.path)  # 获取标签目录下所有图片的文件名列表

    def __getitem__(self, idx):
        """
        根据索引获取图片及其对应的标签。
        :param idx: 图片索引
        :return: 图片和标签
        """
        img_name = self.img_path[idx]  # 根据索引获取图片文件名
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)  # 拼接成图片完整路径
        img = Image.open(img_item_path)  # 打开图片
        label = self.label_dir  # 标签即为子文件夹名
        return img, label  # 返回图片和标签

    def __len__(self):
        """
        返回数据集的大小（图片数量）。
        :return: 图片数量
        """
        return len(self.img_path)  # 返回图片文件名列表的长度


In [5]:
# 定义数据集的根目录和子目录
root_dir = "./data/hymenoptera_data/train"  # 数据集根目录
ants_label_dir = "ants"  # 蚂蚁图片所在子目录

# 创建蚂蚁数据集实例
ants_dataset = MyData(root_dir, ants_label_dir)

# 测试蚂蚁数据集，获取第一张图片及其标签
img, label = ants_dataset[1]  # 获取索引为1的图片和标签
img.show()  # 显示图片
print(label)  # 打印标签


ants


In [6]:
# 定义蜜蜂图片所在子目录
bees_label_dir = "bees"

# 创建蜜蜂数据集实例
bees_dataset = MyData(root_dir, bees_label_dir)

# 测试蜜蜂数据集，获取第一张图片及其标签
img, label = bees_dataset[1]  # 获取索引为1的图片和标签
img.show()  # 显示图片
print(label)  # 打印标签


bees


In [7]:
# 合并蚂蚁和蜜蜂数据集
train_dataset = ants_dataset + bees_dataset  # 合并两个数据集

# 打印各数据集的大小
print(len(ants_dataset))  # 打印蚂蚁数据集大小
print(len(bees_dataset))  # 打印蜜蜂数据集大小
print(len(train_dataset))  # 打印合并后的数据集大小

# 测试合并后的数据集，显示几张图片
img1, _ = train_dataset[0]  # 获取索引为0的图片
img2, _ = train_dataset[123]  # 获取索引为123的图片
img3, _ = train_dataset[124]  # 获取索引为124的图片
img4, _ = train_dataset[244]  # 获取索引为244的图片
img1.show()  # 显示图片1
img2.show()  # 显示图片2
img3.show()  # 显示图片3
img4.show()  # 显示图片4


124
121
245
