# 数据加载


PyTorch中有两种数据存储方式，分别是Dataset和DataLoader。其中：

- Dataset提供了一种方式获取数据及其Label值。
- DataLoader可以对数据进行打包，为网络提供不同的数据形式。

**对于Dataset：**

如何获取每一个数据及其Label？



告诉我们一共有多少数据？




In [30]:
from torch.utils.data import Dataset
from PIL import Image
import os


In [1]:
#
# 本代码块仅用于展示函数功能。
#

root_dir = 'dataset/hymenoptera_data/train'  # 一般情况，root_dir会选择外层的路径
label_dir = 'ants'  # 而标签路径是其中一个名字
ants_dir = os.path.join(root_dir, label_dir)  # 通过路径叠加，找到某个标签下面的内容。
# 注意，为了避免不同系统路径格式不同导致代码出错，建议使用os.path.join()，以防出现问题。



KeyboardInterrupt



In [32]:
class MyDataset(Dataset):
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir  # 读取数据集根路径
        self.label_dir = label_dir  # 读取标签路径
        self.path = os.path.join(self.root_dir, self.label_dir)  # 合成数据集路径
        self.img_path_list = os.listdir(self.path)  # 所有蚂蚁图片的地址

    def __getitem__(self, idx):
        """
        获取数据集中的数据
        :param idx: 数据索引
        :return: 返回目标图片以及对应的标签
        """
        img_name = self.img_path_list[idx]  # 获取图片名字
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)  # 获取全部路径
        img = Image.open(img_item_path)  # 通过PIL保存图片
        label = self.label_dir  # 获取标签
        return img, label  # 返回值

    def __len__(self):
        """
        返回数据集长度
        :return: 
        """
        return len(self.img_path_list)
    

In [33]:
# 定义一个根目录路径
root_dir = '../dataset/hymenoptera_data/train'

# 定义蚂蚁标签路径
ants_label_dir = 'ants'
ants_dataset = MyDataset(root_dir, ants_label_dir)  # 创建蚂蚁数据集

len(ants_dataset)

124

In [34]:
# 定义蜜蜂标签路径
bee_label_dir = "bees"
bees_dataset = MyDataset(root_dir, bee_label_dir)  # 创建蜜蜂数据集

len(bees_dataset)


121

In [35]:
# 测试一下获取数据的功能。
print(f"peak one ant: {ants_dataset[1]}")
print(f"peak one bee: {bees_dataset[1]}")

peak one ant: (<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x333 at 0x253BEF657F0>, 'ants')
peak one bee: (<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x333 at 0x253BEF657F0>, 'bees')


In [35]:
#
# 数据集是可以通过加法进行合并的
#
# 这种方法可以用于在原始数据集中添加仿造数据集，或者获取整体数据集中的子数据集。
#
train_dataset = ants_dataset + bees_dataset  # 合并数据集
# 通过上述方法合并数据集后，新的数据集是原来数据集的加和，且前一半是蚂蚁数据集，后一半是蜜蜂数据集。

