数据加载需要用到两个类 Dataset 和 Dataloader，两个类的作用分别是：

- Dataset：将数据加载到内存中，可以通过索引的方式获取数据，给数据编号，提供一种方式获取数据及其标签
- Dataloader：将数据分成一个个batch，每个batch的数据量可以自定义，可以打乱数据，可以使用多线程加载数据，为网络提供不同的数据形式

常用的数据组织形式：

- 文件夹名为类名，每个文件夹中存放属于该类的图片
- 数据和标签分开存放，数据和标签一一对应
- 文件名中带有标签信息

In [1]:
from torch.utils.data import Dataset, DataLoader  # torch.utils 中存放了一些常用的工具类
from PIL import Image
import os

In [2]:
# help(Dataset)

In [3]:
# 针对数据集 ants_bees 的数据加载类
class AntsBeesDataset(Dataset):
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.imgs = os.listdir(self.path)


    # 重写 __getitem__ 方法，返回数据集中的数据
    def __getitem__(self, index):
        img_path = os.path.join(self.path, self.imgs[index])
        img = Image.open(img_path).convert('RGB')
        label = self.label_dir
        return img, label
    
    # 重写 __len__ 方法，返回数据集的大小
    def __len__(self):
        return len(self.imgs)

In [4]:
root_dir = f'ants_bees/train/'
ants_label = f'ants'
bees_label = f'bees'

In [5]:
ants_dataset = AntsBeesDataset(root_dir, ants_label)
bees_dataset = AntsBeesDataset(root_dir, bees_label)
train_dataset = ants_dataset + bees_dataset

In [6]:
img, label = ants_dataset[0]
img.show()

In [7]:
print(f'ants_dataset: {len(ants_dataset)}')
print(f'bees_dataset: {len(bees_dataset)}')
print(f'train_dataset: {len(train_dataset)}')

ants_dataset: 124
bees_dataset: 121
train_dataset: 245
