# Dataset

Dataset 类用于确定数据集的位置

对数据的读取进行封装

同时确定数据集的大小

In [11]:
from torch.utils.data import Dataset
import os
from torchvision.transforms import ToTensor
from PIL import Image

<br>

### 通过继承Dataset类来自定义自己的数据集

In [12]:
class MyDataset(Dataset):
    # 构造函数，保存类内成员变量，供后续使用
    def __init__(self, root_dir, label):
        self.root_dir = root_dir
        self.label = label
        self.dir_path = os.path.join(self.root_dir, self.label)  # 路径拼接
        self.img_name_list = os.listdir(self.dir_path)           # 获取指定文件夹中所有文件名字符串序列

    # 根据索引，获取一个样本数据及其标签
    def __getitem__(self, index):
        img_name = self.img_name_list[index]
        img_path = os.path.join(self.dir_path, img_name)
        img = Image.open(img_path)
        return ToTensor()(img), self.label      # 图像数据按照 Tensor 类型进行返回
    
    # 返回样本的数量
    def __len__(self):
        return len(self.img_name_list)

<br>

### 自定义数据集类的实例化与数据样本的读取

In [13]:
root_dir = 'C:\\Users\\Administrator\\Desktop\\pytorch_learning\\dataset\\train'
ant_label = 'ant'
bee_label = 'bee'
ant_dataset = MyDataset(root_dir, ant_label)
bee_dataset = MyDataset(root_dir, bee_label)

通过调用 getitem 魔法方法来读取一个一个的样本数据

In [16]:
img, label = ant_dataset[0]
type(img), label

(torch.Tensor, 'ant')

通过 len 魔法方法来获取数据集中样本的个数

In [17]:
len(ant_dataset), len(bee_dataset)

(123, 121)

<br>

### Dataset类有默认的add魔法方法

In [18]:
train_dataset = ant_dataset + bee_dataset
len(train_dataset)

244