# Dataset & DataLoader

## 1. 概念和用途
用于处理数据样本的代码可能会变得混乱且难以维护;理想情况下，我们需要我们的数据集代码与我们的模型训练代码分离，以获得更好的可读性和模块化。

PyTorch 提供了两个数据抽象类：`torch.utils.data.DataLoader` 和 `torch.utils.data.Dataset` ，允许使用预加载的数据集或者自己的数据。`Dataset` 用于存储样本及其相应的标签，而 `DataLoader` 则在 `Dataset` 外部封装了一个可迭代器，以方便访问样本。 [Dataset & DataLoader 官方解释](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html)

官方解释可能比较抽象，可以结合 Python 的字典来理解。在索引字典中的元素时，其实是调用了 `__getitem__` 方法，如下所示：

In [6]:
dic = {
    "name": "Siyu",
    "age": "23"
}
print(dic["name"])
print(dic.__getitem__("age"))

Siyu
23


那么在存储数据集时，可以采用类似字典的存储方式，然而神经网络中的数据集，在索引往往需要返回两个值：数据（data）和对应的标签（label/target），所以需要重写 `__getitem__` 方法，`Dataset` 抽象类就进行了重写。

所以 `Dataset` 就是专用于实例化存放数据集对象的抽象类。

在训练时，只有 `Dataset` 数据集并不足够，因为需要进行循环，`Dataset` 并未实现迭代器，所以就需要使用 `DataLoader` 帮助数据集能够迭代。

## 2. Dataset
PyTorch 为我们提供了一些已经封装好的数据集，不需要我们自己定义。CIFAR10 是 CV 训练中经常使用到的一个数据集，在 PyTorch 中 CIFAR10 是一个写好的 `Dataset`，我们使用时只需以下代码：

In [None]:
data = torchvision.datasets.CIFAR10("./data/", transform=torchvision.transforms.ToTensor(), train=True, download=True)

`datasets.CIFAR10` 就是一个 `Dataset` 子类，`data` 是这个类的一个实例。

https://zhuanlan.zhihu.com/p/605755355

https://zhuanlan.zhihu.com/p/105507334