# Dateset & DataLoader

## 模块一. 直观感受

* `Dataset`：
像一个图书馆——“给我第 $i$条数据，我就返回第 $i$ 条样本（和它的标签）”。

* `DataLoader`：
像一个图书管理员—— 每次从 `Dataset` 里取出一批（`batch`）样本，打包成 X, y，送进模型；还可以：
打乱顺序（`shuffle`）

多进程读取（`num_workers`）

自动把多条数据拼成一个 batch（`collate`）

```text
磁盘上的原始数据
   ↓（自己写 Dataset，定义怎么读）
Dataset: 索引 -> (样本, 标签)
   ↓（交给 DataLoader）
DataLoader: yield 一个个 batch 的 (X, y)
   ↓
训练循环：for X, y in dataloader: ...
```
***

## 模块二. Dataset

Pytorch中，Dataset的核心就是两个函数

```py
class MyDataset(torch.utils.data.Dataset):
    def __len__(self):
        # 返回数据集大小（有多少条样本）
    
    def __getitem__(self, idx):
        # 给定一个索引 idx，返回第 idx 条数据
        # 通常是 (data, label) 这样的 tuple
```

* **Dataset 解决的问题就是：把“第 i 条样本”变成 Python 里可用的 Tensor / PIL Image / whatever**。

### 2.1 自定义一个简单的 Dataset

In [1]:
import torch
from torch.utils.data import Dataset


class MyDataset(Dataset):
    def __init__(self):
        # 准备好所有数据
        self.X = torch.randn(100, 2) # 100个2维数据
        self.y = torch.randint(0, 2, (100, )) # 0/1标签
    
    def __len__(self):
        return len(self.X)

    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

dataset = MyDataset()
print(len(dataset))
print(dataset[0])

100
(tensor([-0.1329, -1.1477]), tensor(1))


### 2.2 自定义Dataset 从文件读取