## 基本概念

在PyTorch中，Dataset和DataLoader是数据加载的核心组件。

Dataset：定义数据的组织和预处理。

DataLoader：批量加载数据，支持多进程加速和数据打乱。

首先导入必要的库。

In [1]:
import torch
from torch.utils.data import Dataset, DataLoader
import matplotlib.pyplot as plt
import numpy as np

## 自定义Dataset类

继承Dataset并实现__len__和__getitem__方法。一般在__getitem__方法中，可以对数据进行一些预处理。

这两个方法是核心，__len__方法返回数据集的长度，__getitem__方法返回数据集中第idx个样本。对于Dataloader而言，只需要知道数据集的长度和如何获取数据，然后其他都有封装好的采样方法。

In [2]:
class CustomDataset(Dataset):
    def __init__(self, data, labels, transform=None):
        self.data = data
        self.labels = labels
        self.transform = transform  # 数据增强函数（可选）

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        sample = {
            'input': torch.tensor(self.data[idx], dtype=torch.float32),
            'label': torch.tensor(self.labels[idx], dtype=torch.long)
        }
        if self.transform:
            sample = self.transform(sample)
        return sample

## 创建虚拟数据并测试Dataset
一般来说数据集的来源可以是别人已经做好的数据集，按照某种规则存放，__gititem__就需要按照这种规则读取，然后return。

我们也可以创建自己的数据集，比如收集一些图片和他们的标签。

下面我们来创建一个虚拟数据集，100个样本，每个样本是10维特征

In [3]:
# 生成虚拟数据：100个样本，每个样本是10维特征
data = np.random.randn(100, 10)
labels = np.random.randint(0, 2, size=(100,))

# 实例化Dataset
dataset = CustomDataset(data, labels)

# 测试__len__
print("数据集大小:", len(dataset))  # 输出: 100

# 测试__getitem__
sample = dataset.__getitem__(0)
print("样本输入形状:", sample['input'].shape)  # torch.Size([10])
print("样本标签:", sample['label'].item())     # 0或1

数据集大小: 100
样本输入形状: torch.Size([10])
样本标签: 0


## 使用DataLoader加载数据

在下方代码中，有4个参数，我们分别介绍。更为详细的参数请查看https://pytorch.org/tutorials/beginner/basics/data_tutorial.html

- `dataset`：数据集，可以是`Dataset`类或`IterableDataset`类。每次遍历的时候，Dataloader会自动调用Dataset的`__getitem__`方法来获取数据。
- `batch_size`：每次返回的batch大小。
- `shuffle`：是否打乱数据集。训练时建议设置为True，验证时设置为False。
- `num_workers`：多线程加载数据。这个意思是，Dataloader会创建多个线程来并行调用`__getitem__`方法，从而提高数据读取速度。一般根据CPU核心数目设置成4、8、16、32等。

In [4]:
dataloader = DataLoader(
    dataset,
    batch_size=4,
    shuffle=True,
    num_workers=0  # Windows用户可能需要设置为0
)

In [5]:
# 遍历一个batch
for i, batch in enumerate(dataloader):
    inputs = batch['input']
    labels = batch['label']
    print(f"Batch {i}: 输入形状 {inputs.shape}, 标签形状 {labels.shape}")
    if i == 2:  # 仅展示前3个batch
        break


Batch 0: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 1: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 2: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])


In [6]:
# 遍历一个epoch
for i, batch in enumerate(dataloader):
    inputs = batch['input']
    labels = batch['label']
    print(f"Batch {i}: 输入形状 {inputs.shape}, 标签形状 {labels.shape}")

Batch 0: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 1: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 2: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 3: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 4: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 5: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 6: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 7: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 8: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 9: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 10: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 11: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 12: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 13: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 14: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 15: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 16: 输入形状 torch.Size([4, 10]), 标签形状 torch.Size([4])
Batch 17: 输入形状 torch.Size([4, 10]), 标签形状 