## 方法介绍

- 自定义 Dataset：通过继承 `torch.utils.data.Dataset` 来实现自定义数据集。

- DataLoader：DataLoader 接收 `torchvision.datasets` 参数，并使用 `torch.utils.data.DataLoader` 来加载数据。

- 数据预处理模块：使用 `torchvision.transforms` 来进行数据预处理，比如数据增强、归一化等。

- 内置数据集：`torchvision.datasets` 提供了一些常见数据集的加载器，比如 MNIST、CIFAR-10 等。

- 多个数据集：通过组合多个 Dataset，可以实现数据集的混合和拼接。

### 自定义Dateset

In [1]:
import torch
from torch.utils.data import Dataset

# 自定义数据集类
# 创建一个新的类MyDataset，继承自torch.utils.data.Dataset，重写__init__、__len__和__getitem__方法
class MyDataset(Dataset):
    # __init__：这是 Python 中的一个特殊方法，每次你创建 MyDataset 的实例时，它都会自动运行。
    def __init__(self, X_data, Y_data):
        """
        初始化数据集，X_data 和 Y_data 是两个列表或数组
        X_data: 输入特征
        Y_data: 目标标签
        """
        #把传入的 X_data 和 Y_data 保存下来，分别存在 self.X_data 和 self.Y_data 里。
        # self 就像是类的“记事本”，用来记录东西。
        self.X_data = X_data
        self.Y_data = Y_data

    def __len__(self):
        """返回数据集的大小"""
        # 如果 X_data = [[1, 2], [3, 4], [5, 6]]，那 len(self.X_data) 就是 3，因为有 3 组数据。
        return len(self.X_data)

    def __getitem__(self, idx):
        #__getitem__：又一个特殊方法。当你用索引访问数据（比如 dataset[0]）时，它会被调用。
        """返回指定索引的数据"""
        # 从 self.X_data 里取出第 idx 条数据，比如 self.X_data[0] 可能是 [1, 2]。
        # 从 self.Y_data 里取出对应的标签，比如 self.Y_data[0] 可能是 1。
        x = torch.tensor(self.X_data[idx], dtype=torch.float32)  # 转换为 Tensor
        y = torch.tensor(self.Y_data[idx], dtype=torch.float32)
        return x, y

# 示例数据
X_data = [[1, 2], [3, 4], [5, 6], [7, 8]]  # 输入特征
Y_data = [1, 0, 1, 0]  # 目标标签

# 创建数据集实例
# 这里我们用 X_data 和 Y_data 创建了一个 MyDataset 的实例，叫 dataset。
# 创建之后，dataset 就成了一个“数据管理员”，里面装好了我们的数据，可以随时拿来用。
dataset = MyDataset(X_data, Y_data)

### Dataloader

In [8]:
from torch.utils.data import DataLoader

# 创建 DataLoader 实例，batch_size 设置每次加载的样本数量
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

# 打印加载的数据
for epoch in range(1):
    for batch_idx, (inputs, labels) in enumerate(dataloader):
        print(f'Batch {batch_idx + 1}:')
        print(f'Inputs: {inputs}')
        print(f'Labels: {labels}')

Batch 1:
Inputs: tensor([[5., 6.],
        [3., 4.]])
Labels: tensor([1., 0.])
Batch 2:
Inputs: tensor([[7., 8.],
        [1., 2.]])
Labels: tensor([0., 1.])
