下面介绍两种常用的创建数据集的方法：
1. 使用torch.utils.data.Dataset自定义数据集
2. 使用torch.utils.data.TensorDataset快速创建数据集

In [None]:
"""
自定义数据集：

    1-继承Dataset类
    2-实现__init__()方法，初始化数据集
    3-实现__getitem__()方法，返回指定索引的数据
    4-实现__len__()方法，返回数据集的长度
"""

from torch.utils.data import Dataset, DataLoader
import torch

# 自定义数据集类(最简单的)
class MyDataset(Dataset):
    def __init__(self, data, labels):
            self.data = data
            self.labels = labels

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        sample = self.data[index]
        label = self.labels[index]
        return sample, label
    
data = torch.rand(200, 5)               # 测试数据
labels = torch.randint(0, 2, (200,))    # 测试标签

dataset = MyDataset(data, labels)       # 创建数据集对象

print('数据集长度', len(dataset))
print('数据集第一个样本', dataset[0])

数据集长度 200
数据集第一个样本 (tensor([0.2975, 0.3485, 0.3027, 0.5928, 0.8710]), tensor(1))


In [None]:
"""
使用 TensorDataset 快速创建数据集
TensorDataset 是 Dataset 的一个简单实现，它封装了张量数据，适用于数据已经是张量形式的情况。
"""
from torch.utils.data import TensorDataset, DataLoader

x = torch.randn(100, 20)
y = torch.randn(100, 10)

dataset = TensorDataset(x, y)   # 直接将数据传入(注意数据必须是张量)

data = dataset[0]
print(data)


(tensor([ 0.3534, -0.9208, -0.5617, -0.1223,  0.2831, -1.8223,  1.7900, -0.6193,
        -0.5609, -2.6827,  0.0458,  0.9396, -0.2908, -1.1898,  0.2614, -0.2840,
        -0.4634,  0.0771,  1.0716,  0.8246]), tensor([-0.3152,  0.8826, -0.6841, -1.1684, -0.3258,  0.5606,  0.1749, -1.1944,
         2.3781, -1.7393]))


DataLoader 数据加载器返回数据原理
```mermaid
graph LR
A[DataLoader] --> B[生成索引]
B --> C["调用Dataset的__getitem__()"]
C --> D[获取单个样本]
D --> E["collate_fn组合成批次"]
E --> F[返回批次数据]
```

In [4]:
"""
创建数据集加载器
    加载器可以重复使用（即允许多次循环遍历）
"""
from torch.utils.data import DataLoader, TensorDataset

dataset = TensorDataset(torch.randn(100, 10), torch.randint(0, 2, (100,)))

dataLoader = DataLoader(
    dataset,            # 数据集
    batch_size=10,      # 设置每批次加载的样本数量
    shuffle=True        # 是否打乱数据
)  

for data in dataLoader:    
    x, y = data
    print(x.shape, y.shape)

torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
torch.Size([10, 10]) torch.Size([10])
