# Dataset

## 基本概念

torch.utils.data.Dataset 是 PyTorch 中的数据加载和处理的核心类。它用于定义自定义数据集，支持数据的加载、预处理和批处理。

如何使用 Dataset  
要使用 Dataset，需要继承该类并实现以下三个方法：  

\_\_init__(): 初始化数据集，通常用于加载数据文件和初始化变量。  
\_\_len__(): 返回数据集的样本数量。  
\_\_getitem__(self, idx): 返回给定索引 idx 的样本。

## 应用实例

In [14]:
import torch
from torch.utils.data import Dataset

# 自定义数据集类
class CustomDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        sample = {
            'text': self.texts[idx],
            'label': self.labels[idx]
        }
        return sample

# 示例数据
texts = ["hello world", "PyTorch is great", "I love coding"]
labels = [0, 1, 1]

# 创建数据集实例
dataset = CustomDataset(texts, labels)

# 测试数据集
for i in range(len(dataset)):
    print(dataset[i])

{'text': 'hello world', 'label': 0}
{'text': 'PyTorch is great', 'label': 1}
{'text': 'I love coding', 'label': 1}


In [15]:
len(dataset)

3

通常与 torch.utils.data.DataLoader 配合，进行批处理和打乱数据.

In [16]:
from torch.utils.data import DataLoader

# 创建数据加载器
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

# 遍历数据加载器
for batch in dataloader:
    print("batch_x:", batch['text'])
    print("batch_y:", batch['label'])

batch_x: ['PyTorch is great', 'hello world']
batch_y: tensor([1, 0])
batch_x: ['I love coding']
batch_y: tensor([1])


# TensorDataset

## 基本概念

torch.utils.data.TensorDataset 是 PyTorch 提供的一个方便的数据集类，用于将多个 Tensor 数据按索引进行组合，常用于小型数据集和预处理后的数据。

定义格式

from torch.utils.data import TensorDataset

参数  
*tensors: 任意数量的 Tensor，必须具有相同的第一维度大小。

## 应用实例

In [9]:
import torch
from torch.utils.data import TensorDataset, DataLoader

# 示例数据
features = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
labels = torch.tensor([0, 1, 0])

# 创建 TensorDataset
dataset = TensorDataset(features, labels)

# 查看样本
for i in range(len(dataset)):
    print(dataset[i])

(tensor([1., 2.]), tensor(0))
(tensor([3., 4.]), tensor(1))
(tensor([5., 6.]), tensor(0))


通常与 torch.utils.data.DataLoader 配合，进行批处理和打乱数据.

In [13]:
# 使用 DataLoader
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

# 批量迭代数据
for batch_x, batch_y in dataloader:
    print("batch_x:", batch_x)
    print("batch_y:", batch_y)

batch_x: tensor([[1., 2.],
        [3., 4.]])
batch_y: tensor([0, 1])
batch_x: tensor([[5., 6.]])
batch_y: tensor([0])


# DataLoader

## 基本概念

DataLoader 是 PyTorch 中用于批量加载数据的实用工具，通常与自定义数据集（通过 Dataset 类）结合使用，主要用于深度学习模型的训练和评估。

参数	|描述
---|---|
dataset	|数据集对象，继承自 Dataset 类
batch_size	|每个批次加载的数据量
shuffle	|是否在每个epoch时随机打乱数据
sampler	|自定义采样策略（与 shuffle 互斥）
batch_sampler	|自定义批采样策略
num_workers	|加载数据的并行子进程数
collate_fn	|自定义数据组合函数
pin_memory	|是否将数据加载到固定内存（GPU 加速）
drop_last	|是否丢弃最后一个不完整的批次
timeout	|数据加载超时时间
worker_init_fn	|自定义子进程初始化函数

## 应用实例

In [24]:
from torch.utils.data import Dataset, DataLoader

# 自定义数据集类
class MyDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx], self.labels[idx]

# 创建 DataLoader
import torch

data = torch.randn(100, 10)
labels = torch.randint(0, 2, (100,))

dataset = MyDataset(data, labels)
data_loader = DataLoader(dataset, batch_size=16, shuffle=True)

In [25]:
for batch_idx, (inputs, targets) in enumerate(data_loader):
    print(f"批次 {batch_idx}: 输入大小 {inputs.shape}, 标签大小 {targets.shape}")
    break

批次 0: 输入大小 torch.Size([16, 10]), 标签大小 torch.Size([16])
