In [None]:
''' 
PyTorch 数据集
在深度学习任务中，数据加载和处理是至关重要的一环。

PyTorch 提供了强大的数据加载和处理工具，主要包括：

torch.utils.data.Dataset：数据集的抽象类，需要自定义并实现 __len__（数据集大小）和 __getitem__（按索引获取样本）。

torch.utils.data.TensorDataset：基于张量的数据集，适合处理数据-标签对，直接支持批处理和迭代。

torch.utils.data.DataLoader：封装 Dataset 的迭代器，提供批处理、数据打乱、多线程加载等功能，便于数据输入模型训练。

torchvision.datasets.ImageFolder：从文件夹加载图像数据，每个子文件夹代表一个类别，适用于图像分类任务。

PyTorch 内置数据集
PyTorch 通过 torchvision.datasets 模块提供了许多常用的数据集，例如：

MNIST：手写数字图像数据集，用于图像分类任务。
CIFAR：包含 10 个类别、60000 张 32x32 的彩色图像数据集，用于图像分类任务。
COCO：通用物体检测、分割、关键点检测数据集，包含超过 330k 个图像和 2.5M 个目标实例的大规模数据集。
ImageNet：包含超过 1400 万张图像，用于图像分类和物体检测等任务。
STL-10：包含 100k 张 96x96 的彩色图像数据集，用于图像分类任务。
Cityscapes：包含 5000 张精细注释的城市街道场景图像，用于语义分割任务。
SQUAD：用于机器阅读理解任务的数据集。
以上数据集可以通过 torchvision.datasets 模块中的函数进行加载，也可以通过自定义的方式加载其他数据集。

torchvision 和 torchtext
torchvision： 一个图形库，提供了图片数据处理相关的 API 和数据集接口，包括数据集加载函数和常用的图像变换。
torchtext： 自然语言处理工具包，提供了文本数据处理和建模的工具，包括数据预处理和数据加载的方式。
torch.utils.data.Dataset
Dataset 是 PyTorch 中用于数据集抽象的类。

自定义数据集需要继承 torch.utils.data.Dataset 并重写以下两个方法：

__len__：返回数据集的大小。
__getitem__：按索引获取一个数据样本及其标签。
'''


import torch
from torch.utils.data import Dataset

# 自定义数据集
class MyDataset(Dataset):
    def __init__(self, data, labels):
        # 数据初始化
        self.data = data
        self.labels = labels

    def __len__(self):
        # 返回数据集大小
        return len(self.data)

    def __getitem__(self, idx):
        # 按索引返回数据和标签
        sample = self.data[idx]
        label = self.labels[idx]
        return sample, label

# 生成示例数据
data = torch.randn(100, 5)  # 100 个样本，每个样本有 5 个特征
labels = torch.randint(0, 2, (100,))  # 100 个标签，取值为 0 或 1

# 实例化数据集
dataset = MyDataset(data, labels)

# 测试数据集
print("数据集大小:", len(dataset))
print("第 0 个样本:", dataset[0])

数据集大小: 100
第 0 个样本: (tensor([-0.6632, -1.1687, -0.8068,  1.3401,  1.1705]), tensor(1))


In [None]:
''' 
torch.utils.data.DataLoader
DataLoader 是 PyTorch 提供的数据加载器，用于批量加载数据集。

提供了以下功能：

批量加载：通过设置 batch_size。
数据打乱：通过设置 shuffle=True。
多线程加速：通过设置 num_workers。
迭代访问：方便地按批次访问数据。
'''
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

# 自定义数据集
class MyDataset(Dataset):
    def __init__(self, data, labels):
        # 数据初始化
        self.data = data
        self.labels = labels

    def __len__(self):
        # 返回数据集大小
        return len(self.data)

    def __getitem__(self, idx):
        # 按索引返回数据和标签
        sample = self.data[idx]
        label = self.labels[idx]
        return sample, label

# 生成示例数据
data = torch.randn(100, 5)  # 100 个样本，每个样本有 5 个特征
labels = torch.randint(0, 2, (100,))  # 100 个标签，取值为 0 或 1

# 实例化数据集
dataset = MyDataset(data, labels)
# 实例化 DataLoader
dataloader = DataLoader(dataset, batch_size=10, shuffle=True, num_workers=0)

# 遍历 DataLoader
#batch_idx：由 enumerate 自动生成的批次索引（从0开始计数）。
#(batch_data, batch_labels)：对应 dataloader 返回的当前批次数据和标签。
for batch_idx, (batch_data, batch_labels) in enumerate(dataloader):
    print(f"批次 {batch_idx + 1}")
    print("数据:", batch_data)
    print("标签:", batch_labels)
    if batch_idx == 2:  # 仅显示前 3 个批次
        break

<enumerate object at 0x00000199A250D440>
批次 1
数据: tensor([[ 1.0995, -0.6611, -0.2126, -0.2867,  0.2617],
        [-0.3244,  2.1046, -0.6867, -0.9076,  0.6980],
        [ 0.6717, -2.1926, -1.1473, -0.1398, -0.3846],
        [ 0.8583,  1.6464,  1.3077, -0.8926,  0.5908],
        [-2.1080, -0.6289,  0.7232, -0.8449,  0.6765],
        [-0.3647,  0.1661,  0.9499, -0.4459,  1.1577],
        [ 0.6875, -0.0544,  0.1355,  1.1563, -1.3316],
        [-0.2474, -0.1066, -0.5694, -0.0917,  0.1450],
        [ 0.4732, -1.4954,  1.1841,  0.4631,  0.3687],
        [ 0.8619,  1.3530, -1.2534,  1.8372, -1.1945]])
标签: tensor([0, 1, 0, 1, 0, 0, 0, 1, 0, 0])
批次 2
数据: tensor([[ 0.5300, -0.4139,  0.5018,  1.5505, -0.5346],
        [ 0.5602,  0.1024,  0.0650,  0.9695, -0.0234],
        [-1.4445, -0.3760,  1.2709, -1.0323, -1.6073],
        [ 0.3727, -0.5101,  0.3743, -0.4960,  0.0028],
        [ 0.2541, -0.2327,  1.0861,  0.4012,  0.8219],
        [ 0.0482,  1.0403,  0.0233,  0.3601, -0.9343],
        [-2.0597,

In [None]:
''' 
使用内置数据集
PyTorch 提供了多个常用数据集，存放在 torchvision 中，特别适合图像任务。
'''
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# 定义数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为张量
    transforms.Normalize((0.5,), (0.5,))  # 标准化
])

# 加载训练数据集
train_dataset = torchvision.datasets.MNIST(
    root='./data', train=True, transform=transform, download=True)

# 使用 DataLoader 加载数据
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

# 查看一个批次的数据
data_iter = iter(train_loader)
#iter()：Python内置函数，将可迭代对象（如DataLoader）转换为迭代器（Iterator），支持逐个元素访问。
images, labels = next(data_iter)#用显式调动迭代器来实现遍历
print(f"批次图像大小: {images.shape}")  # 输出形状为 [batch_size, 1, 28, 28]
print(f"批次标签: {labels}")

批次图像大小: torch.Size([32, 1, 28, 28])
批次标签: tensor([3, 8, 4, 4, 0, 8, 1, 0, 5, 8, 5, 7, 5, 5, 2, 0, 6, 8, 2, 4, 4, 6, 2, 0,
        6, 9, 4, 2, 6, 7, 2, 1])
