In [34]:
import torch
from torch.utils.data import Dataset,DataLoader, ConcatDataset
import numpy as np
import matplotlib.pyplot as plt
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from PIL import Image
print(torch.__version__)

2.4.1


# PyTorch 数据处理与加载
`PyTorch` 提供了 `torch.utils.data.Dataset` 和 `torch.utils.data.DataLoader` 这两个工具, 可以完成数据集管理、批量加载和数据增强等操作

`PyTorch` 数据处理与加载的介绍:
- 自定义 `Dataset`: 通过继承 `torch.utils.data.Dataset` 来加载自己的数据集
- `DataLoader`: 按照批次加载数据, 支持多线程加载并且进行数据打乱
- 数据预处理与增强: 可以使用 `torchvision.transforms` 进行常见的图像预处理和增强操作, 提供模型的的泛化能力
- 加载标准数据集: `torchvision.datasets`提供了许多常见的数据集, 简化了数据加载过程
- 多个数据源: 可以通过组合多个 `Dataset` 实例来处理不同来源的数据

## 自定义 Dataset
`torch.utils.data.Dataset`是一个抽象类, 可以从自己的数据源中创建数据集, 需要继承这一个类, 并且实现这两个方法:
- `__len__(self):` 返回数据集中的样本数
- `__getitem(self, idx)`: 根据索引返回一个样本

In [12]:
# 自定义数据集
class MyDataset(Dataset):
    def __init__(self, x_data, y_data):
       """
       初始化数据集,
       x_data: 输入特征
       y_data: 目标特征
       """
       self.x_data = x_data
       self.y_data = y_data
    def __len__(self):
        """返回数据集的大小"""
        return len(self.x_data)
    def __getitem__(self, idx):
        x = torch.tensor(self.x_data[idx], dtype=torch.float32)
        y = torch.tensor(self.y_data[idx], dtype=torch.float32)
        return x, y

# 实例数据
x_data = [[1, 2], [3, 4], [5, 6], [7, 8]] # 输入特征
y_data = [1, 0, 1, 0] # 目标标签

# 创建数据集实例
dataset = MyDataset(x_data, y_data)

## 使用 DataLoader 加载数据
`DataLoader` 可以用于在 `Dataset` 中按照批次(`batch`) 加载数据

In [15]:
# 使用 DataLoader 加载数据
# 1. 创建 DataLoader 实例, 也就是一个加载器对象, 每一次可以输出一定 batch 的数据
dataloader = DataLoader(dataset, batch_size=2, shuffle=True) # 打乱顺序
# 2. 使用 DataLoader 加载数据
# 注意这里的 epoch 表示在整个训练集上的训练轮数
for epoch in range(1):
    # 这里表示遍历 DataLoader, 遍历一次训练集
    for batch_idx, (inputs, labels) in enumerate(dataloader):
        print(f'Batch {batch_idx + 1}') # 批次号
        print(f'Inputs: {inputs}') # 输入数据
        print(f'Labels: {labels}') # 输出数据

Batch 1
Inputs: tensor([[5., 6.],
        [3., 4.]])
Labels: tensor([1., 0.])
Batch 2
Inputs: tensor([[7., 8.],
        [1., 2.]])
Labels: tensor([0., 1.])


## 预处理与数据增强
`PyTorch`提供了 `torchvision.transforms` 模块对于常见的图像预处理和增强操作, 比如旋转、归一化等, 相关的处理函数如下:
![image.png](attachment:5e831bca-54af-4218-b5a5-846460e105d7.png)

In [23]:
# 定义数据预处理的流水线(类似于 nn.Sequential)
transform = transforms.Compose([
    transforms.Resize((128, 128)), # 调整图像大小到 128*128
    transforms.ToTensor(), # 图像转换为张量
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    # 标准化
])

# 读取图像
img_vec = Image.open('tiger.jpeg')

# 应用图像预处理
image_tensor = transform(img_vec)
print(image_tensor.shape)

torch.Size([3, 128, 128])


## 加载图像数据集
`torchvision.datasets` 提供了各种常见的数据集(比如 `CIFAR-10, ImageNet, MNIST`等)以及用于图像数据加载的工具

In [32]:
# 加载图像数据集
# 1. 定与预处理操作
transform = transforms.Compose([
    transforms.ToTensor(),
    # ToTensor 把像素值从 0 - 255 映射奥 0 - 1, 下面的操作映射到 [-1, 1]
    transforms.Normalize((0.5,), (0.5,)) # 对于灰度图像做标准化, (output = input - 0.5)/0.5
])

# 2. 下载并且加载 MNIST 数据集
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

# 3. 创建 DataLoader, batch_size 表示用于样本划分的大小
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=True)

for inputs, labels in train_loader:
    print(inputs.shape)
    print(labels.shape)

torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size

## 用多个数据源
`PyTorch` 中提供了 ConcatDataset 和 ChainDataset 可以用于连接多个数据集

In [33]:
# dataset1 和 dataset2 是两个 Dataset 对象
combined_dataset = ConcatDataset([train_dataset, test_dataset])
combined_loader = DataLoader(combined_dataset, batch_size=64, shuffle=True)
for inputs, labels in combined_loader:
     print(inputs.shape)
     print(labels.shape)

torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size([64, 1, 28, 28])
torch.Size([64])
torch.Size

In [50]:
# 利用 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 加载数据
import pandas as pd
data = pd.read_csv('data.csv')
print(data)
print(data.iloc[1]['label'])
print(data.iloc[1].iloc[:3]) # 注意 iloc 始终对于行操作
print(data.iloc[1].loc[:'feature3'])
print(data.shape[0])

   feature1  feature2  feature3  label
0       0.5      -1.2       3.3      1
1      -0.3       0.8       1.2      0
2       2.1      -3.3       0.0      1
3       1.5       2.2      -1.1      0
4      -0.8       0.0       0.3      1
5       1.0       1.1      -2.0      0
6      -1.1       0.8       1.5      1
7       0.9      -0.5      -1.8      0
8       1.2       2.1      -3.0      1
9      -2.3       0.4       0.7      0
0.0
feature1   -0.3
feature2    0.8
feature3    1.2
Name: 1, dtype: float64
feature1   -0.3
feature2    0.8
feature3    1.2
Name: 1, dtype: float64
10


In [52]:
# 1. 定义数据集对象
class CSVDataset(Dataset):
    def __init__(self,file_path):
        self.data = pd.read_csv(file_path)
    def __len__(self):
        return self.data.shape[0]
    def __getitem__(self,idx):
        label = torch.tensor(self.data.iloc[idx]['label'])
        features = torch.tensor(self.data.iloc[idx].iloc[:3])
        return features, label
        
dataset = CSVDataset('data.csv')

CSVData = DataLoader(dataset, batch_size=2, shuffle=True)

for epoch in range(1):
    for batch_idx, (features, labels) in enumerate(CSVData):
        print(f'batch_idx = {batch_idx}')
        print(f'features = {features}')
        print(f'labels = {labels}')

batch_idx = 0
features = tensor([[ 1.0000,  1.1000, -2.0000],
        [ 1.5000,  2.2000, -1.1000]], dtype=torch.float64)
labels = tensor([0., 0.], dtype=torch.float64)
batch_idx = 1
features = tensor([[-0.8000,  0.0000,  0.3000],
        [-2.3000,  0.4000,  0.7000]], dtype=torch.float64)
labels = tensor([1., 0.], dtype=torch.float64)
batch_idx = 2
features = tensor([[-0.3000,  0.8000,  1.2000],
        [ 0.9000, -0.5000, -1.8000]], dtype=torch.float64)
labels = tensor([0., 0.], dtype=torch.float64)
batch_idx = 3
features = tensor([[ 1.2000,  2.1000, -3.0000],
        [ 2.1000, -3.3000,  0.0000]], dtype=torch.float64)
labels = tensor([1., 1.], dtype=torch.float64)
batch_idx = 4
features = tensor([[ 0.5000, -1.2000,  3.3000],
        [-1.1000,  0.8000,  1.5000]], dtype=torch.float64)
labels = tensor([1., 1.], dtype=torch.float64)
