## 2.5 PyTorch中数据操作和预处理

|类|功能|
|:----:|:----:|
|torch.utils.data.TensorDataset()|将数据处理为张量|
|torch.utils.data.ConcatDataset()|连接多个数据集|
|torch.utils.data.Subset()|根据索引获取数据集的子集|
|torch.utils.data.DataLoader()|数据加载器|
|torch.utils.data.random_split()|随机将数据集拆分为给定长度的非重叠新数据集|

### 2.5.1 高维数组

#### 1.回归数据准备

In [3]:
import torch
import torch.utils.data as Data
from sklearn.datasets import load_boston

# 读取波士顿回归数据
boston_X, boston_y = load_boston(return_X_y=True)
print("boston_X.dtype:", boston_X.dtype)
print("boston_y.dtype:", boston_y.dtype)

boston_X.dtype: float64
boston_y.dtype: float64


> 上面程序输出的数据集的特征和被预测变量都是Numpy的64位浮点型数据。而使用PyTorch时需要的数据应该是torch的32位浮点型的张量，故需将数据集boston_X和boston_y转化为32位浮点型张量

In [4]:
# 训练集X转化为张量，训练集y转化为张量
train_xt = torch.from_numpy(boston_X.astype(np.float32))
train_yt = torch.from_numpy(boston_y.astype(np.float32))
print("train_xt.dtype:", train_xt.dtype)
print("train_yt.dtype:", train_yt.dtype)

train_xt.dtype: torch.float32
train_yt.dtype: torch.float32


> 上面的程序实现将Numpy数据转化为32位浮点型，然后使用torch.from_numpy()函数，将数组转化为张量<p> 在训练全连接神经网络时，通常一次使用一个batch的数据进行权重更新，torch.utils.data.DataLoader()函数可以将输入的数据集（包含数据特征张量和被预测变量张量）获得一个加载器，每次迭代可使用一个batch的数据

In [7]:
# 将训练集转化为张量后，使用TensorDataset将X和y整理到一起
train_data = Data.TensorDataset(train_xt, train_yt)
# 定义一个数据加载器，将训练数据集进行批量处理
train_loader = Data.DataLoader(
    dataset=train_data, # 使用的数据集
    batch_size=64, # 批处理样本大小
    shuffle=True, # 每次迭代前打乱数据
    num_workers=1 # 使用1个进程
)

In [17]:
train_xt.shape

torch.Size([506, 13])

In [18]:
# 检查训练数据集的一个batch的样本的维度是否正确
for step, (b_x, b_y) in enumerate(train_loader): # [1]
    if step > 0:
        break
# 输出尺寸及数据类型
print("b_x.shape", b_x.shape)
print("b_y.shape", b_y.shape)
print("b_x.dtype", b_x.dtype)
print("b_y.dtype", b_y.dtype)

b_x.shape torch.Size([64, 13])
b_y.shape torch.Size([64])
b_x.dtype torch.float32
b_y.dtype torch.float32


> **[1]**enumerate()是python的内置函数，其参数为可遍历的对象（如列表、字符串），多用于在for循环中得到计数，利用它可以同时获得索引和值，即需要index和value值的时候可以使用enumerate()

> 在上面的数据中，首先使用Data.TensorDataset()将训练数据train_xt和train_yt放在一起组成数据train_data，然后使用Data.DataLoader()定义一个数据加载器，没每64个样本为一个batch，最后使用for循环获得一次加载器的输出内容b_x和b_y，它们均为torch的32位浮点数张量

#### 2.分类数据准备

> 分类数据和回归数据的不同在于，分类数据的被预测变量为离散类别变量，所以在使用PyTorch定义的网络模型时，默认的预测标签是***64位有符号整形***数据

In [19]:
import torch
import torch.utils.data as Data
from sklearn.datasets import load_iris

# 处理分类数据
iris_x, iris_y = load_iris(return_X_y=True)
print("iris_x.dtype:", iris_x.dtype)
print("iris_y.dtype:", iris_y.dtype)

iris_x.dtype: float64
iris_y.dtype: int32


> 在torch构建的网络中，X默认的数据格式是torch.float32，所以转化为张量时，数据的特征要转化为32位浮点型，数据的类别标签Y要转化为64位有符号整型

In [20]:
# 训练集X转化为张量，训练集Y转化为张量
train_xt = torch.from_numpy(iris_x.astype(np.float32))
train_yt = torch.from_numpy(iris_y.astype(np.int64))
print("train_xt.dtype:", train_xt.dtype)
print("train_yt.dtype:", train_yt.dtype)

train_xt.dtype: torch.float32
train_yt.dtype: torch.int64


In [21]:
# 将训练集转化为张量后，使用TensorDataset将X和Y整理到一起
train_data = Data.TensorDataset(train_xt, train_yt)
# 定义一个数据加载器，将训练集进行批量处理
train_loader = Data.DataLoader(
    dataset = train_data, # 使用的数据集
    batch_size = 10, # 批处理样本大小
    shuffle = True, # 每次迭代前打乱数据
    num_workers = 1 # 使用1个进行
)
# 检查训练数据集的一个batch样本的维度是否正确
for step, (b_x, b_y) in enumerate(train_loader):
    if step > 0:
        break
# 输出尺寸与数据类型
print("b_x.shape", b_x.shape)
print("b_y.shape", b_y.shape)
print("b_x.dtype", b_x.dtype)
print("b_y.dtype", b_y.dtype)

b_x.shape torch.Size([10, 4])
b_y.shape torch.Size([10])
b_x.dtype torch.float32
b_y.dtype torch.int64


> 有结果可知，每个batch使用了10个数据样本，并且数据类型已经正确转化

### 2.5.2 图像数据

![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 1.从trochvision中的datasets模块中导入数据并预处理

In [32]:
import torch
import torch.utils.data as Data
from torchvision.datasets import FashionMNIST
import torchvision.transforms as transforms
from torchvision.datasets import ImageFolder

> 参数transform用于指定数据集的变换，transform=transform.ToTensor()表示将数据中的像素值转换到0-1之间，并且将图像数据从形状为[H, W, C]转换为[C, H, W]

In [None]:
# 使用FashionMUNIST数据，准备训练数据集
train_data = FashionMNIST(
    root = "D:/Data/PytorchSDXXRMYSJ", # 数据的路径
    train = True, # 只使用训练数据集
    transform = transforms.ToTensor(),
    download = True # 如果数据已经下载过，就不需要再下载
)
# 定义一个数据加载器
train_loader = Data.DataLoader(
    dataset = train_data, # 使用的数据集
    batch_size = 64, # 批处理样本大小
    shuffle = True, # 每次迭代前打乱数据
    num_workers = 0 # 使用全部进程
)
# 计算train_loader有多少个batch
print("train_loader的batch数量为：", len(train_loader))

In [None]:
# 对测试集进行处理
test_data = FashionMNIST(
root = "D:/Data/PytorchSDXXRMYSJ", # 数据的路径
    train = False, # 不使用训练数据集
    download = True # 如果数据已经下载过，就不需要再下载
)
# 为数据添加一个通道维度，并且取值范围缩放到0-1之间
test_data_x = test_data.data.type(torch.FloatTensor)/225.0
test_data_x = torch.unsqueeze(test_data_x, dim=1)
test_data_y = test_data.targets # 测试集的标签
print("test_data_x.shape:", test_data_x.shape)
print("test_data_y.shape:", test_data_y.shape)

#### 2.从文件夹中导入数据并进行处理

In [39]:
import torch
import torch.utils.data as Data
import torchvision.transforms as transforms
from torchvision.datasets import ImageFolder

In [38]:
# 对训练集的预处理
train_data_transforms = transforms.Compose([
    transforms.RandomResizedCrop(224), # 随机长宽比裁剪为224*224
    transforms.RandomHorizontalFlip(), # 依概率p=0.5水平翻转
    transforms.ToTensor(), # 转化为张量并归一化至[0-1]
    # 图像标准化处理
    transforms.Normalize([0.485, 0.456, 0.406],
                         [0.229, 0.224, 0.225])
])

In [42]:
# 读取图像
train_data_dir = "D:/Data/PytorchSDXXRMYSJ/chap2/imagedata"
train_data = ImageFolder(train_data_dir, transform=train_data_transforms)
train_data_loader = Data.DataLoader(train_data,
                                    batch_size=4,
                                    shuffle=True,
                                    num_workers=1)
print("数据集的label：", train_data.targets)
# 获得一个batch的数据
for step, (b_x, b_y) in enumerate(train_data_loader):
    if step>0:
        break
# 输出训练图像的尺寸和标签尺寸
print(b_x.shape)
print(b_y.shape)
print("图像的取值范围为：", b_x.min(), "至", b_x.max())

数据集的label： [0, 0, 1, 2]
torch.Size([4, 3, 224, 224])
torch.Size([4])
图像的取值范围为： tensor(-2.1179) 至 tensor(2.6400)
