# Lesson 13.1 深度学习建模目标与性能评估理论

## 一、机器学习目标与模型评估方法

统计分析就会利用一系列的数学方法和数理统计工具去推导总体的基本规律，也就是变量的分布规律和一些统计量的取值，由于这个过程是通过已知的样本去推断未知的总体，因此会有大量的“估计”和“检验”，在确定了总体的基本分布规律之后，才能够进一步使用统计分析模型构建模型

<img src="https://i.loli.net/2021/02/05/KIpJCDyq9VQoliN.jpg" alt="37" style="zoom:40%;" />

&emsp;&emsp;而对于机器学习来说，并没有借助“样本-总体”的基本理论，而是简单的采用了一种后验的方法来判别模型有效性，前面说到，我们假设前后获取的数据拥有规律一致性，但数据彼此之间又略有不同，为了能够在捕捉规律的同时又能考虑到“略有不同”所带来的误差，机器学习会把当前能获取到的数据划分成训练集(trainSet)和测试集(testSet)，在训练集上构建模型，然后带入测试集的数据，观测在测试集上模型预测结果和真实结果之间的差异。

<img src="https://i.loli.net/2021/02/05/fGzPxCQ1qoOZuFs.jpg" alt="38" style="zoom:40%;" />

虽然对比起数理统计分析，机器学习的证明模型有效性的过程更加“简单”，毕竟只要一次“模拟”成功，我们就认为模型对未来的数据也拥有判别效力，但这种“简单”的处理方式却非常实用

- 称模型在训练集上误差称为训练误差，在测试集上的误差称为泛化误差
- 我们只能通过模型在训练集和测试集上的表现，判别模型泛化能力

## 二、手动实现训练集和测试集切分
&emsp;&emsp;接下来我们开始实践模型评估过程，首先是对训练集和测试集的划分，我们尝试创建一个切分训练集和测试集的函数。

In [3]:
def data_split(features, labels, rate=0.7):
    """
    训练集和测试集切分函数
    
    :param features: 输入的特征张量
    :param labels：输入的标签张量
    :param rate：训练集占所有数据的比例
    :return Xtrain, Xtest, ytrain, ytest：返回特征张量的训练集、测试集，以及标签张量的训练集、测试集 
    """
    num_examples = len(features)                              # 总数据量
    indices = list(range(num_examples))                       # 数据集行索引
    random.shuffle(indices)                                   # 乱序调整                     
    num_train = int(num_examples * rate)                      # 训练集数量 
    indices_train = torch.tensor(indices[: num_train])        # 在已经乱序的的indices中挑出前num_train数量的行索引值
    indices_test = torch.tensor(indices[num_train: ])         
    Xtrain = features[indices_train]                          # 训练集特征
    ytrain = labels[indices_train]                            # 训练集标签
    Xtest = features[indices_test]                            # 测试集特征
    ytest = labels[indices_test]                              # 测试集标签
    return Xtrain, Xtest, ytrain, ytest

接下来，测试函数性能

In [4]:
f = torch.arange(10)                # 创建特征0-9
f

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
l = torch.arange(1, 11)             # 创建标签1-10，保持和特征+1的关系
l

tensor([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [6]:
data_split(f,l)



(tensor([9, 0, 3, 1, 8, 4, 6]),
 tensor([2, 7, 5]),
 tensor([10,  1,  4,  2,  9,  5,  7]),
 tensor([3, 8, 6]))

In [7]:
#————————————————————————————利用测试集评估建模效果————————————————————————————
# 设置随机数种子
torch.manual_seed(420)   

# 生成回归类数据集
features, labels = tensorGenReg()
features
labels

<torch._C.Generator at 0x1f9aea9efd0>

tensor([[-0.0070,  0.5044,  1.0000],
        [ 0.6704, -0.3829,  1.0000],
        [ 0.0302,  0.3826,  1.0000],
        ...,
        [-0.9164, -0.6087,  1.0000],
        [ 0.7815,  1.2865,  1.0000],
        [ 1.4819,  1.1390,  1.0000]])

tensor([[ 4.7349e-01],
        [ 2.7285e+00],
        [ 6.7642e-01],
        [-7.5372e-01],
        [ 4.1722e+00],
        [ 6.0236e+00],
        [ 3.2936e+00],
        [ 3.6706e+00],
        [ 5.2819e-01],
        [ 1.4557e+00],
        [ 3.2307e+00],
        [ 3.7176e+00],
        [-9.2519e-01],
        [ 2.1403e+00],
        [ 4.4702e+00],
        [-1.4073e-01],
        [ 4.5678e+00],
        [ 2.4188e+00],
        [-1.0326e+00],
        [ 1.1065e+00],
        [ 2.7326e+00],
        [ 6.0257e-01],
        [ 6.7595e-01],
        [-4.6197e-01],
        [ 2.1618e+00],
        [ 4.7292e+00],
        [ 2.0886e+00],
        [-4.1371e+00],
        [ 2.5796e+00],
        [ 1.5762e+00],
        [ 2.6435e-01],
        [ 2.3507e+00],
        [ 1.9007e+00],
        [ 1.5142e+00],
        [-9.2833e-01],
        [-1.3199e+00],
        [ 3.0210e+00],
        [ 4.3927e+00],
        [ 6.5835e-01],
        [-2.5731e+00],
        [ 1.2214e+00],
        [ 4.4047e+00],
        [-1.2380e+00],
        [ 1

In [8]:
data_iter?

[1;31mSignature:[0m [0mdata_iter[0m[1;33m([0m[0mbatch_size[0m[1;33m,[0m [0mfeatures[0m[1;33m,[0m [0mlabels[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
数据切分函数

:param batch_size: 每个子数据集包含多少数据
:param featurs: 输入的特征张量
:param labels：输入的标签张量
:return l：包含batch_size个列表，每个列表切分后的特征和标签所组成 
[1;31mFile:[0m      g:\python学习资料2022年\codetest\pytorch&深度学习\note_pytorch\note_pytorch\torchlearning.py
[1;31mType:[0m      function


In [9]:
#————————————————————————————训练测试集————————————————————————————
torch.manual_seed(420) 

# 初始化数据
features, labels = tensorGenReg()

# 切分训练集和测试集
Xtrain, Xtest, ytrain, ytest = data_split(features, labels)

# 初始化核心参数
batch_size = 10                                # 小批的数量
lr = 0.03                                      # 学习率
num_epochs = 5                                 # 训练过程遍历几次数据
w = torch.zeros(3, 1, requires_grad = True)    # 随机设置初始权重

# 参与训练的模型方程
net = linreg                                   # 使用回归方程
loss = MSE_loss                                # 均方误差的一半作为损失函数

# 模型训练过程
for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, Xtrain, ytrain):
        l = loss(net(X, w), y)
        l.backward()
        sgd(w, lr)



<torch._C.Generator at 0x1f9aea9efd0>

In [10]:
#训练结果
w

tensor([[ 2.0003],
        [-1.0004],
        [ 1.0005]], requires_grad=True)

In [11]:
# 在训练集、测试集上的MSE
MSE_loss(torch.mm(Xtrain, w), ytrain)

MSE_loss(torch.mm(Xtest, w), ytest)

tensor(9.8341e-05, grad_fn=<DivBackward0>)

tensor(0.0001, grad_fn=<DivBackward0>)

至此，我们就完成了一整个从数据集划分，到训练集训练，再到测试集上测试模型性能的一整个流程。

## 三、Dataset和DataLoader基本使用方法与数据集切分函数

### 1.Dataset和DataLoader的基本使用方法
 
- `random_split(切分对象,[切分数目])`随机切分函数  
  - PyTorch的`torch.utils.data`中，提供了`random_split`函数可用于数据集切分
  - 返回切分数据的生成器，需要利用循环print


In [12]:
from torch.utils.data import random_split

In [13]:
# 简单测试函数功能

t = torch.arange(12).reshape(4, 3)
t

random_split(t, [2, 2])         # 输入切分的每部分数据集数量


tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])

[<torch.utils.data.dataset.Subset at 0x1f9bd41b220>,
 <torch.utils.data.dataset.Subset at 0x1f9bd41a890>]

`random_split`函数其实生成了生成器切分结果的生成器，并不是和此前定义的函数一样，直接切分数据后返回。

In [14]:
# 使用print函数查看
for tr, te in random_split(t, [2, 2]):
    print(tr, te)

tensor([3, 4, 5]) tensor([6, 7, 8])
tensor([0, 1, 2]) tensor([ 9, 10, 11])


- **Dataset和Dataloader**

- 由于在大多数调库建模过程中，我们都是先通过创建Dataset的子类并将数据保存为该子类类型，然后再使用DataLoader进行数据载入  
- 因此更为通用的做法是先利用Dataset和DatasetLoader这两个类进行数据的读取、预处理和载入，然后再使用random_split函数进行切分。      
- 再次强调，Dataset类主要负责数据类的生成，在PyTorch中，所有数据集都是Dataset的子类；而DatasetLoader类则是加载模型训练的接口，二者基本使用流程如下

![49](https://i.loli.net/2021/02/07/LQsueTFV9bDlKx1.jpg)

In [15]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

- 创建数据类的方法
  - TensorDateset(features,lables)
  - 常用：手动创建一个继承自torch.utils.data.dataset的数据类
PyTorch中所有的数据都是Dataset的子类，换而言之就是在使用PyTorch建模训练数据时，需要创建一个和数据集对应的类来表示该数据集，此前我们使用的TensorDataset函数其实就是一个简单的类型转化函数，将数据统一转化为“TensorDataset”类然后带入模型进行计算。

In [16]:
features, labels = tensorGenReg(bias=False)
features
labels

tensor([[-0.5558,  0.2116, -0.1098],
        [ 1.0620,  0.9777, -0.5188],
        [ 1.5322,  0.9412, -2.6374],
        ...,
        [ 0.3595,  1.0355, -1.0221],
        [-0.9857,  1.8953,  0.2729],
        [ 1.5083,  2.4858,  1.2882]])

tensor([[-1.4290e+00],
        [ 6.2407e-01],
        [-5.1055e-01],
        [-3.8752e+00],
        [-2.4821e+00],
        [-2.8177e-01],
        [ 4.0410e-01],
        [ 1.2876e+00],
        [ 8.5418e-01],
        [ 4.4045e+00],
        [ 2.2540e+00],
        [-9.0078e-01],
        [ 1.9492e+00],
        [ 9.1955e-01],
        [ 1.8623e+00],
        [ 2.7065e+00],
        [ 2.1999e+00],
        [-4.8559e+00],
        [-1.4577e+00],
        [ 5.1021e+00],
        [-1.0280e+00],
        [-5.0656e+00],
        [ 6.4421e-01],
        [ 8.5675e-01],
        [ 1.0841e+00],
        [-9.8191e-01],
        [ 2.0108e+00],
        [-5.1923e-01],
        [-6.9513e-01],
        [ 3.3096e+00],
        [-2.7934e+00],
        [ 5.4021e+00],
        [-2.4259e+00],
        [ 2.2595e+00],
        [ 4.8181e+00],
        [-9.3530e-02],
        [-2.3172e+00],
        [ 1.8096e+00],
        [-8.1091e-01],
        [-1.2145e+00],
        [-2.2365e+00],
        [-2.4200e-01],
        [-3.9932e+00],
        [ 1

In [17]:
data = TensorDataset(features, labels)
data

<torch.utils.data.dataset.TensorDataset at 0x1f9bd41afe0>

而TensorDataset其实使用面较窄，最直接的限制就是该函数只能将张量类型转化为TensorDataset类

In [18]:
TensorDataset([1,2], 1)

AttributeError: 'list' object has no attribute 'size'

加通用的数据读取方法则是手动创建一个继承自torch.utils.data.dataset的数据类，用来作为当前数据的表示。例如Lesson 11中的乳腺癌数据，通过如下方式进行读取

In [19]:
from sklearn.datasets import load_breast_cancer as LBC
data = LBC()


In [20]:
data.data
data.target

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

In [21]:
len(data.data)     # 返回数据集总个数

569

&emsp;&emsp;接下来，创建一个用于表示该数据集的Dataset的子类。在创建Dataset的子类过程中，必须要重写__getitem__方法和__len__方法
- `__getitem__`方法返回输入索引后对应的特征和标签
- `__len__`方法则返回数据集的总数据个数。
 
当然，在必须要进行的__init__初始化过程中，我们也可输入可代表数据集基本属性的相关内容，包括数据集的特征、标签、大小等等，视情况而定。

In [22]:
#————————————————————————————数据封装Dataset————————————————————————————
# 继承Dataset中的类
class LBCDataset(Dataset):
    def __init__(self,data):                       # 创建该类时需要输入sklearn导入的数据集
        self.features = data.data                  # features属性返回数据集特征
        self.labels = data.target                  # labels属性返回数据集标签
        self.lens = len(data.data)                 # lens属性返回数据集大小

    def __getitem__(self, index):
        # 调用该方法时需要输入index数值，方法最终返回index对应的特征和标签
        return self.features[index,:],self.labels[index]    

    def __len__(self):
        # 调用该方法不需要输入额外参数，方法最终返回数据集大小
        return self.lens

In [23]:
data = LBC()
LBC_data = LBCDataset(data)

In [24]:
LBC_data.features


array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

In [25]:
LBC_data.lens

569

In [26]:
LBC_data.features[2]
LBC_data.features[3].shape

array([1.969e+01, 2.125e+01, 1.300e+02, 1.203e+03, 1.096e-01, 1.599e-01,
       1.974e-01, 1.279e-01, 2.069e-01, 5.999e-02, 7.456e-01, 7.869e-01,
       4.585e+00, 9.403e+01, 6.150e-03, 4.006e-02, 3.832e-02, 2.058e-02,
       2.250e-02, 4.571e-03, 2.357e+01, 2.553e+01, 1.525e+02, 1.709e+03,
       1.444e-01, 4.245e-01, 4.504e-01, 2.430e-01, 3.613e-01, 8.758e-02])

(30,)

In [27]:
# 查看第三条数据
LBC_data.__getitem__(2)

(array([1.969e+01, 2.125e+01, 1.300e+02, 1.203e+03, 1.096e-01, 1.599e-01,
        1.974e-01, 1.279e-01, 2.069e-01, 5.999e-02, 7.456e-01, 7.869e-01,
        4.585e+00, 9.403e+01, 6.150e-03, 4.006e-02, 3.832e-02, 2.058e-02,
        2.250e-02, 4.571e-03, 2.357e+01, 2.553e+01, 1.525e+02, 1.709e+03,
        1.444e-01, 4.245e-01, 4.504e-01, 2.430e-01, 3.613e-01, 8.758e-02]),
 0)

In [28]:
LBC_data.labels[2]

0

封装好的数据可以直接进行索引，并且能够返回实体结果

In [29]:
LBC_data[:]

(array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
 

另外，我们可以使用random_split方法对其进行切分

In [30]:
# 确定训练集、测试集大小，此处以7：3划分训练集和测试集
num_train = int(LBC_data.lens * 0.7)
num_test = LBC_data.lens - num_train

In [31]:
num_train            # 训练集个数
num_test             # 测试集个数

398

171

In [32]:
LBC_train, LBC_test = random_split(LBC_data, [num_train, num_test])

注，此时切分的结果是一个映射式的对象，只有dataset和indices两个属性
- dataset属性用于查看原数据集对象
- indices属性用于查看切分后数据集的每一条数据的index（序号）。

In [33]:
LBC_train.dataset

<__main__.LBCDataset at 0x1f9bca17880>

In [34]:
LBC_train.dataset == LBC_data      # 还原原数据集

True

在原始数据集中查找切分数据集

In [35]:
LBC_train.indices

[287,
 338,
 178,
 5,
 81,
 430,
 138,
 365,
 25,
 464,
 198,
 310,
 173,
 403,
 147,
 183,
 250,
 213,
 428,
 527,
 187,
 483,
 257,
 384,
 226,
 458,
 514,
 400,
 421,
 197,
 259,
 509,
 465,
 502,
 251,
 345,
 445,
 9,
 162,
 438,
 313,
 306,
 493,
 342,
 209,
 538,
 143,
 190,
 497,
 7,
 93,
 65,
 358,
 557,
 229,
 546,
 247,
 444,
 479,
 528,
 461,
 74,
 113,
 111,
 272,
 567,
 76,
 337,
 87,
 558,
 452,
 85,
 105,
 484,
 391,
 535,
 328,
 110,
 563,
 37,
 291,
 64,
 383,
 290,
 504,
 470,
 386,
 439,
 204,
 96,
 277,
 13,
 369,
 352,
 404,
 135,
 28,
 361,
 159,
 214,
 274,
 376,
 154,
 486,
 263,
 309,
 146,
 317,
 467,
 112,
 312,
 155,
 451,
 174,
 297,
 177,
 561,
 34,
 139,
 189,
 436,
 252,
 219,
 300,
 216,
 80,
 264,
 381,
 114,
 31,
 377,
 374,
 255,
 370,
 182,
 136,
 223,
 107,
 218,
 566,
 364,
 373,
 351,
 506,
 232,
 308,
 473,
 389,
 554,
 160,
 71,
 63,
 84,
 443,
 325,
 121,
 560,
 491,
 157,
 405,
 441,
 474,
 335,
 472,
 524,
 320,
 227,
 244,
 307,
 523,
 238,

In [36]:
LBC_train.indices[:10]             # 抽取的训练集数据的index

[287, 338, 178, 5, 81, 430, 138, 365, 25, 464]

In [37]:
for i in LBC_train:
    print(i)
    break

(array([1.289e+01, 1.312e+01, 8.189e+01, 5.159e+02, 6.955e-02, 3.729e-02,
       2.260e-02, 1.171e-02, 1.337e-01, 5.581e-02, 1.532e-01, 4.690e-01,
       1.115e+00, 1.268e+01, 4.731e-03, 1.345e-02, 1.652e-02, 5.905e-03,
       1.619e-02, 2.081e-03, 1.362e+01, 1.554e+01, 8.740e+01, 5.770e+02,
       9.616e-02, 1.147e-01, 1.186e-01, 5.366e-02, 2.309e-01, 6.915e-02]), 1)


In [38]:
LBC_data.__getitem__(86) 
      # 验证是否是LBC_train的第一条数据

(array([1.448e+01, 2.146e+01, 9.425e+01, 6.482e+02, 9.444e-02, 9.947e-02,
        1.204e-01, 4.938e-02, 2.075e-01, 5.636e-02, 4.204e-01, 2.220e+00,
        3.301e+00, 3.887e+01, 9.369e-03, 2.983e-02, 5.371e-02, 1.761e-02,
        2.418e-02, 3.249e-03, 1.621e+01, 2.925e+01, 1.084e+02, 8.089e+02,
        1.306e-01, 1.976e-01, 3.349e-01, 1.225e-01, 3.020e-01, 6.846e-02]),
 0)

然后使用`DataLoader`函数进行数据转化，由一般数据状态转化为“可建模”的状态。

所谓“可建模”状态：经过DataLoader处理的数据，不仅包含数据原始的数据信息，还包含数据处理方法信息，如调用几个线程进行训练、分多少批次等，`DataLoader`常用参数如下：
- `DataLoader(data,batch_size = 10,shuffle=True)`
  - `batch_size:`每次迭代输入多少数据，如果是小批量梯度下降，则输入的数据量就是小批量迭代过程中“小批”的数量      
  - `shuffle:`是否需要先打乱顺序然后再进行小批量的切分，一般训练集需要乱序，而测试集乱序没有意义      
  - `num_worker:`启动多少线程进行计算  

In [39]:
#————————————————————————————数据加载Dataloader————————————————————————————
train_loader = DataLoader(LBC_train,batch_size = 10,shuffle=True)

In [40]:
test_loader = DataLoader(LBC_test, batch_size=10, shuffle=False)

> 对于测试集来说，数据装载并不是一定要进行的，如果测试集只是用于检测模型效果，有时可以不用装载直接带入计算。

In [41]:
# dataset 查看切分前的原始数据 - 回溯
train_loader.dataset

<torch.utils.data.dataset.Subset at 0x1f9bca17af0>

In [42]:
LBC_train

<torch.utils.data.dataset.Subset at 0x1f9bca17af0>

In [43]:
train_loader.dataset == LBC_train

True

> **scikit-learn中的train_test_split函数**  
该函数是可以非常便捷的完成数据集切分，但这种做法只能用于单机运行的数据，并且切分之后还要调用Dataset、DataLoader模块进行数据封装和加载，切分过程看似简单，但其实会额外占用非常多的存储空间和计算资源，当进行超大规模数据训练时，所造成的影响会非常明显。

使用包括数据切分等常用函数时，函数使用优先级是      
<center>Pytorch原生函数和类>依据张量及其常用方法手动创建的函数>Scikit-Learn函数

### 2.建模及评估过程

&emsp;&emsp;接下来，我们尝试通过调库实现完整的数据切分、训练、查看建模结果一整个流程。
1. 手动创建继承Dataset的类，实例化类
2. `random_split()`切分数据
3. `DataLoader()` 加载数据

- 准备数据

In [45]:
#————————————————————————————生成数据————————————————————————————
features, labels = tensorGenReg()
features = features[:,:-1]  # 剔除最后一列

# 创建一个针对手动创建数据的数据类
class GenData(Dataset):
    def __init__(self,features,labels) -> None:
        self.features = features
        self.labels = labels
        self.lens = len(features)

    def __getitem__(self, index):
        # 调用该方法时需要输入index数值，方法最终返回index对应的特征和标签
        return self.features[index,:],self.labels[index]

    def __len__(self):
        return self.lens
        
# 实例化对象
data = GenData(features,labels)

# 切分数据
num_train = int(data.lens * 0.7)
num_test = data.lens - num_train
data_train, data_test = random_split(data,[num_train,num_test])

# 加载数据
train_loader = DataLoader(data_train,batch_size=10,shuffle=True)
test_loader = DataLoader(data_test,batch_size=10,shuffle=True)

In [46]:
#————————————————————————————构建模型————————————————————————————

# 0.初始化核心参数
from turtle import forward


batch_size = 10
lr = 0.03
num_epochs =3

# Stage1.定义模型
class LR(nn.Module):
    def __init__(self,in_features=2,out_features=1) -> None:
        super(LR,self).__init__()
        self.linear = nn.Linear(in_features,out_features)

    def forward(self,x):
        out = self.linear(x)
        return out

# 实例化模型 
LR_model = LR()


# Stage2.定义损失函数 
# 线性回归一般都用MSE
criterion = nn.MSELoss()


# Stage3.定义优化方法 - 小批量梯度下降
optimizer = optim.SGD(LR_model.parameters(),lr=0.03)
 

# Stage4.模型训练与测试
def fit(net,criterion,optimizer,batchdata,epochs=3):
    for epoch in range(epochs): 
        for X,y in batchdata:
            yhat = net.forward(X)
            loss = criterion(yhat,y)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()


In [50]:
#————————————————————————————模型训练与测试————————————————————————————
fit(net=LR_model,
    criterion=loss,
    optimizer=optimizer,
    batchdata=train_loader,  # 带入训练集
    epochs=num_epochs)

# 查看训练模型
LR_model

LR(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)

In [51]:
# 查看模型参数
list(LR_model.parameters())

[Parameter containing:
 tensor([[ 2.0003, -1.0001]], requires_grad=True),
 Parameter containing:
 tensor([1.0001], requires_grad=True)]

查看模型在训练集上表现，首先我们可以通过dataset和indices方法还原训练数据集
- 需要还原数据集，才能计算测试集上的结果
  - 利用data[data_train.indices]返回训练集的[特征，标签]

In [52]:
data_train.indices            # 返回训练集索引

[732,
 621,
 223,
 398,
 420,
 313,
 461,
 539,
 608,
 497,
 820,
 852,
 869,
 767,
 592,
 938,
 213,
 639,
 660,
 8,
 804,
 588,
 571,
 834,
 242,
 305,
 275,
 946,
 462,
 358,
 754,
 589,
 612,
 907,
 567,
 755,
 718,
 769,
 689,
 922,
 757,
 983,
 949,
 42,
 787,
 939,
 153,
 143,
 328,
 25,
 232,
 352,
 934,
 388,
 825,
 594,
 925,
 132,
 185,
 48,
 516,
 917,
 538,
 268,
 247,
 69,
 960,
 221,
 690,
 126,
 87,
 725,
 257,
 899,
 287,
 270,
 935,
 971,
 389,
 178,
 806,
 112,
 914,
 407,
 499,
 798,
 101,
 637,
 493,
 777,
 384,
 339,
 307,
 942,
 4,
 888,
 758,
 121,
 742,
 873,
 77,
 593,
 300,
 409,
 881,
 631,
 643,
 113,
 501,
 434,
 574,
 59,
 147,
 24,
 626,
 576,
 68,
 473,
 776,
 460,
 79,
 138,
 585,
 370,
 529,
 142,
 861,
 139,
 189,
 140,
 261,
 37,
 662,
 40,
 489,
 799,
 81,
 800,
 124,
 844,
 341,
 340,
 975,
 64,
 625,
 648,
 481,
 833,
 854,
 653,
 760,
 581,
 487,
 788,
 263,
 517,
 665,
 173,
 819,
 601,
 967,
 945,
 882,
 258,
 446,
 469,
 484,
 291,
 835,
 550

In [53]:
data[data_train.indices]      # 返回训练集

(tensor([[-0.9001, -0.5786],
         [-0.4636,  0.3480],
         [ 1.2646,  0.5643],
         ...,
         [-1.2769,  1.8454],
         [-0.7979,  1.9159],
         [ 1.3022, -0.2638]]),
 tensor([[-2.4057e-01],
         [-2.8765e-01],
         [ 2.9629e+00],
         [-3.1251e+00],
         [-1.5333e+00],
         [ 6.4686e-01],
         [ 1.8962e+00],
         [-1.9065e+00],
         [ 2.3770e+00],
         [ 4.8514e+00],
         [ 2.8829e-01],
         [ 3.9011e-02],
         [-8.1903e-01],
         [ 1.6403e+00],
         [-3.4861e+00],
         [ 1.0657e+00],
         [ 1.0574e+00],
         [-2.3792e+00],
         [ 5.4534e-01],
         [ 1.4006e+00],
         [-2.3557e+00],
         [-1.7443e+00],
         [ 3.0930e+00],
         [ 1.9395e+00],
         [ 2.7078e-01],
         [ 2.2432e+00],
         [ 3.5734e-01],
         [ 5.7263e+00],
         [-1.4841e+00],
         [ 4.4494e-01],
         [ 2.3588e+00],
         [ 1.1401e+00],
         [-3.0910e-01],
         [ 4.5740e

In [54]:
data[data_train.indices][0]      # 返回训练集的特征

tensor([[-0.9001, -0.5786],
        [-0.4636,  0.3480],
        [ 1.2646,  0.5643],
        ...,
        [-1.2769,  1.8454],
        [-0.7979,  1.9159],
        [ 1.3022, -0.2638]])

In [56]:
# 计算训练集MSE(yhat,y)
F.mse_loss(LR_model(data[data_train.indices][0]), data[data_train.indices][1])


tensor(9.1147e-05, grad_fn=<MseLossBackward0>)

In [57]:
# 计算测试集MSE
F.mse_loss(LR_model(data[data_test.indices][0]), data[data_test.indices][1])

tensor(0.0001, grad_fn=<MseLossBackward0>)

至此，即完成了整个从数据集切分到模型训练，再到查看模型在不同数据集上表现的全过程。

## 五、实用函数补充

&emsp;&emsp;结合上述过程，我们可以补充一些实用函数，方便简化后续建模流程。

- 数据封装、切分和加载函数split_loader

&emsp;&emsp;该函数可以直接将输入的特征和标签直接进行封装、切分和加载。该函数可以直接处理此前定义的数据生成器创建的数据。

In [59]:
def split_loader(features, labels, batch_size=10, rate=0.7):
    """数据封装、切分和加载函数：
    
    :param features：输入的特征 
    :param labels: 数据集标签张量
    :param batch_size：数据加载时的每一个小批数据量 
    :param rate: 训练集数据占比
    :return：加载好的训练集和测试集
    """
    # 生成数据
    data = GenData(features, labels)
    num_train = int(data.lens * 0.7)
    num_test = data.lens - num_train
    # 切分数据
    data_train, data_test = random_split(data, [num_train, num_test])
    # 加载数据
    train_loader = DataLoader(data_train, batch_size=batch_size, shuffle=True)
    test_loader = DataLoader(data_test, batch_size=batch_size, shuffle=False)
    return(train_loader, test_loader)
    

In [60]:
#————————————————————————————测试函数性能————————————————————————————

# 设置随机数种子
torch.manual_seed(420)   

# 创建数据集
features, labels = tensorGenReg()
features = features[:, :-1]  

# 进行数据加载
train_loader, test_loader = split_loader(features, labels)


<torch._C.Generator at 0x1f9aea9efd0>

In [61]:
# 查看第一条训练集数据
train_loader.dataset[0]

(tensor([-1.4463, -0.6221]), tensor([-1.2863]))

In [62]:
len(train_loader.dataset[:][0])

700

- 模型训练函数

&emsp;&emsp;模型训练函数并不是新的函数，此处正式对其进行定义并写入自定义模块中，方便后续调用。

In [63]:
def fit(net, criterion, optimizer, batchdata, epochs=3, cla=False):
    """模型训练函数
    
    :param net：待训练的模型 
    :param criterion: 损失函数
    :param optimizer：优化算法
    :param batchdata: 训练数据集
    :param cla: 是否是分类问题
    :param epochs: 遍历数据次数
    """
    for epoch  in range(epochs):
        for X, y in batchdata:
            if cla == True:
                y = y.flatten().long()          # 如果是分类问题，需要对y进行整数转化
            yhat = net.forward(X)
            loss = criterion(yhat, y)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

- MSE计算函数

&emsp;&emsp;接下来，我们借助F.mse_loss，定义一个可以直接根据模型输出结果和加载后的数据计算MSE的函数。

In [64]:
def mse_cal(data_loader,net):
    """mse计算函数: 调用该函数后 无须还原索引，直接计算
    
    :param data_loader：加载好的数据
    :param net: 模型
    :return：根据输入的数据，输出其MSE计算结果
    """
    data = data_loader.dataset   # 利用dataset还原数据
    X = data[:][0]  # 还原数据特征
    y = data[:][1]  # 还原数据标签
    yhat = net(X)
    return F.mse_loss(yhat,y)

In [65]:

train_loader.dataset # dataset-->  [features, labels]
train_loader.dataset[:][0]   # 获取特征

<torch.utils.data.dataset.Subset at 0x1f9bd65b580>

tensor([[-1.4463, -0.6221],
        [-0.4742, -0.2939],
        [ 1.9870,  0.1949],
        ...,
        [-1.6366, -2.1399],
        [-1.8178, -1.4618],
        [ 0.2646,  2.3555]])

In [66]:
#————————————————————————————测试mse_cal性能————————————————————————————

# 设置随机数种子
torch.manual_seed(420)   

# 实例化模型
LR_model = LR()

# Stage 2.定义损失函数
criterion = nn.MSELoss()

# Stage 3.定义优化方法
optimizer = optim.SGD(LR_model.parameters(), lr = 0.03)

# Stage 4.训练模型
fit(net = LR_model,
    criterion = criterion,
    optimizer = optimizer,
    batchdata = train_loader,
    epochs = 3
)

<torch._C.Generator at 0x1f9aea9efd0>

In [67]:
LR_model

LR(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)

In [68]:
mse_cal(train_loader,LR_model)

tensor(0.0001, grad_fn=<MseLossBackward0>)

In [90]:
mse_cal(train_loader, LR_model)           # 计算训练误差

tensor(27.1101, grad_fn=<MseLossBackward0>)

In [70]:
mse_cal(test_loader, LR_model)            # 计算测试误差

tensor(8.9603e-05, grad_fn=<MseLossBackward0>)

- 准确率计算函数  
&emsp;&emsp;类似的，定义一个分类问题的准确率计算函数，同样要求输入是加载后的数据集和训练完成的模型。

In [84]:
def accuracy_cal(data_loader, net):
    """准确率
    
    :param data_loader：加载好的数据
    :param net: 模型
    :return：根据输入的数据，输出其准确率计算结果
    """
    data = data_loader.dataset                # 还原Dataset类
    X = data[:][0]                            # 还原数据的特征
    y = data[:][1]                            # 还原数据的标签
    zhat = net(X)                             # 默认是分类问题，并且输出结果是未经softmax转化的结果
    soft_z = F.softmax(zhat, 1)                  # 进行softmax转化
    acc_bool = torch.argmax(soft_z, 1).flatten() == y.flatten()
    acc = torch.mean(acc_bool.float())
    return acc         

In [85]:
t = torch.arange(9).reshape(3, 3).float()
t

F.softmax(t, 1)

tensor([[0., 1., 2.],
        [3., 4., 5.],
        [6., 7., 8.]])

tensor([[0.0900, 0.2447, 0.6652],
        [0.0900, 0.2447, 0.6652],
        [0.0900, 0.2447, 0.6652]])

In [86]:
#————————————————————————————测试accuracy_cal性能————————————————————————————

# 设置随机数种子
torch.manual_seed(420)   

# 创建分类数据集
features, labels = tensorGenCla()

# 进行数据加载
train_loader, test_loader = split_loader(features, labels)

<torch._C.Generator at 0x1f9aea9efd0>

In [87]:
class softmaxR(nn.Module):
    def __init__(self, in_features=2, out_features=3, bias=False):       # 定义模型的点线结构
        super(softmaxR, self).__init__()
        self.linear = nn.Linear(in_features, out_features)
        
    def forward(self, x):                                    # 定义模型的正向传播规则
        out = self.linear(x)             
        return out

# 实例化模型和
softmax_model = softmaxR()

# 定义损失函数
criterion = nn.CrossEntropyLoss()

# 定义优化算法
optimizer = optim.SGD(softmax_model.parameters(), lr = lr)

# 执行模型训练
fit(net = softmax_model, 
    criterion = criterion, 
    optimizer = optimizer, 
    batchdata = train_loader, 
    epochs = num_epochs, 
    cla=True)  # 分类模型

In [88]:
accuracy_cal(train_loader, softmax_model)

tensor(0.8438)

In [89]:
accuracy_cal(test_loader, softmax_model)

tensor(0.8444)