# 迭代

罗马不是一天建成的，人工神经元网络模型也不是一次可以训练好的。

在深度学习中，模型训练遵循一个朴素的规则：利用海量数据，通过成千上万次的重复尝试，以”小步快跑”的方式逐渐逼近参数的最佳状态。这种“重复且不断改进”的过程，就叫做**迭代**（Iteration）。

In [1]:
import numpy as np

## 数据集

模型训练所需要的海量数据，被称为**数据集**（Dataset）。数据集依旧需要包括特征和标签两部分。

通常数据集会被随机分成两部分。较多的一部分（比如：80%）用作训练数据；另一部分较少的（比如：20%）用作验证数据。

### 训练数据：特征、标签

在我们的例子中，小明帮助我们找到了之前四天的天气预报和他的冰激凌销售数据。这些数据被保存在NumPy的二维数组中，用作训练数据。

In [2]:
train_features = np.array([[22.5, 72.0],
                           [31.4, 45.0],
                           [19.8, 85.0],
                           [27.6, 63]])

train_labels = np.array([[95],
                        [210],
                        [70],
                        [155]])

### 验证数据：特征、标签

我们之前使用的数据也重新保存在NumPy的二维数组中，用作验证数据。

In [3]:
test_features = np.array([[28.1, 58.0]])
test_labels = np.array([[165]])

## 模型

### 参数：权重、偏差

In [4]:
weight = np.ones([1, 2]) / 2
bias = np.zeros(1)

### 逻辑：推理函数（前向传播）

In [5]:
def forward(x, w, b):
    return x @ w.T + b

### 损失函数（平均平方差）

In [6]:
def mse_loss(p, y):
    return ((p - y) ** 2).mean()

### 梯度函数

In [7]:
def gradient(p, y):
    return 2 * (p - y)

### 超参数：学习率

In [8]:
LEARNING_RATE = 0.00001

### 反向函数（反向传播）

In [9]:
def backward(x, d, w, b):
    w -= d * x * LEARNING_RATE
    b -= np.sum(d) * LEARNING_RATE
    return w, b

## 训练

### 迭代

习惯上，我们把所有的训练数据随机，或者依次，分别用于模型训练一遍，称为一次迭代。

In [10]:
for i in range(len(train_features)):

    # 依次读入训练数据：特征、标签
    feature = train_features[i]
    label = train_labels[i]

    # 推理：计算预测值
    prediction = forward(feature, weight, bias)
    # 评估：计算损失值
    error = mse_loss(prediction, label)
    # 计算梯度
    delta = gradient(prediction, label)
    # 反向传播：更新权重、偏差
    weight, bias = backward(feature, delta, weight, bias)

print(f"weight: {weight}")
print(f"bias: {bias}")

weight: [[0.67678017 0.8307117 ]]
bias: [0.0060984]


可以看到，经过一次迭代，权重和偏差都被合理地更新了。那么效果会怎样？

## 验证

模型训练完成以后，要用不同的数据（验证数据）来验证模型训练的效果。

### 推理

In [11]:
predictions = forward(test_features, weight, bias)

print(f'predictions: {predictions}')

predictions: [[67.20489976]]


### 评估

In [12]:
error = mse_loss(predictions, test_labels)

print(f'error: {error}')

error: 9563.881631333801


从验证结果来看，经过一次迭代，损失值继续下降，模型的效果又有提高。