对于上面的模型示例，每个神经层都对输入数据进行如下变换

$output = relu(dot(input, W) + b)$

在这个表达式中，W和b是张量，均为该层的属性。它们被称为该层的权重（weight）或可训练参数（trainable parameter），分别对应属性kernel和bias。这些权重包含模型从训练数据中学到的信息。

一开始，这些权重矩阵取较小的随机值，这一步叫作随机初始化（random initialization）。当然，W和b都是随机的，relu(dot(input, W) + b)不会得到任何有用的表示。虽然得到的表示没有意义，但这是一个起点。下一步则是根据反馈信号逐步调节这些权重。这个逐步调节的过程叫作训练（training），也就是机器学习中的“学习”过程。

上述过程发生在一个训练循环（training loop）内，其具体流程如下。在一个循环中重复下列步骤，直到损失值变得足够小。
1. 抽取训练样本x和对应目标y_true组成的一个数据批量。
2. 在x上运行模型［这一步叫作前向传播（forward pass）］，得到预测值y_pred。
3. 计算模型在这批数据上的损失值，用于衡量y_pred和y_true之间的差距。
4. 更新模型的所有权重，以略微减小模型在这批数据上的损失值。

最终得到的模型在训练数据上的损失值非常小，即预测值y_pred与预期目标y_true之间的差距非常小。模型已“学会”将输入映射到正确的目标。

**简化理解：**

第1步看起来很简单，只是输入/输出（I/O）的代码。第2步和第3步仅仅是应用了一些张量运算。难点在于第4步：更新模型的权重。对于模型的某个权重系数，你怎么知道这个系数应该增大还是减小，以及变化多少？

一种简单的解决方案是，保持模型的其他权重不变，只考虑某一个标量系数，让其尝试不同的取值。假设这个系数的初始值为0.3。对一批数据做完前向传播后，模型在这批数据上的损失值是0.5。如果将这个系数改为0.35并重新运行前向传播，那么损失值增大为0.6。但如果将这个系数减小到0.25，那么损失值减小为0.4。在这个例子中，将系数减小0.05似乎有助于让损失值最小化。对于模型的所有系数都要重复这一过程。

但这种方法非常低效，因为系数有很多（通常有上千个，有时甚至多达上百万个），对每个系数都要计算两次前向传播，计算代价很大。

**梯度下降法（gradient descent）**

梯度下降是驱动现代神经网络的优化方法，其要点如下。我们的模型用到的所有函数（比如dot或+），都以一种平滑、连续的方式对输入进行变换。举个例子，对于z = x + y，y的微小变化只会导致z的微小变化。如果你知道y的变化方向，就可以推断出z的变化方向。用数学语言来讲，这些函数是**可微（differentiable）**的。将这样的函数组合在一起，得到的函数仍然是可微的。尤其是，将模型系数映射到模型在数据批量上损失值的函数，也是可微的：模型系数的微小变化，将导致损失值发生可预测的微小变化。我们可以用一个叫作**梯度（gradient）**的数学运算符来描述：模型系数向不同方向移动时，损失值如何变化。计算出梯度，就可以利用它来更新系数，使损失值减小（在一次更新中全部完成，而不是一次更新一个系数）。