# 通过时间反向传播
本小节主要介绍 `RNN` 中的反向传播等细节, 方便理解训练过程中梯度消失、梯度爆炸等问题 ; 在 `RNN` 中, 如果输入的序列过长, 序列越长, 后面的序列和前面的关联越小, 并且存储前面的元素需要很大的显存, 这里解释如何解决这些问题

## 循环神经网络中的梯度分析
从一个描述循环神经网络工作原理的简化模型开始, 这一个模型忽略隐状态的特性以及更新方式的细节, 并且这里只考虑变量本身, 不考虑变量类型(标量、向量和矩阵)

在这一个模型中, 时间步 $t$ 的隐状态表示为 $h_t$, 输入表示为 $x_t$, 输出表示为 $o_t$, 分别使用 $w_h$ 和 $w_o$ 表示隐藏层和输出层权重(注意这里 $w_h$ 通过 $W_{xh}, W_hh$拼接组成), 所以每一个时间步长的隐状态和输出可以写成:
$$
h_t = f(x_t, h_{t-1}, w_h) \ \ \ \
o_t = g(h_t, w_o)
$$
其中 $f$ 和 $g$ 是隐藏层和输出层的变换, 此时有一个链 $\{ \ldots, (x_{t-1}, h_{t-1}, o_{t-1}), (x_t, h_t, o_t), \ldots \}$ 可以通过循环计算得到彼此, 前向传播比较简单, 一次一个时间步遍历三元组 $(x_t, h_t, o_t)$, 然后通过一个目标函数所在的所有 $T$ 个时间步内评估输出 $o_t$ 和对应的标签 $y_t$ 之间的差异:
$$
L(x_1, \ldots , x_T, y_1, \ldots , y_T, w_h, w_o) = \frac{1}{T} \sum_{t=1}^T l(y_t, o_t)
$$
如果需要计算目标函数 $L$ 关于参数 $w_h$ 的梯度的时候, 根据链式法则:
$$
\frac{\partial L}{\partial w_h} = \frac{1}{T} \sum_{t=1}^{T} \frac{\partial l(y_t, o_t)}{\partial w_h} \\
= \frac{1}{T} \sum_{t=1}^{T} \frac{\partial l(y_t, o_t)}{\partial o_t} \cdot \frac{\partial g(h_t, w_o)}{\partial h_t} \cdot \frac{\partial h_t}{\partial w_h}.
$$
可以发现第一项和第二项容易计算, 但是第三项 $\frac{\partial h_t}{\partial w_h}$ 难以计算, 此时根据复合函数求导法则: $\frac{\partial F(u, v)}{\partial x} = \frac{\partial F}{\partial u} \frac{\partial u}{\partial x} + \frac{\partial F}{\partial v} \frac{\partial v}{\partial x}$ 可以得到:
$$
\frac{\partial h_t}{\partial w_h} = \frac{\partial f(x_t, h_{t-1}, w_h)}{\partial w_h} + \frac{\partial f(x_t, h_{t-1}, w_h)}{\partial h_{t-1}} \cdot \frac{\partial h_{t-1}}{\partial w_h}
$$
可以发现此时 $h_t$ 依赖于 $h_{t-1}, w_h$, 同时 $h_{t-1}$的计算依赖于$w_h$, 其实这一个式子类似于一个递推公式, 只需要不断把 $\frac{\partial h_{t-1}}{\partial w_h}$不断展开为原来的式子即可, 可以发现最终展开得到的式子如下:
$$
\frac{\partial h_t}{\partial w_h} = \frac{\partial f(x_t, h_{t-1}, w_h)}{\partial w_h} + \sum_{i=1}^{t-1} \left( \prod_{j=i+1}^{t} \frac{\partial f(x_j, h_{j-1}, w_h)}{\partial h_{j-1}} \right) \frac{\partial f(x_i, h_{i-1}, w_h)}{\partial w_h}
$$
所以如果 $t$ 很大的时候, 这一个反向传播链会很长, 从而到时计算消耗大

### 完全计算
表示直接通过上面的递推公式计算, 但是可能会导致梯度爆炸等问题, 同时初始条件的微小影响会对于结果产生巨大的影响, 基本不适用
### 截断时间步
可以在 $\tau$ 步之后截断球和计算, 也就是最终只需要把求和终止为 $\frac{\partial h_{t-\tau}}{\partial w_h}$ (此时会丢弃之前的项???)
### 随机截断
可以使用一个随机变量替换 $\frac{\partial h_t}{\partial w_h}$, 该随机变量在预期中是正确的, 但是会截断序列, 这一个随机变量可以通过序列 $\xi_t$ 来表示, 通过构造序列的方式来随机截断:
![image.png](attachment:56751332-2520-4c5d-b36b-f35d7b869f6e.png)
### 比较策略
三种策略比较如下(随机截断、常规截断、完全计算):
![image.png](attachment:e206c7bc-d28d-42de-b715-e33b2d6076a0.png)

## 通过时间反向传播细节
这里使用矩阵的形式考虑问题, 整个过程中的计算图如下:
![image.png](attachment:10b1181b-27b8-4971-899c-db227041592d.png)