# Elman

Elman网络大致可分为四层：输入层、隐藏层、承接层和输出层

* 输入层：接受信号输入
* 隐藏层：线性以及非线性变换
* 输出层：加权输出
* 承接层：承接上一时刻的信息

相较于简单的BP网络，Elman网络具有承接层，从而对序列数据具有记忆能力，实现动态建模

## 符号定义

|符号|含义|
|:-:|:-:|
|$\bm{x(t)}$|t时刻的输入信号|
|$\bm{h}$|隐藏层输出|
|$\bm{\hat{y}}$|模型预测输出|
|$\bm{y}$|输入信号对应的真实输出|
|$\_i$|索引为i的值|
|$^j\_i$|第j个向量索引为i的值|
|$\bm{V}$|输入层到隐藏层的连接权矩阵|
|$\bm{b_1}$|输入层到隐藏层的偏置|
|$\bm{W}$|隐藏层到输出层的连接权矩阵|
|$\bm{b_2}$|隐藏层到输出层的偏置|
|$f$|隐藏层激活函数|
|$g$|输出层激活函数|
|$n$|输入信号维度|
|$k$|隐藏层维度|
|$o$|输出层维度|
|$t$|训练集总数|

## 正向计算

1. **输入层与承接层信号到隐藏层**
$$
\begin{equation}
    \bm{h} = f(\bm{V} [\bm{x(t)}, \bm{x(t-1)}] + \bm{b_1})
\end{equation}
$$
2. **隐藏层到输出层**
$$
\begin{equation}
    \bm{\hat{y}} = g(\bm{W} \bm{h} + \bm{b_2})
\end{equation}
$$
3. **损失计算**
* 单个训练样本的损失
$$
\begin{equation}
    \mathcal{L_j(\bm{V}, \bm{W}, \bm{b_1}, \bm{b_2})} = ||\bm{\hat{y}^j}-\bm{y^j}||_2^2
\end{equation}
$$
* 训练集总损失
$$
\begin{equation}
    \mathcal{L(\bm{V}, \bm{W}, \bm{b_1}, \bm{b_2})} = \sum_{j=1}^t ||\bm{\hat{y}^j}-\bm{y^j}||_2^2
\end{equation}
$$

## 误差传递与参数更新

上述正向推理和BP网络基本一致，唯一不同的是在输入层到隐藏层的时候需要同时考虑当前时刻的输入和上一时刻隐藏层的输出。

这里值得注意的是：

上述流程虽然看起来存在环，但是实际上是不存在的。Elman依然是**有向无环**的结构。一般Elman示意图会将上一时刻和当前时刻绘制在同一张图中，但是其结构可以展开为下图的结构。显然，对于当前时刻，整个模型并不存在环，因为误差仅在当前时刻的参数中传递，而不会传递到上一时刻，即不会通过**隐藏层-承接层-隐藏层**的路径进行误差传递。

![Elman](https://raw.githubusercontent.com/koolo233/NeuralNetworks/main/images/Elman.png "segment")

说回来，如果真的是有向有环图，Elman网络也不可能使用梯度下降法进行优化了

经过上述分析，基本可以确定Elman网络和BP网络的梯度传递方式基本一致，唯一不同的是从输入层到隐藏层的权重$\bm{V}\notin\mathcal{R}^{k\times n}$而是$\bm{V}\in\mathcal{R}^{k\times (n+k)}$，其余部分和BP网络完全一致。

完整的Elman网络误差传递与参数更新可以参考[BP网络误差传递与参数更新相关推导](https://github.com/koolo233/NeuralNetworks/blob/main/FullyConnectedNeuralNetwork.ipynb)