# 长短期记忆网络（LSTM）

* long-term information preservation
* short-term input skipping

有趣的是，长短期记忆网络的设计比门控循环单元稍微复杂一些， 却比门控循环单元早诞生了近20年。

## 门控记忆元

*记忆元*（memory cell）

* 与隐状态具有相同的形状
* engineered to record additional information

### 输入门、忘记门和输出门

<center><img src="../img/lstm-0.svg" width="40%"></center>

\begin{aligned}
\mathbf{I}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xi} + \mathbf{H}_{t-1} \mathbf{W}_{hi} + \mathbf{b}_i),\\
\mathbf{F}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xf} + \mathbf{H}_{t-1} \mathbf{W}_{hf} + \mathbf{b}_f),\\
\mathbf{O}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xo} + \mathbf{H}_{t-1} \mathbf{W}_{ho} + \mathbf{b}_o),
\end{aligned}

### 候选记忆元

*候选记忆元*（candidate memory cell）

<center><img src="../img/lstm-1.svg" width="40%"></center>

$$\tilde{\mathbf{C}}_t = \text{tanh}(\mathbf{X}_t \mathbf{W}_{xc} + \mathbf{H}_{t-1} \mathbf{W}_{hc} + \mathbf{b}_c)$$

### 记忆元

<center><img src="../img/lstm-2.svg" width="40%"></center>

$$\mathbf{C}_t = \mathbf{F}_t \odot \mathbf{C}_{t-1} + \mathbf{I}_t \odot \tilde{\mathbf{C}}_t$$

* 输入门$\mathbf{I}_t$控制采用多少来自$\tilde{\mathbf{C}}_t$的新数据
* 遗忘门$\mathbf{F}_t$控制保留多少过去的记忆元$\mathbf{C}_{t-1}$的内容
* to alleviate the vanishing gradient problem
* to better capture long range dependencies within sequences



### 隐状态

<center><img src="../img/lstm-3.svg" width="40%"></center>

$$\mathbf{H}_t = \mathbf{O}_t \odot \tanh(\mathbf{C}_t)$$

* In LSTM it is simply a gated version of the $\tanh$ of the memory cell
* 输出门接近$0$：retain all the information only within the memory cell and perform no further processing



## 小结

* 长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”
* 只有隐状态会传递到输出层，而记忆元完全属于内部信息


## 练习


1. 既然候选记忆元通过使用$\tanh$函数来确保值范围在$(-1,1)$之间，那么为什么隐状态需要再次使用$\tanh$函数来确保输出值范围在$(-1,1)$之间呢？
