# 循环神经网络

## 序列模型

序列模型的现象：
1. 锚定效应：基于其他人的意见做出评价
2. 享乐适应：人们迅速适应一种更好或更坏的情况作为新的常态
3. 季节性

## 统计工具

1. 自回归模型
2. 马尔可夫模型
3. 因果关系

预测一个序列未来值$x_t$：

$$
x_t~P(x_t|x_{t-1},...,x_1)
$$

### 自回归模型

1. 自回归模型：在现实情况下$x_{t-1},...,x_1$是不必要的，我们假设在$t>\tau$时，x_t~P(x_t|x_{t-1},...,x_{t-\tau})
2. 隐变量自回归模型：保留一些对过去观测的总结$h_t$，这样就产生了基于$x_t^{‘}=P(x_t|h_t)$

### 马尔可夫模型

只要上述自回归模型是近似精确的，我们就说序列满足马尔可夫条件。这样的模型可以使用动态规划沿着马尔可夫链精确的计算结果。

利用这样的事实，我们只需要考虑过去观察中的一个非常短的历史。

### 因果关系

解释$P(x_{t+1}|x_{t})$应当比解释$P(x_{t}|x_{t+1})$更容易

## 文本预处理

1. 将文本作为字符串加载到内存中
2. 将字符串拆分为词元（一般使用$jieba$等分词器
3. 建立一个词表，将拆分的词元映射到数字索引
4. 将文本转换为数字索引序列，以方便模型操作

未知词元：$<unk>$
填充词元：$<pad>$
序列开始词元：$<bos>$
序列结束词元：$<eos>$

## 语言模型

文本序列可以看做词元的序列，$[x_1,x_2,…,x_T]$，其中$x_t$可以看做文本序列在时间步$t$处的观测指标。

### 学习语言模型

基本概率规则：
$$
P(x_1,x_2,…,x_T) = \Pi_{t=1}^{T} P(x_t|x_1,…,x_{t-1})
$$

拉普拉斯平滑：（解决数据集过小或单词罕见的问题）
$$
P(x)=\frac{n(x)+\epsilon/m}{n+\epsilon}
$$
其中，$n$表示训练集中单词总数，$m$表示唯一单词的数量

### 马尔可夫模型与$n$元语法

如果$P(x_{t+1}|x_1,…,x_{t}) = P(x_{t+1}|x_{t})$，则序列上的分布满足一阶马尔可夫性质。阶数越高，对应的依赖关系链就越长。

### 自然语言统计

齐普夫定律：第$i$个常用的单词的频率$n_i$满足$n_i\propto \frac{1}{i^\alpha}$

上述公式等价于：
$$
logn_i=-\alpha logi+c
$$
其中，$\alpha$是描述分布的指数，$c$是常数。

## 循环神经网络

### 无隐状态的神经网络
$$
H=\phi(XW_{xh}+b_h)
$$

### 有隐状态的循环神经网络
$$
H_t=\phi(X_tW_{xh}+H_{t-1}W_{hh}+b_h)
$$

其中$X$表示自变量，$W$表示隐藏层的权重参数，$b$代表偏置

### 困惑度

使用$n$个词元的交叉熵损失函数来衡量：
$$
\frac{1}{n}\Sigma_{t=1}^n-logP(x_t|x_1,…,x_{t-1})
$$

困惑度即为：
$$
e^{-\frac{1}{n}\Sigma_{t=1}^nlogP(x_t|x_1,…,x_{t-1})}
$$