# 束搜索
在之前的模型中, 是通过逐个预测输出序列, 直到预测序列中出现特定的序列结束词元 `<eos>`, 本节首先介绍贪心搜索策略, 并且探讨其存在的问题, 然后对比其他替代策略: 穷举搜索和束搜索

考虑数学符号定义搜索问题, 在任意时间步数 $t'$, 编码器输出$y_{t'}$的概率取决于时间步$t'$之前的输出子序列 $y_1, \ldots, y_{t'-1}$和对输入信息进行编码得到的上下文变量$\mathbf{c}$, 为了量化计算代价, 可以使用 $\mathcal{Y}$ 表示输出词表, 其中包含 `<eos>`, 这一个词汇集合的基数 $|\mathcal{Y}|$ 就是词表大小, 同时还将输出序列的最大词元指定为 $T'$, 因此目标是从所有 $O(\mathcal{Y}^T)$个可能的输出序列中寻找理想的输出, 并且对于所有的输出序列, 在 `<eos>` 之后的部分应该在实际输出中被丢弃

## 贪心搜索
贪心搜索: 对于输出序列的每一时间步 $t'$, 可以基于贪心搜索从 $\mathcal{Y}$ 中找到具有最高条件概率的词元, 也就是:
$$
y_{t'} = \underset{y \in \mathcal{Y}}{\text{argmax}} \ P(y \mid y_1, \ldots, y_{t'-1}, \mathbf{c})
$$
一旦输出序列中包括了 `<eos>` 或者打到最大长度 $T'$, 则输出完成, 比如利用贪心搜索选择具有更高条件概率的词元:
![image.png](attachment:70306fa5-84ef-4851-b566-4f9ec676ea8d.png)
所以按照贪心搜索算法, 这一个输出序列的条件概率为 $P = 0.5 \times 0.4 \times 0.4 \times 0.6 = 0.048$

贪心搜索存在的问题: 最优序列应该最大化(全局最优), 但是贪心算法仅仅是找出来局部最优, 现实中最优序列应该是最大化 $\prod_{t'=1}^T' P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \mathbf{c})$, 这是基于输入序列生成输出序列的条件概率, 比如更优序列如下:
![image.png](attachment:07416528-1faf-4726-a38b-14b5680a2de6.png)
此时该序列对应的概率为: $P = 0.5 \times 0.3 \times 0.6 \times 0.6$, 所以可以发现贪心搜索获得的输出序列不一定是最佳序列

## 穷举搜索
如果目标是获取到最优序列, 可以考虑使用穷举搜索, 也就是穷举地列举所有可能的输出序列一级条件概率, 从而计算条件概率最高的一个, 但是这一种方法的时间复杂度: $O(|\mathcal{Y}|^T)$ 时间复杂度过大

## 束搜索
束搜索是贪心搜索的另外一个改进版本, 有一个超参数, 称为束宽$k$, 在时间步$1$, 可以选择具有最高条件概率的$k$个词元, 这$k$个词元将分别是$k$个候选输出序列的第一个词元, 在随后的每一个时间步, 基于上一个时间步的$k$个候选输出序列, 将继续从$k|\mathcal{Y}|$个可能的选择中挑选出具有最高条件概率的$k$个候选输出序列, 束搜索的过程如下:
![image.png](attachment:3d71cc25-cffe-477f-9352-bdc23e353194.png)
上图中是 $k=2$ 并且输出序列最大长度为 $3$ 的情况, 此时条件概率的计算方法如下:
![image.png](attachment:d46d2495-0efc-4c64-8a73-e6de3f88fa19.png)
最后, 可以基于这六个序列获取到最终候选输出序列集合, 之后选择其中条件概率乘积最高的序列作为输出序列:
$$
\frac{1}{L^{\alpha}} \log P(y_1, \ldots, y_L \mid \mathbf{c}) = \frac {1}{L^{\alpha}} \sum_{t'=1}^L \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \mathbf{c})
$$
其中 $L$ 是最终候选序列的长度, $\alpha$ 通常设置为 $0.75$

束搜索的时间复杂度为 $O(k|\mathcal{Y}|T')$, 贪心搜索可以看束宽为 $1$ 的特殊类型束搜索(从而到时进度下降), 其实穷举类似于束宽为 $|\mathcal{Y}|$ 的束搜索