Skip to content

Commit

Permalink
modify the format of heading
Browse files Browse the repository at this point in the history
  • Loading branch information
DukeEnglish committed Jul 21, 2019
1 parent 747384f commit c6b0f9d
Show file tree
Hide file tree
Showing 3 changed files with 59 additions and 75 deletions.
41 changes: 19 additions & 22 deletions source/part1/Chapter3.md
Original file line number Diff line number Diff line change
Expand Up @@ -179,9 +179,9 @@ Free-form answer。对于这类问题,答案不局限于文章中的一个实
这类模型已经在MS MARCO (Nguyen et al., 2016)和NARRATIVEQA (Kocˇisky et al ., 2018)数据集上面研究过了。然而,由于自由形式的答题阅读理解问题更加复杂,也更难评估,我们认为这些方法与其他类型的问题相比还没有得到充分的探索。最后,我们认为提出了一种用于总结任务(summarization tasks)的copy mechanism(复制机制)(Gu et al.,2016;See et al. 2017)它允许解码器选择从源文本中复制一个单词,或者从词汇表中生成一个单词,这对于阅读理解任务也非常有用,因为答案单词仍然可能出现在段落或问题中。我们将在第6.3节中讨论一个具有复制机制的模型。








5.7 :49-54

Expand All @@ -191,7 +191,7 @@ Free-form answer。对于这类问题,答案不局限于文章中的一个实



3.3.1 Datasets
### 3.3.1 Datasets

我们在CNN/DAILY MAIL (Hermann et al., 2015)和SQUAD (Raj- purkar et al., 2016)上评估了我们的模型。我们在之前的2.1.3节中已经描述过数据集的构建方式以及它们在神经阅读理解发展中的重要性。现在我们简要回顾一下这些数据集和统计数据。

Expand All @@ -201,7 +201,7 @@ l SQUAD数据集是根据维基百科上的文章收集的。抽取了536篇

表3.2给出了更详细的数据集统计。如图所示,由于数据集的构造方式,CNN/DAILY MAIL的数据集比SQUAD大得多(几乎大一个数量级)。CNN/DAILY MAIL中使用的段落也要长得多,CNN和DAILY MAIL分别是761.8和813.1token,而SQUAD是134.4token。最后,SQUAD的答案平均只有3.1个令牌,这反映了小队的问题大部分都是陈述型,大部分的答案都是常见的名词或命名实体。

3.3.2 Implementation Details
### 3.3.2 Implementation Details

除了不同体系结构的模型设计,实现细节对这些神经阅读理解系统的最终性能也起着至关重要的作用。在接下来的文章中,我们将重点介绍一些我们还没有涉及到的重要方面,最后给出我们在这两个数据集中使用的模型规范。

Expand All @@ -223,39 +223,36 @@ https://github.com/danqi/rc-cnn-dailymail for our experiments in Chen et al.

我们也想提醒读者,我们的实验结果发表在了2016年和2017年的两篇论文中,并且在很多地方有所不同。一个关键的区别是,我们在CNN /英国《每日邮报》的结果不包括手动特征 f token(π),精确匹配特性fexact匹配(pi),对齐问题嵌入falign (pi)和p̃,仅仅需要词嵌入E (pi)。另一个不同之处在于,我们之前没有涉及编码问题的attention层,而只是在两个方向上连接LSTMs的最后一个隐藏向量。我们相信这些补充在CNN/DAILY MAIL和其他完形填空任务中也很有用,但我们没有进一步研究。

3.3.3 Experimental Results
### 3.3.3 Experimental Results

3.3.3.1 Results on CNN/DAILY MAIL
#### 3.3.3.1 Results on CNN/DAILY MAIL

表3.3给出了我们在Chen et al.(2016)中报告的结果。我们用不同的随机种子分别运行我们的神经模型5次,并报告了每次运行的平均性能。我们还报告了综合结果,平均了5个模型的预测概率。我们还展示了我们在3.1节中描述的基于特征的分类器的结果。

Baselines。我们是最早研究这第一个大规模阅读理解数据集的小组之一。当时,Hermann et al.(2015)和Hill et al.(2016)为这项任务提出了一些基线,包括符号方法和神经模型。基线包括:

l Hermann et al.(2015)中的框架语义模型,他们运行一个最先进的语义解析器,从问题和文章中提取表示为(e1, V, e2)的实体谓词三元组,并尝试使用一些启发式规则匹配正确的实体。

l 赫尔曼等人(2015)的单词距离模型,其中他们将问题的位置持有者与每个可能的实体对齐,并计算问题与对齐实体周围的通道之间的距离度量。

l 几个基于lstm的神经模型(Hermann等人)(2015),分别命名为deep LSTM READER、attention READER和READER。深层LSTM阅读器使用深层LSTM(无注意机制)将问题和文章作为一个序列进行处理,并在最后进行预测。ATTENTIVE READER与我们的模型在本质上是相似的,因为它计算了问题向量与所有文章向量之间的注意函数是-;而IMPATIENT READER则为所有的问题词计算一个注意力函数,并在模型读取每个问题词时递归地积累信息。

l Hill等人(2016)提出的(WINDOW-BASED MEMORY NETWORKS)基于windows的内存网络是基于内存网络架构的(Weston等人,2015)。我们认为这个模型也与我们类似,最大的不同是他们的编码通道方式:他们只使用5-word上下文窗口在评估候选实体和它们使用位置编码上下文embedding。如果一个窗口包含5个单词x1,x2,…,然后将其编码为Ei(xi),得到5个独立的嵌入矩阵进行学习。它们以类似的方式编码围绕占位符的5个单词的窗口,并且忽略问题文本中的所有其他单词。此外,他们只是使用点积来计算问题和上下文嵌入之间的“相关性”。
1. Hermann et al.(2015)中的框架语义模型,他们运行一个最先进的语义解析器,从问题和文章中提取表示为(e1, V, e2)的实体谓词三元组,并尝试使用一些启发式规则匹配正确的实体。
2. 赫尔曼等人(2015)的单词距离模型,其中他们将问题的位置持有者与每个可能的实体对齐,并计算问题与对齐实体周围的通道之间的距离度量。
3. 几个基于lstm的神经模型(Hermann等人)(2015),分别命名为deep LSTM READER、attention READER和READER。深层LSTM阅读器使用深层LSTM(无注意机制)将问题和文章作为一个序列进行处理,并在最后进行预测。ATTENTIVE READER与我们的模型在本质上是相似的,因为它计算了问题向量与所有文章向量之间的注意函数是-;而IMPATIENT READER则为所有的问题词计算一个注意力函数,并在模型读取每个问题词时递归地积累信息。
4. Hill等人(2016)提出的(WINDOW-BASED MEMORY NETWORKS)基于windows的内存网络是基于内存网络架构的(Weston等人,2015)。我们认为这个模型也与我们类似,最大的不同是他们的编码通道方式:他们只使用5-word上下文窗口在评估候选实体和它们使用位置编码上下文embedding。如果一个窗口包含5个单词x1,x2,…,然后将其编码为Ei(xi),得到5个独立的嵌入矩阵进行学习。它们以类似的方式编码围绕占位符的5个单词的窗口,并且忽略问题文本中的所有其他单词。此外,他们只是使用点积来计算问题和上下文嵌入之间的“相关性”。

如表3.3所示,我们的基于特征的分类器在CNN测试集上的准确率为67.9%,在DAILY MAIL测试集上的准确率为68.3%,显著优于Hermann et al.(2015)所报道的任何符号方法。我们认为它们的框架语义模型不适合这些任务,因为解析器的覆盖率很低,并且不能代表一个简单的NLP系统可以实现什么。事实上,框架语义模型甚至明显低于单词距离模型。令我们惊讶的是,我们的基于特征的分类器甚至比Hermann et al.(2015)和Hill et al.(2016)中所有的神经网络系统都表现得更好。此外,我们的单模型神经网络大大超过了之前的结果(超过5%),将最先进的精度分别提高到72.7%和76.0%。5个模型的组合始终带来进一步的2-4%的收益。

3.3.3.2 Results on SQUAD
#### 3.3.3.2 Results on SQUAD

表3.4给出了我们对开发和测试集的评估结果。自创建以来,SQUAD一直是一个非常有竞争力的基准,我们只列出了一些代表性的模式和单模式的表现。众所周知,集成模型可以进一步提高性能的几个点。我们还包括了逻辑回归基线的结果。(Rajpurkar et al., 2016)。

我们的系统可以在测试集上达到70.0%的精确匹配和79.0%的F1成绩,超过了所有已发表的结果,并且与我们的论文中SQUAD排行榜上最好的性能相匹配 (Chen et al., 2017)。此外,我们认为我们的模型在概念上比大多数现有系统更简单。与logistic回归基线F1 = 51.0相比,该模型已经接近30%的绝对改进,对于神经模型来说是一个巨大的胜利。

此后,SQUAD受到了极大的关注,在这个数据集上取得了很大的进步,如表3.4所示。最近的进展包括用于初始化的预训练语言模型、更细粒度的注意机制、数据增强技术技巧,甚至更好的训练目标。我们将在第3.4节中讨论它们。

3.3.3.3 Ablation studies
#### 3.3.3.3 Ablation studies

Chen等(2017)对通道表征成分进行消融分析。如表3.5所示,所有组件都对最终系统的性能有贡献。我们发现,没有对齐的问题嵌入(只有word嵌入和一些手动特性),我们的系统仍然能够实现F1超过77%。精确匹配特征的有效性还表明,该数据集上的文章和问题之间存在大量的单词重叠。更有趣的是,如果我们同时去掉伪匹配和非精确匹配,性能会显著下降,因此我们得出结论,这两个特征在特征表示方面发挥着相似但互补的作用,比如问句和短文词之间的硬对齐和软对齐。

5.14 63-68

3.3.4 Analysis: What Have the Models Learned?
### 3.3.4 Analysis: What Have the Models Learned?

在Chen et al.(2016)中,我们试图更好地理解这些模型实际学到了什么,以及解决这些问题需要多大的语言理解深度。我们通过对CNN数据集开发集中的100个随机抽样示例进行仔细的手工分析来实现这一点。

Expand All @@ -279,11 +276,11 @@ Ambiguous or hard 这个类别包括那些我们认为人类肯定不能获取

综上所述,我们发现与传统的基于特征的模型相比,神经网络在识别词汇匹配和释义方面无疑更强大;虽然目前还不清楚他们是否也搞定了需要更复杂的文本推理的例子,因为目前在这方面的数据集仍然非常有限。

3.4 Further Advances
## 3.4 Further Advances

在本节中,我们总结了神经阅读理解的最新进展。我们将它们分为以下四类:单词表示、注意机制、LSTMs的变体以及其他(如培训目标、数据扩充)。最后对其重要性进行了总结和讨论。

3.4.1 Word Representations
### 3.4.1 Word Representations

第一类是对疑问词和短文词的更好的单词表示,因此神经模型是建立在更好的基础上的。(原文有笔误,大意是神经模型是建立在word representations的基础上的)。从文本中学习更好的分布式单词表示或者为特定任务发现更好的词嵌入集合依然是一个活跃的研究话题。例如,Mikolov等人(2017)发现在我们的模型中将GLOVE与训练向量使用最新的FASTTEXT 向量(Bojanowski等人 2017)可以早SQUAD上面取得1个百分点的提升。不仅如此,有两个关键的想法已经被证明(非常)有用:

Expand Down Expand Up @@ -319,7 +316,7 @@ ELMO在Peters et al.(2018)中详细介绍了一个具体的实现:它们

最近,Radford et al。(2018)和Devlin et al。(2018)发现这些上下文词潜入不仅可以用在一个特定任务的神经结构中作为一个词表示的特征 (阅读理解模式的上下文),而且我们可以调整深层语言模型直接并进行最小修改来执行下游任务。这在我写这篇论文的时候确实是一个非常惊人的结果,我们将在第4.4.2节对此进行更多的讨论,在未来还有很多问题需要回答。此外,Devlin et al.(2018)提出了一种训练双向语言模型的聪明方法:他们在输入层随机屏蔽一些单词,而不是总是往一个方向叠加LSTMs并预测下一个单词,将双向层叠加,并在顶层预测这些被屏蔽的单词。他们发现这种训练策略在经验上非常有用。

3.4.2 Attention Mechanisms 【69t】
### 3.4.2 Attention Mechanisms

针对神经阅读理解模型,已经提出了许多注意力机制的变种,它们的目的是在不同层次、不同粒度或分层的方式上捕捉问题和文章之间的语义相似性。在(Huang et al., 2018b)处可以找到这个方向的典型复合例子。据我们所知,目前还没有一个结论说存在一个变种是十分突出的。我们的STANFORD ATTENTIVE READER 采用了最简单的注意力形式(图3.4是不同层的attention的概览图)。除此以外,我们认为有两个想法可以在通常意义上进一步提升这些系统的性能。

Expand Down Expand Up @@ -347,7 +344,7 @@ Wang等(2017)首先计算了这篇文章的隐藏向量:p1, p2,它们



3.4.3 Alternative to LSTMs
### 3.4.3 Alternative to LSTMs

目前我们讨论的所有模型都是基于递归神经网络(RNNs)的。众所周知,增加神经网络的深度可以提高模型的容量,并带来性能的提高(He et al., 2016)。我们之前还讨论了3或4层的深层BiLSTM,这通常比单层BiLSTM性能更好(第3.3.2节)。然而,随着LSTM模型深度的进一步提高,我们面临着两个挑战:1)由于梯度消失问题,优化变得更加困难;2)可扩展性成为一个问题,因为随着层数的增加,训练/推理时间呈线性增长。众所周知,由于LSTMs的顺序性,它很难并行化,因此伸缩性(scale)很差。

Expand All @@ -359,7 +356,7 @@ Wang等(2017)首先计算了这篇文章的隐藏向量:p1, p2,它们

Lei等人(2018)的另一项研究工作提出了一种轻量级的递归单元,称为简单递归单元(SIMPLE unit, SRU),它简化了LSTM公式,同时支持cuda级优化以实现高并行化。研究结果表明,简化递归模型通过层堆积保持了较强的建模能力。他们还证明了用SRU单元替换我们模型中的LSTMs可以提高F1成绩2分,同时训练和推理速度更快。

3.4.4 Others
### 3.4.4 Others

训练目标:通过改进训练目标也有可能取得进一步进展。对于完形填空或多项选择题,通常直接使用交叉熵或最大边际损失。然而,对于跨度预测问题,Xiong等(2018)认为预测答案两个端点的交叉熵损失与最终的评价指标存在差异,这涉及到gold answer与ground truth之间的单词重叠。例如:

Expand All @@ -373,7 +370,7 @@ ground truth answer: the Golden State Warriors team of 2017

数据增加。数据增强是一种非常成功的image识别方法,但在NLP问题中研究较少。Yu等(2018)提出了一种为阅读理解模型创建更多训练数据的简单技术。技术称为backtranslation——基本上就是他们利用两个最先进的神经机器翻译模型:一个模型从英语到法语和其他模型从法语,英语,和解释文章中的每一句话贯穿两个模型(如果需要一些修改答案)。在F1值上,他们通过在SQUAD上这样做获得了2分。Devlin等(2018)也发现,SQUAD与TRIVIAQA联合训练(Joshi等,2017)可以适度提高SQUAD上的性能。

3.4.5 Summary
### 3.4.5 Summary

到目前为止,我们已经讨论了不同方面的最新进展,总而言之,这些进展有助于当前阅读理解基准(尤其是SQUAD)的最新进展。哪些组件比其他组件更重要?我们需要把这些都加起来吗?这些最新的进展是否可以推广到其他阅读理解任务?它们如何与不同的语言理解能力相关联?我们认为这些问题中的大多数还没有一个明确的答案,仍然需要大量的调查。

Expand Down

0 comments on commit c6b0f9d

Please sign in to comment.