d2l-ai · goldmermaid · Nov 2, 2021 · Nov 1, 2021
diff --git a/chapter_recurrent-neural-networks/rnn.md b/chapter_recurrent-neural-networks/rnn.md
@@ -118,7 +118,7 @@ d2l.matmul(d2l.concat((X, H), 1), d2l.concat((W_xh, W_hh), 0))
 
 就质量而言，例$1$显然是最好的。这些词是合乎情理的，也在逻辑上是连贯的。虽然这个模型可能没有很准确地反映出后续词的语义（“in San Francisco”和“in winter”可能才是完美的合理扩展），但该模型已经能够捕捉到跟在后面的是哪类单词。例$2$则要糟糕得多，因为其产生了一个无意义的续写。尽管如此，至少该模型已经学会了如何拼写单词以及单词之间的某种程度的相关性。最后，例$3$表明了训练不足的模型是无法正确地拟合数据。
 
-我们可以通过计算序列的似然概率来度量模型的质量。不幸的是，这是一个难以理解，也难以比较较的数字。毕竟，较短的序列比较长的序列更有可能出现，因此评估模型产生托尔斯泰的巨著《战争与和平》的可能性不可避免地会比产生圣埃克苏佩里的中篇小说《小王子》可能性要小得多。而缺少的可能性值相当于平均数。
+我们可以通过计算序列的似然概率来度量模型的质量。不幸的是，这是一个难以理解，也难以比较的数字。毕竟，较短的序列比较长的序列更有可能出现，因此评估模型产生托尔斯泰的巨著《战争与和平》的可能性不可避免地会比产生圣埃克苏佩里的中篇小说《小王子》可能性要小得多。而缺少的可能性值相当于平均数。
 
 在这里，信息论可以派上用场了。我们在引入softmax回归（ :numref:`subsec_info_theory_basics`）时定义了熵、惊奇和交叉熵，并在[信息论的在线附录](https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/information-theory.html)中讨论了更多的信息论知识。如果想要压缩文本，我们可以询问根据当前词元集预测的下一个词元。一个更好的语言模型应该能让我们更准确地预测下一个词元。因此，它应该允许我们在压缩序列时花费更少的比特。所以我们可以通过一个序列中所有的$n$个词元的交叉熵损失的平均值来衡量：