update FAQ. #4379

peterzhang2029 · 2017-09-26T02:29:48Z

resolve #2020 #3070 #4024

lcy-seso · 2017-09-26T03:15:32Z

doc/faq/index_cn.rst

-主要的解决办法是减小学习率或者对数据进行归一化处理。
+这里有两种有效的解决方法：
+
+* 对梯度的值进行限制，可以通过设置 :code:`optimizer` 中的 :code:`gradient_clipping_threshold` 来预防梯度爆炸，具体可以参考  `nmt_without_attention  <https://github.com/PaddlePaddle/models/tree/develop/nmt_without_attention>`_ 示例。


对梯度的值进行限制 --> 对梯度值进行硬截断：设置截断阈值 a，当梯度落在 [-a, a] 区间内，取值不变，否则按照区间端点值进行截断。

可以通过在 :code:optimizer 中设置 `:code:`gradient_clipping_threshold 参数来实现，下面的代码片段将梯度截断的阈值设置为 x ：

请给一个精确到代码行的链接，否则依然很难了解到参考哪里。https://github.com/PaddlePaddle/models/blob/develop/nmt_without_attention/train.py#L35 但我建议，请给出一个上下文完整的代码片段，否则代码变动难免忘记更新文档。

lcy-seso · 2017-09-26T03:21:17Z

doc/faq/index_cn.rst

+
+* 对梯度的值进行限制，可以通过设置 :code:`optimizer` 中的 :code:`gradient_clipping_threshold` 来预防梯度爆炸，具体可以参考  `nmt_without_attention  <https://github.com/PaddlePaddle/models/tree/develop/nmt_without_attention>`_ 示例。
+
+* 由于最终的损失函数关于每一层输出对应的梯度都会遵循链式法则进行反向传播，因此，可以通过对每一层要传输的梯度大小进行限制来预防浮点数溢出。具体可以对特定的网络层的属性进行设置：:code:`layer_attr=paddle.attr.ExtraAttr(error_clipping_threshold=10.0)` 。完整代码可以参考示例 `machine translation <https://github.com/PaddlePaddle/book/tree/develop/08.machine_translation>`_ 。


第一句话严重不通顺。请用简洁的短句，而不是复杂的从句。

既然是两种方法，请以序号 1， 2 表示。

我的建议请给一个上下文清晰的代码片段，不要这样没有任何上下文的贴一句代码。

不要直接引用整个目录，使用者非常难以定位到需要参考那里。请给出清晰的，应该参考的哪个片段。

lcy-seso · 2017-09-26T03:36:14Z

doc/faq/index_cn.rst

@@ -512,3 +518,69 @@ PaddlePaddle目前支持8种learning_rate_schedule，这8种learning_rate_schedu

 出现该错误的原因一般是用户对不同layer的参数 :code:`name` 设置了相同的取值。遇到该错误时，先找出参数 :code:`name` 取值相同的layer，然后将这些layer的参数 :code:`name` 设置为不同的值。

+24. PaddlePaddle V2 API中，调用infer接口时输出多个层的计算结果
+--------------------------------------------------


请让这条 ”--------------------“ 长于标题。

lcy-seso · 2017-09-26T03:38:19Z

doc/faq/index_cn.rst

+24. PaddlePaddle V2 API中，调用infer接口时输出多个层的计算结果
+--------------------------------------------------
+
+用户在使用多个中间网络层进行预测时，需要先将指定的网络层进行拼接，并作为 :code:`paddle.inference.Inference` 接口中 :code:`output_layer` 属性的输入, 然后调用infer接口来获取多个层对应的计算结果。 示例代码如下：


“需要先将指定的网络层进行拼接” 这句话不明所以。

lcy-seso · 2017-09-26T03:40:01Z

doc/faq/index_cn.rst

+
+用户在使用多个中间网络层进行预测时，需要先将指定的网络层进行拼接，并作为 :code:`paddle.inference.Inference` 接口中 :code:`output_layer` 属性的输入, 然后调用infer接口来获取多个层对应的计算结果。 示例代码如下：
+
+..      code-block:: bash


这里不是bash，是python

lcy-seso · 2017-09-26T03:52:22Z

doc/faq/index_cn.rst

+
+上述不同的recurrent layer可以归纳为2类：
+
+* 由recurrent_group实现的recurrent layer：


2类请用1，2 这样的序号

请把这两类放在一起，然后是具体的解释。现在这样在行文上跨度太大，会有些割裂。

不想对 recurrent_group 做长篇介绍，请加上这个链接：http://doc.paddlepaddle.org/release/0.10.0/doc_cn/howto/deep_model/rnn/index_cn.html

lcy-seso · 2017-09-26T04:41:58Z

doc/faq/index_cn.rst

+
+* 由recurrent_group实现的recurrent layer：
+
+  * 用户在使用这一类recurrent layer时，可以访问由recurrent unit在一个time step里计算得到的中间值（例如：hidden states, input-to-hidden mapping, memory cells等）；


什么是 recurrent_unit ?

lcy-seso · 2017-09-26T04:58:51Z

doc/faq/index_cn.rst

+* list 中每个元素是一个layer的输出结果矩阵，类型是numpy的ndarray；
+* 每一个layer输出矩阵的高度，在非序列输入时：等于样本数；序列输入时等于：输入序列中元素的总数；宽度等于配置中layer的size；
+
+25. PaddlePaddle 中不同的 recurrent layer 之间的差异


PaddlePaddle 中不同 recurrent layer 的区别

lcy-seso · 2017-09-26T04:59:13Z

doc/faq/index_cn.rst

+
+此时可以在调用infer接口时通过设置 :code:`flatten_result=False` , 跳过“拼接”步骤，来解决上面的问题。这时，infer接口的返回值是一个python list:
+
+* list元素的个数等于网络中输出层的个数；


list 中元素的个数

lcy-seso · 2017-09-26T05:34:27Z

doc/faq/index_cn.rst

+上述不同的recurrent layer可以归纳为2类：
+
+* 由recurrent_group实现的recurrent layer：
+


我们把这一段的行为逻辑组织成：结论 - 详细介绍的方式吧。

围绕下面的三个问题：

PaddlePaddle 中的RNN分为两类：使用recurrent_group实现的自定义RNN，作为一个独立 layer；

如何选择应该使用哪一种RNN；

注意事项：

paddle.layer.lstmemory 带 peephole connection，和 paddle.networks.lstmemory_group 不等价

paddle.networks.lstmemory_unit 不是 Recurrent layer，作为recurrent_group的单步函数使用。

lcy-seso · 2017-09-26T06:33:37Z

doc/faq/index_cn.rst

@@ -519,17 +559,17 @@ PaddlePaddle目前支持8种learning_rate_schedule，这8种learning_rate_schedu
 出现该错误的原因一般是用户对不同layer的参数 :code:`name` 设置了相同的取值。遇到该错误时，先找出参数 :code:`name` 取值相同的layer，然后将这些layer的参数 :code:`name` 设置为不同的值。

 24. PaddlePaddle V2 API中，调用infer接口时输出多个层的计算结果


19 和 24 问题和文字都重复了？合并在一起把。把重复文字删掉。

lcy-seso · 2017-09-26T06:58:46Z

doc/faq/index_cn.rst

@@ -316,7 +316,34 @@ Paddle二进制在运行时捕获了浮点数异常，只要出现浮点数异
 * 模型一直不收敛，发散到了一个数值特别大的地方。
 * 训练数据有问题，导致参数收敛到了一些奇异的情况。或者输入数据尺度过大，有些特征的取值达到数百万，这时进行矩阵乘法运算就可能导致浮点数溢出。

-主要的解决办法是减小学习率或者对数据进行归一化处理。
+这里有两种有效的解决方法：
+


这里的1和2 改为：

设置 gradient_clipping_threshold参数；

设置 error_clipping_threshold 参数；

下文再详细展开两者的不同，放在标题里面解释不清楚。

两者都是对梯度的截断，但截断时机不同，前者在 optimzier 更新网络参数时应用；后者在激活函数反向计算时被调用；

截断对象不同：前者截断可学习参数的梯度，后者截断回传给前层的梯度。

lcy-seso · 2017-09-26T07:13:56Z

doc/faq/index_cn.rst

@@ -405,9 +437,28 @@ PaddlePaddle保存的模型参数文件内容由16字节头信息和网络参数

 ..  code-block:: python

-    out = inferer.infer(input=data_batch, flatten_result=False, field=["value"])
+    out = inferer.infer(input=data_batch, field=["value"])


427 行需要改一下：“如何调用 infer 接口输出多个layer的预测结果”。

帮忙再改一下，21 的标题：两种使用 drop_out 的方法有何区别？

帮忙检查一下标题下方的横向和标题一样长。

lcy-seso

LGTM, thank you.

lcy-seso

LGTM, thank you.

peterzhang2029 added 2 commits September 26, 2017 10:19

add diff of recurrent layer in faq

8882231

add diff of recurrent layer in faq

458b726

peterzhang2029 requested a review from lcy-seso September 26, 2017 03:00

refine the diff of recurrent layers

c4cdddb

lcy-seso reviewed Sep 26, 2017

View reviewed changes

refine and fix conflict between faq19 and faq24

0464c94

lcy-seso reviewed Sep 26, 2017

View reviewed changes

refine gradient clipping in faq

611dacf

lcy-seso reviewed Sep 26, 2017

View reviewed changes

refine title and dash line in faq

208da87

lcy-seso previously approved these changes Sep 26, 2017

View reviewed changes

peterzhang2029 dismissed lcy-seso’s stale review via 799c1a3 September 26, 2017 07:26

lcy-seso previously approved these changes Sep 26, 2017

View reviewed changes

lcy-seso changed the title ~~add diff of recurrent layer in faq~~ update FAQ. Sep 26, 2017

refine short dash line in faq

8177cf9

peterzhang2029 dismissed lcy-seso’s stale review via 8177cf9 September 26, 2017 08:03

peterzhang2029 force-pushed the faq_update branch from 799c1a3 to 8177cf9 Compare September 26, 2017 08:03

lcy-seso approved these changes Sep 26, 2017

View reviewed changes

lcy-seso merged commit aef71a6 into PaddlePaddle:develop Sep 26, 2017

peterzhang2029 deleted the faq_update branch November 10, 2017 12:32

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

update FAQ. #4379

update FAQ. #4379

peterzhang2029 commented Sep 26, 2017 •

edited by lcy-seso

lcy-seso Sep 26, 2017

peterzhang2029 Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

peterzhang2029 Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

lcy-seso Sep 26, 2017

peterzhang2029 Sep 26, 2017

lcy-seso left a comment

lcy-seso left a comment


		* 对梯度的值进行限制，可以通过设置 :code:`optimizer` 中的 :code:`gradient_clipping_threshold` 来预防梯度爆炸，具体可以参考 `nmt_without_attention <https://github.com/PaddlePaddle/models/tree/develop/nmt_without_attention>`_ 示例。

		* 由于最终的损失函数关于每一层输出对应的梯度都会遵循链式法则进行反向传播，因此，可以通过对每一层要传输的梯度大小进行限制来预防浮点数溢出。具体可以对特定的网络层的属性进行设置：:code:`layer_attr=paddle.attr.ExtraAttr(error_clipping_threshold=10.0)` 。完整代码可以参考示例 `machine translation <https://github.com/PaddlePaddle/book/tree/develop/08.machine_translation>`_ 。


		用户在使用多个中间网络层进行预测时，需要先将指定的网络层进行拼接，并作为 :code:`paddle.inference.Inference` 接口中 :code:`output_layer` 属性的输入, 然后调用infer接口来获取多个层对应的计算结果。示例代码如下：

		.. code-block:: bash


		上述不同的recurrent layer可以归纳为2类：

		* 由recurrent_group实现的recurrent layer：


		* 由recurrent_group实现的recurrent layer：

		* 用户在使用这一类recurrent layer时，可以访问由recurrent unit在一个time step里计算得到的中间值（例如：hidden states, input-to-hidden mapping, memory cells等）；


		此时可以在调用infer接口时通过设置 :code:`flatten_result=False` , 跳过“拼接”步骤，来解决上面的问题。这时，infer接口的返回值是一个python list:

		* list元素的个数等于网络中输出层的个数；

		@@ -519,17 +559,17 @@ PaddlePaddle目前支持8种learning_rate_schedule，这8种learning_rate_schedu
		出现该错误的原因一般是用户对不同layer的参数 :code:`name` 设置了相同的取值。遇到该错误时，先找出参数 :code:`name` 取值相同的layer，然后将这些layer的参数 :code:`name` 设置为不同的值。

		24. PaddlePaddle V2 API中，调用infer接口时输出多个层的计算结果

update FAQ. #4379

update FAQ. #4379

Conversation

peterzhang2029 commented Sep 26, 2017 • edited by lcy-seso

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso left a comment

Choose a reason for hiding this comment

lcy-seso left a comment

Choose a reason for hiding this comment

peterzhang2029 commented Sep 26, 2017 •

edited by lcy-seso