关于mask以及generative style inference #187

mayunhe-cs · 2021-07-08T04:01:48Z

作者您好，我在学习您相关工作时遇到了一些困惑，以下是我的理解以及提问，不知是否准确：

您在Decoder部分使用了ProbMask，以对选中(activation态)的q进行mask，使其只获得对应时间之前的Attn值。我不理解的是：既然使用Generative Inference以及label，不会导致未来的信息泄露，为何还要进行mask？（按照我有限的理解，transformer在decoder中使用mask是为了方便train时并行计算，但为何在valid/test时保留mask呢？我也有类似的困惑）
您在ablation study部分有将dynamic decoding和generative style inference对比，给出了预测序列长度为336和480的两组对比结果，其中为336时结果接近，为480时generative style inference有较明显优势，请问当预测序列更短时，dynamic decoding会表现比generative style inference更好么？

非常感谢您的工作，期待您的解答！

zhouhaoyi · 2021-07-08T23:23:46Z

你好！

关于第一点，其实mask是针对dynamic decoding设置的避免自回归效应的操作。因为我们的方法使用生成的方案，确实可以选用也可以不选用，测试后基本性能没差。但是不同场景下可能会有两种解码方案的切换，所以就保留了。
理论上来说，预测更短的序列，因为时间序列既有的惯性特点，局部性质更强，所以dynamic decoding可能会有更好的表现。但是我们在实验测试中，发现较短的序列生成式的方案也表现出更加的性能，这个可以是一个dataset相关的问题。

mayunhe-cs · 2021-07-11T10:16:57Z

感谢您的解答！

daihaozxn · 2023-02-06T08:53:18Z

作者您好，我在学习您相关工作时遇到了一些困惑，以下是我的理解以及提问，不知是否准确：

您在Decoder部分使用了ProbMask，以对选中(activation态)的q进行mask，使其只获得对应时间之前的Attn值。我不理解的是：既然使用Generative Inference以及label，不会导致未来的信息泄露，为何还要进行mask？（按照我有限的理解，transformer在decoder中使用mask是为了方便train时并行计算，但为何在valid/test时保留mask呢？我也有类似的困惑）

您在ablation study部分有将dynamic decoding和generative style inference对比，给出了预测序列长度为336和480的两组对比结果，其中为336时结果接近，为480时generative style inference有较明显优势，请问当预测序列更短时，dynamic decoding会表现比generative style inference更好么？

非常感谢您的工作，期待您的解答！

请问，这里提到的“......既然使用Generative Inference以及label，不会导致未来的信息泄露......”是基于什么原因呢，或者在哪里能找到依据呢，谢谢

zhouhaoyi closed this as completed Jul 11, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于mask以及generative style inference #187

关于mask以及generative style inference #187

mayunhe-cs commented Jul 8, 2021

zhouhaoyi commented Jul 8, 2021

mayunhe-cs commented Jul 11, 2021

daihaozxn commented Feb 6, 2023

关于mask以及generative style inference #187

关于mask以及generative style inference #187

Comments

mayunhe-cs commented Jul 8, 2021

zhouhaoyi commented Jul 8, 2021

mayunhe-cs commented Jul 11, 2021

daihaozxn commented Feb 6, 2023