Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于mask以及generative style inference #187

Closed
mayunhe-cs opened this issue Jul 8, 2021 · 3 comments
Closed

关于mask以及generative style inference #187

mayunhe-cs opened this issue Jul 8, 2021 · 3 comments

Comments

@mayunhe-cs
Copy link

作者您好,我在学习您相关工作时遇到了一些困惑,以下是我的理解以及提问,不知是否准确:

  1. 您在Decoder部分使用了ProbMask,以对选中(activation态)的q进行mask,使其只获得对应时间之前的Attn值。我不理解的是:既然使用Generative Inference以及label,不会导致未来的信息泄露,为何还要进行mask?(按照我有限的理解,transformer在decoder中使用mask是为了方便train时并行计算,但为何在valid/test时保留mask呢?我也有类似的困惑)
  2. 您在ablation study部分有将dynamic decoding和generative style inference对比,给出了预测序列长度为336和480的两组对比结果,其中为336时结果接近,为480时generative style inference有较明显优势,请问当预测序列更短时,dynamic decoding会表现比generative style inference更好么?

非常感谢您的工作,期待您的解答!

@zhouhaoyi
Copy link
Owner

你好!

  1. 关于第一点,其实mask是针对dynamic decoding设置的避免自回归效应的操作。因为我们的方法使用生成的方案,确实可以选用也可以不选用,测试后基本性能没差。但是不同场景下可能会有两种解码方案的切换,所以就保留了。
  2. 理论上来说,预测更短的序列,因为时间序列既有的惯性特点,局部性质更强,所以dynamic decoding可能会有更好的表现。但是我们在实验测试中,发现较短的序列生成式的方案也表现出更加的性能,这个可以是一个dataset相关的问题。

@mayunhe-cs
Copy link
Author

感谢您的解答!

@daihaozxn
Copy link

作者您好,我在学习您相关工作时遇到了一些困惑,以下是我的理解以及提问,不知是否准确:

  1. 您在Decoder部分使用了ProbMask,以对选中(activation态)的q进行mask,使其只获得对应时间之前的Attn值。我不理解的是:既然使用Generative Inference以及label,不会导致未来的信息泄露,为何还要进行mask?(按照我有限的理解,transformer在decoder中使用mask是为了方便train时并行计算,但为何在valid/test时保留mask呢?我也有类似的困惑)
  2. 您在ablation study部分有将dynamic decoding和generative style inference对比,给出了预测序列长度为336和480的两组对比结果,其中为336时结果接近,为480时generative style inference有较明显优势,请问当预测序列更短时,dynamic decoding会表现比generative style inference更好么?

非常感谢您的工作,期待您的解答!

请问,这里提到的“......既然使用Generative Inference以及label,不会导致未来的信息泄露......”是基于什么原因呢,或者在哪里能找到依据呢,谢谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants