Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Some question about the Adaptive-Attention (AA) module #57

Closed
Liqq1 opened this issue Mar 20, 2023 · 3 comments
Closed

Some question about the Adaptive-Attention (AA) module #57

Liqq1 opened this issue Mar 20, 2023 · 3 comments

Comments

@Liqq1
Copy link

Liqq1 commented Mar 20, 2023

您好👋感谢你的代码分享,其中关于 Adaptive-Attention (AA) module,有几点想确认一下。

  1. 如果没有AA模块,是hidden state直接给出prediction结果吗?

2.将h_t, v_t, k_t三者进行attention的目的,是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗?

3.不知是否理解正确:train的时候对于不同time step的输出要将其concat起来,因为是并行进行的;而test的时候word prediction只是当前time step的结果。

@zhangxuying1004
Copy link
Owner

您好👋感谢你的代码分享,其中关于 Adaptive-Attention (AA) module,有几点想确认一下。

  1. 如果没有AA模块,是hidden state直接给出prediction结果吗?

2.将h_t, v_t, k_t三者进行attention的目的,是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗?

3.不知是否理解正确:train的时候对于不同time step的输出要将其concat起来,因为是并行进行的;而test的时候word prediction只是当前time step的结果。

问题1: 是的;
问题2 :是为了以h_t为查询,将视觉信息和语言信息对当前预测的贡献进行量化,并没有加大。
问题3:是的,基于序列模型的decoder(如RNN,transformer),训练和测试都是这种模式。

@Liqq1
Copy link
Author

Liqq1 commented Mar 21, 2023

您好👋感谢你的代码分享,其中关于 Adaptive-Attention (AA) module,有几点想确认一下。

  1. 如果没有AA模块,是hidden state直接给出prediction结果吗?

2.将h_t, v_t, k_t三者进行attention的目的,是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗?
3.不知是否理解正确:train的时候对于不同time step的输出要将其concat起来,因为是并行进行的;而test的时候word prediction只是当前time step的结果。

问题1: 是的; 问题2 :是为了以h_t为查询,将视觉信息和语言信息对当前预测的贡献进行量化,并没有加大。 问题3:是的,基于序列模型的decoder(如RNN,transformer),训练和测试都是这种模式。

感谢回复。
另外对于第二点,在量化过程中是如何体现/约束visual words 和 non visual word的贡献度? 还是说在训练过程中,随着loss的减小,就会逼近visual words 的贡献度增大& non visual word的贡献度减小?

@zhangxuying1004
Copy link
Owner

您好👋感谢你的代码分享,其中关于 Adaptive-Attention (AA) module,有几点想确认一下。

  1. 如果没有AA模块,是hidden state直接给出prediction结果吗?

2.将h_t, v_t, k_t三者进行attention的目的,是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗?
3.不知是否理解正确:train的时候对于不同time step的输出要将其concat起来,因为是并行进行的;而test的时候word prediction只是当前time step的结果。

问题1: 是的; 问题2 :是为了以h_t为查询,将视觉信息和语言信息对当前预测的贡献进行量化,并没有加大。 问题3:是的,基于序列模型的decoder(如RNN,transformer),训练和测试都是这种模式。

感谢回复。 另外对于第二点,在量化过程中是如何体现/约束visual words 和 non visual word的贡献度? 还是说在训练过程中,随着loss的减小,就会逼近visual words 的贡献度增大& non visual word的贡献度减小?

不是,通过视觉信息、非视觉信息与h_t的关联程度来反映的,并且后接softmax对两类信息的贡献进行归一化。随着训练过程中loss的减小,视觉信息对视觉词预测的贡献增加,非视觉信息对非视觉词预测的贡献增加。

@Liqq1 Liqq1 closed this as completed Apr 7, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants