You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
你好,谢谢你们的代码。比较你们的论文和代码时,遇到以下不理解的地方:
论文中提到数据输入到MHA时的格式 是 B x C x L; 在代码中,Attetionlayer进行分头。实际上就是在序列长度Length这个尺度上进行的?
那么在inner_attention,也就是FullAttention中,L 变成了 H x E; 你们使用的scale,也就是1. / sqrt(E),实际是与论文中的1./sqrt(C),不符?
你好,谢谢你们的代码。比较你们的论文和代码时,遇到以下不理解的地方:



论文中提到数据输入到MHA时的格式 是 B x C x L; 在代码中,Attetionlayer进行分头。实际上就是在序列长度Length这个尺度上进行的?
那么在inner_attention,也就是FullAttention中,L 变成了 H x E; 你们使用的scale,也就是1. / sqrt(E),实际是与论文中的1./sqrt(C),不符?