span light conv疑惑 #8

psy2013GitHub · 2020-11-23T07:31:43Z

你好，我想请问下，在span light conv中，既然已经用tf.layers.separable_conv1d生成了带span信息的矩阵key_conv_attn_layer，为什么还需要点乘query_layer呢？对应于conv_attn_layer = tf.multiply(key_conv_attn_layer, query_layer)。感觉此处点乘不是很有必要

zihangJiang · 2020-11-25T07:03:00Z

您好，因为self-attention中是，我们这里使用二者点乘的一个intuition是和self-attention保持一致，即产生的kernel也是input的两个线性变换乘积再经过softmax。
另一方面，我们认为产生的convolution kernel可以部分理解成当前token和附近neighbor tokens的关系，而不仅仅只是带有当前span的信息，所以我们采用了二者的点乘再经过softmax来生成卷积核。

zihangJiang closed this as completed Apr 6, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

span light conv疑惑 #8

span light conv疑惑 #8

psy2013GitHub commented Nov 23, 2020

zihangJiang commented Nov 25, 2020

span light conv疑惑 #8

span light conv疑惑 #8

Comments

psy2013GitHub commented Nov 23, 2020

zihangJiang commented Nov 25, 2020