Transformer实现默认用的Pre-Norm? #51

KKIverson · 2024-03-05T13:29:16Z

2.1.5中EncoderLayer里涉及到add&norm的操作，貌似都是先对原始输入做norm，然后将norm后的数据输入MHA/FFN，然后再和原始输入相加，这不是pre-norm的操作吗？按理说原生的Transformer不都是post-norm嘛~

YingxuanW · 2024-03-21T09:53:00Z

看到这里同样有疑问，个人会这样实现：
x = norm(x + attention(x,x,x,mask))
x =norm(x + ffn(x))

Provide feedback