关于数据预处理时，对长度不同的句子padding的问题 #48

hningbo · 2020-01-11T12:40:52Z

你好~
在数据预处理时，如果句子过短的话需要在句尾填充0，那在将填充的部分转换为word embedding的时候是直接找0的那个embedding吗？如果是这样的话不会导致学习到错误的特征吗？

ShomyLiu · 2020-01-11T12:46:28Z

对，补全0并寻找0对应的Embedding, 一般情况下，这样是没问题的。如果觉得有问题的话，可以使用Mask Padding，就是记录0的index，然后直接mask掉。这样就不会计算0了。不过会加大计算量。

hningbo · 2020-01-11T13:07:58Z

那我还有两个问题~

ShomyLiu · 2020-01-11T13:58:13Z

（1）一般Mask的时候卷积正常计算呀，pooling的时候根据index进行mask。而且绝大部分的mask都不用循环，而是用其他整合为向量运算。
（2）mask不影响 position embedding呀即使填充了0，也没有关系，反正不会影响其他words的position

hningbo · 2020-01-11T15:40:24Z

哦哦！是这样，明白了！想了好久还能这样实现，谢谢了😀！

Provide feedback