New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您好,我用发布的roberta_large当做语言模型测试句子的ppl值时,发现每个字的概率很小,不太合理;相同条件下bert模型句子中每个字的概率都是比较大的。请教一下原因? #24
Comments
原因未名。先不看绝对值,只看相对值看看。能否贴出你的对比 |
这是原bert模型的结果,能够看出每个字的概率相对较大,这也符合预期,因为每次预测都是只mask一个字 |
看上去概率确实很低,而bert模型的ppl还挺正常的 |
这块,我比较了哈工大RoBERTa-wwm-ext, Chinese,这个模型的效果;从概率上看,它基本和原Bert模型接近。出现这种情况的最大可能,我觉得可能是由于本模型从一开始就是采用MASK词的方式训练的,而哈工大哪个模型是从BerT字模型基础上做的增量MASK词。因为MASK词是一个难度更高的任务,测试时是依次扣掉每一个字来算概率,因此本模型得到的概率自然会比较低。 |
应该是的。 |
你好,roberta_zh_large是没有包含语言模型的权重的。那么你在测试的时候,可能是随机的吗。 你可以试一试这个包含mlm参数的版本(roeberta_zh_L-24_H-1024_A-16_lm_layer.zip): |
No description provided.
The text was updated successfully, but these errors were encountered: