-
Notifications
You must be signed in to change notification settings - Fork 5.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
model_zoo词向量训练数据规模 #1008
Comments
训练语料的总规模是58亿个token,但训练中因为集群的问题,重启过几次,所以实际扫过的token数可能会有一些差别。 |
thank you! 另外我对model_128.emb进行类似的统计, 该文件的均值、方差正常 对model_128和model_64进行语义相似性比较(采用欧式距离), 似乎128比64的效果要差不少. model_64: |
@liusiye 似乎model_256.emb这个文件有一些错误。我们核对一下。 |
@liusiye 这些embedding的md5值是
稍后,我们会将md5检验也加入到这个下载脚本里。 |
@beckett1124 另外,麻烦QA同事在回归测试里面加一下这个用例吧。 在model zoo里面,Paddle提供了一些预训练好的模型。这些模型在上传的过程中,可能会出一些错误,导致有错误的值。 所以每次发新版本的时候,需要检测一下这个值是不是正确。 检测方法如下 curl http://paddlepaddle.bj.bcebos.com/model_zoo/embedding/model_256.emb | od -j 16 -f | grep e+[0-9][4-9] 如果这个命令grep出东西了,一般就是错了。。 原理是,paddle的参数文件前16字节是文件头,后面就是一个一个的float型。然后如果grep e+[0-9][4-9]了,那么某一维度的参数就会大于 1e3,这基本上是不现实的。也就可以判断文件可能有错误。 不过,也可以弄一个更加科学的检查办法。 |
好的 |
@reyoung thank you! 刚下载了新的文件,貌似现在baidu.dict中有3206325个词,但是embedding文件中有3206326个embedding? 似乎我直接丢弃第一行embedding的话,embedding文件貌似可用 |
抱歉,那个baidu.dict也有更新,我们重传另一个baidu.dict。请直接wget一下吧。
|
关于model_zoo中提供的预训练的词向量,我想询问下你们训练该词向量使用的数据规模是多大?关于数据规模的描述,我并没有在paddle的网站上找到。
非常感谢你们为开源社区做出的贡献!
The text was updated successfully, but these errors were encountered: