Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问text在转化为id时使用的是哪个版本的BERT vocab? #31

Open
ggxxding opened this issue Jan 13, 2021 · 3 comments
Open

Comments

@ggxxding
Copy link

No description provided.

@minghui
Copy link
Collaborator

minghui commented Jan 15, 2021

取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。

@ggxxding
Copy link
Author

谢谢,另外我在尝试用自己的一些图片和文本进行训练,训练数据的schema大致清楚了,但是其中nx_sent_labels:int:1这个字段没有说明,它是不是表示图文是否匹配的label?还有eval数据的schema和训练数据不完全一样,下面这几个字段我不能完全明白它的意思,可以解释一下吗?
nx_sent_labels:int:1,prod_desc:str:1,text_prod_id:str:1,image_prod_id:str:1,prod_img_id:str:1

取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。

@minghui
Copy link
Collaborator

minghui commented Mar 2, 2021

谢谢,另外我在尝试用自己的一些图片和文本进行训练,训练数据的schema大致清楚了,但是其中nx_sent_labels:int:1这个字段没有说明,它是不是表示图文是否匹配的label?还有eval数据的schema和训练数据不完全一样,下面这几个字段我不能完全明白它的意思,可以解释一下吗?
nx_sent_labels:int:1,prod_desc:str:1,text_prod_id:str:1,image_prod_id:str:1,prod_img_id:str:1

取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。

这个格式是field_name:data_type:column_number, 所以nx_sent_labels:int:1表示nx_sent_labels这个field是integer的数字,只有一列。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants