models的PaddleNLP的bert，自有数据训练，生成训练数据。字典不匹配？？ #222

waywaywayw · 2020-07-16T13:05:51Z

https://github.com/PaddlePaddle/models/tree/release/1.8/PaddleNLP/pretrain_language_models/BERT
数据预处理部分

id化的例子第一个token的id是1？你们用的是啥字典啊。
bert-base 的字典，cls是102，sep是103才对吧

或者你们能不能放出对应的create_train_data.py的代码，这也不麻烦吧

waywaywayw · 2020-07-21T02:34:03Z

有人来回答一下吗？确定不了字典，预训练也就无从谈起了

songzy12 · 2021-09-04T07:35:48Z

我刚才研究了一下，这里是一些结果：

demo 使用的字典是 data/demo_config/vocab.txt [1].
具体到截图中的示例，其 id 化前的明文可以在 data/demo_wiki_tokens.txt [2] 中找到：
龙江 ic （平假名：）是位于长野县饭田市的三远南信自动车道之交流道。现时还未启用。
通过解压缩 id 化后的文件 data/train/demo_wiki_train.gz [3] 并查看其内容我们可以发现：
id 化后每一句的都是以1开头，以2结尾。原因应该和 tokenization 的具体实现有关。

至于所要求的 create_train_data.py, 应该就是 train.py [4] 和 tokenization.py [5].

ZeyuChen · 2022-04-23T16:50:01Z

baiyfbupt assigned kuke Jul 17, 2020

waywaywayw changed the title ~~models的bert，自有数据训练，生成训练数据。字典不匹配？~~ models的PaddleNLP的bert，自有数据训练，生成训练数据。字典不匹配？？ Jul 21, 2020

ZeyuChen transferred this issue from PaddlePaddle/models Apr 1, 2021

ZeyuChen closed this as completed Apr 23, 2022

Provide feedback