该plato代码怎么去训练中文模型呢 #25

ShengXiaoXiao · 2020-08-13T07:17:06Z

No description provided.

sserdoubleh · 2020-08-13T08:19:50Z

可以根据Knover/README.md（ https://github.com/PaddlePaddle/Knover/blob/master/README.md ）的提示准备好语料，可以使用sentencepiece工具（ https://github.com/google/sentencepiece ）处理生成词表，格式可以参照./package/dialog_en/voca.txt与./package/dialog_en/spm.model；或者使用已有的中文词表，如果是使用其他的Tokenizer（不是sentencepiece tokenizer），可以通过修改./utils/tokenization.py，参考SentencePiecieTokenizer的实现实现对应的Tokenizer（比如叫BasicTokneizer)，在配置中的train_args中指定Tokenizer即可（加一行train_args="--tokenizer BasicTokenizer"）

Knover/utils/tokenization.py

Line 124 in 15d5279

class SentencePieceTokenizer(object):

训练的具体操作与配置也可以参照Knover/README.md

sserdoubleh mentioned this issue Sep 29, 2020

Plato能否在中文语料上从头训练？ PaddlePaddle/Research#96

Open

ZeyuTeng96 mentioned this issue Jul 11, 2022

如何基于现有的开源英文plato-2模型，搭建一个中文多轮对话机器人 #155

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

该plato代码怎么去训练中文模型呢 #25

该plato代码怎么去训练中文模型呢 #25

ShengXiaoXiao commented Aug 13, 2020

sserdoubleh commented Aug 13, 2020 •

edited

该plato代码怎么去训练中文模型呢 #25

该plato代码怎么去训练中文模型呢 #25

Comments

ShengXiaoXiao commented Aug 13, 2020

sserdoubleh commented Aug 13, 2020 • edited

sserdoubleh commented Aug 13, 2020 •

edited