medical-Wo-BERT

以词为基本单位的中文BERT（Word-based BERT）加入医学专业词典进行训练

详情

训练

目前开源的WoBERT是Base版本，在哈工大开源的RoBERTa-wwm-ext基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer切分为字，然后用字embedding的平均作为词embedding的初始化。模型使用单张24G的RTX训练了100万步（大概训练了10天），序列长度为512，学习率为5e-6，batch_size为16，累积梯度16步，相当于batch_size=256训练了6万步左右。训练语料大概是30多G的通用型语料。

此外，我们还提供了WoNEZHA，这是基于华为开源的NEZHA进行再预训练的，训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似，不同的是它使用了相对位置编码，而BERT用的是绝对位置编码，因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA，就是让大家多一个选择。

依赖

pip install bert4keras==0.8.8

下载

WoBERT: chinese_wobert_L-12_H-768_A-12.zip, 提取码: kim2
WoNEZHA: chinese_wonezha_L-12_H-768_A-12.zip, 提取码: qgkq

引用

Bibtex：

@techreport{zhuiyipretrainedmodels,
  title={WoBERT: Word-based Chinese BERT model - ZhuiyiAI},
  author={Jianlin Su},
  year={2020},
  url="https://github.com/ZhuiyiTechnology/WoBERT",
}

联系

邮箱：ai@wezhuiyi.com 追一科技：https://zhuiyi.ai

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
data		data
pretake		pretake
test		test
README.md		README.md
answer_train.py		answer_train.py
train.py		train.py
train.yml		train.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

medical-Wo-BERT

详情

训练

依赖

下载

引用

联系

About

Releases

Packages

Languages

natureLanguageQing/Medical_WoBERT

Folders and files

Latest commit

History

Repository files navigation

medical-Wo-BERT

详情

训练

依赖

下载

引用

联系

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages