bert4keras

Our light reimplement of bert for keras
更清晰、更轻量级的keras版bert
个人博客：https://kexue.fm/

说明

这是笔者重新实现的keras版的bert，致力于用尽可能清爽的代码来实现结合bert和keras。

本项目的初衷是为了修改、定制上的方便，所以可能会频繁更新。

因此欢迎star，但不建议fork，因为你fork下来的版本可能很快就过期了。

功能

目前已经实现：

加载bert/roberta/albert的预训练权重进行finetune；
实现语言模型、seq2seq所需要的attention mask；
丰富的examples；
从零预训练代码（支持TPU、多GPU，请看pretraining）；
兼容keras、tf.keras

使用

快速安装：

pip install git+https://www.github.com/bojone/bert4keras.git

使用例子请参考examples目录。

之前基于keras-bert给出的例子，仍适用于本项目，只需要将bert_model的加载方式换成本项目的。

理论上兼容Python2和Python3，实验环境是Python 2.7、Tesorflow 1.13+以及Keras 2.3.1（已经在2.2.4、2.3.0、2.3.1、tf.keras下测试通过）。

当然，乐于贡献的朋友如果发现了某些bug的话，也欢迎指出修正甚至Pull Requests～

权重

目前支持加载的权重：

Google原版bert: https://github.com/google-research/bert
徐亮版roberta: https://github.com/brightmart/roberta_zh
哈工大版roberta: https://github.com/ymcui/Chinese-BERT-wwm
Google原版albert^[例子]: https://github.com/google-research/google-research/tree/master/albert
徐亮版albert: https://github.com/brightmart/albert_zh
华为的NEZHA: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA

（注：徐亮版albert的开源时间早于Google版albert，这导致早期徐亮版albert的权重与Google版的不完全一致，换言之两者不能直接相互替换。为了减少代码冗余，bert4keras的0.2.4及后续版本均只支持加载Google版以徐亮版中带Google字眼的权重。如果要加载早期版本的权重，请用0.2.3版本。）

更新

2019.12.27: 重构预训练代码，减少冗余；目前支持RoBERTa和GPT两种预训练方式。
2019.12.17: 适配华为的nezha权重，只需要在build_bert_model函数里加上model='nezha'；此外原来albert的加载方式albert=True改为model='albert'。
2019.12.16: 通过跟keras 2.3+版本类似的思路给低版本引入层中层功能，从而恢复对低于2.3.0版本的keras的支持。
2019.12.14: 新增Conditional Layer Normalization及相关demo。
2019.12.09: 各example的data_generator规范化；修复application='lm'时的一个错误。
2019.12.05: 优化tokenizer的do_lower_case，同时微调各个example。
2019.11.23: 将train.py重命名为optimizers.py，更新大量优化器实现，全面兼容keras和tf.keras。
2019.11.19: 将utils.py重命名为tokenizer.py。
2019.11.19: 想来想去，最后还是决定把snippets放到bert4keras.snippets下面去好了。
2019.11.18: 优化预训练权重加载逻辑，增加保存模型权重至Bert的checkpoint格式方法。
2019.11.17: ~~分离一些与Bert本身不直接相关的常用代码片段到python_snippets，供其它项目共用。~~
2019.11.11: 添加NSP部分。
2019.11.05: 适配google版albert，不再支持非Google版albert_zh。
2019.11.05: 以RoBERTa为例子的预训练代码开发完毕，同时支持TPU/多GPU训练，详见roberta。欢迎在此基础上构建更多的预训练代码。
2019.11.01: 逐步增加预训练相关代码，详见pretraining。
2019.10.28: 支持使用基于sentencepiece的tokenizer。
2019.10.25: 引入原生tokenizer。
2019.10.22: 引入梯度累积优化器。
2019.10.21: 为了简化代码结构，决定放弃keras 2.3.0之前的版本的支持，目前只支持keras 2.3.0+以及tf.keras。
2019.10.20: 应网友要求，现支持直接用model.save保存模型结构，用load_model加载整个模型（只需要在load_model之前执行from bert4keras.layers import *，不需要额外写custom_objects）。
2019.10.09: 已兼容tf.keras，同时在tf 1.13和tf 2.0下的tf.keras测试通过，通过设置环境变量TF_KERAS=1来切换tf.keras。
2019.10.09: 已兼容Keras 2.3.x，但只是临时方案，后续可能直接移除掉2.3之前版本的支持。
2019.10.02: 适配albert，能成功加载albert_zh的权重，只需要在load_pretrained_model函数里加上albert=True。

背景

之前一直用CyberZHG大佬的keras-bert，如果纯粹只是为了在keras下对bert进行调用和fine tune来说，keras-bert已经足够能让人满意了。

然而，如果想要在加载官方预训练权重的基础上，对bert的内部结构进行修改，那么keras-bert就比较难满足我们的需求了，因为keras-bert为了代码的复用性，几乎将每个小模块都封装为了一个单独的库，比如keras-bert依赖于keras-transformer，而keras-transformer依赖于keras-multi-head，keras-multi-head依赖于keras-self-attention，这样一重重依赖下去，改起来就相当头疼了。

所以，我决定重新写一个keras版的bert，争取在几个文件内把它完整地实现出来，减少这些依赖性，并且保留可以加载官方预训练权重的特性。

鸣谢

感谢CyberZHG大佬实现的keras-bert，本实现有不少地方参考了keras-bert的源码，在此衷心感谢大佬的无私奉献。

交流

QQ交流群：67729435，微信群请加机器人微信号spaces_ac_cn

Name		Name	Last commit message	Last commit date
Latest commit History 721 Commits
bert4keras		bert4keras
examples		examples
pretraining		pretraining
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bert4keras

bert4keras

examples

examples

pretraining

pretraining

LICENSE

LICENSE

README.md

README.md

setup.py

setup.py

Repository files navigation

bert4keras

说明

功能

使用

权重

更新

背景

鸣谢

交流

About

Releases

Packages

Languages

License

salembe/bert4keras

Folders and files

Latest commit

History

Repository files navigation

bert4keras

说明

功能

使用

权重

更新

背景

鸣谢

交流

About

Resources

License

Stars

Watchers

Forks

Languages