bert-utils

本文基于Google开源的BERT代码进行了进一步的简化，方便生成句向量与做文本分类

1、下载BERT中文模型

下载地址: https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

2、把下载好的模型添加到当前目录下

3、句向量生成

生成句向量不需要做fine tune，使用预先训练好的模型即可，可参考extract_feature.py的main方法，注意参数必须是一个list。

首次生成句向量时需要加载graph，并在output_dir路径下生成一个新的graph文件，因此速度比较慢，再次调用速度会很快

from bert.extrac_feature import BertVector
bv = BertVector()
bv.encode(['今天天气不错'])

4、文本分类

文本分类需要做fine tune，首先把数据准备好存放在data目录下，训练集的名字必须为train.csv，验证集的名字必须为dev.csv，测试集的名字必须为test.csv，必须先调用set_mode方法，可参考similarity.py的main方法，

训练：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.TRAIN)
bs.train()

验证：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.EVAL)
bs.eval()

测试：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.PREDICT)
bs.test

5、DEMO中自带了蚂蚁金服的测试数据供大家使用，但该份数据区分度不大，建议使用QA_corpus数据集，这里给出地址

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
data		data
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
args.py		args.py
extract_feature.py		extract_feature.py
graph.py		graph.py
modeling.py		modeling.py
optimization.py		optimization.py
requirements.txt		requirements.txt
similarity.py		similarity.py
tokenization.py		tokenization.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

init.py

init.py

args.py

args.py

extract_feature.py

extract_feature.py

graph.py

graph.py

modeling.py

modeling.py

optimization.py

optimization.py

requirements.txt

requirements.txt

similarity.py

similarity.py

tokenization.py

tokenization.py

Repository files navigation

bert-utils

About

Releases

Packages

Languages

License

ScottishFold007/bert-utils

Folders and files

Latest commit

History

Repository files navigation

bert-utils

About

Resources

License

Stars

Watchers

Forks

Languages