RisanLi / BiLSTM_CNN-CRF-CWS Public

Notifications You must be signed in to change notification settings
Fork 3
Star 11

采用样本迁移的BiLSTM拼接CNN，+CRF 做中文分词处理

11 stars 3 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
RPF_result/一次修改参数		RPF_result/一次修改参数
checkpoints		checkpoints
data		data
Model.py		Model.py
README.md		README.md
parameter.py		parameter.py
predict.py		predict.py
tools.py		tools.py
train.py		train.py

Repository files navigation

BiLSTM_CNN-CRF-CWS

使用基于样本迁移的双向LSTM和CNN拼接以及CRF预测中文分词结果

文件说明

序号	文件名	主要内容
1.	Model.py	建立BiLSTM_CNN+CRF模型
2.	tools.py	存放所有需要用到函数方法
3.	parameter.py	放置所有参数
4.	train.py	训练模型
5.	predict.py	预测模型

数据解释

序号	文件名	作用	备注
1.	WordSeg.txt	用作训练使用
2.	test.txt	测试集
3.	eva.txt	预测集
4.	pku_training.utf8	icws2中pku的标准训练预料	用来测试icws2 中的结果
5.	pku_test_[1-3]	icws2中pku的预测预料	用来预测模型分割该预料的结果
6.	pku_self.utf8	根据预测料分词后的效果	用作评测结果的输入
7.	pku_train_politics.utf8	样本迁移后的中文分词训练语料库
8.	pku_test_politics.utf8	用来预测政治领域分词
9.	pku_gold_politics.utf8	对8.中政治领域分词的正确分词结果	使用icwb2中的score测评

数据集和预测指令

下载icws2的语料库：icws2预料下载地址
进入icws2文件的script文件，输入一下指令:
./score ../gold/pku_training_words.utf8 ../gold/pku_test_gold.utf8 pku_self.utf8 > score.txt
详细用法可参考 52nlp
从score.txt中可以看到 RPF值

使用环境

pyCharm 2017 professional
python3.6
tensorflow1.8
MacOS Mojave

待完善

由于经验不足，代码中仍然存在不少bug，欢迎issue

About

采用样本迁移的BiLSTM拼接CNN，+CRF 做中文分词处理

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%