Skip to content

mryuan0428/Dlseg

Repository files navigation

中文分词与词性标注

  • CTB7 、PFR、ud1 三个目录下分别是三种语料
  • CTB7目录下还有用 CTB7语料训练好的模型,可以直接使用
  • Embedding 目录下有一个用 GloVe 训练的字向量
  • 模型的训练参考 train_ctb7.sh 脚本,指定相应参数即可
  • 模型测试参考脚本 test_ctb7.sh
  • 直接对文件进行分词和词性标注参考 tag_raw.sh
  • tagger.py 文件是整个程序的入口,各个参数有需要的话可以看一下注释

About

基于深度学习的中文分词算法

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published