- CTB7 、PFR、ud1 三个目录下分别是三种语料
- CTB7目录下还有用 CTB7语料训练好的模型,可以直接使用
- Embedding 目录下有一个用 GloVe 训练的字向量
- 模型的训练参考 train_ctb7.sh 脚本,指定相应参数即可
- 模型测试参考脚本 test_ctb7.sh
- 直接对文件进行分词和词性标注参考 tag_raw.sh
- tagger.py 文件是整个程序的入口,各个参数有需要的话可以看一下注释
-
Notifications
You must be signed in to change notification settings - Fork 2
mryuan0428/Dlseg
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
基于深度学习的中文分词算法
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published