Skip to content

ykf173/ChineseWordSegmentation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

30 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ChineseWordSegmentation

该项目中介绍了jieba,hanlp,snownlp,nlpir,pkuseg,thulac几个常用分词工具,并结合其分词性能与时间效率做了比较

实验流程介绍

分词工具安装

数据下载

实验

分词工具安装及使用

1、jieba

pip3 install jieba 

2、hanlp

pip3 install hanlp

3、pkuseg

pip3 install pkuseg

4、thulac

pip3 install thulac

5、snownlp

pip3 install snownlp

6、nlpir

pip3 install pynlpir

data目录结构

主要和本项目相关的目录,可以直接下载使用上边的数据集
data
 -icwb2
   -testing
   -gold
   -segment(该目录由程序生成)

项目运行

该项目共两个参数, 第一个参数为分词工具,其范围[hanlp,jieba,snownlp,nlpir,pkuseg,thulac] 第二个参数为分词的数据集[cityu, as, msr, pku]

python segment_score.py jieba as

About

该项目验证了当前最常用的中文分词工具,并结合其分词性能与时间效率做了比较

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages