Skip to content

Updated Chinese Segmentor Evalution - Java - Latest versions of 2017.12

License

Notifications You must be signed in to change notification settings

bigdong89/cws_evaluation

 
 

Repository files navigation

Chinese Segmentor Evaluation

中文分词器分词效果评估对比

Fork it from https://github.com/ysc/cws_evaluation All libraries are updated to latest versions in 2017.12.15. The following reports are updated at the same time.

Original link from forked project:

使用说明:

如何建立开发环境?

如果是使用Netbeans、IDEA,则直接打开项目
如果是使用Eclipse、MyEclipse,则要执行导入操作
推荐使用IDEA

评估采用的测试文本位于data目录下,253 3709行,共2837 4490个字符

test-test.txt为未分词的文件,一行一个句子或短语,格式如下:

   迈向充满希望的新世纪
   一九九八年新年讲话
   附图片1张
   中共中央总书记
   国家主席江泽民
   一九九七年十二月三十一日
   12月31日
   总书记
   国家主席江泽民发表1998年新年讲话
   新华社记者兰红光摄

standard-text.txt为人工分好词的文件,用于判断参与评估的分词器的分词结果是否正确,词和词之间以空格分隔,格式如下:

   迈向 充满 希望 的 新 世纪
   一九九八年 新年 讲话
   附 图片 1 张
   中共中央 总书记
   国家 主席 江泽民
   一九九七年 十二月 三十一日
   12月 31日
   总书记
   国家 主席 江泽民 发表 1998年 新年 讲话
   新华社 记者 兰红光 摄

speed-test-text.txt用于纯粹的速度对比

注意:由于每个分词器的词典格式不一致,除了词典之外使用的其他模型的格式也不一致,所以我们评估对比时没有让所有分词器使用统一的词典和模型,测试的是各个分词器的默认行为

运行org.apdplat.evaluation.Evaluator类可获得评估结果

运行org.apdplat.evaluation.WordSegmenter类可对比不同分词器结果

windows:

   ./contrast.bat
   ./evaluation.bat

linux:

   chmod +x contrast.sh & ./contrast.sh
   chmod +x evaluation.sh & ./evaluation.sh

最终评估结果文件位于report目录下:分词效果评估报告.txt

注意:stanford分词器是吃内存的怪兽,运行的时候需要增加虚拟机参数 -Xms3000m -Xmx3000m

评估报告:

按行数完美率排序:

1、HanLP分词器 标准分词:
分词速度:769.2482 字符/毫秒
行数完美率:70.19%  行数错误率:29.8%  总的行数:2533709  完美行数:1778575  错误行数:755134
字数完美率:62.92% 字数错误率:37.07% 总的字数:28374490 完美字数:17854059 错误字数:10520431

2、word分词 最大Ngram分值算法:
分词速度:348.3285 字符/毫秒
行数完美率:64.37%  行数错误率:35.62%  总的行数:2533709  完美行数:1631086  错误行数:902623
字数完美率:58.39% 字数错误率:41.6% 总的字数:28374490 完美字数:16570133 错误字数:11804357

3、HanLP分词器 NLP分词:
分词速度:405.263 字符/毫秒
行数完美率:63.93%  行数错误率:36.06%  总的行数:2533709  完美行数:1619910  错误行数:913799
字数完美率:54.98% 字数错误率:45.01% 总的字数:28374490 完美字数:15601166 错误字数:12773324

4、word分词 最少词数算法:
分词速度:445.82434 字符/毫秒
行数完美率:63.66%  行数错误率:36.33%  总的行数:2533709  完美行数:1613198  错误行数:920511
字数完美率:57.76% 字数错误率:42.23% 总的字数:28374490 完美字数:16391548 错误字数:11982942

5、Ansj NlpAnalysis NLP分词:
分词速度:253.38213 字符/毫秒
行数完美率:59.46%  行数错误率:40.53%  总的行数:2533709  完美行数:1506788  错误行数:1026921
字数完美率:51.04% 字数错误率:48.95% 总的字数:28374490 完美字数:14483533 错误字数:13890957

6、Ansj ToAnalysis 精准分词:
分词速度:1372.8706 字符/毫秒
行数完美率:58.77%  行数错误率:41.22%  总的行数:2533709  完美行数:1489226  错误行数:1044483
字数完美率:51.08% 字数错误率:48.91% 总的字数:28374490 完美字数:14495246 错误字数:13879244

7、Ansj IndexAnalysis 面向索引的分词:
分词速度:1117.2819 字符/毫秒
行数完美率:58.77%  行数错误率:41.22%  总的行数:2533709  完美行数:1489226  错误行数:1044483
字数完美率:51.08% 字数错误率:48.91% 总的字数:28374490 完美字数:14495246 错误字数:13879244

8、HanLP分词器 最短路径分词:
分词速度:389.0487 字符/毫秒
行数完美率:56.82%  行数错误率:43.17%  总的行数:2533709  完美行数:1439866  错误行数:1093843
字数完美率:47.76% 字数错误率:52.23% 总的字数:28374490 完美字数:13552383 错误字数:14822107

9、HanLP分词器 N-最短路径分词:
分词速度:225.89896 字符/毫秒
行数完美率:56.82%  行数错误率:43.17%  总的行数:2533709  完美行数:1439878  错误行数:1093831
字数完美率:48.4% 字数错误率:51.59% 总的字数:28374490 完美字数:13735449 错误字数:14639041

10、Ansj BaseAnalysis 基本分词:
分词速度:1816.7812 字符/毫秒
行数完美率:55.43%  行数错误率:44.56%  总的行数:2533709  完美行数:1404632  错误行数:1129077
字数完美率:48.16% 字数错误率:51.83% 总的字数:28374490 完美字数:13665209 错误字数:14709281

11、word分词 全切分算法:
分词速度:68.88785 字符/毫秒
行数完美率:55.41%  行数错误率:44.58%  总的行数:2533709  完美行数:1404166  错误行数:1129543
字数完美率:46.14% 字数错误率:53.85% 总的字数:28374490 完美字数:13092731 错误字数:15281759

12、smartcn:
分词速度:558.24524 字符/毫秒
行数完美率:55.29%  行数错误率:44.7%  总的行数:2533690  完美行数:1401069  错误行数:1132621
字数完美率:48.03% 字数错误率:51.96% 总的字数:28374433 完美字数:13628910 错误字数:14745523

13、HanLP分词器 极速词典分词:
分词速度:6490.048 字符/毫秒
行数完美率:54.29%  行数错误率:45.7%  总的行数:2533709  完美行数:1375687  错误行数:1158022
字数完美率:46.16% 字数错误率:53.83% 总的字数:28374490 完美字数:13098750 错误字数:15275740

14、word分词 双向最大最小匹配算法:
分词速度:393.02026 字符/毫秒
行数完美率:51.84%  行数错误率:48.15%  总的行数:2533709  完美行数:1313613  错误行数:1220096
字数完美率:41.88% 字数错误率:58.11% 总的字数:28374490 完美字数:11884590 错误字数:16489900

15、FudanNLP:
分词速度:136.39156 字符/毫秒
行数完美率:51.48%  行数错误率:48.51%  总的行数:2533709  完美行数:1304371  错误行数:1229338
字数完美率:43.22% 字数错误率:56.77% 总的字数:28374490 完美字数:12265742 错误字数:16108748

16、Jieba SEARCH:
分词速度:978.49817 字符/毫秒
行数完美率:50.84%  行数错误率:49.15%  总的行数:2533709  完美行数:1288237  错误行数:1245472
字数完美率:41.54% 字数错误率:58.45% 总的字数:28374490 完美字数:11789036 错误字数:16585454

17、HanLP分词器 索引分词:
分词速度:917.82275 字符/毫秒
行数完美率:49.61%  行数错误率:50.38%  总的行数:2533709  完美行数:1256977  错误行数:1276732
字数完美率:38.84% 字数错误率:61.15% 总的字数:28374490 完美字数:11023172 错误字数:17351318

18、Jcseg 复杂模式:
分词速度:540.96106 字符/毫秒
行数完美率:47.96%  行数错误率:52.03%  总的行数:2533709  完美行数:1215171  错误行数:1318538
字数完美率:38.84% 字数错误率:61.15% 总的字数:28374490 完美字数:11021588 错误字数:17352902

19、word分词 双向最小匹配算法:
分词速度:706.0263 字符/毫秒
行数完美率:45.22%  行数错误率:54.77%  总的行数:2533709  完美行数:1145802  错误行数:1387907
字数完美率:35.03% 字数错误率:64.96% 总的字数:28374490 完美字数:9940308 错误字数:18434182

20、word分词 双向最大匹配算法:
分词速度:705.2191 字符/毫秒
行数完美率:45.16%  行数错误率:54.83%  总的行数:2533709  完美行数:1144295  错误行数:1389414
字数完美率:34.71% 字数错误率:65.28% 总的字数:28374490 完美字数:9851233 错误字数:18523257

21、Jcseg 简易模式:
分词速度:1147.3248 字符/毫秒
行数完美率:44.59%  行数错误率:55.4%  总的行数:2533709  完美行数:1130000  错误行数:1403709
字数完美率:35.78% 字数错误率:64.21% 总的字数:28374490 完美字数:10155059 错误字数:18219431

22、word分词 正向最大匹配算法:
分词速度:1282.0573 字符/毫秒
行数完美率:40.97%  行数错误率:59.02%  总的行数:2533709  完美行数:1038171  错误行数:1495538
字数完美率:30.54% 字数错误率:69.45% 总的字数:28374490 完美字数:8668352 错误字数:19706138

23、word分词 逆向最大匹配算法:
分词速度:1405.8608 字符/毫秒
行数完美率:40.8%  行数错误率:59.19%  总的行数:2533709  完美行数:1033996  错误行数:1499713
字数完美率:30.2% 字数错误率:69.79% 总的字数:28374490 完美字数:8571094 错误字数:19803396

24、word分词 逆向最小匹配算法:
分词速度:1525.1823 字符/毫秒
行数完美率:40.49%  行数错误率:59.5%  总的行数:2533709  完美行数:1026068  错误行数:1507641
字数完美率:30.51% 字数错误率:69.48% 总的字数:28374490 完美字数:8657492 错误字数:19716998

25、MMSeg4j ComplexSeg:
分词速度:1703.2529 字符/毫秒
行数完美率:38.81%  行数错误率:61.18%  总的行数:2533688  完美行数:983517  错误行数:1550171
字数完美率:29.6% 字数错误率:70.39% 总的字数:28374428 完美字数:8400089 错误字数:19974339

26、MMSeg4j SimpleSeg:
分词速度:2508.7966 字符/毫秒
行数完美率:37.57%  行数错误率:62.42%  总的行数:2533688  完美行数:951909  错误行数:1581779
字数完美率:28.45% 字数错误率:71.54% 总的字数:28374428 完美字数:8074021 错误字数:20300407

27、IKAnalyzer 智能切分:
分词速度:320.01544 字符/毫秒
行数完美率:37.55%  行数错误率:62.44%  总的行数:2533686  完美行数:951638  错误行数:1582048
字数完美率:27.97% 字数错误率:72.02% 总的字数:28374416 完美字数:7938726 错误字数:20435690

28、Jieba INDEX:
分词速度:994.47955 字符/毫秒
行数完美率:36.02%  行数错误率:63.97%  总的行数:2533709  完美行数:912771  错误行数:1620938
字数完美率:25.9% 字数错误率:74.09% 总的字数:28374490 完美字数:7351689 错误字数:21022801

29、word分词 正向最小匹配算法:
分词速度:1755.7385 字符/毫秒
行数完美率:35.78%  行数错误率:64.21%  总的行数:2533709  完美行数:906607  错误行数:1627102
字数完美率:25.92% 字数错误率:74.07% 总的字数:28374490 完美字数:7356412 错误字数:21018078

30、MMSeg4j MaxWordSeg:
分词速度:1986.7308 字符/毫秒
行数完美率:34.27%  行数错误率:65.72%  总的行数:2533688  完美行数:868440  错误行数:1665248
字数完美率:25.2% 字数错误率:74.79% 总的字数:28374428 完美字数:7152898 错误字数:21221530

31、IKAnalyzer 细粒度切分:
分词速度:340.026 字符/毫秒
行数完美率:18.87%  行数错误率:81.12%  总的行数:2533686  完美行数:478176  错误行数:2055510
字数完美率:10.93% 字数错误率:89.06% 总的字数:28374416 完美字数:3103178 错误字数:25271238

32、word分词 针对纯英文文本的分词算法:
分词速度:6068.112 字符/毫秒
行数完美率:1.28%  行数错误率:98.71%  总的行数:30726  完美行数:396  错误行数:30330
字数完美率:0.61% 字数错误率:99.38% 总的字数:516209 完美字数:3192 错误字数:513017

评估耗时:34分钟,20秒,607毫秒

重点说明:(No test of Paoding and Stanford in 2017.12)
		关于分词速度,这个不是绝对的,每次测试都会有些差距,而完美率是固定的,所以按行数完美率排名
		上面的评估报告中没有包括Stanford分词器和Paoding分词器
		当前代码已经移除了Paoding分词器,因为Paoding分词器已经7年没有维护了
		当前代码升级Stanford分词器到3.5.2,速度慢的无法等待评估完成,仅用于交互式效果对比
		下面是之前代码对 Paoding分词器2.0.4-beta 和 Stanford分词器 3.3.1 的评估数据

Stanford Beijing University segmentation:
分词速度:14.4612055 字符/毫秒
行数完美率:58.29%  行数错误率:41.7%  总的行数:2533709  完美行数:1477034  错误行数:1056675
字数完美率:51.36% 字数错误率:48.63% 总的字数:28374490 完美字数:14574120 错误字数:13800370

Stanford Chinese Treebank segmentation:
分词速度:13.723294 字符/毫秒
行数完美率:55.45%  行数错误率:44.54%  总的行数:2533709  完美行数:1404968  错误行数:1128741
字数完美率:47.27% 字数错误率:52.72% 总的字数:28374490 完美字数:13414926 错误字数:14959564

Paoding MAX_WORD_LENGTH_MODE:
分词速度:1343.1075 字符/毫秒
行数完美率:14.19%  行数错误率:85.8%  总的行数:2533158  完美行数:359637  错误行数:2173521
字数完美率:7.72% 字数错误率:92.27% 总的字数:28373102 完美字数:2191349 错误字数:26181753

Paoding MOST_WORDS_MODE:
分词速度:1338.9246 字符/毫秒
行数完美率:11.6%  行数错误率:88.39%  总的行数:2533158  完美行数:294011  错误行数:2239147
字数完美率:5.92% 字数错误率:94.07% 总的字数:28373102 完美字数:1680261 错误字数:26692841

效果对比:

1、以 我爱楚离陌 为例子:

word分词器 的分词结果:
	1 、【全切分算法】	我 爱 楚离陌 
	2 、【双向最大最小匹配算法】	我 爱 楚离陌 
	3 、【最大Ngram分值算法】	我 爱 楚离陌 
	4 、【正向最大匹配算法】	我 爱 楚离陌 
	5 、【双向最大匹配算法】	我 爱 楚离陌 
	6 、【最少词数算法】	我 爱 楚离陌 
	7 、【逆向最大匹配算法】	我 爱 楚离陌 
	8 、【正向最小匹配算法】	我 爱 楚离陌 
	9 、【双向最小匹配算法】	我 爱 楚离陌 
	10 、【逆向最小匹配算法】	我 爱 楚离陌 
Stanford分词器 的分词结果:
	1 、【Stanford Chinese Treebank segmentation】	我 爱 楚离陌 
	2 、【Stanford Beijing University segmentation】	我 爱 楚 离陌 
Ansj分词器 的分词结果:
	1 、【BaseAnalysis】	我 爱 楚 离 陌 
	2 、【IndexAnalysis】	我 爱 楚 离 陌 
	3 、【ToAnalysis】	我 爱 楚 离 陌 
	4 、【NlpAnalysis】	我 爱 楚离 陌 
HanLP分词器 的分词结果:
	1 、【NLP分词】 我 爱 楚 离 陌 
	2 、【标准分词】  我 爱 楚 离 陌 
	3 、【N-最短路径分词】  我 爱 楚 离 陌 
	4 、【索引分词】  我 爱 楚 离 陌 
	5 、【最短路径分词】    我 爱 楚 离 陌 
	6 、【极速词典分词】    我 爱 楚 离 陌 
smartcn分词器 的分词结果:
	1 、【smartcn】	我 爱 楚 离 陌 
FudanNLP分词器 的分词结果:
	1 、【FudanNLP】	我 爱楚离陌
Jieba分词器 的分词结果:
	1 、【SEARCH】	我爱楚 离 陌 
	2 、【INDEX】	我爱楚 离 陌 
Jcseg分词器 的分词结果:
	1 、【简易模式】	我 爱 楚 离 陌 
	2 、【复杂模式】	我 爱 楚 离 陌 
MMSeg4j分词器 的分词结果:
	1 、【SimpleSeg】	我爱 楚 离 陌 
	2 、【ComplexSeg】	我爱 楚 离 陌 
	3 、【MaxWordSeg】	我爱 楚 离 陌 
IKAnalyzer分词器 的分词结果:
	1 、【智能切分】	我 爱 楚 离 陌 
	2 、【细粒度切分】	我 爱 楚 离 陌 

2、以 结合成分子 为例子:

word分词器 的分词结果:
	1 、【全切分算法】	结合 成 分子 
	2 、【双向最大最小匹配算法】	结 合成 分子 
	3 、【最大Ngram分值算法】	结合 成 分子 
	4 、【正向最大匹配算法】	结合 成分 子 
	5 、【双向最大匹配算法】	结 合成 分子 
	6 、【最少词数算法】	结合 成 分子 
	7 、【逆向最大匹配算法】	结 合成 分子 
	8 、【正向最小匹配算法】	结合 成分 子 
	9 、【双向最小匹配算法】	结 合成 分子 
	10 、【逆向最小匹配算法】	结 合成 分子 
Stanford分词器 的分词结果:
	1 、【Stanford Chinese Treebank segmentation】	结合 成 分子 
	2 、【Stanford Beijing University segmentation】	结合 成 分子 
Ansj分词器 的分词结果:
	1 、【BaseAnalysis】	结合 成 分子 
	2 、【IndexAnalysis】	结合 成 分子 
	3 、【ToAnalysis】	结合 成 分子 
	4 、【NlpAnalysis】	结合 成 分子 
HanLP分词器 的分词结果:
	1 、【NLP分词】	结合 成 分子 
	2 、【标准分词】	结合 成 分子 
	3 、【N-最短路径分词】	结合 成 分子 
	4 、【索引分词】	结合 成 分子 
	5 、【最短路径分词】	结合 成 分子 
	6 、【极速词典分词】	结合 成分 子 
smartcn分词器 的分词结果:
	1 、【smartcn】	结合 成 分子 
FudanNLP分词器 的分词结果:
	1 、【FudanNLP】	结合 成 分子
Jieba分词器 的分词结果:
	1 、【SEARCH】	结合 成 分子 
	2 、【INDEX】	结合 成 分子 
Jcseg分词器 的分词结果:
	1 、【简易模式】	结合 成分 子 
	2 、【复杂模式】	结合 成 分子 
MMSeg4j分词器 的分词结果:
	1 、【SimpleSeg】	结合 成分 子 
	2 、【ComplexSeg】	结合 成分 子 
	3 、【MaxWordSeg】	结合 成分 子 
IKAnalyzer分词器 的分词结果:
	1 、【智能切分】	结合 成 分子 
	2 、【细粒度切分】	结合 合成 成分 分子

速度对比:

按分词速度排序:

1、HanLP分词器 极速词典分词:
分词速度:6490.048 字符/毫秒
行数完美率:54.29%  行数错误率:45.7%  总的行数:2533709  完美行数:1375687  错误行数:1158022
字数完美率:46.16% 字数错误率:53.83% 总的字数:28374490 完美字数:13098750 错误字数:15275740

2、word分词 针对纯英文文本的分词算法:
分词速度:6068.112 字符/毫秒
行数完美率:1.28%  行数错误率:98.71%  总的行数:30726  完美行数:396  错误行数:30330
字数完美率:0.61% 字数错误率:99.38% 总的字数:516209 完美字数:3192 错误字数:513017

3、MMSeg4j SimpleSeg:
分词速度:2508.7966 字符/毫秒
行数完美率:37.57%  行数错误率:62.42%  总的行数:2533688  完美行数:951909  错误行数:1581779
字数完美率:28.45% 字数错误率:71.54% 总的字数:28374428 完美字数:8074021 错误字数:20300407

4、MMSeg4j MaxWordSeg:
分词速度:1986.7308 字符/毫秒
行数完美率:34.27%  行数错误率:65.72%  总的行数:2533688  完美行数:868440  错误行数:1665248
字数完美率:25.2% 字数错误率:74.79% 总的字数:28374428 完美字数:7152898 错误字数:21221530

5、Ansj BaseAnalysis 基本分词:
分词速度:1816.7812 字符/毫秒
行数完美率:55.43%  行数错误率:44.56%  总的行数:2533709  完美行数:1404632  错误行数:1129077
字数完美率:48.16% 字数错误率:51.83% 总的字数:28374490 完美字数:13665209 错误字数:14709281

6、word分词 正向最小匹配算法:
分词速度:1755.7385 字符/毫秒
行数完美率:35.78%  行数错误率:64.21%  总的行数:2533709  完美行数:906607  错误行数:1627102
字数完美率:25.92% 字数错误率:74.07% 总的字数:28374490 完美字数:7356412 错误字数:21018078

7、MMSeg4j ComplexSeg:
分词速度:1703.2529 字符/毫秒
行数完美率:38.81%  行数错误率:61.18%  总的行数:2533688  完美行数:983517  错误行数:1550171
字数完美率:29.6% 字数错误率:70.39% 总的字数:28374428 完美字数:8400089 错误字数:19974339

8、word分词 逆向最小匹配算法:
分词速度:1525.1823 字符/毫秒
行数完美率:40.49%  行数错误率:59.5%  总的行数:2533709  完美行数:1026068  错误行数:1507641
字数完美率:30.51% 字数错误率:69.48% 总的字数:28374490 完美字数:8657492 错误字数:19716998

9、word分词 逆向最大匹配算法:
分词速度:1405.8608 字符/毫秒
行数完美率:40.8%  行数错误率:59.19%  总的行数:2533709  完美行数:1033996  错误行数:1499713
字数完美率:30.2% 字数错误率:69.79% 总的字数:28374490 完美字数:8571094 错误字数:19803396

10、Ansj ToAnalysis 精准分词:
分词速度:1372.8706 字符/毫秒
行数完美率:58.77%  行数错误率:41.22%  总的行数:2533709  完美行数:1489226  错误行数:1044483
字数完美率:51.08% 字数错误率:48.91% 总的字数:28374490 完美字数:14495246 错误字数:13879244

11、word分词 正向最大匹配算法:
分词速度:1282.0573 字符/毫秒
行数完美率:40.97%  行数错误率:59.02%  总的行数:2533709  完美行数:1038171  错误行数:1495538
字数完美率:30.54% 字数错误率:69.45% 总的字数:28374490 完美字数:8668352 错误字数:19706138

12、Jcseg 简易模式:
分词速度:1147.3248 字符/毫秒
行数完美率:44.59%  行数错误率:55.4%  总的行数:2533709  完美行数:1130000  错误行数:1403709
字数完美率:35.78% 字数错误率:64.21% 总的字数:28374490 完美字数:10155059 错误字数:18219431

13、Ansj IndexAnalysis 面向索引的分词:
分词速度:1117.2819 字符/毫秒
行数完美率:58.77%  行数错误率:41.22%  总的行数:2533709  完美行数:1489226  错误行数:1044483
字数完美率:51.08% 字数错误率:48.91% 总的字数:28374490 完美字数:14495246 错误字数:13879244

14、Jieba INDEX:
分词速度:994.47955 字符/毫秒
行数完美率:36.02%  行数错误率:63.97%  总的行数:2533709  完美行数:912771  错误行数:1620938
字数完美率:25.9% 字数错误率:74.09% 总的字数:28374490 完美字数:7351689 错误字数:21022801

15、Jieba SEARCH:
分词速度:978.49817 字符/毫秒
行数完美率:50.84%  行数错误率:49.15%  总的行数:2533709  完美行数:1288237  错误行数:1245472
字数完美率:41.54% 字数错误率:58.45% 总的字数:28374490 完美字数:11789036 错误字数:16585454

16、HanLP分词器 索引分词:
分词速度:917.82275 字符/毫秒
行数完美率:49.61%  行数错误率:50.38%  总的行数:2533709  完美行数:1256977  错误行数:1276732
字数完美率:38.84% 字数错误率:61.15% 总的字数:28374490 完美字数:11023172 错误字数:17351318

17、HanLP分词器 标准分词:
分词速度:769.2482 字符/毫秒
行数完美率:70.19%  行数错误率:29.8%  总的行数:2533709  完美行数:1778575  错误行数:755134
字数完美率:62.92% 字数错误率:37.07% 总的字数:28374490 完美字数:17854059 错误字数:10520431

18、word分词 双向最小匹配算法:
分词速度:706.0263 字符/毫秒
行数完美率:45.22%  行数错误率:54.77%  总的行数:2533709  完美行数:1145802  错误行数:1387907
字数完美率:35.03% 字数错误率:64.96% 总的字数:28374490 完美字数:9940308 错误字数:18434182

19、word分词 双向最大匹配算法:
分词速度:705.2191 字符/毫秒
行数完美率:45.16%  行数错误率:54.83%  总的行数:2533709  完美行数:1144295  错误行数:1389414
字数完美率:34.71% 字数错误率:65.28% 总的字数:28374490 完美字数:9851233 错误字数:18523257

20、smartcn:
分词速度:558.24524 字符/毫秒
行数完美率:55.29%  行数错误率:44.7%  总的行数:2533690  完美行数:1401069  错误行数:1132621
字数完美率:48.03% 字数错误率:51.96% 总的字数:28374433 完美字数:13628910 错误字数:14745523

21、Jcseg 复杂模式:
分词速度:540.96106 字符/毫秒
行数完美率:47.96%  行数错误率:52.03%  总的行数:2533709  完美行数:1215171  错误行数:1318538
字数完美率:38.84% 字数错误率:61.15% 总的字数:28374490 完美字数:11021588 错误字数:17352902

22、word分词 最少词数算法:
分词速度:445.82434 字符/毫秒
行数完美率:63.66%  行数错误率:36.33%  总的行数:2533709  完美行数:1613198  错误行数:920511
字数完美率:57.76% 字数错误率:42.23% 总的字数:28374490 完美字数:16391548 错误字数:11982942

23、HanLP分词器 NLP分词:
分词速度:405.263 字符/毫秒
行数完美率:63.93%  行数错误率:36.06%  总的行数:2533709  完美行数:1619910  错误行数:913799
字数完美率:54.98% 字数错误率:45.01% 总的字数:28374490 完美字数:15601166 错误字数:12773324

24、word分词 双向最大最小匹配算法:
分词速度:393.02026 字符/毫秒
行数完美率:51.84%  行数错误率:48.15%  总的行数:2533709  完美行数:1313613  错误行数:1220096
字数完美率:41.88% 字数错误率:58.11% 总的字数:28374490 完美字数:11884590 错误字数:16489900

25、HanLP分词器 最短路径分词:
分词速度:389.0487 字符/毫秒
行数完美率:56.82%  行数错误率:43.17%  总的行数:2533709  完美行数:1439866  错误行数:1093843
字数完美率:47.76% 字数错误率:52.23% 总的字数:28374490 完美字数:13552383 错误字数:14822107

26、word分词 最大Ngram分值算法:
分词速度:348.3285 字符/毫秒
行数完美率:64.37%  行数错误率:35.62%  总的行数:2533709  完美行数:1631086  错误行数:902623
字数完美率:58.39% 字数错误率:41.6% 总的字数:28374490 完美字数:16570133 错误字数:11804357

27、IKAnalyzer 细粒度切分:
分词速度:340.026 字符/毫秒
行数完美率:18.87%  行数错误率:81.12%  总的行数:2533686  完美行数:478176  错误行数:2055510
字数完美率:10.93% 字数错误率:89.06% 总的字数:28374416 完美字数:3103178 错误字数:25271238

28、IKAnalyzer 智能切分:
分词速度:320.01544 字符/毫秒
行数完美率:37.55%  行数错误率:62.44%  总的行数:2533686  完美行数:951638  错误行数:1582048
字数完美率:27.97% 字数错误率:72.02% 总的字数:28374416 完美字数:7938726 错误字数:20435690

29、Ansj NlpAnalysis NLP分词:
分词速度:253.38213 字符/毫秒
行数完美率:59.46%  行数错误率:40.53%  总的行数:2533709  完美行数:1506788  错误行数:1026921
字数完美率:51.04% 字数错误率:48.95% 总的字数:28374490 完美字数:14483533 错误字数:13890957

30、HanLP分词器 N-最短路径分词:
分词速度:225.89896 字符/毫秒
行数完美率:56.82%  行数错误率:43.17%  总的行数:2533709  完美行数:1439878  错误行数:1093831
字数完美率:48.4% 字数错误率:51.59% 总的字数:28374490 完美字数:13735449 错误字数:14639041

31、FudanNLP:
分词速度:136.39156 字符/毫秒
行数完美率:51.48%  行数错误率:48.51%  总的行数:2533709  完美行数:1304371  错误行数:1229338
字数完美率:43.22% 字数错误率:56.77% 总的字数:28374490 完美字数:12265742 错误字数:16108748

32、word分词 全切分算法:
分词速度:68.88785 字符/毫秒
行数完美率:55.41%  行数错误率:44.58%  总的行数:2533709  完美行数:1404166  错误行数:1129543
字数完美率:46.14% 字数错误率:53.85% 总的字数:28374490 完美字数:13092731 错误字数:15281759

支持的分词器有:

1、word分词器

2、ansj分词器

3、mmseg4j分词器

4、ik-analyzer分词器

5、jcseg分词器

6、fudannlp分词器

7、smartcn分词器

8、jieba分词器

9、stanford分词器

10、hanlp分词器

https://travis-ci.org/ysc/cws_evaluation

About

Updated Chinese Segmentor Evalution - Java - Latest versions of 2017.12

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Lex 98.5%
  • Java 1.2%
  • Other 0.3%