Skip to content

和现有工具包的比较

jingjing edited this page Mar 6, 2019 · 3 revisions

细领域训练及测试结果

以下是在不同数据集上的对比结果:

MSRA Precision Recall F-score
jieba 87.01 89.88 88.42
THULAC 95.60 95.91 95.71
pkuseg 96.94 96.81 96.88
CTB8 Precision Recall F-score
jieba 88.63 85.71 87.14
THULAC 93.90 95.30 94.56
pkuseg 95.99 95.39 95.69
WEIBO Precision Recall F-score
jieba 87.79 87.54 87.66
THULAC 93.40 92.40 92.87
pkuseg 93.78 94.65 94.21

跨领域测试结果

我们选用了混合领域的CTB8语料的训练集进行训练,同时在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是,CTB8属于混合语料,理想情况下的效果会更好;而且在测试中我们发现在CTB8上训练的模型,所有工具包跨领域测试都可以获得更高的平均效果。以下是跨领域测试的结果:

CTB8 Training MSRA CTB8 PKU WEIBO All Average OOD Average
jieba 82.75 87.14 87.12 85.68 85.67 85.18
THULAC 83.50 94.56 89.13 91.00 89.55 87.88
pkuseg 83.67 95.69 89.67 91.19 90.06 88.18

其中,All Average显示的是在所有测试集(包括CTB8测试集)上F-score的平均,OOD Average (Out-of-domain Average)显示的是在除CTB8外其它测试集结果的平均。

默认模型在不同领域的测试效果

考虑到很多用户在尝试分词工具的时候,大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能,我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意,这样的比较只是为了说明默认情况下的效果,并不一定是公平的。

Default MSRA CTB8 PKU WEIBO All Average
jieba 81.45 79.58 81.83 83.56 81.61
THULAC 85.55 87.84 92.29 86.65 88.08
pkuseg 87.29 91.77 92.68 93.43 91.29

其中,All Average显示的是在所有测试集上F-score的平均。