我第一次试这个hanlp,觉得分词很好,试了一些容易引起歧义句子,大部分没问题。以下4句是CRFSeg出错的:
"在这些企业中国有企业有十个",
"新建地铁中将禁止商业摊点",
"方程的解除了零以外还有其它的…",
"这的确定不下来",
CRFSeg的结果:
[在, 这些, 企业, 中国, 有, 企业, 有, 十个]
[新建, 地铁, 中将, 禁止, 商业, 摊点]
[方程, 的, 解除, 了, 零以外, 还有, 其它, 的, …]
[这, 的, 确定, 不, 下来]
segment(标准分词)的结果:
[在/p, 这些/rz, 企业/n, 中/f, 国有企业/nz, 有/vyou, 十/m, 个/q]
[新建/v, 地铁/n, 中/f, 将/d, 禁止/v, 商业/n, 摊点/n]
[方程/n, 的/ude1, 解除/v, 了/ule, 零/m, 以外/f, 还有/v, 其它/rz, 的/ude1, …/w]
[这/rzv, 的/ude1, 确定/v, 不/d, 下来/vf]
标准分词中前两个对了,后两个依然是错的。我的问题是:
1、segment使用的什么方法?
2、可以通过什么办法进一步改进分词的准确率吗?(你的分词准确率已经很好了)
谢谢!
Henry
我第一次试这个hanlp,觉得分词很好,试了一些容易引起歧义句子,大部分没问题。以下4句是CRFSeg出错的:
"在这些企业中国有企业有十个",
"新建地铁中将禁止商业摊点",
"方程的解除了零以外还有其它的…",
"这的确定不下来",
CRFSeg的结果:
[在, 这些, 企业, 中国, 有, 企业, 有, 十个]
[新建, 地铁, 中将, 禁止, 商业, 摊点]
[方程, 的, 解除, 了, 零以外, 还有, 其它, 的, …]
[这, 的, 确定, 不, 下来]
segment(标准分词)的结果:
[在/p, 这些/rz, 企业/n, 中/f, 国有企业/nz, 有/vyou, 十/m, 个/q]
[新建/v, 地铁/n, 中/f, 将/d, 禁止/v, 商业/n, 摊点/n]
[方程/n, 的/ude1, 解除/v, 了/ule, 零/m, 以外/f, 还有/v, 其它/rz, 的/ude1, …/w]
[这/rzv, 的/ude1, 确定/v, 不/d, 下来/vf]
标准分词中前两个对了,后两个依然是错的。我的问题是:
1、segment使用的什么方法?
2、可以通过什么办法进一步改进分词的准确率吗?(你的分词准确率已经很好了)
谢谢!
Henry