##  Hanlp CRF API

In [5]:
from pyhanlp import *

CRFSegmenter = JClass('com.hankcs.hanlp.model.crf.CRFSegmenter')
CRFLexicalAnalyzer = JClass('com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer')
CWSEvaluator = SafeJClass('com.hankcs.hanlp.seg.common.CWSEvaluator')

TXT_CORPUS_PATH = "my_cws_corpus.txt"
TSV_CORPUS_PATH = TXT_CORPUS_PATH + ".tsv"
TEMPLATE_PATH = "cws_template"
CRF_MODEL_PATH = "crf-cws-model"
CRF_MODEL_TXT_PATH = "crf-cws-model.txt"

segmenter = CRFSegmenter(None)

# 转换语料和导出特征模板,对训练模型不是必须的
#segmenter.convertCorpus(TXT_CORPUS_PATH,TSV_CORPUS_PATH) # 语料转换
#segmenter.dumpTemplate(TEMPLATE_PATH)  # 导出特征模板

segmenter.train(TXT_CORPUS_PATH,CRF_MODEL_PATH)
model = CRFLexicalAnalyzer(CRF_MODEL_TXT_PATH).enableCustomDictionary(False)

In [13]:
list(model.segment("商品和服务"))

['商品', '和', '服务']

## 在MSR语料库上进行评测

In [7]:
import os
sighan05 = "第二届国际中文分词评测/icwb2-data/"
msr_dict = os.path.join(sighan05, 'gold', 'msr_training_words.utf8')
msr_train = os.path.join(sighan05, 'training','msr_training.utf8')
msr_test = os.path.join(sighan05, 'testing', 'msr_test.utf8')
msr_gold = os.path.join(sighan05, 'gold', 'msr_test_gold.utf8')
msr_output = "crf_data/msr_test_seg_result.txt" 

CRF_MODEL_PATH = "crf_data/crfpp-msr-model"
CRF_MODEL_TXT_PATH = "crf_data/crfpp-msr-model.txt"

### 训练

In [17]:
segmenter = CRFSegmenter(None)
segmenter.train(msr_train,CRF_MODEL_PATH)

P:28.02 R:24.60 F1:26.20 OOV-R:12.20 IV-R:24.93


### 测试

In [25]:
model = CRFLexicalAnalyzer(CRF_MODEL_TXT_PATH).enableCustomDictionary(False)
result = CWSEvaluator.evaluate(model, msr_test, msr_output, msr_gold, msr_dict)  # 预测打分
print(result)

P:96.73 R:96.34 F1:96.53 OOV-R:72.85 IV-R:96.98


### 查看分词结果

In [27]:
with open(msr_gold,encoding="utf-8") as gold, open(msr_output,encoding="utf-8") as output:
    cnt = 0
    gold_lines = gold.readlines()
    output_lines = output.readlines()
    for i in range(len(gold_lines)):
        print(gold_lines[i])
        print(output_lines[i])
        print("\n")
        cnt += 1
        if cnt > 10:
            break

扬帆  远东  做  与  中国  合作  的  先行  

扬帆  远东  做  与  中国  合作  的  先行



希腊  的  经济  结构  较  特殊  。

希腊  的  经济  结构  较  特殊  。



海运  业  雄踞  全球  之  首  ，  按  吨位  计  占  世界  总数  的  １７％  。

海运  业  雄踞  全球  之  首  ，  按  吨位  计  占  世界  总数  的  １７％  。



另外  旅游  、  侨汇  也是  经济  收入  的  重要  组成部分  ，  制造业  规模  相对  较小  。

另外  旅游  、  侨汇  也是  经济  收入  的  重要  组成部分  ，  制造业  规模  相对  较小  。



多年来  ，  中  希  贸易  始终  处于  较低  的  水平  ，  希腊  几乎  没有  在  中国  投资  。

多年来  ，  中希贸易  始终  处于  较低  的  水平  ，  希腊  几乎  没有  在  中国  投资  。



十几年  来  ，  改革开放  的  中国  经济  高速  发展  ，  远东  在  崛起  。

十几年  来  ，  改革开放  的  中国  经济  高速  发展  ，  远东  在  崛起  。



瓦西里斯  的  船只  中  有  ４０％  驶  向  远东  ，  每个  月  几乎  都  有  两三条  船  停靠  中国  港口  。

瓦西里斯  的  船只  中  有  ４０％  驶  向  远东  ，  每个月  几乎  都  有  两三条  船  停靠  中国  港口  。



他  感受  到  了  中国  经济  发展  的  大潮  。

他  感受  到  了  中国  经济  发展  的  大潮  。



他  要  与  中国人  合作  。

他  要  与  中国人  合作  。



他  来到  中国  ，  成为  第一个  访  华  的  大  船主  。

他  来到  中国  ，  成为  第一个  访  华  的  大  船主  。



访问  归来  ，  他  对  中国  发展  充满  信心  ，  他  向  希腊海运部  长

### 用我们自己的代码测试

In [9]:
from common import *
word_dict = load_dictionary(msr_dict)

model = CRFLexicalAnalyzer(CRF_MODEL_TXT_PATH).enableCustomDictionary(False)

with open(msr_gold,encoding="utf-8") as test, open(msr_output, 'w', encoding="utf-8") as output:
    for line in test:
        output.write("  ".join(model.segment(re.sub("\\s+", "", line))))
        output.write("\n")

print("P:%.2f R:%.2f F1:%.2f OOV-R:%.2f IV-R:%.2f" % prf(msr_gold, msr_output, word_dict))

P:96.73 R:96.34 F1:96.53 OOV-R:72.85 IV-R:96.98
