# 中文分词

两个分词工具：

jieba默认模式是基于词典的匹配方案，同时也支持基于隐马尔可夫的模型。
pkuseg使用基于CRF的分词方案。

首先需要使用pip安装两个工具包。

In [None]:
# jupyter中有很多魔法命令，可以在notebook内直接执行终端命令
% pip install jieba 

In [1]:
import jieba
import pkuseg

## 普通分词模式

In [2]:
# pkuseg 需要初始化实例才可以使用
seg = pkuseg.pkuseg() # 以默认配置加载模型

In [3]:
example = "我来到北京北京大学。"
print(jieba.lcut(example))
print(seg.cut(example))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Geoffrey\AppData\Local\Temp\jieba.cache
Loading model cost 0.748 seconds.
Prefix dict has been built succesfully.


['我', '来到', '北京', '北京大学', '。']
['我', '来到', '北京', '北京大学', '。']


In [4]:
def compare(example, j=None, s=None):
    if j is None:  #？？
        j = jieba
    if s is None:  #？?
        s = seg
    print("input :", example)
    print("jieba :", j.lcut(example))
    print("pkuseg:", s.cut(example))
    print()

In [5]:
compare(example)
compare('我爱北京天安门。')

input : 我来到北京北京大学。
jieba : ['我', '来到', '北京', '北京大学', '。']
pkuseg: ['我', '来到', '北京', '北京大学', '。']

input : 我爱北京天安门。
jieba : ['我', '爱', '北京', '天安门', '。']
pkuseg: ['我', '爱', '北京', '天安门', '。']



In [6]:
hard_examples = [
    "沿海南方向逃跑",
    "他说的确实在理",
    "谢霆锋和张柏芝离婚了",
    "结婚的和尚未结婚的",
    "提高产品质量",
    "中外科学名著",
    "北京大学生前来应聘",
    "为人民服务",
    "独立自主和平等互利的原则",
    "为人民办公益",
    "这事的确定不下来",
    "这扇门把手",
    "把手抬起来",
    "学生会宣传部",
    "学生会主动完成作业",
    "学生会游戏",
    "研究生活水平",
    "中国有企业",
    "我爱美国手球",
    "中国喜欢狗",
    "中国热爱狗",
    "王军虎去广州了",
    "王军虎头虎脑的",
    "将军任命了一名中将",
    "产量三年中将增长两倍",
    "丰田太省了",
    "我们中出了一个叛徒",
]

In [7]:
long_examples=[
    "李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿",
    "例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类",
    "我喜欢自然语言处理和句法学"
]

In [8]:
def compare_many(examples, j=None, s=None):
    for example in examples:
        compare(example, j=j, s=s)  ###？？？？

In [9]:
compare_many(hard_examples)

input : 沿海南方向逃跑
jieba : ['沿海', '南方', '向', '逃跑']
pkuseg: ['沿海', '南方', '向', '逃跑']

input : 他说的确实在理
jieba : ['他', '说', '的', '确实', '在理']
pkuseg: ['他', '说', '的', '确实', '在理']

input : 谢霆锋和张柏芝离婚了
jieba : ['谢霆锋', '和', '张柏芝', '离婚', '了']
pkuseg: ['谢霆锋', '和', '张柏芝', '离婚', '了']

input : 结婚的和尚未结婚的
jieba : ['结婚', '的', '和', '尚未', '结婚', '的']
pkuseg: ['结婚', '的', '和尚', '未', '结婚', '的']

input : 提高产品质量
jieba : ['提高', '产品质量']
pkuseg: ['提高', '产品', '质量']

input : 中外科学名著
jieba : ['中外', '科学', '名著']
pkuseg: ['中外', '科学', '名著']

input : 北京大学生前来应聘
jieba : ['北京', '大学生', '前来', '应聘']
pkuseg: ['北京', '大学生', '前来', '应聘']

input : 为人民服务
jieba : ['为', '人民', '服务']
pkuseg: ['为', '人民', '服务']

input : 独立自主和平等互利的原则
jieba : ['独立自主', '和', '平等互利', '的', '原则']
pkuseg: ['独立自主', '和', '平等互利', '的', '原则']

input : 为人民办公益
jieba : ['为', '人民', '办', '公益']
pkuseg: ['为', '人民', '办', '公益']

input : 这事的确定不下来
jieba : ['这事', '的', '确定', '不', '下来']
pkuseg: ['这', '事', '的', '确定', '不', '下来']

input : 这扇门把手
jieba : ['这扇', '门把手']
pkuseg: ['这', '扇', '门', '

In [10]:
compare_many(long_examples)

input : 李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿
jieba : ['李小福', '是', '创新', '办', '主任', '也', '是', '云', '计算', '方面', '的', '专家', ';', ' ', '什么', '是', '八', '一双', '鹿']
pkuseg: ['李小福', '是', '创新办', '主任', '也', '是', '云计算', '方面', '的', '专家', ';', '什么', '是', '八一', '双', '鹿']

input : 例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类
jieba : ['例如', '我', '输入', '一个', '带', '“', '韩玉', '赏鉴', '”', '的', '标题', '，', '在', '自定义词', '库中', '也', '增加', '了', '此', '词为', 'N', '类']
pkuseg: ['例如', '我', '输入', '一个', '带', '“', '韩玉', '赏鉴', '”', '的', '标题', '，', '在', '自定义', '词库', '中', '也', '增加', '了', '此', '词', '为', 'N类']

input : 我喜欢自然语言处理和句法学
jieba : ['我', '喜欢', '自然语言', '处理', '和', '句', '法学']
pkuseg: ['我', '喜欢', '自然', '语言', '处理', '和', '句', '法学']



# 切词同时词性标注¶

In [11]:
import jieba.posseg as pseg

words = pseg.cut(example)
print('jieba:')
for w in words:
    print(w.word, w.flag)
print()

print('pkuseg:')
pos_seg = pkuseg.pkuseg(postag=True)
words = pos_seg.cut(example)
for w in words:
    print(w[0], w[1])

jieba:
我 r
来到 v
北京 ns
北京大学 nt
。 x

pkuseg:


Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/postag.zip" to C:\Users\Geoffrey/.pkuseg\postag.zip
100%|███████████████████████████████████████████████████████████████████| 41424981/41424981 [17:58<00:00, 38401.68it/s]


我 r
来到 v
北京 ns
北京大学 nt
。 w


## 自定义词典

pkuseg的词典格式是每行一个词

jieba的词典格式是每行三个部分，分别为 词 词频 词性，后两者可省略

In [12]:
jieba_seg = jieba.Tokenizer()
#jieba_seg.load_userdict('02 user_dict.txt')
jieba_seg.add_word('海南')
jieba_seg.add_word('王军虎')

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Geoffrey\AppData\Local\Temp\jieba.cache
Loading model cost 0.750 seconds.
Prefix dict has been built succesfully.


In [13]:
custom_seg = pkuseg.pkuseg(user_dict='02 user_dict.txt')

In [14]:
compare_many(hard_examples, j=jieba_seg, s=custom_seg) #结巴加了自定义词典“海南”，还是分成了“沿海”？

input : 沿海南方向逃跑
jieba : ['沿海', '南方', '向', '逃跑']
pkuseg: ['沿', '海南', '方向', '逃跑']

input : 他说的确实在理
jieba : ['他', '说', '的', '确实', '在理']
pkuseg: ['他', '说', '的', '确实', '在理']

input : 谢霆锋和张柏芝离婚了
jieba : ['谢霆锋', '和', '张柏芝', '离婚', '了']
pkuseg: ['谢霆锋', '和', '张柏芝', '离婚', '了']

input : 结婚的和尚未结婚的
jieba : ['结婚', '的', '和', '尚未', '结婚', '的']
pkuseg: ['结婚', '的', '和尚', '未', '结婚', '的']

input : 提高产品质量
jieba : ['提高', '产品质量']
pkuseg: ['提高', '产品', '质量']

input : 中外科学名著
jieba : ['中外', '科学', '名著']
pkuseg: ['中外', '科学', '名著']

input : 北京大学生前来应聘
jieba : ['北京', '大学生', '前来', '应聘']
pkuseg: ['北京', '大学生', '前来', '应聘']

input : 为人民服务
jieba : ['为', '人民', '服务']
pkuseg: ['为', '人民', '服务']

input : 独立自主和平等互利的原则
jieba : ['独立自主', '和', '平等互利', '的', '原则']
pkuseg: ['独立自主', '和', '平等互利', '的', '原则']

input : 为人民办公益
jieba : ['为', '人民', '办', '公益']
pkuseg: ['为', '人民', '办', '公益']

input : 这事的确定不下来
jieba : ['这事', '的', '确定', '不', '下来']
pkuseg: ['这', '事', '的', '确定', '不', '下来']

input : 这扇门把手
jieba : ['这扇', '门把手']
pkuseg: ['这', '扇', '门', '

## 细领域分词模式

In [16]:
news_seg = pkuseg.pkuseg(model_name='news')

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/news.zip" to C:\Users\Geoffrey/.pkuseg\news.zip
100%|███████████████████████████████████████████████████████████████████| 43767759/43767759 [20:23<00:00, 35766.89it/s]


In [17]:
compare_many(hard_examples, s=news_seg)

input : 沿海南方向逃跑
jieba : ['沿海', '南方', '向', '逃跑']
pkuseg: ['沿', '海南', '方向', '逃跑']

input : 他说的确实在理
jieba : ['他', '说', '的', '确实', '在理']
pkuseg: ['他', '说', '的', '确实', '在理']

input : 谢霆锋和张柏芝离婚了
jieba : ['谢霆锋', '和', '张柏芝', '离婚', '了']
pkuseg: ['谢霆锋', '和', '张柏芝', '离婚', '了']

input : 结婚的和尚未结婚的
jieba : ['结婚', '的', '和', '尚未', '结婚', '的']
pkuseg: ['结婚', '的', '和', '尚未', '结婚', '的']

input : 提高产品质量
jieba : ['提高', '产品质量']
pkuseg: ['提高', '产品', '质量']

input : 中外科学名著
jieba : ['中外', '科学', '名著']
pkuseg: ['中外', '科学', '名著']

input : 北京大学生前来应聘
jieba : ['北京', '大学生', '前来', '应聘']
pkuseg: ['北京大学生', '前来', '应聘']

input : 为人民服务
jieba : ['为', '人民', '服务']
pkuseg: ['为人民服务']

input : 独立自主和平等互利的原则
jieba : ['独立自主', '和', '平等互利', '的', '原则']
pkuseg: ['独立自主', '和', '平等互利', '的', '原则']

input : 为人民办公益
jieba : ['为', '人民', '办', '公益']
pkuseg: ['为', '人民', '办', '公益']

input : 这事的确定不下来
jieba : ['这事', '的', '确定', '不', '下来']
pkuseg: ['这', '事', '的', '确定', '不', '下来']

input : 这扇门把手
jieba : ['这扇', '门把手']
pkuseg: ['这', '扇门', '把手']

input : 把手

## 文件分词


对于文件分词，有两种方式：

读入文件中的内容，然后进行分词，最后写回文件
使用工具包提供的文件分词接口，一般会提供多进程/线程分词的功能，提高效率

In [18]:
def read_file_then_segment(filename, segfunc):
    with open(filename, 'r', encoding='utf8') as fin:
        with open(filename + '.seg.txt', 'w', encoding='utf8') as fout:
            for line in fin:
                words = segfunc(line.rstrip('\n'))
                print(' '.join(words))
                fout.write(' '.join(words))

In [19]:
read_file_then_segment('02 test_doc.txt', jieba.lcut)

从 这里 ， 感受 中国 速度 和 中国 质量 — — 记 外国 驻华使节 参访 北京 大兴 国际 机场

　 新华社 北京 11 月 12 日电 （ 记者 成欣 、 翟翔 ） 外交部 和 民航局 12 日 组织 驻华使节 和 国际 组织 驻华 代表 参观 新近 投运 的 北京 大兴 国际 机场 。 使节 们 纷纷表示 ， 大兴 国际 机场 向 世界 展现 了 中国 速度 和 中国 质量 ， 为 全球 绿色 机场 建设 贡献 了 中国 智慧 。

　 　 9 月 25 日 ， 外观 宛如 金色 凤凰 的 大兴 国际 机场 正式 投入 运营 ， 自 2014 年 12 月 开工 建设 至 首航 投运 仅 耗时 不到 5 年 ， 被 英国 《 卫报 》 列为 “ 新世界 七大 奇迹 ” 之 首 。

　 　 阿尔及利亚 驻华大使 布 哈利法 表示 ， 最近 投入使用 的 大兴 国际 机场 是 中国 的 一个 标志性 工程 ， 短短 5 年内 建造 全球 最大 单体 航站楼 ， 从 外观设计 到 软件 服务 都 是 高水平 ， 中国 速度 与 品质 再 一次 令 世界 惊艳 。

　 　 使节 和 代表 们 参观 了 机场 航站楼 和 要 客 服务区 ， 详细 了解 航站楼 规划设计 理念 、 建筑 特点 及 各类 设施 及 功能 ， 亲身 体验 国际 旅客 出入境 全 流程 ， 并 现场 感受 无人 值机 、 自助 查验 证件 及 自助 采集 生物 特征 系统 等 新型 智能 科技成果 给 旅客 带来 的 出行 便利 。

　 　 在 阿富汗 驻华 公使衔 参赞 阿雷菲 看来 ， 大兴 国际 机场 是 一个 将 “ 以人为本 ” 的 精细 考虑 贯穿 在 各个方面 的 人性化 机场 ， “ 这使 机场 成为 真正 意义 上 的 综合 交通枢纽 ” 。

　 　 “ 航站楼 的 双进 双出 模式 使 换乘 效率 大大提高 ， 全 流程 自助 、 无纸化 通行 、 刷 脸 登机 、 智能 安检 等 高效 便捷 出行 服务 是 世界 上 许多 国际 机场 没有 的 ， 我 在 这里 感到 非常 自由 和 舒适 。 ” 阿雷菲 说 。

　 　 令 黎巴嫩 驻华大使 贾 布尔 印象 最 深刻 的 ， 是 机场 的 绿色 设计 理念 。 整个 机场 中 ， 她 最 喜欢 的 部分

In [20]:
read_file_then_segment('02 test_doc.txt', seg.cut)

从 这里 ， 感受 中国 速度 和 中国 质量 —— 记 外国 驻华 使节 参访 北京 大兴 国际 机场

新华社 北京 11月 12日 电 （ 记者 成 欣 、 翟翔 ） 外交部 和 民航局 12日 组织 驻华 使节 和 国际 组织 驻华 代表 参观 新近 投运 的 北京 大兴 国际 机场 。 使 节们 纷纷 表示 ， 大兴 国际 机场 向 世界 展现 了 中国 速度 和 中国 质量 ， 为 全球 绿色 机场 建设 贡献 了 中国 智慧 。

9月 25日 ， 外观 宛如 金色 凤凰 的 大兴 国际 机场 正式 投入 运营 ， 自 2014年 12月 开工 建设 至 首航 投运 仅 耗时 不 到 5 年 ， 被 英国 《 卫报 》 列为 “ 新世界 七大 奇迹 ” 之 首 。

阿尔及利亚 驻华 大使 布哈利法 表示 ， 最近 投入 使用 的 大兴 国际 机场 是 中国 的 一个 标志性 工程 ， 短短 5 年内 建造 全球 最 大 单体 航站楼 ， 从 外观 设计 到 软件 服务 都 是 高 水平 ， 中国 速度 与 品质 再 一 次 令 世界 惊艳 。

使节 和 代表 们 参观 了 机场 航站楼 和 要客 服务区 ， 详细 了解 航站楼 规划 设计 理念 、 建筑 特点 及 各类 设施 及 功能 ， 亲身 体验 国际 旅客 出入境 全 流程 ， 并 现场 感受 无 人 值机 、 自助 查验 证件 及 自助 采集 生物 特征 系统 等 新型 智能 科技 成果 给 旅客 带来 的 出行 便利 。

在 阿富汗 驻华 公使衔 参赞 阿雷菲 看来 ， 大兴 国际 机场 是 一个 将 “ 以人为本 ” 的 精细 考虑 贯穿 在 各个 方面 的 人性化 机场 ， “ 这 使 机场 成为 真正 意义 上 的 综合 交通 枢纽 ” 。

“ 航站楼 的 双进 双出 模式 使 换乘 效率 大大 提高 ， 全 流程 自助 、 无纸化 通行 、 刷脸 登机 、 智能 安检 等 高效 便捷 出行 服务 是 世界 上 许多 国际 机场 没有 的 ， 我 在 这里 感到 非常 自由 和 舒适 。 ” 阿雷菲 说 。

令 黎巴嫩 驻华 大使 贾布尔 印象 最 深刻 的 ， 是 机场 的 绿色 设计 理念 。 整个 机场 中 ， 她 最 喜欢 的 部分 是 8 根 巨大 的 C型柱 和 

In [21]:
pkuseg.test('02 test_doc.txt', '02 test_doc.txt.seg.txt', nthread = 2)

total_time:	5.622


In [22]:
pkuseg.train('02 train_doc.txt', '02 train_doc.txt', '02 save', init_model=None)

length = 1 : 52
length = 2 : 54
length = 3 : 7
length = 4 : 2

start training...

reading training & test data...
done! train/test data sizes: 27/27

r: 1
iter0  diff=1.00e+100  train-time(sec)=0.04  f-score=59.81%
iter1  diff=1.00e+100  train-time(sec)=0.04  f-score=72.73%
iter2  diff=2.03e-01  train-time(sec)=0.03  f-score=77.13%
iter3  diff=1.70e-01  train-time(sec)=0.04  f-score=82.30%
iter4  diff=1.46e-01  train-time(sec)=0.03  f-score=86.84%
iter5  diff=1.27e-01  train-time(sec)=0.03  f-score=89.47%
iter6  diff=1.12e-01  train-time(sec)=0.03  f-score=89.47%
iter7  diff=9.98e-02  train-time(sec)=0.03  f-score=89.47%
iter8  diff=8.98e-02  train-time(sec)=0.04  f-score=90.83%
iter9  diff=8.14e-02  train-time(sec)=0.04  f-score=90.83%
iter10  diff=8.26e-02  train-time(sec)=0.03  f-score=92.17%
iter11  diff=4.33e-02  train-time(sec)=0.03  f-score=92.17%
iter12  diff=2.77e-02  train-time(sec)=0.04  f-score=92.17%
iter13  diff=1.84e-02  train-time(sec)=0.03  f-score=92.17%
iter14  diff=

## diff?  f-score?

In [23]:
my_seg = pkuseg.pkuseg(model_name = '02 save')

In [24]:
compare_many(hard_examples, s=my_seg)

input : 沿海南方向逃跑
jieba : ['沿海', '南方', '向', '逃跑']
pkuseg: ['沿', '海南', '方向', '逃跑']

input : 他说的确实在理
jieba : ['他', '说', '的', '确实', '在理']
pkuseg: ['他说', '的', '确实', '在理']

input : 谢霆锋和张柏芝离婚了
jieba : ['谢霆锋', '和', '张柏芝', '离婚', '了']
pkuseg: ['谢霆锋', '和', '张柏芝', '离婚', '了']

input : 结婚的和尚未结婚的
jieba : ['结婚', '的', '和', '尚未', '结婚', '的']
pkuseg: ['结婚', '的', '和', '尚未', '结婚', '的']

input : 提高产品质量
jieba : ['提高', '产品质量']
pkuseg: ['提高', '产品', '质量']

input : 中外科学名著
jieba : ['中外', '科学', '名著']
pkuseg: ['中外', '科学', '名著']

input : 北京大学生前来应聘
jieba : ['北京', '大学生', '前来', '应聘']
pkuseg: ['北京', '大学生', '前来', '应聘']

input : 为人民服务
jieba : ['为', '人民', '服务']
pkuseg: ['为', '人民', '服务']

input : 独立自主和平等互利的原则
jieba : ['独立自主', '和', '平等互利', '的', '原则']
pkuseg: ['独立', '自主', '和', '平等', '互利', '的', '原则']

input : 为人民办公益
jieba : ['为', '人民', '办', '公益']
pkuseg: ['为', '人民', '办', '公益']

input : 这事的确定不下来
jieba : ['这事', '的', '确定', '不', '下来']
pkuseg: ['这事', '的确', '定', '不', '下来']

input : 这扇门把手
jieba : ['这扇', '门把手']
pkuseg: ['这', '扇', '门', '

找了好久，终于找到了这个，现在终于找到了，开心！

2019年1113日《人工智能与自然语言》课程，孙栩主讲词向量，任宣丞同学专门讲解了这个pkuseg。
20191115同学分享了course的内容，很开心

周启红于北大理科教学楼，2019年1115