In [1]:
#引入jieba模块, 默认安装pip install jieba
import jieba

# 基本使用
word_list = jieba.cut("欢迎来到NLP自然语言的世界!")
print(type(word_list))
print("【基本应用】: {}".format(" / ".join(word_list)))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\五行缺钱\AppData\Local\Temp\jieba.cache


<class 'generator'>


Loading model cost 0.385 seconds.
Prefix dict has been built successfully.


【基本应用】: 欢迎 / 来到 / NLP / 自然语言 / 的 / 世界 / !


## 一、分词

In [2]:
# 导入包
import jieba

# 所有可能的可能
word_list = jieba.cut('我来到湖南国防科技大学', cut_all=True)
print("【全模式】: {}".format(" /".join(word_list)))

# 精确模式比较精确
word_list = jieba.cut('我来到湖南国防科技大学')
print("【精确模式】: {}".format(" /".join(word_list)))

word_list = jieba.cut_for_search('我来到湖南国防科技大学')
print("【搜索引擎模式】: {}".format(" /".join(word_list)))


word_list = jieba.cut("我在台电大厦上班", HMM=False)
print("【仅词典模式】: {}".format(" /".join(word_list)))

# 自动发现潜在的词语
word_list = jieba.cut("我在台电大厦上班", HMM=True)
print("【HMM新词发现模式】: {}".format(" /".join(word_list)))

【全模式】: 我 /来到 /湖南 /南国 /国防 /国防科 /国防科技 /国防科技大学 /科技 /大学
【精确模式】: 我 /来到 /湖南 /国防科技大学
【搜索引擎模式】: 我 /来到 /湖南 /国防 /科技 /大学 /国防科 /国防科技大学
【仅词典模式】: 我 /在 /台 /电 /大厦 /上班
【HMM新词发现模式】: 我 /在 /台电 /大厦 /上班


### API区别说明
- jieba.cut：返回的是一个迭代器对象
- jieba.lcut：返回的是一个list集合

In [3]:
cut_word_list = jieba.cut('我来到湖南国防科技大学')
print("【cut API返回的数据类型】: {}".format(type(cut_word_list)))
print("【cut API返回结果】: {}".format(' /'.join(cut_word_list)))
print("【cut API返回结果<再次获取>】: {}".format(' /'.join(cut_word_list)))

print("")

lcut_word_list = jieba.lcut('我来到湖南国防科技大学')
print("【lcut API返回的数据类型】: {}".format(type(lcut_word_list)))
print("【lcut API返回结果】: {}".format(' /'.join(lcut_word_list)))
print("【lcut API返回结果<再次获取>】: {}".format(' /'.join(lcut_word_list)))


【cut API返回的数据类型】: <class 'generator'>
【cut API返回结果】: 我 /来到 /湖南 /国防科技大学
【cut API返回结果<再次获取>】: 

【lcut API返回的数据类型】: <class 'list'>
【lcut API返回结果】: 我 /来到 /湖南 /国防科技大学
【lcut API返回结果<再次获取>】: 我 /来到 /湖南 /国防科技大学


## 二、自定义词典

### 载入词典
```
jieba.load_userdict(filename): 加载给定文件filename中定义的单词
```
- 每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒；
- 词性详见：<a href="#ext1">jieba词性说明</a>

In [4]:
# 仅词典匹配
word_list = jieba.cut('外卖送餐公司中饿了么是你值得信赖的选择', HMM=False)
print("【载入词典前<无HMM>】: {}".format('/'.join(word_list)))

# 对于连续单独成词的文本，使用HMM继续分词
word_list = jieba.cut('外卖送餐公司中饿了么是你值得信赖的选择', HMM=True)
print("【载入词典前<有HMM>】: {}".format('/'.join(word_list)))

【载入词典前<无HMM>】: 外卖/送/餐/公司/中/饿/了/么/是/你/值得/信赖/的/选择
【载入词典前<有HMM>】: 外卖/送餐/公司/中饿/了/么/是/你/值得/信赖/的/选择


In [5]:
# 加载词典
jieba.load_userdict('./datas/word_dict.txt')

In [6]:
# with语句打开文件，这样可以确保文件在操作完成后自动关闭
# as reader是with语句中的一部分，用于打开文件并给文件对象起一个别名。这里的reader就是一个别名，代表文件对象
# 'r'表示以只读模式打开文件
with open('./datas/word_dict.txt', 'r', encoding='utf-8') as reader:
    for line in reader:
        print(line.strip())

﻿#自定义词典：一词占一行，每行分三个部分：词语，词频（可忽略），词性（可忽略）
饿了么 2 nt
徐良才 2 nr
驻军官兵 2


In [7]:
word_list = jieba.cut('外卖送餐公司中饿了么是你值得信赖的选择', HMM=False)
print("【载入词典后<无HMM>】: {}".format('/'.join(word_list)))

word_list = jieba.cut('外卖送餐公司中饿了么是你值得信赖的选择', HMM=True)
print("【载入词典后<有HMM>】: {}".format('/'.join(word_list)))

【载入词典后<无HMM>】: 外卖/送/餐/公司/中/饿了么/是/你/值得/信赖/的/选择
【载入词典后<有HMM>】: 外卖/送餐/公司/中/饿了么/是/你/值得/信赖/的/选择


### 动态调整词典
- 使用```add_word(word, freq=None, tag=None)```和```del_word(word)```可以在程序中动态修改词典
- 使用```suggest_freq(segment, tune=True)```可以调节单个词语的词频，使其能或者不能被分出来

In [7]:
import jieba
word_list = jieba.cut('如果放到post中将出错。', HMM=False)
print("【不启动HMM+不添加分词】: {}".format('/'.join(word_list)))

【不启动HMM+不添加分词】: 如果/放到/post/中将/出错/。


In [8]:
jieba.suggest_freq('中', tune=True)  # tune是一个布尔值 选定是否使它以一个特定值筛选出来

243191

In [12]:
word_list = jieba.cut('如果放到post中将出错。', HMM=False)
print("【不启动HMM+不添加分词】: {}".format('/'.join(word_list)))

【不启动HMM+不添加分词】: 如果/放到/post/中将/出错/。


In [9]:
jieba.suggest_freq(('中', '将'), tune=True)

492

In [10]:
jieba.suggest_freq(('中', '将'), tune=False)

492

In [11]:
word_list = jieba.cut('如果放到post中将出错。', HMM=False)
print("【不启动HMM+添加分词】: {}".format('/'.join(word_list)))

【不启动HMM+添加分词】: 如果/放到/post/中/将/出错/。


## 三、关键词抽取

In [12]:
import jieba.analyse

In [13]:
# https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_10141364001547692745%22%7D&n_type=0&p_from=1
sentence = """
新华社澳门8月1日电（方钊、郭鑫）1日上午，解放军驻澳门部队在新口岸军营隆重举行升国旗仪式和“八一”招待会，庆祝中国人民解放军建军92周年。
8时，驻澳部队威武的仪仗队护送国旗，步伐铿锵走向升旗台。军乐队奏响雄壮的《中华人民共和国国歌》，驻澳门部队官兵在司令员徐良才和政委孙文举带领下整齐列队，面向国旗庄严敬礼，目送鲜艳的五星红旗冉冉升起，献上深情祝福。
“八一”招待会于11时举行，主礼嘉宾与各界来宾一同观看了纪录片《濠江战旗别样红》，全面了解驻军进澳门20年来履行防务情况。驻澳门部队司令员徐良才和澳门特区行政长官崔世安致辞。
徐良才深情回顾了中国人民解放军的光辉历程。他表示，今年是中国人民解放军进驻澳门20周年，驻军自进驻之日起，就坚定不移地贯彻“一国两制”伟大方针，坚定不移地遵守澳门基本法和驻军法，坚定不移地维护澳门繁荣稳定，始终视国家和民族利益高于一切，始终遵守澳门现行社会制度，尊重和支持特区政府依法施政，积极参加社会公益事业，把澳门同胞当亲人。
徐良才说，近年来，驻军官兵时刻牢记习主席重要嘱托，深入贯彻习近平强军思想，坚持政治建军、服务大局，坚持任务牵引、练兵备战，坚持依法从严、锤炼作风，部队履行防务能力稳步提升。驻军部队的建设发展，离不开特区各界和澳门同胞的关心，离不开中联办、外交公署等中央驻澳机构的支持，特别是特区政府为驻军有效履行防务创造了良好环境和条件，对此致以衷心的感谢和崇高的敬意。
崔世安向驻澳门部队官兵致以节日的祝贺，对驻军一直以来对特区发展的有力支持表示感谢。他表示，20年来，驻澳部队与澳门特区同呼吸、共命运，视驻地为故乡，把居民当亲人，支持特区政府依法施政，积极开展多元化的、丰富多彩的爱民活动，主动参与献血、植树等社会公益活动；与特区政府合办“澳门青年学生军事夏令营”，培养青年“爱国爱澳”的核心价值；在防灾救灾工作上，以高度的责任感，大力支持特区政府。事实证明，驻澳部队是维护“一国两制”的重要力量，是维护澳门繁荣稳定的重要基石，为澳门特区各项事业的进步作出了不懈的努力和巨大的贡献。
全国政协副主席何厚铧、中央政府驻澳门联络办公室主任傅自应、外交部驻澳门特派员公署特派员沈蓓莉、驻澳部队政委孙文举、澳门特区立法会主席高开贤等，以及澳门特区政府、中央驻澳机构、澳区全国人大代表、政协委员、社团、高校、往届军事夏令营学生代表等300余人出席了招待会。
"""

### 基于TF-IDF算法抽取关键词
- ```jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())```
    - 功能：关键词提取
    - 参数说明：
        - sentence：待提取的文本
        - topK：返回多少个TF/IDF权重最大的关键词，默认为20个
        - withWeight：是否返回关键词的权重值，默认为False，表示不返回
        - allowPOS: 仅提取指定词性的词，默认为空，表示不筛选
- ```jieba.analyse.set_idf_path(file_name)```
    - 功能：自定义单词逆文件频率的值
    - 参数说明：
        - file_name: 本地磁盘文件路径，文件内容为各个单词的逆向文件频率，每行一个单词，两部分构成，第一部分为单词，第二部分为逆向文件频率，中间用空格隔开
    - 参考：[idf.txt.big](https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big)
- ```jieba.analyse.set_stop_words(file_name)```
    - 功能：自定义停止词
    - 参数说明：
        - file_name: 本地磁盘文件路径, 每行一个停止词
    - 参考：[stop_words.txt](https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt)

In [3]:
jieba.analyse.extract_tags(sentence,topK=10)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/9s/6rct71j56zx26pp1240rm_pw0000gn/T/jieba.cache
Loading model cost 0.245 seconds.
Prefix dict has been built successfully.


['澳门', '驻澳', '驻军', '驻澳门部队', '良才', '特区政府', '澳门特区', '20', '部队', '招待会']

In [4]:
jieba.analyse.extract_tags(sentence,topK=10,withWeight=True)

[('澳门', 0.2822399021444817),
 ('驻澳', 0.21868477139451217),
 ('驻军', 0.17633006365390247),
 ('驻澳门部队', 0.16952045917073172),
 ('良才', 0.16952045917073172),
 ('特区政府', 0.16345463142682926),
 ('澳门特区', 0.14578984759634145),
 ('20', 0.10934238569725609),
 ('部队', 0.10346009004987805),
 ('招待会', 0.09212228282469513)]

In [14]:
jieba.analyse.extract_tags(sentence,topK=10,withWeight=True, 
                           allowPOS=('n', 'ns','vn', 'a'))
# ns地名 vn动名词

[('澳门', 0.5714486907616666),
 ('驻军', 0.30601196232000005),
 ('澳门特区', 0.2951794445160494),
 ('部队', 0.20947475022444442),
 ('招待会', 0.1865191899166667),
 ('防务', 0.1522948861057407),
 ('文举', 0.14200965900246912),
 ('依法', 0.13147027069444445),
 ('公署', 0.11798607691506173),
 ('建军', 0.11488342965234567)]

In [15]:
# 设置自定义IDF文件
jieba.analyse.set_idf_path('./datas/idf.txt.big')
# 设置自定义停止词
jieba.analyse.set_stop_words('./datas/stop_words.txt')
# 再进行关键词提取
jieba.analyse.extract_tags(sentence,topK=10,withWeight=True, 
                           allowPOS=('n', 'ns','vn', 'a'))

[('澳门', 0.5714486907616666),
 ('部队', 0.4427691667740741),
 ('驻军', 0.30601196232000005),
 ('澳门特区', 0.2951794445160494),
 ('防务', 0.22138458338703704),
 ('依法', 0.22138458338703704),
 ('主席', 0.22138458338703704),
 ('招待会', 0.1865191899166667),
 ('政委', 0.1475897222580247),
 ('文举', 0.1475897222580247)]

### 基于TextRank算法的关键词抽取
- ```jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False) ```
    - 功能：关键词提取
    - 参数说明：
        - sentence：待提取的文本
        - topK：返回多少个TF/IDF权重最大的关键词，默认为20个
        - withWeight：是否返回关键词的权重值，默认为False，表示不返回
        - allowPOS: 仅提取制定词性的词，默认不为空，表示进行筛选
        - withFlag：是否返回单词的词性值，默认为False，表示不返回(仅返回单词)
- NOTE: 参考[TextRank: Bringing Order into Texts](http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf)论文

In [16]:
jieba.analyse.textrank(sentence=sentence, topK=10)

['澳门', '驻军', '部队', '澳门特区', '坚持', '支持', '防务', '履行', '国旗', '依法']

In [17]:
jieba.analyse.textrank(sentence=sentence, topK=10, withWeight=True, 
                       allowPOS=('n', 'ns','vn', 'v', 'a'), withFlag=True)

[(pair('澳门', 'ns'), 1.0),
 (pair('驻军', 'n'), 0.5150728335629853),
 (pair('部队', 'n'), 0.41732897719914397),
 (pair('澳门特区', 'ns'), 0.3970962141957338),
 (pair('重要', 'a'), 0.37778159391924593),
 (pair('支持', 'v'), 0.3662188216433373),
 (pair('坚持', 'v'), 0.3621765539284169),
 (pair('防务', 'vn'), 0.3544464068364389),
 (pair('履行', 'v'), 0.34640762164150035),
 (pair('依法', 'n'), 0.3208985874730372)]

In [9]:
jieba.analyse.textrank(sentence=sentence, topK=5, withWeight=True, 
                       allowPOS=('n','nr'), withFlag=True)

[(pair('官兵', 'n'), 1.0),
 (pair('良才', 'n'), 0.9838707822898072),
 (pair('驻军', 'n'), 0.9497343581869772),
 (pair('部队', 'n'), 0.7684989902024103),
 (pair('主席', 'n'), 0.7270383708839766)]

## 四、词性标注
- jieba中的分词词性说明详见: <a href="#ext1">jieba词性列表</a>

In [10]:
import jieba.posseg as pseg
# sentence = "我觉得人工智能未来的发展非常不错"
# sentence = "姚明的身高"
sentence = "姚明的职业是什么"
# sentence = "成龙的身高是多少"
# 分词+词性标注
words = pseg.cut(sentence)

# 输出
# 打印表头，使用 %8s 格式化字符串，确保输出的单词和词性各占8个字符的宽度，便于对齐
print("%8s\t%8s" % ("【单词】", "【词性】"))
# 使用 for 循环遍历 words 生成器，每次循环取出一个元组 (word, flag)
for word, flag in words:
    print("%8s\t%8s" % (word, flag))

    【单词】	    【词性】
      姚明	      nr
       的	      uj
      职业	       n
       是	       v
      什么	       r


In [18]:
import jieba.posseg as pseg
sentence = "徐良才说，近年来，驻军官兵时刻牢记习主席重要嘱托。"
# 分词+词性标注
words = pseg.cut(sentence)

# 输出
print("%8s\t%8s" % ("【单词】", "【词性】"))
for word, flag in words:
    print("%8s\t%8s" % (word, flag))

    【单词】	    【词性】
     徐良才	      nr
       说	       v
       ，	       x
     近年来	       t
       ，	       x
    驻军官兵	       x
      时刻	       n
      牢记	       n
       习	       v
      主席	       n
      重要	       a
      嘱托	       v
       。	       x


In [12]:
import jieba.posseg as pseg
sentence = "徐良才说，近年来，驻军官兵时刻牢记习主席重要嘱托。"

# 添加词典
jieba.add_word('习主席', 2, 'nr')

# 分词+词性标注
words = pseg.cut(sentence)

# 输出
print("%8s\t%8s" % ("【单词】", "【词性】"))
for word, flag in words:
    print("%8s\t%8s" % (word, flag))

    【单词】	    【词性】
       徐	      nr
      良才	       n
       说	       v
       ，	       x
     近年来	       t
       ，	       x
      驻军	       n
      官兵	       n
      时刻	       n
      牢记	       n
     习主席	      nr
      重要	       a
      嘱托	       v
       。	       x


## 五、并行分词
- 原理：将目标文本按行分割后，把各行文本分配到多个Python进程中进行并行分词，然后归并结果。速度比单线程的快3~5倍。
- 基于Python自带的multiprocessing模块，暂时不支持windows
- 基本用法：
    - jieba.enable_parallel(4)
        - 开启并行分词模式，参数为并行进程数，可选
    - jieba.disable_parallel()
        - 关闭并行分词模式
- NOTE: **当同时使用并行分词和自定义词典的时候，要求将自定义词典放到并行分词之前做。**

In [13]:
import jieba

# NotImplementedError: jieba: parallel mode only supports posix system
# jieba.enable_parallel()

content = '我是小明\n我是小明'
words = jieba.cut(content)
print(' / '.join(content))

我 / 是 / 小 / 明 / 
 / 我 / 是 / 小 / 明


### 扩展一：<a name='ext1'>jieba词性说明</a>
详见: <a href='https://www.cnblogs.com/chenbjin/p/4341930.html'>ICTCLAS汉语词性标注集</a>

|词性符号|词性名称|描述说明|
|:-|:-|:-|
|n|名词||
|nr|人名||
|ns|地名||
|nt|机构团体名||
|nz|其它专名||
|t|时间词||
|s|处方词||
|f|方位词||
|v|动词||
|vd|副动词|直接做状语的动词，动词和副词放到一起|
|vn|名动词|具有名词功能的动词，动词和名词放到一起|
|a|形容词||
|ad|副形词|直接作状语的形容词。形容词和副词放到一起。|
|an|名形词|具有名词功能的形容词。形容词和名词放到一起|
|b|区别词||
|z|状态词||
|r|代词||
|rr|人称代词||
|rz|指示代词||
|ry|疑问代词||
|m|数词||
|q|量词||
|d|副词||
|p|介词||
|c|连词||
|u|助词||
|e|叹词||
|eng|英语||
|y|语气词||
|o|拟声词||
|h|前缀||
|k|后缀||
|i|成语||
|l|习用语|临时的词语|
|q|量词||
|w|标点符号||
|x|字符串|符号、未知词性等描述|