jieba提供了两种常用的分词方法：
1. jieba.cut() 普通分词：通过cut_all=True参数来控制是否采用全模式
2. jieba.cut_for_search() 搜索引擎分词： 该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

**添加自定义词典**
+ 指定自定义词典，以便包含jieba词库中没有的词
+ 用法：jieba.load_userdict(file_name) file_name 为文件类对象或自定义词典的路径
+ 词典格式和 `dict.txt` 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，保证顺序
+ `filr_name`若为路径或二进制打开的文件，则文件必须为 UTF-8 编码
+ 词频省略时使用自动计算的能保证分出该词的词频

In [44]:
import numpy as np
import jieba 

In [45]:
import warnings
warnings.filterwarnings('ignore')

In [46]:
# 全模式 --> 但凡能进行分词的都会输出，扩展分词
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
' / '.join(seg_list)

'我 / 来到 / 北京 / 清华 / 清华大学 / 华大 / 大学'

In [47]:
# 精确模式 --> 不扩展-默认模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
' / '.join(seg_list)

'我 / 来到 / 北京 / 清华大学'

In [48]:
# 搜索引擎模式 --> 细粒度扩展-召回率（查全率）
seg_list = jieba.cut_for_search("小明毕业于中国科学院研究所，后在日本京都大学深造")
' / '.join(seg_list)

'小明 / 毕业 / 于 / 中国 / 科学 / 学院 / 科学院 / 中国科学院 / 研究 / 研究所 / ， / 后 / 在 / 日本 / 京都 / 大学 / 日本京都大学 / 深造'

In [51]:
# 添加自定义词典

jieba.load_userdict('./data/mydict.txt')
seg_list = jieba.cut("乒乓球拍卖完了", cut_all=False)
' / '.join(seg_list)

'乒乓球拍 / 卖完 / 了'

In [52]:
seg_list = jieba.cut("张平平安全到家了", cut_all=False)
' / '.join(seg_list)

'张平平 / 安全 / 到家 / 了'