## 分词系统

jieba 的分词算法
主要有以下三种：

- 基于统计词典，构造前缀词典，基于前缀词典对句子进行切分，得到所有切分可能，根据切分位置，构造一个有向无环图（DAG）；
- 基于DAG图，采用动态规划计算最大概率路径（最有可能的分词结果），根据最大概率路径分词；
- 对于新词(词库中没有的词），采用有汉字成词能力的 HMM 模型进行切分。

In [1]:
import jieba
content = "现如今，机器学习和深度学习带动人工智能飞速的发展，并在图片处理、语音识别领域取得巨大成功。"

### 精确分词

In [2]:
segs_1 = jieba.cut(content, cut_all=False)
print("/".join(segs_1))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\LIHUIC~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.654 seconds.
Prefix dict has been built succesfully.


现如今/，/机器/学习/和/深度/学习/带动/人工智能/飞速/的/发展/，/并/在/图片/处理/、/语音/识别/领域/取得/巨大成功/。


## 全模式

### 全模式分词：把句子中所有的可能是词语的都扫描出来，速度非常快，但不能解决歧义。

In [3]:
segs_3 = jieba.cut(content, cut_all=True)
print("/".join(segs_3))

现如今/如今///机器/学习/和/深度/学习/带动/动人/人工/人工智能/智能/飞速/的/发展///并/在/图片/处理///语音/识别/领域/取得/巨大/巨大成功/大成/成功//


### 搜索引擎模式

In [4]:
segs_4 = jieba.cut_for_search(content)
print("/".join(segs_4))

如今/现如今/，/机器/学习/和/深度/学习/带动/人工/智能/人工智能/飞速/的/发展/，/并/在/图片/处理/、/语音/识别/领域/取得/巨大/大成/成功/巨大成功/。


In [5]:
segs_5 = jieba.lcut(content)
print(segs_5)

['现如今', '，', '机器', '学习', '和', '深度', '学习', '带动', '人工智能', '飞速', '的', '发展', '，', '并', '在', '图片', '处理', '、', '语音', '识别', '领域', '取得', '巨大成功', '。']


### 获取词性

In [7]:
import jieba.posseg as psg
print([(x.word,x.flag) for x in psg.lcut(content)])

[('现如今', 't'), ('，', 'x'), ('机器', 'n'), ('学习', 'v'), ('和', 'c'), ('深度', 'ns'), ('学习', 'v'), ('带动', 'v'), ('人工智能', 'n'), ('飞速', 'n'), ('的', 'uj'), ('发展', 'vn'), ('，', 'x'), ('并', 'c'), ('在', 'p'), ('图片', 'n'), ('处理', 'v'), ('、', 'x'), ('语音', 'n'), ('识别', 'v'), ('领域', 'n'), ('取得', 'v'), ('巨大成功', 'nr'), ('。', 'x')]


jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数 。
jieba.disable_parallel() # 关闭并行分词模式 。

### 获取分词结果中词列表的 top n

In [12]:
from collections import Counter
top5= Counter(segs_5).most_common(5)
print(top5)

[('，', 2), ('学习', 2), ('现如今', 1), ('机器', 1), ('和', 1)]


In [13]:
txt = "铁甲网是中国最大的工程机械交易平台。"
print(jieba.lcut(txt))

['铁甲', '网是', '中国', '最大', '的', '工程机械', '交易平台', '。']


In [14]:
jieba.add_word("铁甲网")
print(jieba.lcut(txt))

['铁甲网', '是', '中国', '最大', '的', '工程机械', '交易平台', '。']
