## 结巴分词简单学习使用
github地址:https://github.com/fxsjy/jieba

https://blog.csdn.net/haishu_zheng/article/details/80430106

### 安装
pip install jieba
### TF-IDF算法介绍及实现
https://blog.csdn.net/asialee_bird/article/details/81486700

## 主要功能
### 1、分词
结巴中文分词支持的三种分词模式包括： 
(1) 精确模式：试图将句子最精确地切开，适合文本分析； 
(2) 全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义问题； 
(3) 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

In [1]:
import jieba

# 全模式
text = "我来到北京清华大学"
seg_list = jieba.cut(text, cut_all=True)
print(u"[全模式]: ", "/ ".join(seg_list))

# 精确模式
seg_list = jieba.cut(text, cut_all=False)
print(u"[精确模式]: ", "/ ".join(seg_list))

# 默认是精确模式
seg_list = jieba.cut(text)
print(u"[默认模式]: ", "/ ".join(seg_list))

# 搜索引擎模式
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.798 seconds.
Prefix dict has been built succesfully.


[全模式]:  我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
[精确模式]:  我/ 来到/ 北京/ 清华大学
[默认模式]:  我/ 来到/ 北京/ 清华大学
[搜索引擎模式]:  我/ 来到/ 北京/ 清华/ 华大/ 大学/ 清华大学


### 2、新词识别


In [2]:
import jieba

#新词识别  “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
seg_list = jieba.cut("他来到了网易杭研大厦")
print (u"[新词识别]: ", "/ ".join(seg_list))

[新词识别]:  他/ 来到/ 了/ 网易/ 杭研/ 大厦


### 3、自定义词典
先看一个例子：

In [3]:
import jieba

text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"

# 全模式
seg_list = jieba.cut(text, cut_all=True)
print(u"[全模式]: ", "/ ".join(seg_list))

# 精确模式
seg_list = jieba.cut(text, cut_all=False)
print(u"[精确模式]: ", "/ ".join(seg_list))

# 搜索引擎模式
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

[全模式]:  故宫/ 的/ 著名/ 著名景点/ 景点/ 包括/ 乾/ 清宫/ / / 太和/ 太和殿/ 和/ 黄/ 琉璃/ 琉璃瓦/ 等
[精确模式]:  故宫/ 的/ 著名景点/ 包括/ 乾/ 清宫/ 、/ 太和殿/ 和/ 黄/ 琉璃瓦/ 等
[搜索引擎模式]:  故宫/ 的/ 著名/ 景点/ 著名景点/ 包括/ 乾/ 清宫/ 、/ 太和/ 太和殿/ 和/ 黄/ 琉璃/ 琉璃瓦/ 等


可以看到，结巴分词工具认出了专有名词”太和殿”，但没有认出”乾清宫”和”黄琉璃瓦”。 
也就是说，专有名词”乾清宫”和”黄琉璃瓦”可能因分词而分开，这也是很多分词工具的一个缺陷。 
为此，Jieba分词支持开发者使用自定定义的词典，以便包含jieba词库里没有的词语。虽然结巴有新词识别能力，但自行添加新词可以保证更高的正确率，尤其是专有名词。 
基本用法：


In [4]:
jieba.load_userdict('dict.txt') #file_name为自定义词典的路径

In [5]:
import jieba

text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"

# 全模式
seg_list = jieba.cut(text, cut_all=True)
print(u"[全模式]: ", "/ ".join(seg_list))

# 精确模式
seg_list = jieba.cut(text, cut_all=False)
print(u"[精确模式]: ", "/ ".join(seg_list))

# 搜索引擎模式
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

[全模式]:  故宫/ 的/ 著名/ 著名景点/ 景点/ 包括/ 乾清宫/ 清宫/ / / 太和/ 太和殿/ 和/ 黄琉璃瓦/ 琉璃/ 琉璃瓦/ 等
[精确模式]:  故宫/ 的/ 著名景点/ 包括/ 乾清宫/ 、/ 太和殿/ 和/ 黄琉璃瓦/ 等
[搜索引擎模式]:  故宫/ 的/ 著名/ 景点/ 著名景点/ 包括/ 清宫/ 乾清宫/ 、/ 太和/ 太和殿/ 和/ 琉璃/ 琉璃瓦/ 黄琉璃瓦/ 等


可以看到，新添加的两个专有名词已经被结巴分词工具辨别出来了。

### 4、关键词提取
在构建VSM向量空间模型过程或者把文本转换成数学形式计算中，你需要运用到关键词提取的技术。

基本方法：

In [None]:
jieba.analyse.extract_tags(sentence, topK) 

其中sentence为待提取的文本，topK为返回几个TF/IDF权重最大的关键词，默认值为20。

程序：


In [11]:
import jieba
import jieba.analyse

#导入自定义词典
jieba.load_userdict("dict.txt")

#精确模式
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美，午门是紫禁城的正门，午门居中向阳。"
seg_list = jieba.cut(text, cut_all=False)
print (u"分词结果:")
print ("/".join(seg_list))

#获取关键词
tags = jieba.analyse.extract_tags(text, topK=5)      # tf-idf算法提取
tags_1 = jieba.analyse.textrank(text,topK=5)       # 基于 TextRank 算法的关键词抽取
print (u"tf-idf算法提取关键词:")
print (" ".join(tags))

print (u"TextRank算法提取关键词:")
print (" ".join(tags_1))


分词结果:
故宫/的/著名景点/包括/乾清宫/、/太和殿/和/午门/等/。/其中/乾清宫/非常/精美/，/午门/是/紫禁城/的/正门/，/午门/居中/向阳/。
tf-idf算法提取关键词:
午门 乾清宫 著名景点 太和殿 向阳
TextRank算法提取关键词:
乾清宫 午门 著名景点 故宫 包括


### 5、去除停用词
在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，比如“的”、“是”、“而且”、“但是”、”非常“等。这些字或词即被称为Stop Words（停用词）。

In [12]:
import jieba

# 去除停用词
stopwords = {}.fromkeys(['的', '包括', '等', '是'])
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美，午门是紫禁城的正门。"
# 精确模式
segs = jieba.cut(text, cut_all=False)
final = ''
for seg in segs:
    if seg not in stopwords:
            final += seg
print (final)

seg_list = jieba.cut(final, cut_all=False)
print ("/ ".join(seg_list))

故宫著名景点乾清宫、太和殿和午门。其中乾清宫非常精美，午门紫禁城正门。
故宫/ 著名景点/ 乾清宫/ 、/ 太和殿/ 和/ 午门/ 。/ 其中/ 乾清宫/ 非常/ 精美/ ，/ 午门/ 紫禁城/ 正门/ 。


### 6、词性标注
jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。

用法示例:

In [14]:
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
print(words)
for word, flag in words:
    print('%s %s' % (word, flag))

<generator object cut at 0x00000127E6324138>
我 r
爱 v
北京 ns
天安门 ns


### 今天就先学习到这，更多用法请查看github示例