# jieba库

中文分词第三方库

通过中文词库进行分词

`pip install jieba`

三种模式：
- 精确模式
- 全模式
- 搜索引擎模式

### 1 常用函数

In [7]:
import jieba
jieba.lcut("中国是一个伟大的国家")   #精确模式，返回列表格式

['中国', '是', '一个', '伟大', '的', '国家']

In [3]:
jieba.lcut("中国是一个伟大的国家", cut_all = True) #全模式，存在冗余 

['中国', '国是', '一个', '伟大', '的', '国家']

In [6]:
jieba.lcut_for_search("中华人民共和国是伟大的")   #搜索引擎模式，存在冗余

['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

In [None]:
jieba.add_word("蟒蛇词典")   #向分词库中增加新的单词

## 例：文本词频统计

需求：对一篇文章（中文/英文）统计每个单词出现的频率

适用场景：
- 政府工作报告
- 科研论文
- 新闻报道
- 词云

### 英文：哈姆雷特

In [10]:
#获取文本
def getText():
    # 1.打开文件内容
    text = open("hamlet.txt", "r").read()    
    # 2.将文本全部转换为小写
    text = text.lower()
    # 去3.除特殊符号：特殊符号替换为空
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        text = text.replace(ch, " ")
    return text    

In [15]:
# 获取哈姆雷特文本
hamletText = getText()        
# 分词：默认按空格进行分隔
words = hamletText.split()    
# 统计词频
counts = {}
for word in words:
    counts[word] = counts.get(word, 0) + 1   #从未出现默认为0，新增就加1

# 将字典类型转换为list
items = list(counts.items())

# 列表排序
items.sort(key = lambda x:x[1], reverse=True)
# x[1]: 选取第2个位置的列进行排序
# reverse=True：按从大到小排序

In [18]:
items[:10]

[('the', 1138),
 ('and', 965),
 ('to', 754),
 ('of', 669),
 ('you', 550),
 ('i', 542),
 ('a', 542),
 ('my', 514),
 ('hamlet', 462),
 ('in', 436)]

In [20]:
for i in range(10):
    word, count = items[i]
    print("{}:{}".format(word, count))

the:1138
and:965
to:754
of:669
you:550
i:542
a:542
my:514
hamlet:462
in:436


### 中文：三国演义

In [22]:
import jieba
# 1.打开文件内容
text = open("三国演义.txt", "r", encoding = 'utf-8').read() 

In [23]:
# 2.使用jieba进行分词
words = jieba.lcut(text)

In [24]:
# 3.统计词频
counts = {}
for word in words:
    if len(word) == 1:  #如果该词只有一个字，不进行统计，如：在，了，啊...
        continue
    else:
        counts[word] = counts.get(word, 0) + 1   #从未出现默认为0，新增就加1

# 将字典类型转换为list
items = list(counts.items())

# 列表排序
items.sort(key = lambda x:x[1], reverse=True)

In [26]:
items[:15]

[('曹操', 953),
 ('孔明', 836),
 ('将军', 772),
 ('却说', 656),
 ('玄德', 585),
 ('关公', 510),
 ('丞相', 491),
 ('二人', 469),
 ('不可', 440),
 ('荆州', 425),
 ('玄德曰', 390),
 ('孔明曰', 390),
 ('不能', 384),
 ('如此', 378),
 ('张飞', 358)]

### 升级版：人物出场统计

排除词库

In [None]:
#获取当前路径
import os
os.getcwd()