In [1]:
# 需要事先通过 pip3 install jieba
import jieba

## jieba分词的三种分词模式

In [7]:
text = """精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。"""

In [9]:
## 精确模式:试图将句子最精确地切开，适合文本分析，不会有重复描述部分。
seg_list = jieba.cut(text, cut_all=False)
print(list(seg_list))

['精确', '模式', '，', '试图', '将', '句子', '最', '精确', '地', '切开', '，', '适合', '文本', '分析', '；', '\n', '全', '模式', '，', '把', '句子', '中', '所有', '的', '可以', '成词', '的', '词语', '都', '扫描', '出来', ',', ' ', '速度', '非常', '快', '，', '但是', '不能', '解决', '歧义', '；', '\n', '搜索引擎', '模式', '，', '在', '精确', '模式', '的', '基础', '上', '，', '对长', '词', '再次', '切分', '，', '提高', '召回', '率', '，', '适合', '用于', '搜索引擎', '分词', '。']


In [8]:
## 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义:
seg_list = jieba.cut(text, cut_all=True)
print(list(seg_list))

['精确', '模式', '', '', '试图', '将', '句子', '最', '精确', '地', '切开', '', '', '适合', '文本', '本分', '分析', '', '\n', '全', '模式', '', '', '把', '句子', '中所', '所有', '的', '可以', '成', '词', '的', '词语', '都', '扫描', '描出', '描出来', '出来', '', '', '', '速度', '非常', '快', '', '', '但是', '不能', '能解', '解决', '歧义', '', '\n', '搜索', '搜索引擎', '索引', '引擎', '模式', '', '', '在', '精确', '模式', '的', '基础', '上', '', '', '对', '长', '词', '再次', '切分', '', '', '提高', '召回', '率', '', '', '适合', '合用', '用于', '搜索', '搜索引擎', '索引', '引擎', '分词', '', '']


In [12]:
## 搜索引擎模式：将长词部分做二次分割处理
seg_list = jieba.cut_for_search(text)
print(list(seg_list))

['精确', '模式', '，', '试图', '将', '句子', '最', '精确', '地', '切开', '，', '适合', '文本', '分析', '；', '\n', '全', '模式', '，', '把', '句子', '中', '所有', '的', '可以', '成词', '的', '词语', '都', '扫描', '出来', ',', ' ', '速度', '非常', '快', '，', '但是', '不能', '解决', '歧义', '；', '\n', '搜索', '索引', '引擎', '搜索引擎', '模式', '，', '在', '精确', '模式', '的', '基础', '上', '，', '对长', '词', '再次', '切分', '，', '提高', '召回', '率', '，', '适合', '用于', '搜索', '索引', '引擎', '搜索引擎', '分词', '。']


## jieba分词的词性标注

In [13]:
from jieba import posseg

In [17]:
seg_list = posseg.cut(text)
#print(list(seg_list))

#for word, pos in seg_list:
#    print(word, pos)

## 案例：统计文本中的词频

In [51]:
import jieba
import requests
from bs4 import BeautifulSoup

# collections 包含了很多Python的奇妙的类，Counter是一个计数器，可以统计元素出现的个数
from collections import Counter


In [40]:
def load_page(url):
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
    html = requests.get(url, headers = headers).content
    #print(html)
    soup = BeautifulSoup(html, "lxml")
    content_list = soup.find_all("p")
    #for content in content_list:
    #    content.get_text()
    # 取出每个结点的内容并处理为字符串
    text = " ".join([content.get_text() for content in content_list])
    return text

In [69]:
def deal_text(text):
    # 1. 分词：全模式分词，并获取单词长度大于等于2的单词 的列表
    seg_list = [word for word in jieba.cut(text, cut_all=True) if len(word) >= 2]
    #print(len(seg_list))
    
    # 2. 获取停用词列表, Python3 里的open 打开文件后，可以指定按encoding编码处理文本
    stopword_list = [i.strip() for i in open("四川大学机器智能实验室停用词库.txt", "r", encoding='utf-8')]
    
    # 3. 去除停用词
    filtered_list = [seg for seg in seg_list if seg not in stopword_list]
    #print(len(filtered_list))
    
    # 4. 统计词频
    
    # Counter 返回的是一个类字典对象
    dict_obj = Counter(filtered_list)
    #print(dict_obj)
    
    # 字典对象有个方法叫 most_common(20), 返回类字典对象的前20个元素
    word_list = dict_obj.most_common(20)
    
    for index, word in enumerate(word_list):
        print(index, word[0], word[1])
    

In [71]:
url = "http://www.gov.cn/premier/2017-03/16/content_5177940.htm"
text = load_page(url)
deal_text(text)

0 发展 134
1 改革 85
2 经济 71
3 推进 66
4 建设 59
5 社会 49
6 人民 47
7 企业 46
8 加强 46
9 政策 46
10 政府 44
11 全面 44
12 推动 42
13 创新 41
14 加快 41
15 服务 38
16 中国 37
17 完善 36
18 工作 35
19 国家 35
