In [14]:
# 结巴分词的基本用法

import jieba

text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"

# 全模式
seg_list = jieba.cut(text, cut_all=True)
print(u"【全模式】：", "/".join(seg_list))

# 精确模式
seg_list = jieba.cut(text, cut_all=False)
print(u"【精确模式】：", "/".join(seg_list))

# 搜索引擎模式
seg_list = jieba.cut_for_search(text)
print(u"【搜索引擎模式】：", "/".join(seg_list))

# 默认模式
seg_list = jieba.cut(text)
print(u"【默认模式】：", "/".join(seg_list))

【全模式】： 故宫/的/著名/著名景点/景点/包括/乾/清宫///太和/太和殿/和/黄/琉璃/琉璃瓦/等
【精确模式】： 故宫/的/著名景点/包括/乾/清宫/、/太和殿/和/黄/琉璃瓦/等
【搜索引擎模式】： 故宫/的/著名/景点/著名景点/包括/乾/清宫/、/太和/太和殿/和/黄/琉璃/琉璃瓦/等
【默认模式】： 故宫/的/著名景点/包括/乾/清宫/、/太和殿/和/黄/琉璃瓦/等


In [16]:
# 使用自制词典

import jieba

text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"
my_dict = jieba.load_userdict('my_dict.txt')

# 全模式
seg_list = jieba.cut(text, cut_all=True)
print(u"【全模式】：", "/".join(seg_list))

# 精确模式
seg_list = jieba.cut(text, cut_all=False)
print(u"【精确模式】：", "/".join(seg_list))

# 搜索引擎模式
seg_list = jieba.cut_for_search(text)
print(u"【搜索引擎模式】：", "/".join(seg_list))

# 默认模式
seg_list = jieba.cut(text)
print(u"【默认模式】：", "/".join(seg_list))

【全模式】： 故宫/的/著名/著名景点/景点/包括/乾清宫/清宫///太和/太和殿/和/黄琉璃瓦/琉璃/琉璃瓦/等
【精确模式】： 故宫/的/著名景点/包括/乾清宫/、/太和殿/和/黄琉璃瓦/等
【搜索引擎模式】： 故宫/的/著名/景点/著名景点/包括/清宫/乾清宫/、/太和/太和殿/和/琉璃/琉璃瓦/黄琉璃瓦/等
【默认模式】： 故宫/的/著名景点/包括/乾清宫/、/太和殿/和/黄琉璃瓦/等


In [22]:
# 提取关键字

import jieba
import jieba.analyse

text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美，午门是紫禁城的正门，午门居中向阳。"
my_dict = jieba.load_userdict('my_dict.txt')

# 精确模式
seg_list = jieba.cut(text, cut_all=False)
print(u"【精确模式】：", "/".join(seg_list))

# 关键词提取
tags = jieba.analyse.extract_tags(text, 5)
print(tags)

【精确模式】： 故宫/的/著名景点/包括/乾清宫/、/太和殿/和/午门/等/。/其中/乾清宫/非常/精美/，/午门/是/紫禁城/的/正门/，/午门/居中/向阳/。
['午门', '乾清宫', '著名景点', '太和殿', '向阳']


In [28]:
# 去除停用词

import jieba

# 定义停用词
stopwords = {}.fromkeys(['的', '包括', '等', '是'])
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美，午门是紫禁城的正门。"

# 精确模式
segs = jieba.cut(text)

final = ''
for seg in segs:
    if seg not in stopwords:
        final += seg

segs = jieba.cut(final)
print(u'【去除停用词后精确模式】：' + '/'.join(segs))

【去除停用词后精确模式】：故宫/著名景点/乾清宫/、/太和殿/和/午门/。/其中/乾清宫/非常/精美/，/午门/紫禁城/正门/。


In [43]:
# 对围城进行分词

import jieba

# 定义停用词
stopwords = {}.fromkeys(['的', '包括', '等', '是', '\t', '\n', ' '])

filename = '围城.txt'

with open(filename, 'r', encoding='utf-16') as f:
    text = f.read()

segs = jieba.cut(text)
for seg in segs:
    if seg not in stopwords:
        final += seg

segs = jieba.cut(final)
print(u'【去除停用词后精确模式】：' + '/'.join(segs))


【去除停用词后精确模式】：故宫/著名景点/乾清宫/、/太和殿/和/午门/。/其中/乾清宫/非常/精美/，/午门/紫禁城/正门/。/围城/钱钟书/　/　/　/　/　/　/　/　/　/　/　/　/　/　/　/序/　/　/在/这/本书/里/，/我/想/写/现代/中国/某/一部分/社会/、/某/一类/人物/。/写/这/类人/，/我/没/忘记/他们/人类/，/只是/人类/，/具有/无毛/两足/动物/基本/根性/。/角色/当然/虚构/，/但是/有/考据/癖/人/也/当然/不肯/错过/索隐/杨会/、/放弃/附会/权利/。/　/　/这/本书/整整/写/了/两年/。/两年/里/忧世/伤生/，/屡想/中止/。/由于/杨/绛/女士/不断/督促/，/替/我/挡/了/许多/事/，/省出/时间/来/，/得以/锱铢/积累/地写/完/。/照例/这/本书/该/献给/她/。/不过/，/近来/觉得/献书/也/像/“/致身/于国/”/、/“/还政于民/”/等等/佳话/，/只是/语言/幻成/空花/泡影/，/名说/交付/出去/，/其实/只/仿佛/魔术家/玩/飞刀/，/放手/而/并/没有/脱手/。/随/你/怎样/把/作品/奉献给/人/，/作品/总是/作者/自已/。/大不了/一/本书/，/还/不/值得/这样/精巧/地/不/老实/，/因此/罢了/。/　/　/　/　/　/　/　/　/　/　/　/　/　/　/　/　/　/三十五年/【/一九四九年/】/十二月/十五日/　/　/　/　/　/　/　/　/　/　/　/　/重/　/印/　/前/　/记/　/　/《/围城/》/一九四七年/在/上海/初版/，/一九四八年/再版/，/一九四九年/三版/，/以后/国内/没有/重印/过/。/偶然/碰见/它/新版/，/那/都/香港/“/盗印/”/本/。/没有/看到/台湾/“/盗印/”/，/据说/在/那里/它/禁书/。/美国哥伦比亚大学/夏志清/教授/英文/著作/里/对/它/作/了/过/高/评价/，/导致/了/一些/西方/语言/译本/。/日本京都大学/荒井健/教授/很久以前/就/通知/我/他/要/翻译/，/近年来/也/陆续/在/刊物/上/发表/了/译文/。/现在/，/人民文学出版社/建议/重新/排印/，/以便/原著/在/国内/较易/找/着/，/我/感到/意外/和/忻辛/。/　/　/我/写/完/《/围城/》/，/就/对/它/不/很/满意/。/出版/