## 中文分词

In [1]:
import jieba

In [2]:
sent = "中文分词是文本处理不可或缺的一步！"

In [10]:
"""全模式""" # 会将全部分词可能都输出
seg_list = jieba.lcut(sent, cut_all=True)  ## lcut 返回的是列表， cut返回的是generator
print("全模式：", seg_list)

全模式： ['中文', '分词', '是', '文本', '文本处理', '本处', '处理', '不可', '不可或缺', '或缺', '的', '一步', '', '']


In [11]:
"""精确模式（默认）"""
seg_list = jieba.lcut(sent, cut_all=False)
print("精确模式：", seg_list)

精确模式： ['中文', '分词', '是', '文本处理', '不可或缺', '的', '一步', '！']


In [12]:
"""搜索引擎模式"""  # 在精确模式基础上对长词再切分
seg_list = jieba.lcut_for_search(sent, HMM=True)
print("搜索引擎模式：", seg_list)

搜索引擎模式： ['中文', '分词', '是', '文本', '本处', '处理', '文本处理', '不可', '或缺', '不可或缺', '的', '一步', '！']


## 高频词提取

In [14]:
import os

In [17]:
os.listdir(path)

['C000008',
 'C000010',
 'C000013',
 'C000014',
 'C000016',
 'C000020',
 'C000022',
 'C000023',
 'C000024']

In [35]:
def get_content_from_doc(file_path):
    """
    文件内容读取函数
    """
    content = ""
    with open(file_path, mode="r", encoding="gbk", errors="ignore") as f:
        for l in f:
            l = l.strip()
            content += l
    return content

def get_TF(words):
    """
    词频统计函数
    words: 包含词的列表或生成器
    """
    tf_dic = {}
    for word in words:
        try:
            tf_dic[word] += 1
        except KeyError:
            tf_dic[word] = 1
    return tf_dic

def get_topK_words(tf_dic, topK=10, stop_words=None):
    """
    去除stop_words统计，根据词频统计，返回词频最高的 topK个词
    """
    if stop_words is not None:
        tf_dic = {k: v for k, v in tf_dic.items() if k not in stop_words}
    return sorted(tf_dic.items(), key=lambda x: x[1], reverse=True)[:topK]

In [44]:
import glob
import random 
import jieba

path = "F:/for learn/Python/NLP_in_Action/chapter-3/data/"
stop_words_path = path + "stop_words.utf8"
content_path = path + "news/"

with open(stop_words_path, "r", encoding="UTF-8") as f:
    stop_words = [l.strip() for l in f]

files = glob.glob(content_path + "C000013/*.txt")
## 随机选择一个文本作为样本
rand_ind = random.randint(0, len(files))
sample_corpus = get_content_from_doc(files[rand_ind])

split_words = jieba.lcut(sample_corpus)
words_tf = get_TF(split_words)
topK_words = get_topK_words(words_tf, stop_words=stop_words)

print("样本文件：", files[rand_ind])
print("样本之一：", sample_corpus)
print("样本分词结果:", "/ ".join(split_words))
print("样本topK分词：", str(topK_words))  

样本文件： F:/for learn/Python/NLP_in_Action/chapter-3/data/news/C000013\1855.txt
样本之一： 《美国新闻与世界报道》杂志邀请数位饮食、理财和医学专家，总结出50个在新的一年提高生活质量的建议，与健康相关的介绍如下：每天补充一点欧米伽3欧米伽3是一种不饱和脂肪酸，鱼类、芥菜籽油和胡桃等食物中都富含这一营养成分。常吃含欧米伽3的食物，能预防心脏病。&nbsp; 收听、收看医学新闻美国曾在2005年夏季进行过一项民意调查，结果显示，美国人极其依赖报纸、广播和电视，来获取健康方面的新闻。因此，电台和电视台应加长播报健康新闻的时间，播报一条健康新闻不能少于90秒。&nbsp; 挑选正确的止痛药2005年以来，关于止痛药的负面信息不断地出现在媒体上，美国食品和药品监督管理局对止痛药采取了监管措施。这也给人们提了个醒：购买止痛药必须要谨慎、按医嘱，严格按照推荐剂量。给自己买一部振动健身器买一部振动健身器放在家中，运动起来不累，而且不占地方。和孩子一起玩电脑游戏父母对电脑游戏应有正确的态度，甚至应加入到孩子们的行列，毕竟玩游戏可以提高眼、手的协调能力，对大脑也很有好处。冥想，大脑休息的好方法研究证明，冥想可以缓解身体紧张，治疗心脏病、关节炎等疾病。每天只要花上十多分钟，还能大大降低心血管病发生率。享受一把泰式按摩泰式按摩是结合瑜伽、按摩、针灸为一体的保健方法，有助于缓减身体某些部位疼痛。按摩前，一定要向按摩师介绍自己的病史，这样可以做到有的放矢，也能避免意外损伤。杀菌肥皂少用研究发现，灭菌肥皂和普通肥皂在杀灭细菌、防感染的效果一样，但长期使用灭菌肥皂会产生抗药性。少吃人造黄油人造黄油含有反式脂肪酸，会提高人体坏胆固醇水平，长期食用会增加患心脏病风险。不再补充维生素E19项研究发现，大剂量服用维生素E会增加中风几率，还会减少体内可溶解脂肪的抗氧化剂。
样本分词结果: 《/ 美国/ 新闻/ 与/ 世界/ 报道/ 》/ 杂志/ 邀请/ 数位/ 饮食/ 、/ 理财/ 和/ 医学专家/ ，/ 总结/ 出/ 50/ 个/ 在/ 新/ 的/ 一年/ 提高/ 生活/ 质量/ 的/ 建议/ ，/ 与/ 健康/ 相关/ 的/ 介绍/ 如下/ ：/ 每天/ 补充/ 一点/ 欧米/ 伽/ 3/ 欧米/ 伽/ 3/ 是/ 一种/ 不饱和