# jieba 分词之高频词实战

In [1]:
#jieba分词示例
def get_content(path):
    """
    加载语料文件，合并内容
    :param path:语料文件路径
    :return content: 语料内容
    """
    with open(path, 'r', encoding='gbk', errors='ignore') as f:
        content = ''
        for l in f:
            l = l.strip()
            content += l
        return content


def get_TF(words, topK=10):
    """
    计算文档中词汇的topK
    :param words:文档词汇
    :param topK:高频词个数
    :return dict:topK个高频词及词频
    """
    tf_dic = {}
    for w in words:
        tf_dic[w] = tf_dic.get(w, 0) + 1
    return sorted(tf_dic.items(), key = lambda x: x[1], reverse=True)[:topK]

def stop_words(path):
    """
    加载停用词文件
    :param path:停用词文件路径
    :return list:停用词list
    """
    with open(path, 'r', encoding='gbk', errors='ignore') as f:
        return [l.strip() for l in f]

In [2]:
#分词
def main():
    import glob#返回所有匹配的文件路径列表（list）
    import jieba
    
    files = glob.glob('./data/news/C000013/*.txt')#获取文件目录下所有的.txt文件目录
    
    corpus = [get_content(x) for x in files[:5]]#处理前5个文件
    
    sample_inx = 3
    
    #jieba分词，去除停用词
    split_words = [x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words('./data/stop_words.utf8')]
    
    print('样本：'+corpus[sample_inx])
    print('样本分词效果：'+'/ '.join(split_words))
    print('样本的topK（10）词：'+str(get_TF(split_words)))
    
main()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\86153\AppData\Local\Temp\jieba.cache
Loading model cost 0.663 seconds.
Prefix dict has been built succesfully.


样本：中国卫生部官员24日说，截至2005年底，中国各地报告的尘肺病病人累计已超过60万例，职业病整体防治形势严峻。卫生部副部长陈啸宏在当日举行的“国家职业卫生示范企业授牌暨企业职业卫生交流大会”上说，中国各类急性职业中毒事故每年发生200多起，上千人中毒，直接经济损失达上百亿元。职业病病人总量大、发病率较高、经济损失大、影响恶劣。卫生部24日公布，2005年卫生部共收到全国30个省、自治区、直辖市（不包括西藏、港、澳、台）各类职业病报告12212例，其中尘肺病病例报告9173例，占75．11%。陈啸宏说，矽肺和煤工尘肺是中国最主要的尘肺病，且尘肺病发病工龄在缩短。去年报告的尘肺病病人中最短接尘时间不足三个月，平均发病年龄40．9岁，最小发病年龄20岁。陈啸宏表示，政府部门执法不严、监督不力，企业生产水平不高、技术设备落后等是职业卫生问题严重的原因。“但更重要的原因是有些企业法制观念淡薄，社会责任严重缺位，缺乏维护职工健康的强烈的意识，职工的合法权益不能得到有效的保障。”他说。为提高企业对职业卫生工作的重视，卫生部、国家安全生产监督管理总局和中华全国总工会24日在京评选出56家国家级职业卫生工作示范企业，希望这些企业为社会推广职业病防治经验，促使其他企业作好职业卫生工作，保护劳动者健康。
样本分词效果：中国卫生部/ 官员/ 24/ 日/ 说/ ，/ 截至/ 2005/ 年底/ ，/ 中国/ 各地/ 报告/ 的/ 尘肺病/ 病人/ 累计/ 已/ 超过/ 60/ 万例/ ，/ 职业病/ 整体/ 防治/ 形势严峻/ 。/ 卫生部/ 副/ 部长/ 陈啸宏/ 在/ 当日/ 举行/ 的/ “/ 国家/ 职业/ 卫生/ 示范/ 企业/ 授牌/ 暨/ 企业/ 职业/ 卫生/ 交流/ 大会/ ”/ 上/ 说/ ，/ 中国/ 各类/ 急性/ 职业/ 中毒/ 事故/ 每年/ 发生/ 200/ 多起/ ，/ 上千人/ 中毒/ ，/ 直接/ 经济损失/ 达上/ 百亿元/ 。/ 职业病/ 病人/ 总量/ 大/ 、/ 发病率/ 较/ 高/ 、/ 经济损失/ 大/ 、/ 影响/ 恶劣/ 。/ 卫生部/ 24/ 日/ 公布/ ，/ 2005/ 年/ 卫生部/ 共/ 收到/ 全国/ 30/ 个省/ 、/ 自治区/ 、/ 直辖市/ （/ 不/ 包括/ 西藏/ 、/ 港/ 、/ 澳/ 、/ 台/ ）/ 各

# 词性标注高频词实战

In [3]:
#jieba词性标注示例

def main():
    import glob
    import jieba
    import jieba.posseg as psg
    
    files = glob.glob('./data/news/C000013/*.txt')
    corpus = [get_content(x) for x in files]
    
    sample_inx = 3
    
    split_words = [w for w, t in psg.cut(corpus[sample_inx]) 
                   if w not in stop_words('./data/stop_words.utf8')
                  and t.startswith('n')]#名词
    print('样本：'+corpus[sample_inx])
    print('样本分词效果：'+'/ '.join(split_words))
    print('样本的topK（10）词：'+str(get_TF(split_words)))
main()

样本：中国卫生部官员24日说，截至2005年底，中国各地报告的尘肺病病人累计已超过60万例，职业病整体防治形势严峻。卫生部副部长陈啸宏在当日举行的“国家职业卫生示范企业授牌暨企业职业卫生交流大会”上说，中国各类急性职业中毒事故每年发生200多起，上千人中毒，直接经济损失达上百亿元。职业病病人总量大、发病率较高、经济损失大、影响恶劣。卫生部24日公布，2005年卫生部共收到全国30个省、自治区、直辖市（不包括西藏、港、澳、台）各类职业病报告12212例，其中尘肺病病例报告9173例，占75．11%。陈啸宏说，矽肺和煤工尘肺是中国最主要的尘肺病，且尘肺病发病工龄在缩短。去年报告的尘肺病病人中最短接尘时间不足三个月，平均发病年龄40．9岁，最小发病年龄20岁。陈啸宏表示，政府部门执法不严、监督不力，企业生产水平不高、技术设备落后等是职业卫生问题严重的原因。“但更重要的原因是有些企业法制观念淡薄，社会责任严重缺位，缺乏维护职工健康的强烈的意识，职工的合法权益不能得到有效的保障。”他说。为提高企业对职业卫生工作的重视，卫生部、国家安全生产监督管理总局和中华全国总工会24日在京评选出56家国家级职业卫生工作示范企业，希望这些企业为社会推广职业病防治经验，促使其他企业作好职业卫生工作，保护劳动者健康。
样本分词效果：中国卫生部/ 官员/ 中国/ 报告/ 尘肺病/ 病人/ 职业病/ 整体/ 卫生部/ 部长/ 陈啸宏/ 国家/ 职业/ 企业/ 暨/ 企业/ 职业/ 交流/ 大会/ 中国/ 急性/ 职业/ 中毒/ 事故/ 中毒/ 经济损失/ 职业病/ 病人/ 总量/ 发病率/ 经济损失/ 卫生部/ 卫生部/ 全国/ 省/ 自治区/ 直辖市/ 西藏/ 澳/ 职业病/ 报告/ 尘肺病/ 病例/ 报告/ 陈啸宏/ 矽肺/ 煤工/ 尘肺/ 中国/ 尘肺病/ 尘肺病/ 工龄/ 报告/ 尘肺病/ 病人/ 尘/ 时间/ 年龄/ 年龄/ 陈啸宏/ 政府部门/ 不力/ 企业/ 水平/ 技术设备/ 职业/ 问题/ 原因/ 原因/ 企业/ 法制观念/ 社会/ 责任/ 缺位/ 职工/ 意识/ 职工/ 合法权益/ 企业/ 职业/ 卫生部/ 国家/ 监督管理/ 总局/ 中华全国总工会/ 京/ 职业/ 企业/ 企业/ 社会/ 职业病/ 经验/ 企业/ 职业/ 劳动者
样本的topK（10）词：[('企业', 8),

In [5]:

import glob
import jieba
import jieba.posseg as psg
help(psg.cut)

Help on function cut in module jieba.posseg:

cut(sentence, HMM=True)
    Global `cut` function that supports parallel processing.
    
    Note that this only works using dt, custom POSTokenizer
    instances are not supported.



In [13]:
#jieba词性标注示例
def get_content(path):
    """
    加载语料文件，合并内容
    :param path:语料文件路径
    :return content: 语料内容
    """
    with open(path, 'r', encoding='gbk', errors='ignore') as f:
        content = ''
        for l in f:
            l = l.strip()
            content += l
        return content
def main():

    
    files = glob.glob('./data/news/C000013/*.txt')
    corpus = [get_content(x) for x in files]
    
    sample_inx = 3
    print(corpus[sample_inx])
    print("\n")
    a= [(w,t) for w, t in psg.cut(corpus[sample_inx])]
    print(a)

main()

中国卫生部官员24日说，截至2005年底，中国各地报告的尘肺病病人累计已超过60万例，职业病整体防治形势严峻。卫生部副部长陈啸宏在当日举行的“国家职业卫生示范企业授牌暨企业职业卫生交流大会”上说，中国各类急性职业中毒事故每年发生200多起，上千人中毒，直接经济损失达上百亿元。职业病病人总量大、发病率较高、经济损失大、影响恶劣。卫生部24日公布，2005年卫生部共收到全国30个省、自治区、直辖市（不包括西藏、港、澳、台）各类职业病报告12212例，其中尘肺病病例报告9173例，占75．11%。陈啸宏说，矽肺和煤工尘肺是中国最主要的尘肺病，且尘肺病发病工龄在缩短。去年报告的尘肺病病人中最短接尘时间不足三个月，平均发病年龄40．9岁，最小发病年龄20岁。陈啸宏表示，政府部门执法不严、监督不力，企业生产水平不高、技术设备落后等是职业卫生问题严重的原因。“但更重要的原因是有些企业法制观念淡薄，社会责任严重缺位，缺乏维护职工健康的强烈的意识，职工的合法权益不能得到有效的保障。”他说。为提高企业对职业卫生工作的重视，卫生部、国家安全生产监督管理总局和中华全国总工会24日在京评选出56家国家级职业卫生工作示范企业，希望这些企业为社会推广职业病防治经验，促使其他企业作好职业卫生工作，保护劳动者健康。


[('中国卫生部', 'nt'), ('官员', 'n'), ('24', 'm'), ('日', 'm'), ('说', 'v'), ('，', 'x'), ('截至', 'v'), ('2005', 'm'), ('年底', 't'), ('，', 'x'), ('中国', 'ns'), ('各地', 'r'), ('报告', 'n'), ('的', 'uj'), ('尘肺病', 'n'), ('病人', 'n'), ('累计', 'v'), ('已', 'd'), ('超过', 'v'), ('60', 'm'), ('万例', 'm'), ('，', 'x'), ('职业病', 'n'), ('整体', 'n'), ('防治', 'v'), ('形势严峻', 'i'), ('。', 'x'), ('卫生部', 'nt'), ('副', 'b'), ('部长', 'n'), ('陈啸宏', 'nr'), ('在', 'p'), ('当日', 't'), ('举行', 'v'),