### 基于规则的分词：正/逆/双向最大匹配，依赖词典，新出现的词（未登陆词）可能无法分出

In [15]:
# 逆向最大匹配
class IMM(object):
    
    def __init__(self, dic_path):
        self.dictionary = set() # 集合，添加用add()方法
        self.maximun = 0
        # 读取词典
        with open(dic_path, 'r', encoding='utf8') as f:
            for line in f:
                line = line.strip()
                if not line:
                    continue
                self.dictionary.add(line)
                if len(line) > self.maximun:
                    self.maximun = len(line)
                    
    def cut(self, text):
        result = []
        index = len(text)  # 获取当前text的长度，从后往前定位到最后一个字
        while index > 0:
            word = None    # 一开始word里是空的
            for size in range(self.maximun, 0, -1):  # 逆向往前推
                if index - size < 0:   # 按照词典里最长的词语的长度来首次匹配，若匹配不上，则退出
                    continue
                piece = text[(index-size): index] #  若逆向且最大长度的词语的长度符合要求
                if piece in self.dictionary:      #  且该词语也存在词典中
                    word = piece
                    result.append(word)
                    index -= size
                    break
            if word is None:
                index -= 1
        return result[::-1] # 逆向添加的结果，最后要逆向输出

def main():
    text = "南京市长江大桥"
    tokenizer = IMM("./chapter3/imm_dic.utf8")
    print(tokenizer.cut(text))
    
main()

['南京市', '长江大桥']


In [17]:
'''
    词典imm_dic.utf8中的内容
'''
# imm_dic.utf8 
# 南京市
# 南京市长
# 长江大桥
# 人名解放军
# 大桥

### 基于统计的分词 HMM CRF

### 混合分词：规则＋统计，如jieba

In [64]:
# 高频词提取1

def get_content(path):
    with open(path, 'r', encoding='gbk', errors='ignore') as f:
        content = ''
        for l in f:
            l = l.strip()
            content += l
        return content

def get_TF(words, topK=10):
    tf_dic = {}
    for w in words:
        tf_dic[w] = tf_dic.get(w, 0) + 1
#         print(tf_dic)
    return sorted(tf_dic.items(), key=lambda x: x[1], reverse=True)[:topK]

def stop_words(path):
    with open(path) as f:
        return [l.strip() for l in f]
    
# stop_words('./chapter3/stop_words.utf8')

# 分词
# def main():
#     import glob
#     import random
#     import jieba
    
#     files = glob.glob("./chapter3/data/C000013/*.txt") # 查找符合特定规则的文件路径名, "*"匹配0个或多个字符；"?"匹配单个字符；"[]"匹配指定范围内的字符,如：[0-9]匹配数字
#     corpus = [get_content(x) for x in files[:5]]
# #     print(files[:5])
# #     print(corpus)
    
#     sample_inx = random.randint(0, len(corpus))
# #     print(len(corpus))
# #     print(sample_inx)

    
#     import jieba.posseg as psg
    
#     split_words = [x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words('./chapter3/stop_words.utf8')]
    
# #     print(corpus[sample_inx])
    
#     print('样本之一：'+ corpus[sample_inx])
#     print('样本分词效果：'+'/ '.join(split_words))
#     print('样本的topK（10）词：'+ str(get_TF(split_words)))

# main()
    

In [78]:

#高频词提取2

def main():
    import glob
    import random
    import jieba
    import jieba.posseg as psg
    
    files = glob.glob('./chapter3/data/C000013/*.txt')
    corpus = [get_content(x) for x in files]  # 若不切片，就读取设置路径下的全部文件
    print(len(corpus))   # 15
#     print(corpus)
    
    sample_inx = random.randint(0, len(corpus))
    print(sample_inx)
#     sample_inx = 3
    
    aa = [w for w, t in psg.cut(corpus[sample_inx]) 
                   if w not in stop_words('./chapter3/stop_words.utf8') and t.startswith('n')]
    
    bb = [t for w, t in psg.cut(corpus[sample_inx]) 
                   if w not in stop_words('./chapter3/stop_words.utf8') and t.startswith('n')]
    
    print(aa)
    print("***********************************************************************************")
    print(bb)
    
    split_words = [w for w, t in psg.cut(corpus[sample_inx]) 
                   if w not in stop_words('./chapter3/stop_words.utf8') and t.startswith('n')]
    print('样本之一：' + corpus[sample_inx])
    print('样本分词效果：' + '/ '.join(split_words))
    print('样本的topK（10）词：'+ str(get_TF(split_words)))
    
main()

15
6
['日本', '医科大学', '医院', '疫苗', '方法', '乙型肝炎', '母婴', '方法', '次数', '效果', '优点', '日本', '经济', '新闻', '医院', '院长', '稻叶', '宪', '新', '方法', '婴儿', '药物', '婴儿', '小时', '乙肝', '专题', '疫苗', '婴儿', '健康检查', '时', '疫苗', '证实', '方法', '婴儿', '免疫力', '乙型肝炎', '肝硬化', '肝癌', '专题', '血液', '母婴', '传统', '疫苗', '病毒', '母亲', '新生儿', '次数', '周期长', '婴儿', '现象', '乙肝', '母婴', '病例', '中约', '疫苗']
***********************************************************************************
['ns', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'ns', 'n', 'n', 'n', 'n', 'n', 'nr', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'n', 'ns', 'n']
样本之一：日本独协医科大学医院开发一种新的疫苗接种方法，可有效阻断乙型肝炎在母婴间的传播。新方法具有接种次数少、效果好的优点。据《日本经济新闻》报道，这家医院的院长稻叶宪之等人开发的新方法分两次给婴儿注射药物，第一次是在婴儿出生24小时内立即注射球蛋白和乙肝(专题 访谈 咨询)疫苗，第二次是在婴儿出生一个月后接受健康检查时，再注射一次疫苗。临床研究证实，这种方法可使婴儿获得足够的免疫力。乙型肝炎可发展为肝硬化及肝癌(专题 访谈 咨询)等。它通常经血液传播或在母婴间传播。传统的疫苗接种法虽然也能阻断病毒在母亲和新生儿之间传播，但接种次数多，且周期长，因而经常出现婴儿未及时接种的

In [82]:
# 练习jieba的使用

import jieba.posseg as psg

sent = '中文分词是文本处理不可或缺的一步！'

seg_list = psg.cut(sent)

print(' '.join(['{0}/{1}'.format(w, t) for w, t in seg_list]))

中文/nz 分词/n 是/v 文本处理/n 不可或缺/l 的/uj 一步/m ！/x


In [87]:
import jieba

jieba.set_dictionary('./chapter3/dict.txt.big') # 改变主词典的路径，默认用的是jieba的分词词典

with open('./chapter3/user_dict.utf8', 'r') as f:
    for l in f:
        print(l)
        
sent = 'jieba分词非常好用，可以自定义金融词典！'
seg_list = jieba.cut(sent)
print('加载词典前:', '/ '.join(seg_list))

jieba.load_userdict('./chapter3/user_dict.utf8') # 添加一些用户自定义的词典
seg_list = jieba.cut(sent)
print('加载词典后:', '/ '.join(seg_list))

大波浪 10

jieba分词 n

金融词典 7  

加载词典前: jieba分词/ 非常/ 好用/ ，/ 可以/ 自定义/ 金融词典/ ！
加载词典后: jieba分词/ 非常/ 好用/ ，/ 可以/ 自定义/ 金融词典/ ！


In [89]:
import jieba
sent = '好丑的证件照片'
print('/ '.join(jieba.cut(sent, HMM=False)))

jieba.suggest_freq(('证件照片'), True)
print('/ '.join(jieba.cut(sent, HMM=False)))

好丑/ 的/ 证件/ 照片
好丑/ 的/ 证件照片


In [94]:
# 基于 TF-IDF 算法的关键词抽取 
# jieba.analyse.extract_tags()

import jieba.analyse as aly

content = '''
自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。
因此，自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战，包括自然语言理解，因此，自然语言处理涉及人机交互的面积。
在NLP诸多挑战涉及自然语言理解，即计算机源于人为或自然语言输入的意思，和其他涉及到自然语言生成。

'''
#加载自定义idf词典
aly.set_idf_path('./chapter3/idf.txt.big')
#加载停用词典
aly.set_stop_words('./chapter3/stop_words.utf8')

# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词
keywords = aly.extract_tags(content, topK=10, withWeight=True, allowPOS=())

for item in keywords:
    # 分别为关键词和相应的权重
    print(item[0], item[1])

自然语言 2.0790900005043476
NLP 0.5197725001260869
计算机 0.5197725001260869
领域 0.5197725001260869
人机交互 0.5197725001260869
挑战 0.5197725001260869
理解 0.5197725001260869
处理 0.4705091875965217
涉及 0.3839134341652174
人工智能 0.25988625006304344


In [96]:
# 基于 TextRank 算法的关键词抽取
# jieba.analyse.TextRank() 
import jieba.analyse as aly

content = '''
自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。
因此，自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战，包括自然语言理解，因此，自然语言处理涉及人机交互的面积。
在NLP诸多挑战涉及自然语言理解，即计算机源于人为或自然语言输入的意思，和其他涉及到自然语言生成。
'''

# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 第四个参数：词性过滤，为空表示过滤所有，与TF—IDF不一样！

keywords = jieba.analyse.textrank(content, topK=10, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
for item in keywords:
    # 分别为关键词和相应的权重
    print(item[0], item[1])

涉及 1.0
计算机 0.9618169519358478
处理 0.8124660402732825
理解 0.7885898958379202
挑战 0.7833575495518058
人机交互 0.7343470452632993
语言学 0.727536034596871
人类 0.6290562193534068
人工智能 0.5809911385488661
关注 0.577881611632419
