In [1]:
#导入数据分析所需的基础包
import pandas as pd
import numpy as np
import os

#包tqdm是用来对可迭代对象执行时生成一个进度条用以监视程序运行过程
from tqdm import tqdm

#导入训练集测试集划分的包
from sklearn.model_selection import train_test_split

#导入CRF模型所需的包
from sklearn_crfsuite import CRF

#导入模型评估所需的包
from sklearn_crfsuite import metrics

# 读取数据

数据保存在data/目录下，data/目录下共有四个文件夹，分别对应四种医学情景：出院情况、病史特点、诊疗过程和一般项目。每个文件夹下保存了该情景下的电子病历。包括两类文件：'xxx-yyy.txtoriginal.txt'和'xxx-yyy.txt'。'xxx-yyy.txtoriginal.txt'保存了xxx情境下第yyy号病历的病历文本，保存在txt的第一行中。'xxx-yyy.txt'为其对应的标签数据。

数据中共包含5种实体：治疗、身体部位、疾病和诊断、症状和体征、检查和检验。

In [18]:
# 读取一个病历文本数据，并查看其内容。
with open('data/一般项目/一般项目-1.txtoriginal.txt') as f:
    content = f.read().strip()
print(content)

女性，88岁，农民，双滦区应营子村人，主因右髋部摔伤后疼痛肿胀，活动受限5小时于2016-10-29；11：12入院。


In [19]:
# 读取上述病历对应的标签数据
with open('data/一般项目/一般项目-1.txt') as f:
    content_label = f.read().strip()
print(content_label)

右髋部	21	23	身体部位
疼痛	27	28	症状和体征
肿胀	29	30	症状和体征


可以看出，标签文件的数据格式为每行对应一个实体，每行格式为“实体内容 实体在文本中的开始位置 实体在文本中的结束位置 实体类别”。如第一行表示content[21:24]对应的便是'右髋部'，为身体部位实体类别。

# 数据标注

实体识别的数据标注方式主要有BIOES和BIO两种，详细的介绍参考实验手册。这里为使标注类别不至于太多，我们采用BIO方式。即将实体部分的第一个汉字标注为B，实体的其他部分的汉字标注为I，非实体部分标注为O。

将5种实体类别治疗、身体部位、疾病和诊断、症状和体征、检查和检验分别标记为TREATMENT、BODY、DISEASES、SIGNS、EXAMINATIONS。

则标记时，如：若为治疗类别的实体的第一个汉字，则将其标注为B-TREATMENT，该实体其他字标记为I-TREATMENT。

In [20]:
label_dict = {'治疗':'TREATMENT',
              '身体部位':'BODY',
              '疾病和诊断':'DISEASES',
              '症状和体征':'SIGNS',
              '检查和检验':'EXAMINATIONS'}

def sentence2BIOlabel(sentence,label_from_file):
    '''
        返回句子sentence的BIO标注列表
        入参：
            sentence：一个句子，字符串类别
            label_from_file：该句子对应的标签，格式为直接从txt文件中读出的格式，形如上文中的content_label
        出参：
            sentence_label：该句子的BIO标签。一个列表，列表的第i项为第i个汉字对应的标签
    '''
    #初始的sentence_label每个标签均定义为'O'。之后会修改其中实体部分的标签。
    sentence_label = ['O']*len(sentence)
    if label_from_file=='':
        return sentence_label
    #line为label_from_file中每一行的数据，对应一个实体的信息。格式为“实体内容 实体在文本中的开始位置 实体在文本中的结束位置 实体类别”
    for line in label_from_file.split('\n'):
        #entity_info中保存了单个实体的信息
        entity_info = line.strip().split('\t')
        start_index = int(entity_info[1])     #实体在文本中的开始位置
        end_index = int(entity_info[2])      #实体在文本中的结束位置
        entity_label = label_dict[entity_info[3]]      #实体标签类别
        #为实体的第一个汉字标记为B-xx
        sentence_label[start_index] = 'B-'+entity_label
        #为实体中的其他汉字标记为I-xx
        for i in range(start_index+1,end_index+1):
            sentence_label[i] = 'I-'+entity_label
    return sentence_label

In [21]:
#以上文中的content和content_label为例查看sentence2BIOlabel函数的使用方法
#返回上文中content对应的BIO标签并输出
sentence_label_tmp = sentence2BIOlabel(content,content_label)
print(sentence_label_tmp)

['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-BODY', 'I-BODY', 'I-BODY', 'O', 'O', 'O', 'B-SIGNS', 'I-SIGNS', 'B-SIGNS', 'I-SIGNS', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


In [22]:
#输出content中每个汉字与BIO标签的对应关系
for i in range(len(content)):
    print(content[i],sentence_label_tmp[i])

女 O
性 O
， O
8 O
8 O
岁 O
， O
农 O
民 O
， O
双 O
滦 O
区 O
应 O
营 O
子 O
村 O
人 O
， O
主 O
因 O
右 B-BODY
髋 I-BODY
部 I-BODY
摔 O
伤 O
后 O
疼 B-SIGNS
痛 I-SIGNS
肿 B-SIGNS
胀 I-SIGNS
， O
活 O
动 O
受 O
限 O
5 O
小 O
时 O
于 O
2 O
0 O
1 O
6 O
- O
1 O
0 O
- O
2 O
9 O
； O
1 O
1 O
： O
1 O
2 O
入 O
院 O
。 O


In [23]:
#将数据集中每个样本读进来并将其保存在sentence_list中，将每个样本对应的BIO标签保存在label_list中
#sentence_list的格式为[第一个句子，第二个句子，第三个句子，...，第n个句子]
#label_list的格式为[第一个句子对应的BIO标注列表，第二个句子对应的BIO标注列表，第三个句子对应的BIO标注列表，...，第n个句子对应的BIO标注列表]
sentence_list = []
label_list = []
for medical_situation in os.listdir('data/'):
    path = 'data/'+medical_situation+'/'
    if '.DS_Store' in path:
        continue
    for file_name in os.listdir(path):
        print (file_name)
        #判断文件名中是否包含'txtoriginal'。若包含'txtoriginal'说明为原始的病历文件，不包含说明为标签文件。
        #当为病历文件时，我们一次性处理该病历文件及其对应的标签文件。若为标签文件时忽略。
        if 'txtoriginal' in file_name:
            original_file = path+file_name    #病历文件所在的目录
            label_file = path+file_name.replace('.txtoriginal','')     #标签文件所在的目录
            #读取病历文件
            with open(original_file) as f:
                content = f.read().strip()
            #读取标签文件
            with open(label_file) as f:
                content_label = f.read().strip()
            #获取病历文本对应的BIO标注列表
            sentence_label = sentence2BIOlabel(content,content_label)
            #将病历文本加入sentence_list中
            sentence_list.append(content)
            #将其对应的BIO标签加入到label_list中
            label_list.append(sentence_label)

诊疗过程-199.txt
诊疗过程-281.txtoriginal.txt
诊疗过程-161.txtoriginal.txt
诊疗过程-34.txtoriginal.txt
诊疗过程-227.txtoriginal.txt
诊疗过程-23.txt
诊疗过程-37.txt
诊疗过程-166.txt
诊疗过程-172.txt
诊疗过程-92.txtoriginal.txt
诊疗过程-73.txtoriginal.txt
诊疗过程-126.txtoriginal.txt
诊疗过程-238.txt
诊疗过程-210.txt
诊疗过程-180.txtoriginal.txt
诊疗过程-204.txt
诊疗过程-260.txtoriginal.txt
诊疗过程-205.txt
诊疗过程-244.txtoriginal.txt
诊疗过程-211.txt
诊疗过程-239.txt
诊疗过程-199.txtoriginal.txt
诊疗过程-279.txtoriginal.txt
诊疗过程-102.txtoriginal.txt
诊疗过程-57.txtoriginal.txt
诊疗过程-5.txtoriginal.txt
诊疗过程-173.txt
诊疗过程-167.txt
诊疗过程-298.txtoriginal.txt
诊疗过程-36.txt
诊疗过程-178.txtoriginal.txt
诊疗过程-203.txtoriginal.txt
诊疗过程-22.txt
诊疗过程-10.txtoriginal.txt
诊疗过程-145.txtoriginal.txt
诊疗过程-198.txt
诊疗过程-276.txtoriginal.txt
诊疗过程-8.txt
诊疗过程-196.txtoriginal.txt
诊疗过程-58.txtoriginal.txt
诊疗过程-130.txtoriginal.txt
诊疗过程-34.txt
诊疗过程-20.txt
诊疗过程-159.txt
诊疗过程-171.txt
诊疗过程-165.txt
诊疗过程-65.txtoriginal.txt
诊疗过程-84.txtoriginal.txt
诊疗过程-231.txtoriginal.txt
诊疗过程-22.txtoriginal.txt
诊疗过程-207.txt
诊疗过程-213.txt
诊疗过程-17

诊疗过程-145.txt
诊疗过程-151.txt
诊疗过程-28.txt
诊疗过程-179.txt
诊疗过程-14.txt
诊疗过程-186.txt
诊疗过程-192.txt
诊疗过程-8.txtoriginal.txt
诊疗过程-4.txt
诊疗过程-196.txt
诊疗过程-182.txt
诊疗过程-155.txt
诊疗过程-141.txt
诊疗过程-38.txt
诊疗过程-10.txt
诊疗过程-169.txt
诊疗过程-234.txtoriginal.txt
诊疗过程-81.txtoriginal.txt
诊疗过程-172.txtoriginal.txt
诊疗过程-292.txtoriginal.txt
诊疗过程-209.txtoriginal.txt
诊疗过程-27.txtoriginal.txt
诊疗过程-223.txt
诊疗过程-237.txt
诊疗过程-273.txtoriginal.txt
诊疗过程-193.txtoriginal.txt
诊疗过程-108.txtoriginal.txt
诊疗过程-60.txtoriginal.txt
诊疗过程-135.txtoriginal.txt
诊疗过程-111.txtoriginal.txt
诊疗过程-44.txtoriginal.txt
诊疗过程-257.txtoriginal.txt
诊疗过程-79.txtoriginal.txt
诊疗过程-236.txt
诊疗过程-222.txt
诊疗过程-98.txtoriginal.txt
诊疗过程-156.txtoriginal.txt
诊疗过程-210.txtoriginal.txt
诊疗过程-11.txt
诊疗过程-168.txt
诊疗过程-140.txt
诊疗过程-39.txt
诊疗过程-154.txt
诊疗过程-183.txt
诊疗过程-197.txt
诊疗过程-5.txt
诊疗过程-181.txt
诊疗过程-7.txt
诊疗过程-195.txt
诊疗过程-142.txt
诊疗过程-156.txt
诊疗过程-13.txt
诊疗过程-258.txtoriginal.txt
诊疗过程-123.txtoriginal.txt
诊疗过程-76.txtoriginal.txt
诊疗过程-185.txtoriginal.txt
诊疗过程-265.txtorigin

病史特点-155.txtoriginal.txt
病史特点-33.txt
病史特点-159.txt
病史特点-27.txt
病史特点-288.txtoriginal.txt
病史特点-168.txtoriginal.txt
病史特点-165.txt
病史特点-171.txt
病史特点-213.txtoriginal.txt
病史特点-170.txt
病史特点-237.txtoriginal.txt
病史特点-164.txt
病史特点-26.txt
病史特点-32.txt
病史特点-158.txt
病史特点-291.txtoriginal.txt
病史特点-171.txtoriginal.txt
病史特点-62.txtoriginal.txt
病史特点-206.txt
病史特点-212.txt
病史特点-190.txtoriginal.txt
病史特点-270.txtoriginal.txt
病史特点-136.txtoriginal.txt
病史特点-25.txtoriginal.txt
病史特点-5.txt
病史特点-18.txtoriginal.txt
病史特点-83.txtoriginal.txt
病史特点-50.txtoriginal.txt
病史特点-2.txtoriginal.txt
病史特点-7.txt
病史特点-205.txtoriginal.txt
病史特点-143.txtoriginal.txt
病史特点-238.txt
病史特点-238.txtoriginal.txt
病史特点-204.txt
病史特点-210.txt
病史特点-17.txtoriginal.txt
病史特点-199.txt
病史特点-242.txtoriginal.txt
病史特点-139.txtoriginal.txt
病史特点-24.txt
病史特点-30.txt
病史特点-18.txt
病史特点-172.txt
病史特点-104.txtoriginal.txt
病史特点-166.txt
病史特点-167.txt
病史特点-120.txtoriginal.txt
病史特点-19.txt
病史特点-173.txt
病史特点-31.txt
病史特点-25.txt
病史特点-266.txtoriginal.txt
病史特点-186.txtoriginal.txt
病史特点-198

出院情况-95.txtoriginal.txt
出院情况-33.txtoriginal.txt
出院情况-217.txt
出院情况-229.txtoriginal.txt
出院情况-152.txtoriginal.txt
出院情况-203.txt
出院情况-36.txt
出院情况-214.txtoriginal.txt
出院情况-22.txt
出院情况-49.txtoriginal.txt
出院情况-6.txt
出院情况-74.txtoriginal.txt
出院情况-50.txtoriginal.txt
出院情况-7.txt
出院情况-23.txt
出院情况-37.txt
出院情况-230.txtoriginal.txt
出院情况-296.txtoriginal.txt
出院情况-202.txt
出院情况-176.txtoriginal.txt
出院情况-216.txt
出院情况-17.txtoriginal.txt
出院情况-197.txtoriginal.txt
出院情况-277.txtoriginal.txt
出院情况-148.txt
出院情况-131.txtoriginal.txt
出院情况-174.txt
出院情况-160.txt
出院情况-179.txt
出院情况-145.txt
出院情况-151.txt
出院情况-71.txtoriginal.txt
出院情况-186.txt
出院情况-192.txt
出院情况-157.txtoriginal.txt
出院情况-211.txtoriginal.txt
出院情况-90.txtoriginal.txt
出院情况-233.txt
出院情况-227.txt
出院情况-36.txtoriginal.txt
出院情况-12.txt
出院情况-110.txtoriginal.txt
出院情况-256.txtoriginal.txt
出院情况-109.txtoriginal.txt
出院情况-192.txtoriginal.txt
出院情况-272.txtoriginal.txt
出院情况-300.txtoriginal.txt
出院情况-134.txtoriginal.txt
出院情况-13.txt
出院情况-12.txtoriginal.txt
出院情况-89.txtoriginal.txt
出院情况-226.t

一般项目-271.txtoriginal.txt
一般项目-62.txtoriginal.txt
一般项目-137.txtoriginal.txt
一般项目-164.txt
一般项目-170.txt
一般项目-158.txt
一般项目-25.txtoriginal.txt
一般项目-236.txtoriginal.txt
一般项目-290.txtoriginal.txt
一般项目-18.txtoriginal.txt
一般项目-170.txtoriginal.txt
一般项目-83.txtoriginal.txt
一般项目-138.txtoriginal.txt
一般项目-50.txtoriginal.txt
一般项目-243.txtoriginal.txt
一般项目-105.txtoriginal.txt
一般项目-199.txt
一般项目-166.txt
一般项目-172.txt
一般项目-204.txtoriginal.txt
一般项目-17.txtoriginal.txt
一般项目-239.txtoriginal.txt
一般项目-10.txt
一般项目-142.txtoriginal.txt
一般项目-38.txt
一般项目-6.txt
一般项目-238.txt
一般项目-210.txt
一般项目-204.txt
一般项目-205.txt
一般项目-211.txt
一般项目-239.txt
一般项目-3.txtoriginal.txt
一般项目-7.txt
一般项目-39.txt
一般项目-166.txtoriginal.txt
一般项目-286.txtoriginal.txt
一般项目-95.txtoriginal.txt
一般项目-11.txt
一般项目-33.txtoriginal.txt
一般项目-220.txtoriginal.txt
一般项目-173.txt
一般项目-167.txt
一般项目-198.txt
一般项目-121.txtoriginal.txt
一般项目-49.txtoriginal.txt
一般项目-267.txtoriginal.txt
一般项目-187.txtoriginal.txt
一般项目-74.txtoriginal.txt
一般项目-181.txt
一般项目-195.txt
一般项目-12.txtoriginal.t

# 文本特征工程

要使用CRF算法对每个字进行标注，就需要获取每个字对应的特征。就需要对文本进行特征工程，这一部分就是构建一句话中每个字的特征。

In [30]:
#中文分词时最常用的包是jieba。但我们本次的数据集是专门针对医疗领域的，这里选用了一个在细分领域上表现更好的库pkuseg
import jieba
#import pkuseg
#将model_name设置为'medicine'以加载医疗领域的模型。第一次执行此代码时会自动下载医疗领域对应的模型，这可能需要一些时间。
#设置postag为True会在分词的同时进行词性标注
seg = pkuseg.pkuseg(model_name='medicine',postag=True)

NameError: name 'pkuseg' is not defined

In [27]:
import jieba 
list = jieba.cut('发病原因为右髋部摔伤后疼痛肿胀')
print("Default Mode: " + "/ ".join(list))  # 精确模式


Default Mode: 发病/ 原因/ 为/ 右/ 髋部/ 摔伤/ 后/ 疼痛/ 肿胀


In [29]:
#pkuseg包使用示例
seg.cut('发病原因为右髋部摔伤后疼痛肿胀')

NameError: name 'seg' is not defined

可以看出，pkuseg包对医疗方面的文本有较好的分词效果。seg.cut(文本)的输出格式为[(第一个词，第一个词的词性),(第二个词，第二个词的词性),...,(第n个词，第n个词的词性)]。稍后在构建每个字的特征时我们会用到pkuseg的分词功能。

In [10]:
#加载医学的专业词汇词库THUOCL_medical.txt。这一文件是从https://github.com/thunlp/THUOCL中下载而来。
#文件中每行的格式为：医学名词 词频

#读取文件
with open('THUOCL_medical.txt') as f:
    medical_words = f.read().strip()
#获取医疗词汇表
medical_words_list = [words.strip().split('\t')[0] for words in medical_words.split('\n')]

In [11]:
#医疗词汇表示例，这一词汇表在我们构建特征时会用到。
medical_words_list[:10]

['精神', '医院', '检查', '死亡', '恢复', '意识', '医疗', '治疗', '卫生', '患者']

进行完上述准备工作后，我们接下来正式来构造特征。

In [12]:
def word2feature(sentence,i):
    '''
        返回句子sentence中第i个汉字的一些简单的特征
        入参：
            sentence：待处理的句子
            i：会返回第i个汉字的一些简单的特征
        出参：
            simple_feature：由一些简单的特征所组成的字典，字典的键为特征名，值为特征值
    '''
    simple_feature = {}
    simple_feature['word'] = sentence[i]   #当前字
    simple_feature['pre_word'] = sentence[i-1] if i>0 else 'start'    #前一个字
    simple_feature['after_word'] = sentence[i+1] if i<len(sentence)-1 else 'end'     #后一个字
    #接下来加入当前字的Bi-gram特征，即前一个字+当前字、当前字+后一个字
    simple_feature['pre_word_word'] = simple_feature['pre_word']+simple_feature['word']
    simple_feature['word_after_word'] = simple_feature['word']+simple_feature['after_word']
    #加入一个偏置项
    simple_feature['bias'] = 1
    return simple_feature

In [13]:
def sentence2feature(sentence):
    '''
        在word2feature定义的简单特征的基础上，增加一些复杂的特征，并返回句子中每个字对应的特征字典所组成的列表
        入参：
            sentence:待处理的句子
        出参：
            sentence_feature_list:句子中每个字对应的特征字典所组成的列表。格式为：[第一个字的特征字典，第二个字的特征字典，...，第n个字的特征字典]
    '''
    sentence_feature_list = [word2feature(sentence,i) for i in range(len(sentence))]
    #为每个字增加一些复杂的特征
    #增加当前字在分词后所在的词，该词的词性，该词的上一个词，该词的下一个词，该词是否为医疗专业词汇，该字是否为该词的第一个字
    word_index = 0    #指向字的指针，会逐步往后移动，其作用在之后可以看到
    #使用pkuseg对句子进行分词
    sentence_cut = seg.cut(sentence)
    #这里为和字进行区分，使用大写的WORD来表示词，小写的word来表示字
    for i,(WORD,nominal) in enumerate(sentence_cut):
        for j in range(word_index,word_index+len(WORD)):
            sentence_feature_list[j]['WORD'] = WORD     #当前字在分词后所在的词
            sentence_feature_list[j]['nominal'] = nominal     #该词的词性
            sentence_feature_list[j]['pre_WORD'] = sentence_cut[i-1][0] if i>0 else 'START'    #该词的上一个词
            sentence_feature_list[j]['after_WORD'] = sentence_cut[i+1][0] if i<len(sentence_cut)-1 else 'END'    #该词的下一个词
            sentence_feature_list[j]['is_medicalwords'] = 1 if WORD in medical_words_list else 0    #该词是否为医学专业词汇
        sentence_feature_list[word_index]['is_first'] = 1   #该字是否为该词的第一个字
        for j in range(word_index+1,word_index+len(WORD)):
            sentence_feature_list[j]['is_first'] = 0     #该字是否为该词的第一个字
        word_index = word_index+len(WORD)    #更新word_index的值
    return sentence_feature_list

In [14]:
#获取sentence_list中每句话中每个字对应的特征，并将其保存在feature_list中
#使用tqdm函数来输出一个进度条，以监控代码的运行过程
feature_list = [sentence2feature(sentence) for sentence in tqdm(sentence_list)]

100%|██████████| 1198/1198 [01:08<00:00, 17.48it/s]


# CRF模型搭建

In [15]:
#首先对数据划分训练集和测试集
x_train,x_test,y_train,y_test = train_test_split(feature_list, label_list, test_size=0.3, random_state=2020)

In [16]:
#搭建一个CRF模型
crf = CRF(
    algorithm='lbfgs',   #训练算法
    c1=0.1,    #L1正则化系数
    c2=0.1,    #L2正则化系数
    max_iterations=100,     #优化算法的最大迭代次数
    all_possible_transitions=False
)
#使用crf模型对训练集进行训练
crf.fit(x_train,y_train)



CRF(algorithm='lbfgs', all_possible_transitions=False, c1=0.1, c2=0.1,
    keep_tempfiles=None, max_iterations=100)

In [17]:
def predict(sentence):
    '''
        输出CRF预测的一个句子的BIO标注
        入参：
            sentence：待处理的句子
        出参：
            sent_bio：一个字典，字典的键为句子中的汉字，值为其对应的BIO标注
    '''
    #获取输入句子的特征
    fea = sentence2feature(sentence)
    #获取crf的预测值，格式为每个字的BIO标注列表
    pred = crf.predict_single(fea)
    #将句子中的汉字与其对应的BIO标注进行配对并以字典结构存储
    sent_bio = dict(zip(sentence,pred))
    return sent_bio

In [18]:
#使用predict函数对一个句子进行预测
predict('这是由于耳膜损伤导致的')

{'这': 'O',
 '是': 'O',
 '由': 'O',
 '于': 'O',
 '耳': 'B-BODY',
 '膜': 'I-BODY',
 '损': 'O',
 '伤': 'O',
 '导': 'O',
 '致': 'O',
 '的': 'O'}

可以看出CRF模型能够有效的识别出这句话中的实体，接下来我们用CRF模型对我们的测试集进行预测。

In [19]:
#获取测试集的预测值
y_pred = crf.predict(x_test)

# 模型评估

使用sklearn_crfsuite中自带的metrics包可对模型进行有效的评估

In [20]:
#获取crf模型的全部标签
labels = list(crf.classes_)
#由于标签O过多，而我们对其他标签更感兴趣。为了解决这个问题，我们标签O移除。
labels.remove('O')
#查看除'O'外的全部标签
labels

['B-BODY',
 'I-BODY',
 'B-TREATMENT',
 'I-TREATMENT',
 'B-EXAMINATIONS',
 'I-EXAMINATIONS',
 'B-SIGNS',
 'I-SIGNS',
 'B-DISEASES',
 'I-DISEASES']

In [21]:
#计算除O之外的所有标签计算的平均F1分数。
metrics.flat_f1_score(y_test, y_pred,
                      average='micro', labels=labels)

0.9416829296292045

In [22]:
#查看每个类别的预测情况
print(metrics.flat_classification_report(
    y_test, y_pred, labels=labels, digits=3
))



                precision    recall  f1-score   support

        B-BODY      0.936     0.919     0.928      3299
        I-BODY      0.921     0.936     0.928      5870
   B-TREATMENT      0.889     0.803     0.844       300
   I-TREATMENT      0.925     0.830     0.875      1389
B-EXAMINATIONS      0.972     0.971     0.971      2886
I-EXAMINATIONS      0.961     0.974     0.967      6495
       B-SIGNS      0.976     0.980     0.978      2408
       I-SIGNS      0.977     0.977     0.977      2664
    B-DISEASES      0.849     0.678     0.754       199
    I-DISEASES      0.830     0.610     0.703       767

     micro avg      0.947     0.937     0.942     26277
     macro avg      0.924     0.868     0.893     26277
  weighted avg      0.946     0.937     0.940     26277



# BiLSTM-CRF

CRF模型还可与BiLSTM模型结合来解决实体识别问题，这样的好处是BiLSTM可以自动获取文本的特征，我们便不需要自己去定义特征，不需要再进行文本特征工程部分。

由于BiLSTM-CRF的代码过于冗长，且实现这一代码并不是我们的重点，而仅做展示之用。所以我们把BiLSTM-CRF模型的实现细节均在BiLSTM_CRF.py中实现。这里仅展示部分关键部分。

In [None]:
from BiLSTM_CRF import *

In [24]:
#将word映射到id
word2id = word_to_id(sentence_list)
#将label映射到id
tag2id = tag_to_id(label_list)

In [25]:
#查看label与id的映射关系
tag2id

{'O': 0,
 'B-TREATMENT': 1,
 'I-TREATMENT': 2,
 'B-BODY': 3,
 'I-BODY': 4,
 'B-SIGNS': 5,
 'I-SIGNS': 6,
 'B-EXAMINATIONS': 7,
 'I-EXAMINATIONS': 8,
 'B-DISEASES': 9,
 'I-DISEASES': 10,
 '<unk>': 11,
 '<pad>': 12,
 '<start>': 13,
 '<end>': 14}

LSTM模型训练的时候需要在word2id和tag2id加入PAD和UNK，如果是加了CRF的lstm还要加入<start>和<end> (解码的时候需要用到)。word2id的格式与tag2id的格式类似。

In [26]:
#按照与CRF模型划分训练集测试集时相同的比例和相同的随机数种子对sentence_list与label_list划分训练集合测试集
x_train_lstmcrf,x_test_lstmcrf,y_train_lstmcrf,y_test_lstmcrf = train_test_split(sentence_list, label_list, test_size=0.3, random_state=2020)

In [27]:
#为每句话后加入一个"<end>" token
x_train_lstmcrf,y_train_lstmcrf = prepocess_data_for_lstmcrf(x_train_lstmcrf,y_train_lstmcrf)
x_test_lstmcrf,y_test_lstmcrf = prepocess_data_for_lstmcrf(x_test_lstmcrf,y_test_lstmcrf,test=True)

In [28]:
#搭建一个BiLSTM_CRF模型
model = BiLSTM_CRF_Model(vocab_size=len(word2id),out_size=len(tag2id),batch_size=64, epochs=30)
#在训练集上进行训练
model.train(x_train_lstmcrf,y_train_lstmcrf,word2id,tag2id)

Epoch 1, step/total_step: 10/14 71.43% Loss:704.2072
Epoch 1, Val Loss:304.0656
Epoch 2, step/total_step: 10/14 71.43% Loss:379.6861
Epoch 2, Val Loss:235.2745
Epoch 3, step/total_step: 10/14 71.43% Loss:310.2055
Epoch 3, Val Loss:210.7312
Epoch 4, step/total_step: 10/14 71.43% Loss:277.9240
Epoch 4, Val Loss:178.1358
Epoch 5, step/total_step: 10/14 71.43% Loss:232.9529
Epoch 5, Val Loss:149.0497
Epoch 6, step/total_step: 10/14 71.43% Loss:194.8497
Epoch 6, Val Loss:123.6975
Epoch 7, step/total_step: 10/14 71.43% Loss:161.6577
Epoch 7, Val Loss:105.9033
Epoch 8, step/total_step: 10/14 71.43% Loss:136.8538
Epoch 8, Val Loss:89.5023
Epoch 9, step/total_step: 10/14 71.43% Loss:115.7047
Epoch 9, Val Loss:74.7383
Epoch 10, step/total_step: 10/14 71.43% Loss:97.6705
Epoch 10, Val Loss:65.9354
Epoch 11, step/total_step: 10/14 71.43% Loss:85.6503
Epoch 11, Val Loss:58.4867
Epoch 12, step/total_step: 10/14 71.43% Loss:75.9036
Epoch 12, Val Loss:53.6536
Epoch 13, step/total_step: 10/14 71.43% Lo

In [29]:
#获取测试集的预测值
y_pred_lstmcrf, _ = model.test(x_test_lstmcrf,y_test_lstmcrf,word2id,tag2id)



In [30]:
#计算BiLSTM-CRF模型除O之外的所有标签计算的平均F1分数。
metrics.flat_f1_score(y_test_lstmcrf, y_pred_lstmcrf,
                      average='micro', labels=labels)

0.9281288723667905

In [31]:
#查看BiLSTM-CRF模型每个类别的预测情况
print(metrics.flat_classification_report(
    y_test_lstmcrf, y_pred_lstmcrf, labels=labels, digits=3
))



                precision    recall  f1-score   support

        B-BODY      0.953     0.849     0.898      3299
        I-BODY      0.912     0.918     0.915      5870
   B-TREATMENT      0.888     0.607     0.721       300
   I-TREATMENT      0.886     0.870     0.878      1389
B-EXAMINATIONS      0.961     0.950     0.956      2886
I-EXAMINATIONS      0.952     0.962     0.957      6495
       B-SIGNS      0.979     0.951     0.965      2408
       I-SIGNS      0.975     0.959     0.967      2664
    B-DISEASES      0.975     0.598     0.741       199
    I-DISEASES      0.950     0.568     0.711       767

     micro avg      0.945     0.912     0.928     26277
     macro avg      0.943     0.823     0.871     26277
  weighted avg      0.945     0.912     0.926     26277



In [3]:
import numpy as np
6.539* np.array([5560, 20100, 18800, 8050, 23500, 28600, 20700, 16000, 0])

array([ 36356.84, 131433.9 , 122933.2 ,  52638.95, 153666.5 , 187015.4 ,
       135357.3 , 104624.  ,      0.  ])