# CRF+LSTM

keras 2.2.4

tensorflow 1.13

pip install git+https://www.github.com/keras-team/keras-contrib.git

In [52]:
import re
import os

In [53]:
char_vocab_path = "CRF/data/char_vocabs.txt" # 字典文件
#train_data_path = 'data/train_data/train_data_000' # 训练数据
#train_data_path = './data/train_data' # 训练数据
#test_data_path = 'data/train_data/train_data_000' # 测试数据

special_words = ['<PAD>', '<UNK>'] # 特殊词表示

# "BIO"标记的标签
#label2idx = {"O": 0,
#             "B-PER": 1, "I-PER": 2,
#             "B-LOC": 3, "I-LOC": 4,
#             "B-ORG": 5, "I-ORG": 6
#            }
label2idx = {'O': 0,
             'B-DISEASE': 1, 'B-DISEASE_GROUP': 2,
             'B-DRUG_DOSAGE': 3, 'B-DRUG_EFFICACY': 4,
             'B-DRUG_INGREDIENT': 5, 'B-DRUG_TASTE': 6,
             'B-FOOD_GROUP':7, 'B-PERSON_GROUP':8,
             'B-SYMPTOM':9, 'B-SYNDROME':10,
             'I-DISEASE': 11, 'I-DISEASE_GROUP': 12,
             'I-DRUG_DOSAGE': 13, 'I-DRUG_EFFICACY': 14,
             'I-DRUG_INGREDIENT': 15, 'I-DRUG_TASTE': 16,
             'I-FOOD_GROUP':17, 'I-PERSON_GROUP':18,
             'I-SYMPTOM':19, 'I-SYNDROME':20
            }

# 索引和BIO标签对应
idx2label = {idx: label for label, idx in label2idx.items()}

# 读取字符词典文件
with open(char_vocab_path, "r", encoding="utf8") as fo:
    char_vocabs = [line.strip() for line in fo]
char_vocabs = special_words + char_vocabs

# 字符和索引编号对应
idx2vocab = {idx: char for idx, char in enumerate(char_vocabs)}
vocab2idx = {char: idx for idx, char in idx2vocab.items()}

In [54]:
# 读取训练语料
def read_corpus(corpus_path, vocab2idx, label2idx):
    with open(corpus_path, encoding='utf-8') as fr:
        lines = fr.readlines()

    sent_, tag_ = [], []
    for letter in lines:
        [char,label,_] = re.split('\t|\n',letter)
        sent_.append(char)
        tag_.append(label)

    sent_ids = [vocab2idx[char] if char in vocab2idx else vocab2idx['<UNK>'] for char in sent_]
    tag_ids = [label2idx[label] if label in label2idx else 0 for label in tag_]
    return sent_ids, tag_ids

# 加载训练集
#train_datas, train_labels = read_corpus(train_data_path, vocab2idx, label2idx)
# 加载测试集
#test_datas, test_labels = read_corpus(test_data_path, vocab2idx, label2idx)


In [55]:
train_datas = []
train_labels = []
files = os.listdir('data/train_data')
for file in files:
    train_data_path_i = 'data/train_data/'+file
    train_datas_i, train_labels_i = read_corpus(train_data_path_i, vocab2idx, label2idx)
    train_datas.append(train_datas_i)
    train_labels.append(train_labels_i)
    #if i%10==0:
    #    print(i)

In [56]:
valid_datas = []
valid_labels = []
files = os.listdir('data/valid_data')
for file in files:
    valid_data_path_i = 'data/valid_data/'+file
    valid_datas_i, valid_labels_i = read_corpus(valid_data_path_i, vocab2idx, label2idx)
    valid_datas.append(valid_datas_i)
    valid_labels.append(valid_labels_i)

In [57]:
print(train_datas[50])
print([idx2vocab[idx] for idx in train_datas[50]])
print(train_labels[50])
print([idx2label[idx] for idx in train_labels[50]])

[1, 61, 77, 1, 1, 17, 181, 3093, 3817, 2654, 6214, 1959, 2177, 286, 6802, 5965, 519, 1408, 2644, 2102, 2732, 1842, 889, 2545, 3093, 3817]
['<UNK>', 'b', 'r', '<UNK>', '<UNK>', '3', '、', '治', '疗', '期', '间', '忌', '房', '事', '，', '配', '偶', '如', '有', '感', '染', '应', '同', '时', '治', '疗']
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


In [58]:
import numpy as np
import keras
from keras.models import Sequential
from keras.models import Model
from keras.layers import Masking, Embedding, Bidirectional, LSTM, Dense, Input, TimeDistributed, Activation
from keras.preprocessing import sequence
from keras_contrib.layers import CRF
from keras_contrib.losses import crf_loss
from keras_contrib.metrics import crf_viterbi_accuracy
from keras import backend as K
K.clear_session()

EPOCHS = 50
BATCH_SIZE = 128
EMBED_DIM = 48
HIDDEN_SIZE = 16
MAX_LEN = 50
VOCAB_SIZE = len(vocab2idx)
CLASS_NUMS = len(label2idx)
print(VOCAB_SIZE, CLASS_NUMS)

print('padding sequences')
train_datas = sequence.pad_sequences(train_datas, maxlen=MAX_LEN)
train_labels = sequence.pad_sequences(train_labels, maxlen=MAX_LEN)
valid_datas = sequence.pad_sequences(valid_datas, maxlen=MAX_LEN)
valid_labels = sequence.pad_sequences(valid_labels, maxlen=MAX_LEN)
print('x_train shape:', train_datas.shape)
print('x_test shape:', valid_datas.shape)

train_labels = keras.utils.to_categorical(train_labels, CLASS_NUMS)
valid_labels = keras.utils.to_categorical(valid_labels, CLASS_NUMS)
print('trainlabels shape:', train_labels.shape)
print('testlabels shape:', valid_labels.shape)

## BiLSTM+CRF模型构建
inputs = Input(shape=(MAX_LEN,), dtype='int32')
x = Masking(mask_value=0)(inputs)
x = Embedding(VOCAB_SIZE, EMBED_DIM, mask_zero=True)(x)
x = Bidirectional(LSTM(HIDDEN_SIZE, return_sequences=True))(x)
x = TimeDistributed(Dense(CLASS_NUMS))(x)
outputs = CRF(CLASS_NUMS)(x)
model = Model(inputs=inputs, outputs=outputs)
model.summary()

model.compile(loss=crf_loss, optimizer='adam', metrics=[crf_viterbi_accuracy])
model.fit(train_datas, train_labels, epochs=EPOCHS, verbose=1, validation_split=0.1)

score = model.evaluate(valid_datas, valid_labels, batch_size=BATCH_SIZE)
print(model.metrics_names)
print(score)

6874 21
padding sequences
x_train shape: (6899, 50)
x_test shape: (1987, 50)
trainlabels shape: (6899, 50, 21)
testlabels shape: (1987, 50, 21)
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 50)                0         
_________________________________________________________________
masking_1 (Masking)          (None, 50)                0         
_________________________________________________________________
embedding_1 (Embedding)      (None, 50, 48)            329952    
_________________________________________________________________
bidirectional_1 (Bidirection (None, 50, 32)            8320      
_________________________________________________________________
time_distributed_1 (TimeDist (None, 50, 21)            693       
_________________________________________________________________
crf_1 (CRF)                  (None, 50, 21)            945      

Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
['loss', 'crf_viterbi_accuracy']
[2.821839642392731, 0.8834322501680751]


In [59]:
# save model
model.save("model/ch_ner_model.h5")

In [62]:
def get_valid_nertag(input_data, result_tags):
    result_words = []
    start, end =0, 1 # 实体开始结束位置标识
    tag_label = "O" # 实体类型标识
    number = 0
    for i, tag in enumerate(result_tags):
        if tag.startswith("B"):
            number += 1
            if tag_label != "O": # 当前实体tag之前有其他实体
                result_words.append((number,start,end,input_data[start: end], tag_label)) # 获取实体
            tag_label = tag.split("-")[1] # 获取当前实体类型
            start, end = i, i+1 # 开始和结束位置变更
        elif tag.startswith("I"):
            temp_label = tag.split("-")[1]
            if temp_label == tag_label: # 当前实体tag是之前实体的一部分
                end += 1 # 结束位置end扩展
        elif tag == "O":
            if tag_label != "O": # 当前位置非实体 但是之前有实体
                result_words.append((number,start,end,input_data[start: end], tag_label)) # 获取实体
                tag_label = "O"  # 实体类型置"O"
            start, end = i, i+1 # 开始和结束位置变更
    if tag_label != "O": # 最后结尾还有实体
        result_words.append((number,start,end,input_data[start: end], tag_label)) # 获取结尾的实体
    return result_words

In [None]:
maxlen = 50
result = {}
test_data_path = 'data/chusai_xuanshou/'
for i in range(500):
    test_file = test_data_path+str(i+1000)+'.txt'
    with open(test_file, "r", encoding="utf8") as test:
        sentence = test.read()
    sentences = sentence.split('。')
    y_ner = []

    for sent in sentences:
        sent = sent.replace(' ','_')
        sent_chars = list(sent+'。')
        sent2id = [vocab2idx[word] if word in vocab2idx else vocab2idx['<UNK>'] for word in sent_chars]

        sent2id_new = np.array([[0] * (maxlen-len(sent2id)) + sent2id[:maxlen]])
        y_pred = model.predict(sent2id_new)
        y_label = np.argmax(y_pred, axis=2)
        y_label = y_label.reshape(1, -1)[0]
        y_ner_ = [idx2label[i] for i in y_label][-len(sent_chars):]
        y_ner.extend(y_ner_)
    result_words = get_valid_nertag(sentence, y_ner)
    result[i+1000] = result_words
    for res in result_words:
        number = res[0]
        start = res[1]
        end = res[2]
        word = res[3]
        tag = res[4]
        print(i+1000,'T'+str(number), start, end, "".join(word), tag)

1000 T1 138 142 清热解毒 DRUG_EFFICACY
1000 T2 143 147 化湿除带 DRUG_EFFICACY
1000 T3 148 152 祛瘀止痛 DRUG_EFFICACY
1000 T4 160 165 慢性盆腔炎 DISEASE
1001 T1 36 39 糖尿病 DISEASE
1001 T2 87 91 月经量少 SYMPTOM
1001 T3 95 101 血虚萎黄后错 SYMPTOM
1001 T4 102 106 血虚萎黄 SYMPTOM
1001 T5 107 111 风湿痹痛 SYMPTOM
1001 T7 112 116 肢体麻木 SYMPTOM
1001 T7 116 119 糖尿病 DISEASE
1002 T1 36 42 感冒发热病人 PERSON_GROUP
1002 T2 51 54 高血压 DISEASE
1002 T3 55 58 心脏病 DISEASE_GROUP
1002 T4 59 61 肝病 DISEASE_GROUP
1002 T5 66 68 肾病 DISEASE_GROUP
1002 T6 90 94 月经紊乱 SYMPTOM
1002 T7 109 111 眩晕 SYMPTOM
1002 T8 152 155 过敏者 PERSON_GROUP
1002 T9 158 163 过敏体质者 PERSON_GROUP
1002 T10 192 194 儿童 PERSON_GROUP
1002 T11 242 244 颗粒 DRUG_DOSAGE
1002 T12 245 248 气微香 DRUG_TASTE
1002 T13 249 252 味微苦 DRUG_TASTE
1002 T14 282 286 烘热汗出 SYMPTOM
1002 T15 287 291 头晕耳鸣 SYMPTOM
1002 T16 297 301 五心烦热 SYMPTOM
1002 T17 302 306 腰背酸痛 SYMPTOM
1002 T18 307 311 大便干燥 SYMPTOM
1002 T19 312 315 心烦易 SYMPTOM
1002 T21 387 389 2g SYNDROME
1002 T21 389 391 *1 SYNDROME
1003 T2 55 59 子宫肌瘤 DISEAS

1026 T1 5 7 寒凉 FOOD_GROUP
1026 T2 8 10 生冷 FOOD_GROUP
1026 T3 15 17 孕妇 PERSON_GROUP
1026 T4 18 23 糖尿病患者 PERSON_GROUP
1026 T5 35 37 感冒 DISEASE
1026 T6 86 90 月经量少 SYMPTOM
1026 T7 92 96 月经错后 SYMPTOM
1026 T8 98 105 阴道不规则出血 SYMPTOM
1026 T9 164 169 过敏体质者 PERSON_GROUP
1026 T10 284 288 补血活血 DRUG_EFFICACY
1026 T11 296 298 血虚 SYNDROME
1026 T12 299 303 月经不调 SYMPTOM
1026 T14 304 306 痛经 SYMPTOM
1026 T14 306 308 儿童 PERSON_GROUP
1026 T15 312 316 薄膜衣片 DRUG_DOSAGE
1027 T1 8 10 颗粒 DRUG_DOSAGE
1027 T2 11 13 气香 DRUG_TASTE
1027 T3 14 16 味甜 DRUG_TASTE
1027 T4 17 18 辛 DRUG_TASTE
1027 T5 21 22 辛 DRUG_TASTE
1027 T6 75 77 血虚 SYMPTOM
1027 T7 79 83 月经不调 SYMPTOM
1027 T8 84 87 痛经  SYMPTOM
1028 T1 29 31 孕妇 PERSON_GROUP
1028 T2 53 57 湿热下注 SYNDROME
1028 T3 58 62 白带过多 SYMPTOM
1028 T4 85 88 胶囊剂 DRUG_DOSAGE
1028 T5 160 162 和皮 DRUG_INGREDIENT
1028 T6 163 166 真菌有 DRUG_INGREDIENT
1028 T7 167 170 制作用 DRUG_EFFICACY
1028 T8 207 209 勺有 DRUG_INGREDIENT
1028 T9 210 214 血通瘀去 DRUG_EFFICACY
1029 T1 0 2 孕妇 PERSON_GROUP
1029 T2 19 23 肝

1045 T1 104 108 活血调经 DRUG_EFFICACY
1045 T2 109 113 去瘀止痛 DRUG_EFFICACY
1045 T3 118 122 瘀血不净 SYMPTOM
1045 T4 132 136 瘀血不净 SYMPTOM
1045 T5 145 148 胶囊剂 DRUG_DOSAGE
1045 T6 168 172 痢?/t SYMPTOM
1045 T8 175 177 /t SYMPTOM
1045 T9 177 181 r><t DRUG_EFFICACY
1045 T9 181 185 r cl DRUG_EFFICACY
1045 T10 186 190 ss=' DRUG_EFFICACY
1045 T11 195 199 Whit SYMPTOM
1046 T1 4 8 补血健脑 DRUG_EFFICACY
1046 T2 43 46 补气血 DRUG_EFFICACY
1046 T3 58 60 头晕 SYMPTOM
1047 T1 4 8 薄膜衣片 DRUG_DOSAGE
1047 T2 23 26 气微香 DRUG_TASTE
1047 T4 102 104 宫平 PERSON_GROUP
1047 T4 104 108 滑肌有一 SYNDROME
1047 T5 113 115 ，并 SYMPTOM
1047 T6 116 118 小鼠 SYMPTOM
1047 T8 132 137 .32g  DISEASE
1047 T8 137 139  用 SYMPTOM
1047 T9 140 142 妇人 SYMPTOM
1047 T10 143 150 血阻络所所致块 SYMPTOM
1047 T11 163 165 尽； DRUG_DOSAGE
1048 T1 12 14 寒凉 FOOD_GROUP
1048 T2 15 17 生冷 FOOD_GROUP
1048 T3 41 43 藜芦 DRUG_INGREDIENT
1048 T4 44 47 五灵脂 DRUG_INGREDIENT
1048 T5 48 50 皂荚 DRUG_INGREDIENT
1048 T6 56 61 糖尿病患者 PERSON_GROUP
1048 T7 71 75 月经提前 SYMPTOM
1048 T8 81 83 感冒 DISE

1074 T1 79 80 淋 DISEASE_GROUP
1074 T2 84 88 淋巴肿大 DRUG_EFFICACY
1074 T3 89 91 疼痛 DRUG_EFFICACY
1075 T1 48 52 补阴培阳 DRUG_EFFICACY
1075 T2 53 57 益肾健脾 DRUG_EFFICACY
1075 T3 87 91 补阴培阳 DRUG_EFFICACY
1075 T4 92 97 益肾健脾  DRUG_EFFICACY
1076 T1 84 86 抗力 DRUG_INGREDIENT
1076 T2 87 89 香附 DRUG_INGREDIENT
1076 T3 90 92 延胡 DRUG_INGREDIENT
1076 T4 93 99 赤芍能抑制子 DRUG_EFFICACY
1076 T5 127 131 疗妇女月 SYMPTOM
1076 T6 132 134 不调 SYMPTOM
1076 T7 144 148 。  养 DRUG_EFFICACY
1076 T8 149 153 舒肝，调 DRUG_EFFICACY
1076 T10 156 158 。用 SYNDROME
1076 T10 158 160 于血 SYNDROME
1076 T11 162 166 郁所致月 SYMPTOM
1076 T12 167 169 不调 SYMPTOM
1076 T13 184 188 后错，经 SYMPTOM
1076 T14 189 192 量少、 SYMPTOM
1076 T15 193 199 血块，行经小 SYMPTOM
1076 T17 200 202 疼痛 SYMPTOM
1076 T17 202 204 ，血 SYMPTOM
1076 T19 303 305 医师 SYNDROME
1076 T19 305 307 或药 SYNDROME
1076 T20 309 313   每片 SYMPTOM
1076 T21 314 316 0. SYMPTOM
1077 T1 79 83 10袋  DRUG_DOSAGE
1077 T2 84 86 口服 DRUG_DOSAGE
1077 T3 95 97 次。 FOOD_GROUP
1077 T4 98 100  丸 FOOD_GROUP
1077 T5 106 109  

1103 T1 13 17 促进造血 DRUG_EFFICACY
1103 T2 18 20 止血 DRUG_EFFICACY
1103 T3 344 347 致腹腔 DRUG_DOSAGE
1103 T4 348 350 出液 DRUG_TASTE
1103 T5 351 353 白细 DRUG_TASTE
1103 T6 366 368 物（ PERSON_GROUP
1103 T7 412 414 微苦 DRUG_INGREDIENT
1103 T8 415 418   6 DRUG_INGREDIENT
1103 T9 419 421 *1 DRUG_INGREDIENT
1103 T10 448 451 本药时 DISEASE
1103 T11 452 455 宜同时 DISEASE_GROUP
1103 T12 636 640 在儿童不 SYMPTOM
1103 T14 641 647 接触的地方。 SYMPTOM
1103 T14 647 651 12.如 DRUG_EFFICACY
1103 T15 659 663 ，使用本 SYMPTOM
1103 T16 664 668 前请咨询 SYMPTOM
1103 T17 669 673 师或药师 SYMPTOM
1103 T18 674 678   6g SYMPTOM
1103 T19 679 683 12袋。 SYMPTOM
1103 T20 749 751 次6 DRUG_INGREDIENT
1103 T21 752 754 ，一 DRUG_INGREDIENT
1103 T22 755 758 2次。 DRUG_INGREDIENT
1103 T23 762 764 服用 DRUG_INGREDIENT
1103 T24 776 778 药师 DRUG_INGREDIENT
1103 T25 779 782 包括任 DRUG_INGREDIENT
1103 T26 783 785 从药 DRUG_INGREDIENT
1103 T27 786 788 、超 DRUG_INGREDIENT
1103 T28 789 791 或保 DRUG_INGREDIENT
1103 T29 795 797 购买 DRUG_INGREDIENT
1103 T30 798 800 非处 DRUG_INGREDI

1121 T1 148 150 抗力 DRUG_INGREDIENT
1121 T2 151 153 香附 DRUG_INGREDIENT
1121 T3 154 156 延胡 DRUG_INGREDIENT
1121 T4 207 211 临床用于 SYMPTOM
1121 T5 212 214 疗妇 SYMPTOM
1121 T6 224 228 较好的疗 DRUG_EFFICACY
1121 T7 229 233 。  养 DRUG_EFFICACY
1121 T9 236 238 ，调 SYNDROME
1121 T9 238 240 经止 SYNDROME
1121 T10 242 246 用于血虚 SYMPTOM
1121 T11 247 249 郁所 SYMPTOM
1121 T12 264 268 ，症见行 SYMPTOM
1121 T13 269 272 后错， SYMPTOM
1121 T14 273 279 水量少、有血 SYMPTOM
1121 T16 280 282 ，行 SYMPTOM
1121 T16 282 284 经小 SYMPTOM
1121 T18 288 290 血块 SYNDROME
1121 T18 290 292 排出 SYNDROME
1121 T19 299 301 胀痛 SYMPTOM
1122 T1 47 49 油腻 FOOD_GROUP
1122 T2 105 109 月经过少 SYMPTOM
1122 T3 111 115 经期错后 SYMPTOM
1122 T4 117 124 阴道不规则出血 SYMPTOM
1122 T5 126 131 带下伴阴痒 SYMPTOM
1122 T6 223 225 请将 PERSON_GROUP
1122 T8 278 280 调经 SYNDROME
1122 T8 280 282 止带 SYNDROME
1122 T9 293 297 经量少、 SYMPTOM
1122 T11 298 304 错，小腹疼痛 SYMPTOM
1122 T11 304 308 ，带下色 SYMPTOM
1122 T12 338 342 药有限公 DRUG_DOSAGE
1123 T1 60 64 暖宫调经 DRUG_EFFICACY
1123 T3 67 69 血虚 SYNDROME
11

1133 T1 56 60 月经量少 SYMPTOM
1133 T2 72 74 孕妇 PERSON_GROUP
1133 T3 81 83 生冷 FOOD_GROUP
1133 T4 95 99 月经量少 SYMPTOM
1133 T5 100 104 色淡质稀 SYMPTOM
1133 T6 107 111 头晕心悸 SYMPTOM
1133 T7 112 116 疲乏无力 SYMPTOM
1133 T8 127 130 高血压 DISEASE
1133 T9 131 134 心脏病 DISEASE_GROUP
1133 T10 135 137 肾病 DISEASE_GROUP
1133 T11 179 182 经量少 SYMPTOM
1133 T12 192 197 青春期少女 PERSON_GROUP
1133 T13 198 203 更年期妇女 PERSON_GROUP
1133 T14 224 228 阴道出血 SYMPTOM
1133 T15 302 304 儿童 PERSON_GROUP
1133 T16 381 383 孕妇 PERSON_GROUP
1133 T17 390 392 血瘀 SYNDROME
1134 T1 13 17 活血调经 DRUG_EFFICACY
1134 T2 20 24 气血两虚 SYNDROME
1134 T3 38 44 月经周期错后 SYMPTOM
1134 T4 45 49 行经量少 SYMPTOM
1134 T5 50 54 精神不振 SYMPTOM
1134 T6 55 60 肢体乏力  SYMPTOM
1134 T7 75 79 气血两虚 SYNDROME
1134 T8 172 175 物（甲 DRUG_EFFICACY
1135 T1 39 43 月经不调 SYMPTOM
1135 T2 73 77 月经不调 SYMPTOM
1135 T3 78 83 经期腹痛  SYMPTOM
1136 T1 48 52 月经不调 SYMPTOM
1136 T3 53 57 经期腹痛 SYMPTOM
1136 T4 57 60 孕妇  PERSON_GROUP
1136 T4 60 62 孕妇 PERSON_GROUP
1136 T5 98 102 月经不调 SYMPTOM
1136 T6 103 107 经期腹痛

1153 T1 33 35    DRUG_INGREDIENT
1153 T2 65 68 调月经 DRUG_EFFICACY
1153 T3 75 79 活血调经 DRUG_EFFICACY
1153 T4 82 86 气血两虚 SYNDROME
1153 T5 100 106 月经周期错后 SYMPTOM
1153 T6 107 111 行经量少 SYMPTOM
1153 T7 112 116 精神不振 SYMPTOM
1153 T8 117 121 肢体乏力 SYMPTOM
1153 T9 131 135 气血两虚 SYNDROME
1153 T10 138 142 月经不调 SYMPTOM
1153 T11 145 151 月经周期错后 SYMPTOM
1153 T12 152 156 行经量少 SYMPTOM
1153 T13 157 161 精神不振 SYMPTOM
1153 T14 162 167 肢体乏力  SYMPTOM
1154 T1 47 50 水蜜丸 DRUG_DOSAGE
1154 T2 82 86 气血两虚 SYNDROME
1154 T4 87 89 气滞 SYNDROME
1154 T4 89 91 血瘀 SYNDROME
1154 T5 94 98 月经不调 SYMPTOM
1154 T6 101 105 月经提前 SYMPTOM
1154 T7 106 110 月经错后 SYMPTOM
1154 T8 111 115 月经量多 SYMPTOM
1154 T9 116 120 神疲乏力 SYMPTOM
1154 T10 121 125 行经腹痛 SYMPTOM
1155 T1 88 90 抗力 DRUG_INGREDIENT
1155 T2 91 93 香附 DRUG_INGREDIENT
1155 T3 94 96 延胡 DRUG_INGREDIENT
1155 T4 97 103 赤芍能抑制子 DRUG_EFFICACY
1155 T5 131 135 疗妇女月 SYMPTOM
1155 T6 136 138 不调 SYMPTOM
1155 T8 204 206  用 SYNDROME
1155 T8 206 208 于血 SYNDROME
1155 T9 210 214 郁所致月 SYMPTOM
1155 T10 215 2

1175 T1 88 92 时到医院 DRUG_EFFICACY
1175 T2 100 104 检索到本 SYMPTOM
1175 T3 157 161 水溶后服 SYNDROME
1175 T4 162 166   孕妇 SYMPTOM
1175 T5 167 171 用。 补 SYMPTOM
1175 T7 172 176 养血，调 SYMPTOM
1175 T7 176 179 经止带 PERSON_GROUP
1175 T8 211 213 他药 DRUG_INGREDIENT
1175 T9 214 216 请告 DRUG_INGREDIENT
1175 T10 217 220 医师或 DRUG_INGREDIENT
1175 T11 224 226 括任 DRUG_INGREDIENT
1175 T12 238 240 店购 DRUG_INGREDIENT
1175 T13 241 244 的非处 DRUG_INGREDIENT
1175 T14 245 247 药品 DRUG_INGREDIENT
1175 T15 248 250  本 DRUG_INGREDIENT
1175 T16 251 253 内所 DRUG_INGREDIENT
1175 T17 257 259 白芍 DRUG_INGREDIENT
1175 T18 260 262 反藜 DRUG_INGREDIENT
1175 T19 263 265 ，忌 DRUG_INGREDIENT
1175 T20 266 268 含藜 DRUG_INGREDIENT
1175 T21 281 283 甘草 FOOD_GROUP
1175 T22 284 286 反甘 FOOD_GROUP
1175 T24 287 289 、大 FOOD_GROUP
1175 T24 289 291 戟、 FOOD_GROUP
1175 T25 292 296 藻、芫花 FOOD_GROUP
1175 T26 336 339 易消化 DRUG_INGREDIENT
1175 T27 340 342 品同 DRUG_INGREDIENT
1175 T28 393 397 药师可能 DRUG_EFFICACY
1175 T29 398 400 服用 DRUG_EFFICACY
1176 T1 0 4 活血调经 DRU

1192 T1 0 3  丸剂 DRUG_DOSAGE
1192 T2 4 7 大蜜丸 DRUG_DOSAGE
1192 T3 43 46 大蜜丸 DRUG_DOSAGE
1192 T4 47 50 微有香 DRUG_TASTE
1192 T5 76 82 、生冷食物。 PERSON_GROUP
1192 T6 90 93 不宜服 DISEASE
1192 T7 94 97 。3. DISEASE_GROUP
1192 T8 98 100 高血 DISEASE_GROUP
1192 T9 101 104 、心脏 DISEASE
1192 T10 105 107 、肝 DISEASE_GROUP
1192 T11 108 111 、糖尿 DISEASE_GROUP
1192 T12 126 131 指导下服用 PERSON_GROUP
1192 T13 132 137 4.青春期 PERSON_GROUP
1192 T14 160 164 经正常， SYMPTOM
1192 T15 166 170 出现月经 SYMPTOM
1192 T16 172 179 ，或经期错后， SYMPTOM
1192 T17 212 215 就诊。 PERSON_GROUP
1192 T18 218 223 本品过敏者 PERSON_GROUP
1192 T19 250 252 9. PERSON_GROUP
1192 T20 292 295 药师。 DRUG_DOSAGE
1192 T21 319 323 0s 益 DRUG_EFFICACY
1192 T22 326 330 ，活血调 SYNDROME
1192 T23 332 334 用于 SYNDROME
1192 T24 337 341 虚兼有血 SYMPTOM
1192 T25 344 350 的月经不调， SYMPTOM
1192 T26 351 355 见月经周 SYMPTOM
1192 T27 356 360 错后、行 SYMPTOM
1192 T29 361 365 量少、精 SYMPTOM
1192 T29 365 368 神不振 DRUG_EFFICACY
1192 T30 369 372 肢体乏 DRUG_EFFICACY
1192 T31 405 411 的月经不调， SYMPTOM
1192 T32 412 

1212 T1 27 31 补气养血 DRUG_EFFICACY
1212 T2 39 43 月经不调 SYMPTOM
1212 T3 56 58 其他 DRUG_INGREDIENT
1212 T4 59 61 品请 DRUG_INGREDIENT
1212 T5 62 65 知医师 DRUG_INGREDIENT
1212 T6 69 71 包括 DRUG_INGREDIENT
1212 T7 83 85 商店 DRUG_INGREDIENT
1212 T8 86 89 买的非 DRUG_INGREDIENT
1212 T9 90 92 方药 DRUG_INGREDIENT
1212 T10 93 95 。  DRUG_INGREDIENT
1212 T11 96 98 药内 DRUG_INGREDIENT
1212 T12 102 104 、白 DRUG_INGREDIENT
1212 T13 105 107 ，反 DRUG_INGREDIENT
1212 T14 108 110 芦， DRUG_INGREDIENT
1212 T15 111 113 与含 DRUG_INGREDIENT
1212 T16 126 128 含甘 FOOD_GROUP
1212 T17 129 131 ，反 FOOD_GROUP
1212 T19 132 134 遂、 FOOD_GROUP
1212 T19 134 136 大戟 FOOD_GROUP
1212 T20 137 141 海藻、芫 FOOD_GROUP
1212 T21 181 184 不易消 DRUG_INGREDIENT
1212 T22 185 187 食品 DRUG_INGREDIENT
1212 T23 241 245 可能对服 SYNDROME
1212 T24 246 250 同仁乌鸡 SYMPTOM
1212 T25 251 255 凤丸（口 SYMPTOM
1212 T26 256 260 液）应注 SYMPTOM
1212 T27 261 266 事项具有更 SYMPTOM
1212 T28 268 272 信息。  DRUG_EFFICACY
1212 T29 273 275 补气 DRUG_EFFICACY
1212 T30 560 562 ；增 FOOD_GROUP
1212 T31 563

In [None]:
result

In [24]:
from keras.models import load_model
import numpy as np

maxlen = 40
sentence = " 北京同仁堂科技发展股份有限公司制药厂  1.忌食辛辣，少进油腻。 2.感冒发热病人不宜服用。 3.有高血压、心脏病、肝病、糖尿病、肾病等慢性病严重者应在医师指导下服用。 4.伴有月经紊乱者，应在医师指导下服用。 5.眩晕症状较重者，应及时去医院就诊。 6.服药2周症状无缓解，应去医院就诊。 7.对本品过敏者禁用，过敏体质者慎用。 8.本品性状发生改变时禁止使用。 9.请将本品放在儿童不能接触的地方。 10.如正在使用其他药品，使用本品前请咨询医师或药师。  本品为浅黄色至棕黄色颗粒，气微香，味微苦。  滋养肝肾、宁心安神。用于更年期综合症属阴虚肝旺症，症见烘热汗出，头晕耳鸣，失眠多梦，五心烦热，腰背酸痛，大便干燥，心烦易怒，舌红少苔，脉弦细或弦细 开水冲服。一次1袋(12g)，一日3次。  如与其他药物同时使用可能会发生药物相互作用，详情请咨询医师或药师。  12g*10袋/盒  用于更年期综合症属阴虚肝旺症  铝塑复合膜包装，每袋装12克，每盒装10袋。  非处方药物（甲类）,中药保护品种二级  12g*10袋/盒  用于更年期综合症属阴虚肝旺更年期综合症气微香，味微苦。"
#sentence = sentence.replace(' ','_')
sentences = sentence.split('。')
y_ner = []

for sent in sentences:
    sent = sent.replace(' ','_')
    sent_chars = list(sent+'。')
    sent2id = [vocab2idx[word] if word in vocab2idx else vocab2idx['<UNK>'] for word in sent_chars]

    sent2id_new = np.array([[0] * (maxlen-len(sent2id)) + sent2id[:maxlen]])
    y_pred = model.predict(sent2id_new)
    y_label = np.argmax(y_pred, axis=2)
    y_label = y_label.reshape(1, -1)[0]
    y_ner_ = [idx2label[i] for i in y_label][-len(sent_chars):]
    y_ner.extend(y_ner_)

In [27]:
result_words = get_valid_nertag(sentence, y_ner)
for (word, tag) in result_words:
    print("".join(word), tag)

感冒 DISEASE
发热 SYMPTOM
高血压 DISEASE
心脏病 DISEASE_GROUP
肝病 DISEASE_GROUP
糖尿病 DISEASE
肾病 DISEASE_GROUP
慢性病 DISEASE_GROUP
月经紊乱 SYMPTOM
眩晕 SYMPTOM
过敏者 PERSON_GROUP
儿童 PERSON_GROUP
颗粒 DRUG_DOSAGE
气微香 DRUG_TASTE
味微苦 DRUG_TASTE
  滋养肝肾 DRUG_EFFICACY
宁心安神 DRUG_EFFICACY
烘热汗出 SYMPTOM
头晕耳鸣 SYMPTOM
失眠多梦 SYMPTOM
五心烦热 SYMPTOM
腰背酸 SYMPTOM


In [25]:
list(zip(list(sentence),y_ner))

[(' ', 'O'),
 ('北', 'O'),
 ('京', 'O'),
 ('同', 'O'),
 ('仁', 'O'),
 ('堂', 'O'),
 ('科', 'O'),
 ('技', 'O'),
 ('发', 'O'),
 ('展', 'O'),
 ('股', 'O'),
 ('份', 'O'),
 ('有', 'O'),
 ('限', 'O'),
 ('公', 'O'),
 ('司', 'O'),
 ('制', 'O'),
 ('药', 'O'),
 ('厂', 'O'),
 (' ', 'O'),
 (' ', 'O'),
 ('1', 'O'),
 ('.', 'O'),
 ('忌', 'O'),
 ('食', 'O'),
 ('辛', 'O'),
 ('辣', 'O'),
 ('，', 'O'),
 ('少', 'O'),
 ('进', 'O'),
 ('油', 'O'),
 ('腻', 'O'),
 ('。', 'O'),
 (' ', 'O'),
 ('2', 'O'),
 ('.', 'O'),
 ('感', 'B-DISEASE'),
 ('冒', 'I-DISEASE'),
 ('发', 'B-SYMPTOM'),
 ('热', 'I-SYMPTOM'),
 ('病', 'O'),
 ('人', 'O'),
 ('不', 'O'),
 ('宜', 'O'),
 ('服', 'O'),
 ('用', 'O'),
 ('。', 'O'),
 (' ', 'O'),
 ('3', 'O'),
 ('.', 'O'),
 ('有', 'O'),
 ('高', 'B-DISEASE'),
 ('血', 'I-DISEASE'),
 ('压', 'I-DISEASE'),
 ('、', 'O'),
 ('心', 'B-DISEASE_GROUP'),
 ('脏', 'I-DISEASE_GROUP'),
 ('病', 'I-DISEASE_GROUP'),
 ('、', 'O'),
 ('肝', 'B-DISEASE_GROUP'),
 ('病', 'I-DISEASE_GROUP'),
 ('、', 'O'),
 ('糖', 'B-DISEASE'),
 ('尿', 'I-DISEASE'),
 ('病', 'I-DISEASE'),
 ('、'