In [1]:
import os
import os.path
import numpy as np
import sklearn
import sklearn.model_selection
import sklearn.linear_model
import sklearn.ensemble
import spacy
import sys
from sklearn.feature_extraction.text import CountVectorizer
os.chdir('..')
from anchor_zh import anchor_text
import crash_on_ipy
os.chdir('./notebooks')
import jieba

In [2]:
def load_pingan3(fpath, idx2lbl=None):
    data = []
    labels = []
    with open(fpath, 'r') as f:
        for line in f:
            lbl, txt = line.strip().split('\t')
            txt = ' '.join(jieba.cut(txt.strip()))
            data.append(txt)
            labels.append(lbl)
    if idx2lbl is None:
        idx2lbl = list(set(labels))
    lbl2idx = {lbl:idx for idx, lbl in enumerate(idx2lbl)}
    for i in range(len(labels)):
        labels[i] = lbl2idx[labels[i]]
        
    return data, labels, idx2lbl, lbl2idx

In [3]:
ftrain = os.path.join('pingan3', 'train_data.txt')
fvalid = os.path.join('pingan3', 'validation_data.txt')

In [4]:
train, train_lbls, idx2lbl, lbl2idx = load_pingan3(ftrain)
valid, valid_lbls, _, _ = load_pingan3(fvalid, idx2lbl)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/bl/d6ntdtz11rn60q3s4fhr4kv80000gn/T/jieba.cache
Loading model cost 0.697 seconds.
Prefix dict has been built succesfully.


In [5]:
vectorizer = CountVectorizer(min_df=1)
vectorizer.fit(train)
train_vectors = vectorizer.transform(train)
valid_vectors = vectorizer.transform(valid)

In [6]:
# c = sklearn.linear_model.LogisticRegression(solver='lbfgs', max_iter=200)
# c = sklearn.linear_model.Perceptron()
c = sklearn.ensemble.RandomForestClassifier(n_estimators=500, n_jobs=10)
c.fit(train_vectors, train_lbls)
def predict_lr(texts):
    return c.predict(vectorizer.transform(texts))

In [7]:
preds = c.predict(valid_vectors)
print('Valid f1', sklearn.metrics.f1_score(valid_lbls, preds, average='macro'))
preds = c.predict(train_vectors)
print('Train f1', sklearn.metrics.f1_score(train_lbls, preds, average='macro'))

  'precision', 'predicted', average, warn_for)


Valid f1 0.5810617209340265
Train f1 0.9776967050254506


In [149]:
for sidx, inp in enumerate(valid):
    if idx2lbl[predict_lr([valid[sidx]])[0]] != idx2lbl[valid_lbls[sidx]]:
        print(sidx)
        print(valid[sidx])
        print(idx2lbl[predict_lr([valid[sidx]])[0]], idx2lbl[valid_lbls[sidx]])

3
( 1 ) 前牙 结构 发育不良 ： 釉质 发育不全 、 氟斑牙 、 四环素牙 等 ；
Age Oral related
8
7 ） 曾经 或 目前 存在 迟发性 运动障碍 症状 的 患者 ；
Disease Symptom
13
4 .   患者 入选 前 无 房颤 导管 消融 手术 史 ；
Pregnancy-related Activity Therapy or Surgery
19
（ 1 ） 入院 时低 体温 ， 体温 & lt ; 34 ℃
Laboratory Examinations Disease
29
4 ) 在 服用 研究 药物 前 三个 月 内 献血 或 大量 失血 （ & gt ;   450   mL ）
Multiple Blood Donation
34
1 .   术 前 胃镜 病理 检查 证实 胃癌 诊断 且 预计 行 远端 胃癌 根治术 或 根治性 全 胃切除术
Diagnostic Multiple
38
3 .   拿到 驾驶执照 （ C1 / C2 ） 1 月 内 ；
Age Special Patient Characteristic
39
3 ) 能够 与 研究者 良好 交流 及 遵照 整个 试验 要求
Compliance with Protocol Multiple
46
1 . 未育 女性 ， 右利手 ， 18 岁 ≤ 年龄 ≤ 30 岁 ；
Multiple Special Patient Characteristic
48
2 .   病情 危重 需 入住 ICU 病房 的 患儿 ；
Encounter Multiple
49
（ 3 ） DBS 手术 （ 手术 靶点 为 双侧 STN ） ， 患者 术前 MOCA 评分 & gt ; 26 分 ， 术后 MOCA 评分 20 - 25 分
Risk Assessment Multiple
51
2 ） 性激素 ： 青春期 龈炎 ， 妊娠期 妇女
Pregnancy-related Activity Multiple
54
A .   计划 在 试验 后 14 天内 完成 冠脉 造影 检查 的 患者
Therapy or Surgery Device
57
① 同一 患者 相同 部位 重复 分离 的 菌株 ；
Disease Therapy or Surg

KeyboardInterrupt: 

In [126]:
train[sidx]

'4 . 年龄 小于 65 岁 。'

### 解释预测（UNK替换）
use_unk_distribution=True 代表使用替换UNK的方式进行样本扰动

In [8]:
nlp = spacy.load('zh')

In [9]:
explainer = anchor_text.AnchorText(nlp, idx2lbl, use_unk_distribution=True)

In [10]:
sidx = 3
np.random.seed(1)
text = valid[sidx]
pred = explainer.class_names[predict_lr([text])[0]]
# alternative =  explainer.class_names[1 - predict_lr([text])[0]]
print('Prediction: %s' % pred)
exp = explainer.explain_instance(text, predict_lr, threshold=0.95, use_proba=True)

Prediction: Age


In [12]:
text

'( 1 ) 前牙 结构 发育不良 ： 釉质 发育不全 、 氟斑牙 、 四环素牙 等 ；'

In [13]:
print('Anchor: %s' % (' AND '.join(exp.names())))
print('Precision: %.2f' % exp.precision())
print()
print('Examples where anchor applies and model predicts %s:' % pred)
print()
print('\n'.join([x[0] for x in exp.examples(only_same_prediction=True)]))
print()
print('Examples where anchor applies and model predicts others')
print()
print('\n'.join([x[0] for x in exp.examples(only_different_prediction=True)]))

Anchor: 
Precision: 1.00

Examples where anchor applies and model predicts Age:



Examples where anchor applies and model predicts others




### 解释预测（近邻词替换）
use_unk_distribution=False 代表使用替换近邻词的方式进行扰动

In [14]:
explainer = anchor_text.AnchorText(nlp, idx2lbl, use_unk_distribution=False)

In [15]:
sidx = 3
np.random.seed(1)
text = valid[sidx]
pred = explainer.class_names[predict_lr([text])[0]]
alternative =  explainer.class_names[1 - predict_lr([text])[0]]
print('Prediction: %s' % pred)
exp = explainer.explain_instance(text, predict_lr, threshold=0.95, use_proba=True)

Prediction: Age


In [22]:
idx2lbl[valid_lbls[sidx]]

'Oral related'

In [30]:
text

'( 1 ) 前牙 结构 发育不良 ： 釉质 发育不全 、 氟斑牙 、 四环素牙 等 ；'

In [None]:
predict_lr([jieba.cut('(1)前牙区开颌、反颌、深覆合或深覆盖者；')])

In [19]:
print('Anchor: %s' % (' AND '.join(exp.names())))
print('Precision: %.2f' % exp.precision())
print()
print('Examples where anchor applies and model predicts %s:' % pred)
print()
print('\n'.join([x[0] for x in exp.examples(only_same_prediction=True)]))
print()
print('Examples where anchor applies and model predicts others.')
print()
print('\n'.join([ '\t'.join((x[0], idx2lbl[predict_lr([x[0]])[0]])) for x in exp.examples(only_different_prediction=True)]))

Anchor: 发育不全 AND 发育不良
Precision: 0.96

Examples where anchor applies and model predicts Age:

(   1   )   前牙   性质   发育不良   ：   灰褐色   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   模型   发育不良   ：   其菌   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   层次   发育不良   ：   雕饰   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   结构   发育不良   ：   颜料   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   框架   发育不良   ：   线条   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   规律性   发育不良   ：   斑驳   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   结构   发育不良   ：   灰白   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   内部结构   发育不良   ：   朱砂   发育不全   、   氟斑牙   、   四环素牙   等   
(   1   )   前牙   结构性   发育不良   ：   其菌   发育不全   、   氟斑牙   、   四环素牙   等   ；
(   1   )   前牙   结构性   发育不良   ：   五官   发育不全   、   氟斑牙   、   四环素牙   等   ；

Examples where anchor applies and model predicts others.

(   1   )   前牙   特性   发育不良   ：   成分   发育不全   、   氟斑牙   、   四环素牙   等   ；	Allergy Intolerance
(   1   )   前牙   功能   发育不良   ：

In [35]:
idx2lbl[predict_lr(['身体 发育不良 发育不全'])[0]]

'Disease'

In [75]:
def online_learning(data, lbls):
    vecs = vectorizer.transform(data)
    c.partial_fit(vecs, lbls)

In [None]:
additional_data = ['前牙 发育不良', '前牙 发育']

In [76]:
online_learning([text], [lbl2idx['Addictive Behavior']])

In [77]:
idx2lbl[predict_lr([text])[0]]

'Addictive Behavior'

In [82]:
sidx = 2 
np.random.seed(1)
text = train[sidx]
pred = explainer.class_names[predict_lr([text])[0]]
alternative =  explainer.class_names[1 - predict_lr([text])[0]]
print('Prediction: %s' % pred)
exp = explainer.explain_instance(text, predict_lr, threshold=0.95, use_proba=True)

Prediction: Addictive Behavior


In [83]:
print('Anchor: %s' % (' AND '.join(exp.names())))
print('Precision: %.2f' % exp.precision())
print()
print('Examples where anchor applies and model predicts %s:' % pred)
print()
print('\n'.join([x[0] for x in exp.examples(only_same_prediction=True)]))
print()
print('Examples where anchor applies and model predicts %s:' % alternative)
print()
print('\n'.join([x[0] for x in exp.examples(only_different_prediction=True)]))

Anchor: 滥用 AND 酗酒
Precision: 1.00

Examples where anchor applies and model predicts Addictive Behavior:

10   )   现在   或   曾   滥用   解毒剂   或   酗酒   ，   或者   每天   泡茶   相当于   30   毫升   酒精度   的   硫酸铜   品牌   。
10   )   现在   或   从那以后   滥用   药物   或   酗酒   ，   或者   每天   熬   略大   30   毫升   处方药   的   葡萄汁   可口可乐  
10   )   现在   或   曾多次   滥用   毒性   或   酗酒   ，   或者   每天   一碗   相等于   30   毫升   哮喘   的   乳酸   饮料   。
10   )   现在   或   并未   滥用   病症   或   酗酒   ，   或者   每天   用水   占   30   毫升   止痛药   的   食物   配方   。
10   )   现在   或   不过   滥用   氯霉素   或   酗酒   ，   或者   每天   发酵   合计   30   毫升   吗啡   的   添加剂   维他命   。
10   )   现在   或   从来不   滥用   中枢神经   或   酗酒   ，   或者   每天   泻药   对应   30   毫升   血浆   的   食品   碳酸   。
10   )   现在   或   甚   滥用   药   或   酗酒   ，   或者   每天   食用   最高者   30   毫升   处方   的   胎儿   饮料   。
10   )   现在   或   经常   滥用   药物   或   酗酒   ，   或者   每天   喂养   据估计   30   毫升   苦艾   的   化学物质   药品   。
10   )   现在   或   曾   滥用   兴奋剂   或   酗酒   ，   或者   每天   放血   将近   30   毫升   饮料   的   酒精   餐点   。
10   )

In [102]:
text = '10   )   现在 滥用 咖啡因'
idx2lbl[predict_lr([text])[0]]

'Addictive Behavior'