# 数据加载

In [1]:
import numpy as np
import os
# os.environ["CUDA_VISIBLE_DEVICES"] = "1"

os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

train_we = np.load('../Semantics/data/train_we_(32193, 120).npy')
test_we = np.load('../Semantics/data/test_we_(1613, 120).npy')
we_emb_matrix = np.load(
    '../Semantics/data/we_embedding_matrix_(6000, 300).npy')

y_fake_train = np.load('../dataset/data/train_label_(32193, 2).npy')
y_fake_test = np.load('../dataset/data/test_label_(1613, 2).npy')

train_we.shape, test_we.shape, y_fake_train.shape, y_fake_test.shape

((32193, 120), (1613, 120), (32193, 2), (1613, 2))

In [2]:
two_branches_attention_file = './model/Branches_Balanced3_BiGRU_TwoBranches_attention2.hdf5'

from keras import backend as K


def get_layer_output(model, x, index=-1):
    """
    get the computing result output of any layer you want, default the last layer.
    :param model: primary model
    :param x: input of primary model( x of model.predict([x])[0])
    :param index: index of target layer, i.e., layer[23]
    :return: result
    """
    layer = K.function([model.input], [model.layers[index].output])
    return layer([x])[0]

Using TensorFlow backend.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [3]:
from TextModels import BiGRU
from TextTransferModels import TwoBranchesBiGRU

related_model = BiGRU(max_sequence_length=120, embedding_matrix=we_emb_matrix,
                      output=3, gradient_reversal=False).model
unrelated_model = BiGRU(max_sequence_length=120, embedding_matrix=we_emb_matrix,
                        output=3, gradient_reversal=True).model

related_model.load_weights(
    './model/Branches_Balanced3_BiGRU_RelatedBranch_useClassWeight.hdf5')
unrelated_model.load_weights(
    './model/Branches_Balanced3_BiGRU_UnrelatedBranch_useClassWeight.hdf5')

model = TwoBranchesBiGRU(max_sequence_length=120, embedding_matrix=we_emb_matrix,
                         related_branch_layer=related_model.get_layer(
                             'category_branch'),
                         unrelated_branch_layer=unrelated_model.get_layer(
                             'category_branch'),
                         fusion_mode='attention').model

model.load_weights(two_branches_attention_file)
model.summary()




Instructions for updating:
keep_dims is deprecated, use keepdims instead
Instructions for updating:
keep_dims is deprecated, use keepdims instead





  output_shape = self.compute_output_shape(input_shape)


__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
Word2Vec (InputLayer)           (None, 120)          0                                            
__________________________________________________________________________________________________
embedding_3 (Embedding)         (None, 120, 300)     1800000     Word2Vec[0][0]                   
__________________________________________________________________________________________________
bidirectional_3 (Bidirectional) (None, 120, 64)      63936       embedding_3[0][0]                
__________________________________________________________________________________________________
global_average_pooling1d_3 (Glo (None, 64)           0           bidirectional_3[0][0]            
__________________________________________________________________________________________________
global_max

## TwoBranches 层的输出

In [4]:
model

<keras.engine.training.Model at 0x7f760c40c910>

In [6]:
two_branches_train = get_layer_output(model, train_we, index=-3)
two_branches_train.shape

(32193, 2, 32)

In [5]:
two_branches_test = get_layer_output(model, test_we, index=-3)
two_branches_test.shape

(1613, 2, 32)

## SelfAtt 层的权重

In [7]:
selfAtt_weights = model.get_layer('two_branches_attention').get_weights()[0]
selfAtt_weights.shape

(32,)

## 计算attention的输出

In [8]:
def get_attention(x, W):
    e = np.exp(np.tanh(np.sum(x*W, axis=-1)))
    a = e / np.expand_dims(np.sum(e, axis=1), axis=-1)
    return a

In [9]:
attention_train = get_attention(two_branches_train, selfAtt_weights)
attention_train.shape

(32193, 2)

In [10]:
attention_test = get_attention(two_branches_test, selfAtt_weights)
attention_test.shape

(1613, 2)

In [11]:
np.save('./analysis/attention_weights_train_{}.npy'.format(attention_train.shape), attention_train)
np.save('./analysis/attention_weights_test_{}.npy'.format(attention_test.shape), attention_test)

# Attention 分析

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import json
%matplotlib inline
sns.set()

In [2]:
attention_train = np.load('./analysis/attention_weights_train_(32193, 2).npy')
attention_test = np.load('./analysis/attention_weights_test_(1613, 2).npy')
attention_train.shape, attention_test.shape

((32193, 2), (1613, 2))

In [3]:
with open('../dataset/train.json', 'r') as f:
    train = json.load(f)
with open('../dataset/test.json', 'r') as f:
    test = json.load(f)
len(train), len(test)

(32193, 1613)

In [4]:
test[0]

{'category': '军事',
 'category_label': 6,
 'content': '战事一触即发？伊朗大规模海上军演向美示威，美将派更多军舰前往!!!!!|战事一触即...',
 'content_words': '战事 一触即发 ？ 伊朗 大规模 海上 军演 向 美 示威 ， 美将 派 更 多 军舰 前往 ! ! ! ! ! | 战事 一触 即 ...',
 'fake_label': 0}

In [24]:
def analysis_index(attention, analysis_num=5):
    sort = attention[:, 0].argsort()
    return sort[:analysis_num], sort[-1 * analysis_num:]

## Test

In [41]:
unrelated_top, related_top = analysis_index(attention_test, analysis_num=50)

In [42]:
for i in related_top:
    print('index: {}, related_weights = {}, unrelated_weights = {}'.format(
        i, attention_test[i][0], attention_test[i][1]))
    print('#########################################################')
    print('【{}】'.format(test[i]['category']))
    print(test[i]['content'])
    print()

index: 1182, related_weights = 0.8804444074630737, unrelated_weights = 0.11955558508634567
#########################################################
【政治】
求证【到了拼老公的时代了！法院副院长？】北京朝阳门一带，一辆MINI，没驾驶证，多次违章，闯红灯，超速。差点把一位过马路老奶奶撞倒。交警拦下后该女子叫嚣老公是个非常有钱有权有势的XX领导！你知道我男人是谁吗？说出来吓死你们！有网友爆料：京M87187女车主的老公为北京市人民法院副院长赵航

index: 1070, related_weights = 0.8804531097412109, unrelated_weights = 0.11954689025878906
#########################################################
【政治】
人大代表杨澜终于承认自己是外国人了（图）|杨澜终于承认自己是美国国籍的人大代表了。她理直气壮地说——虽然我入了美国籍，但我出身于中国，所以从原产地角度而言，我不出席美国两会而出席中国的两会是天经地义的，这说明我更爱中

index: 932, related_weights = 0.8804532289505005, unrelated_weights = 0.1195467859506607
#########################################################
【军事】
2017年6月1日是我最伤心的一天，因为我父亲被凶手残忍的杀害。父亲是一位解放大西北和抗美援朝老革命军人，为了讨要残疾补助被打死在山西省临汾市襄汾县委办公楼前，至今一个多不立案，谁能站出来替老军人说一句话，又是谁要包庇凶手，我希望请网友帮忙转发，让更多人关注。女儿宋喜莲发。???//【黄磊为孙莉庆生一句饱含22年柔情的“宝贝”甜齁】，7月18日是孙莉40岁生日，老公黄磊晒老婆美照送上生日祝福，称：“宝贝，生日快乐！”并特意艾特孙莉，大秀恩爱。照片中，孙莉双手捧着大束的鲜花，眼睛微闭，幸福写在脸上！黄磊“这一声宝贝叫得那个酥”。嫁对了人，每天都是情人节！

ind

In [43]:
for i in unrelated_top:
    print('index: {}, related_weights = {}, unrelated_weights = {}'.format(
        i, attention_test[i][0], attention_test[i][1]))
    print('#########################################################')
    print('【{}】'.format(test[i]['category']))
    print(test[i]['content'])
    print()

index: 646, related_weights = 0.6429811716079712, unrelated_weights = 0.3570188581943512
#########################################################
【政治】
【#李克强#出席第20次中国-东盟领导人会议】李克强在发言中表示，今年是东盟成立50周年，中国对东盟的发展进步感到高兴，对东盟未来前景充满信心。中方坚定支持东盟共同体建设，支持东盟在区域合作中的中心地位，支持东盟在国际地区事务中发挥更大作用，始终把东盟作为周边外交的优先方向，坚持与东盟做安危与共、同舟共济的好邻居、好朋友、好伙伴，携手构建理念共通、繁荣共享、责任共担的命运共同体。قالرئيسمجلسالدولةالصينيليكهتشيانغإنّبكينوالدولالأعضاءللآسيانستبدأمشاوراتحولمدونةقواعدالسلوكفيبحرالصينالجنوبي.وقالليإنّالصينملتزمةبالحفاظعلىالسلاموالاستقرارفيبحرالصينالجنوبيوحلالنزاعاتالإقليميةوالبحريةمعالأطرافالمعنيةبشكلمباشرمنخلالالمفاوضاتCGTN阿拉伯...

index: 395, related_weights = 0.6429811716079712, unrelated_weights = 0.3570188581943512
#########################################################
【政治】
【#李克强#赴马尼拉出席东盟10+3峰会等一系列活动】李克强总理于11月12日至16日赴菲律宾马尼拉出席第20次中国—东盟（10+1）领导人会议、第20次东盟与中日韩（10+3）领导人会议和第12届东亚峰会等活动，并对菲律宾进行正式访问。ووصلرئيسمجلسالدولةالصينيليكهتشيانغإلىمانيلالحضورقمةالآسيان-الصين،وقمةالآسيانزائدثلاثة،وقمةشرقآسيا.كماسيحضرليكهتشيانغالاجتماعالخاصباتفا

## Train

In [24]:
attention_train.argmax(axis=0)

array([30011,  4021])

In [25]:
attention_train[30011]

array([0.8807512 , 0.11924884], dtype=float32)

In [27]:
attention_train[4021]

array([0.6429812 , 0.35701886], dtype=float32)

In [30]:
train[30011]

{'category': '社会生活',
 'category_label': 3,
 'content': '帮转的刘波全家跪谢大家了！快转！本人：刘波，电话：15864936688，今天上午的5岁儿子在安达双语幼儿园附近被人拐走了，儿子能说出他妈妈的手机号码从监控上看是被一个三十多岁女人抱走了现我们家老奶奶都急疯了有知情者请告之万分感谢看到信息的兄弟姐妹留意一下联系人刘波，电话：15864936688，如果看一眼懒得转的冷漠人也请你伸出手指按3秒看到就转转吧我们都会有孩子谢谢你@沈阳市公安局@沈阳公安交警支队@新媒沈阳@沈阳身边事2沈阳·华晨宝马铁西工厂',
 'content_words': '帮转 的 刘波 全家 跪谢 大家 了 ！ 快转 ！ 本人 ： 刘波 ， 电话 ： 15864936688 ， 今天上午 的 5 岁 儿子 在 安达 双语 幼儿园 附近 被 人 拐走 了 ， 儿子 能 说出 他 妈妈 的 手机号码 从 监控 上 看 是 被 一个三十多岁 女人 抱 走 了 现 我们 家 老奶奶 都 急 疯 了 有 知情者 请告 之 万分 感谢 看到 信息 的 兄弟姐妹 留意 一下 联系人 刘波 ， 电话 ： 15864936688 ， 如果 看 一眼 懒得 转 的 冷漠 人 也 请 你 伸出 手指 按 3 秒 看到 就 转转 吧 我们 都 会 有 孩子 谢谢 你 @ 沈阳市 公安局 @ 沈阳 公安 交警支队 @ 新媒 沈阳 @ 沈阳 身边 事 2 沈阳 · 华晨 宝马 铁西 工厂',
 'fake_label': 1}

In [31]:
train[4021]

{'category': '社会生活',
 'category_label': 3,
 'content': '瞪',
 'content_words': '瞪',
 'fake_label': 0}