# 文本数据加载

In [1]:
import json
import numpy as np
import joblib

with open('./preprocess/dataset.json', 'r') as f:
    dataset = json.load(f)

len(dataset)

1665

In [2]:
MAX_SEQUENCE_LENGTH = 85
EVENT_TYPE = 7

# Word2Vec

In [3]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences

Using TensorFlow backend.


In [4]:
embeddings_index = {}
with open('../../../../../../实验室/word2vec/sgns.weibo.bigram-char') as f:
    lines = f.readlines()
    lines = [l.strip() for l in lines]
    print(lines[0])
    
    for line in lines[1:]:
        word, coefs = line.split(maxsplit=1)
        coefs = np.fromstring(coefs, 'f', sep=' ')
        embeddings_index[word] = coefs

print('Found %s word vectors.' % len(embeddings_index))

195197 300
Found 195197 word vectors.


In [5]:
MAX_NUM_WORDS = 6000
EMBEDDING_DIM = 300

In [6]:
texts = []

for piece in dataset:
    texts.append(piece['sentence_words'])
    
len(texts)

1665

In [7]:
texts[0]

'2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！'

In [8]:
# finally, vectorize the text samples into a 2D integer tensor
tokenizer = Tokenizer(num_words=MAX_NUM_WORDS)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

we = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)

Found 6476 unique tokens.


In [9]:
list(word_index.items())[:5]

[('消灭', 5305), ('卢氏', 5696), ('广大群众', 3838), ('茂密', 4585), ('国际', 786)]

In [11]:
# prepare embedding matrix
num_words = min(MAX_NUM_WORDS, len(word_index) + 1)
embedding_matrix = np.zeros((num_words, EMBEDDING_DIM))
for word, i in word_index.items():
    if i >= MAX_NUM_WORDS:
        continue
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        # words not found in embedding index will be all-zeros.
        embedding_matrix[i] = embedding_vector

In [12]:
list(word_index.items())[0]

('双语', 3724)

In [13]:
embedding_matrix.shape, we.shape

((6000, 300), (1665, 85))

In [14]:
we[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,  567,  133,   38,    9,   66,    5,  805, 2996, 2997,
       2998, 1140,   28,    1, 2999,  628, 3000, 1440], dtype=int32)

In [15]:
dataset[0]['sentence_words']

'2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！'

In [16]:
word_index['2014'], word_index['年'], word_index['1'], word_index['月'], word_index['烧死']

(567, 133, 38, 9, 3000)

In [18]:
# embedding_matrix[3000] == embeddings_index['烧死']

In [19]:
we.shape

(1665, 85)

In [20]:
np.save('./we_embedding_matrix_{}.npy'.format(embedding_matrix.shape), embedding_matrix)
np.save('./we_{}.npy'.format(we.shape), we)

In [11]:
import joblib

In [12]:
joblib.dump(word_index, 'we_word_index.pkl')

['we_word_index.pkl']

# Position: (1665, 85, 85, 2)

In [6]:
import json
import numpy as np
import joblib

In [4]:
with open('./preprocess/dataset.json', 'r') as f:
    dataset = json.load(f)

len(dataset)

1665

In [5]:
we = np.load('./we_(1665, 85).npy')
we.shape

(1665, 85)

In [7]:
word_index = joblib.load('./we_word_index.pkl')
len(word_index)

6476

In [8]:
we[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,  567,  133,   38,    9,   66,    5,  805, 2996, 2997,
       2998, 1140,   28,    1, 2999,  628, 3000, 1440], dtype=int32)

In [9]:
dataset[0]

{'sentence': '2014年1月7日 广州番禺市桥街兴泰路 商铺 火灾 ， 从化女子 烧死 ！',
 'sentence_words': '2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！',
 'triggers': [{'event': 'emergency',
   'event_arguments': '商铺',
   'event_trigger': '火灾',
   'index_event': 1,
   'index_event_arguments': 10,
   'index_event_trigger': 11}]}

In [11]:
word_index['2014'], word_index['火灾'], word_index['商铺']

(567, 28, 1140)

In [51]:
def cal_distance_arr(word, we_arr):
    assert len(we_arr) == MAX_SEQUENCE_LENGTH
    arr = np.arange(MAX_SEQUENCE_LENGTH)
    
    value = word_index[word]
    index = np.where(we_arr==value)[0]
    if len(index) != 0:
        index = index[0]
        
        arr = np.abs(arr - index)
        arr[np.where(we_arr==0)[0]] = -1
        
        return index, arr
    else:
        # 不可达
        return -1, np.zeros(MAX_SEQUENCE_LENGTH) - 1    

In [53]:
cal_distance_arr('火灾',we[0])

(79, array([-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
        -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
        -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
        -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
        11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0,  1,  2,  3,  4,  5]))

In [56]:
position = np.zeros((len(dataset), MAX_SEQUENCE_LENGTH, MAX_SEQUENCE_LENGTH, 2))
position.shape

(1665, 85, 85, 2)

In [66]:
for i, piece in enumerate(dataset):
    triggers = piece['triggers']
    for trigger in triggers:
        # trigger词
        t_word = trigger['event_trigger']
        trigger_index, trigger_arr = cal_distance_arr(t_word, we[i])

        # arguments词
        try:
            a_word = trigger['event_arguments']
            argument_index, argument_arr = cal_distance_arr(a_word, we[i])
        except:
            argument_arr = np.zeros(MAX_SEQUENCE_LENGTH) - 1

        if trigger_index == -1:
            continue

        position[i][trigger_index] = np.concatenate(
            [trigger_arr[:, None], argument_arr[:, None]], axis=-1)

In [80]:
np.where(we[-1]==word_index['化验'])

(array([83]),)

In [75]:
dataset[-1]

{'sentence': '昨晚 ， 当地卫生监督所 疾控中心 等部门正在 提取 相关样本 进行 化验 。',
 'sentence_words': '昨晚 ， 当地 卫生 监督 所 疾控中心 等 部门 正在 提取 相关 样本 进行 化验 。',
 'triggers': [{'event': 'operation',
   'event_trigger': '提取',
   'index_event': 3,
   'index_event_trigger': 10},
  {'event': 'operation',
   'event_trigger': '化验',
   'index_event': 3,
   'index_event_trigger': 14}]}

In [7]:
# position[-1][83]

In [82]:
np.save('./position_{}.npy'.format(position.shape), position)

# Lexical: (1665, 85, 6)

In [8]:
word_index = joblib.load('./we_word_index.pkl')
len(word_index)

6476

In [9]:
we = np.load('./we_(1665, 85).npy')
we.shape

(1665, 85)

In [12]:
def find_index(word, we_arr):
    assert len(we_arr) == MAX_SEQUENCE_LENGTH
    
    value = word_index[word]
    index = np.where(we_arr==value)[0]
    if len(index) != 0:
        index = index[0]
        return index
    else:
        # 不可达
        return -1  

In [14]:
def get_context_value(index, we_arr):
    if index == -1:
        return 0, 0, 0
    
    curr = we_arr[index]
    try:
        left = we_arr[index-1]
    except:
        left = 0
    try:
        right = we_arr[index+1]
    except:
        right = 0

    return left, curr, right

In [12]:
find_index('火灾', we[0]), word_index['火灾']

(79, 28)

In [11]:
we[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,  567,  133,   38,    9,   66,    5,  805, 2996, 2997,
       2998, 1140,   28,    1, 2999,  628, 3000, 1440], dtype=int32)

In [5]:
dataset[0]

{'sentence': '2014年1月7日 广州番禺市桥街兴泰路 商铺 火灾 ， 从化女子 烧死 ！',
 'sentence_words': '2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！',
 'triggers': [{'event': 'emergency',
   'event_arguments': '商铺',
   'event_trigger': '火灾',
   'index_event': 1,
   'index_event_arguments': 10,
   'index_event_trigger': 11}]}

In [6]:
lexical = np.zeros((len(dataset), MAX_SEQUENCE_LENGTH, 6))
lexical.shape

(1665, 85, 6)

In [15]:
for i, piece in enumerate(dataset):
    triggers = piece['triggers']
    for trigger in triggers:
        # trigger词
        t_word = trigger['event_trigger']
        trigger_index = find_index(t_word, we[i])

        # arguments词
        try:
            a_word = trigger['event_arguments']
            argument_index = find_index(a_word, we[i])
        except:
            argument_index = -1
            
        if trigger_index == -1:
            continue
        
        lexical[i][trigger_index][:3] = get_context_value(trigger_index, we[i])
        lexical[i][trigger_index][3:] = get_context_value(argument_index, we[i])

In [20]:
word_index['火灾'], word_index['商铺']

(28, 1140)

In [17]:
lexical[0][79]

array([  1.14000000e+03,   2.80000000e+01,   1.00000000e+00,
         2.99800000e+03,   1.14000000e+03,   2.80000000e+01])

In [18]:
we[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,  567,  133,   38,    9,   66,    5,  805, 2996, 2997,
       2998, 1140,   28,    1, 2999,  628, 3000, 1440], dtype=int32)

In [21]:
np.save('./lexical_{}.npy'.format(lexical.shape), lexical)

## Check

In [3]:
lexical = np.load('./lexical_(1665, 85, 6).npy')
lexical.shape

(1665, 85, 6)

In [7]:
dataset[1]

{'sentence': '广州番禺警方 媒体 通报 ： 1月7日晚21时40分 警方 群众 报警 ， 称 市桥街兴泰路 商铺 冒出 浓烟 。',
 'sentence_words': '广州 番禺 警方 媒体 通报 ： 1 月 7 日晚 21 时 40 分 警方 群众 报警 ， 称 市桥 街兴泰路 商铺 冒 出 浓烟 。',
 'triggers': [{'event': 'statement',
   'event_trigger': '称',
   'index_event': 6,
   'index_event_trigger': 18},
  {'event': 'statement',
   'event_trigger': '通报',
   'index_event': 6,
   'index_event_trigger': 4},
  {'event': 'operation',
   'event_trigger': '报警',
   'index_event': 3,
   'index_event_trigger': 16}]}

In [10]:
word_index['称'],word_index['通报'],word_index['报警']

(57, 429, 157)

In [13]:
find_index('称', we[1]), find_index('通报', we[1]), find_index('报警', we[1])

(77, 63, 75)

In [11]:
we[1]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,  805, 1932,   68,  295,  429,  116,   38,
          9,   66,  245,  162,    7,  156,   15,   68,  170,  157,    1,
         57, 3001, 3002, 1140,  695,  186,  296,    2], dtype=int32)

In [17]:
lexical[1][75]

array([ 170.,  157.,    1.,    0.,    0.,    0.])

# 用于DynamicPooling：Mask (1665, 85, 3, 85)

In [3]:
word_index = joblib.load('./we_word_index.pkl')
len(word_index)

6476

In [4]:
we = np.load('./we_(1665, 85).npy')
we.shape

(1665, 85)

In [5]:
def find_index(word, we_arr):
    assert len(we_arr) == MAX_SEQUENCE_LENGTH
    
    value = word_index[word]
    index = np.where(we_arr==value)[0]
    if len(index) != 0:
        index = index[0]
        return index
    else:
        # 不可达
        return -1  

In [14]:
def gen_mask_arr(t_index, a_index):
    mask_arr = np.ones((3, MAX_SEQUENCE_LENGTH))
    
    partition = [t_index, a_index]
    partition.sort()
    low, high = partition
    low = 0 if low < 0 else low
    
    mask_arr[0][0:low] = 0
    mask_arr[1][low:high] = 0
    mask_arr[2][high:] = 0
    
    return mask_arr

In [7]:
mask = np.ones((len(dataset), MAX_SEQUENCE_LENGTH, 3, MAX_SEQUENCE_LENGTH))
mask.shape

(1665, 85, 3, 85)

In [16]:
for i, piece in enumerate(dataset):
    triggers = piece['triggers']
    for trigger in triggers:
        # trigger词
        t_word = trigger['event_trigger']
        trigger_index = find_index(t_word, we[i])

        # arguments词
        try:
            a_word = trigger['event_arguments']
            argument_index = find_index(a_word, we[i])
        except:
            argument_index = -1
            
        if trigger_index == -1:
            continue
        
        mask[i][trigger_index] = gen_mask_arr(trigger_index, argument_index)

In [30]:
np.save('./mask_{}.npy'.format(mask.shape), mask)

## Check

In [17]:
dataset[1]

{'sentence': '广州番禺警方 媒体 通报 ： 1月7日晚21时40分 警方 群众 报警 ， 称 市桥街兴泰路 商铺 冒出 浓烟 。',
 'sentence_words': '广州 番禺 警方 媒体 通报 ： 1 月 7 日晚 21 时 40 分 警方 群众 报警 ， 称 市桥 街兴泰路 商铺 冒 出 浓烟 。',
 'triggers': [{'event': 'statement',
   'event_trigger': '称',
   'index_event': 6,
   'index_event_trigger': 18},
  {'event': 'statement',
   'event_trigger': '通报',
   'index_event': 6,
   'index_event_trigger': 4},
  {'event': 'operation',
   'event_trigger': '报警',
   'index_event': 3,
   'index_event_trigger': 16}]}

In [18]:
word_index['称'],word_index['通报'],word_index['报警']

(57, 429, 157)

In [19]:
find_index('称', we[1]), find_index('通报', we[1]), find_index('报警', we[1])

(77, 63, 75)

In [20]:
we[1]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,  805, 1932,   68,  295,  429,  116,   38,
          9,   66,  245,  162,    7,  156,   15,   68,  170,  157,    1,
         57, 3001, 3002, 1140,  695,  186,  296,    2], dtype=int32)

In [23]:
mask[1][75]

array([[ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.

In [24]:
dataset[0]

{'sentence': '2014年1月7日 广州番禺市桥街兴泰路 商铺 火灾 ， 从化女子 烧死 ！',
 'sentence_words': '2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！',
 'triggers': [{'event': 'emergency',
   'event_arguments': '商铺',
   'event_trigger': '火灾',
   'index_event': 1,
   'index_event_arguments': 10,
   'index_event_trigger': 11}]}

In [25]:
word_index['商铺'],word_index['火灾']

(1140, 28)

In [27]:
find_index('商铺', we[0]), find_index('火灾', we[0])

(78, 79)

In [26]:
we[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,  567,  133,   38,    9,   66,    5,  805, 2996, 2997,
       2998, 1140,   28,    1, 2999,  628, 3000, 1440], dtype=int32)

In [29]:
mask[0][79]

array([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
         0.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.

# Label: (1665, 85, 8)

In [3]:
from keras.utils import to_categorical

Using TensorFlow backend.


In [4]:
word_index = joblib.load('./we_word_index.pkl')
len(word_index)

6476

In [5]:
we = np.load('./we_(1665, 85).npy')
we.shape

(1665, 85)

In [6]:
def find_index(word, we_arr):
    assert len(we_arr) == MAX_SEQUENCE_LENGTH
    
    value = word_index[word]
    index = np.where(we_arr==value)[0]
    if len(index) != 0:
        index = index[0]
        return index
    else:
        # 不可达
        return -1  

In [7]:
event_type = dict()

for sent in dataset:
    for trigger in sent['triggers']:
        t = trigger['event']
        if t not in event_type.keys():
            event_type[t] = 1
        else:
            event_type[t] += 1

event_type

events = list(event_type.keys())
events.sort()

event2index = dict(zip(events, [i+1 for i in range(len(events))]))
event2index

{'action': 1,
 'emergency': 2,
 'movement': 3,
 'operation': 4,
 'perception': 5,
 'stateChange': 6,
 'statement': 7}

In [8]:
dataset[0]

{'sentence': '2014年1月7日 广州番禺市桥街兴泰路 商铺 火灾 ， 从化女子 烧死 ！',
 'sentence_words': '2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！',
 'triggers': [{'event': 'emergency',
   'event_arguments': '商铺',
   'event_trigger': '火灾',
   'index_event': 1,
   'index_event_arguments': 10,
   'index_event_trigger': 11}]}

In [9]:
label = np.zeros((len(dataset), MAX_SEQUENCE_LENGTH))

for i, piece in enumerate(dataset):    
    for trigger in piece['triggers']:
        j = find_index(trigger['event_trigger'], we[i])
        t = event2index[trigger['event']]
        label[i][j] = t

In [10]:
label = to_categorical(label)
label.shape

(1665, 85, 8)

In [28]:
np.save('./label_{}.npy'.format(label.shape), label)

## Check

In [11]:
dataset[1]

{'sentence': '广州番禺警方 媒体 通报 ： 1月7日晚21时40分 警方 群众 报警 ， 称 市桥街兴泰路 商铺 冒出 浓烟 。',
 'sentence_words': '广州 番禺 警方 媒体 通报 ： 1 月 7 日晚 21 时 40 分 警方 群众 报警 ， 称 市桥 街兴泰路 商铺 冒 出 浓烟 。',
 'triggers': [{'event': 'statement',
   'event_trigger': '称',
   'index_event': 6,
   'index_event_trigger': 18},
  {'event': 'statement',
   'event_trigger': '通报',
   'index_event': 6,
   'index_event_trigger': 4},
  {'event': 'operation',
   'event_trigger': '报警',
   'index_event': 3,
   'index_event_trigger': 16}]}

In [12]:
word_index['称'],word_index['通报'],word_index['报警']

(57, 429, 157)

In [13]:
find_index('称', we[1]), find_index('通报', we[1]), find_index('报警', we[1])

(77, 63, 75)

In [14]:
we[1]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,  805, 1932,   68,  295,  429,  116,   38,
          9,   66,  245,  162,    7,  156,   15,   68,  170,  157,    1,
         57, 3001, 3002, 1140,  695,  186,  296,    2], dtype=int32)

In [15]:
event2index['statement'], event2index['operation']

(7, 4)

In [18]:
label[1][75]

array([ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.])

In [19]:
dataset[0]

{'sentence': '2014年1月7日 广州番禺市桥街兴泰路 商铺 火灾 ， 从化女子 烧死 ！',
 'sentence_words': '2014 年 1 月 7 日 广州 番禺市 桥街 兴泰路 商铺 火灾 ， 从化 女子 烧死 ！',
 'triggers': [{'event': 'emergency',
   'event_arguments': '商铺',
   'event_trigger': '火灾',
   'index_event': 1,
   'index_event_arguments': 10,
   'index_event_trigger': 11}]}

In [20]:
word_index['商铺'],word_index['火灾']

(1140, 28)

In [21]:
find_index('商铺', we[0]), find_index('火灾', we[0])

(78, 79)

In [25]:
event2index['emergency']

2

In [22]:
we[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,  567,  133,   38,    9,   66,    5,  805, 2996, 2997,
       2998, 1140,   28,    1, 2999,  628, 3000, 1440], dtype=int32)

In [24]:
label[0][79]

array([ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.])