In [23]:
import numpy as np
import pandas as pd
import torch
import math
from tensorflow.keras.preprocessing.sequence import pad_sequences
import tensorboardX as tbx

from src.models import BiLM, SoftmaxLoss
from src.preprocessing import Tokenizer

In [2]:
%load_ext autoreload
%autoreload 2

## BiLM test

In [3]:
sent = torch.tensor([[1, 3, 4, 5, 2, 0]
                       , [1, 4, 3, 6, 4, 2]])

In [4]:
inputs = sent.transpose(1, 0).view(-1, 2)

In [215]:
sent.shape

torch.Size([2, 6])

In [216]:
inputs.shape

torch.Size([6, 2])

In [241]:
bi_lm_model = BiLM(100, 10, 7)

loss_func = SoftmaxLoss()

forward_output, backword_output, c = bi_lm_model(inputs)

loss = loss_func(forward_output, backword_output, sent)

optimizer = torch.optim.SGD(bi_lm_model.parameters(), lr=0.01, momentum=0.9)

In [242]:
for epoch in range(10):
    epoch_loss = 0.0
    for batch in range(10):
        #inputs, target = batch
        
        optimizer.zero_grad()
        
        forward_output, backword_output, c = bi_lm_model(inputs)
        loss = loss_func(forward_output, backword_output, sent)
        loss.backward()
        optimizer.step()
        
        epoch_loss += loss.data
    

tensor(2.8676)
tensor(2.8327)
tensor(2.7853)
tensor(2.7352)
tensor(2.6856)
tensor(2.6375)
tensor(2.5910)
tensor(2.5462)
tensor(2.5031)
tensor(2.4617)


In [247]:
c[0, :, :], c[1, :, :]

(tensor([[ 0.1117, -0.0517, -0.1969,  0.2721, -0.1754,  0.4400, -0.3322,  0.1445,
          -0.0375,  0.5117],
         [ 0.7798,  0.2518, -0.4081,  0.4856, -0.0018,  0.7685,  0.0832,  0.0889,
          -0.4110,  1.3958]], grad_fn=<SliceBackward>),
 tensor([[-1.3118, -0.1223,  0.1932, -0.8429,  0.0526, -0.4303, -0.2412,  0.4959,
          -0.3689,  0.3246],
         [-1.8531, -0.0904,  0.0867, -0.9414, -0.1572, -0.5205, -0.3179,  0.4663,
          -0.6213,  0.2895]], grad_fn=<SliceBackward>))

## Preprocessing test

In [5]:
sentences = [
    ['All', 'work', 'and', 'no', 'play'],
    ['makes', 'Jack', 'a', 'dull', 'boy', '.'],
    ['MAKE', 'AMERICA', 'GREAT', 'AGAIN'],
    ['Poyoi']
]

In [24]:
wiki_df = pd.read_pickle("data/all_wiki_sentence_split_words_using_compound_dict.pkl")
wiki_df.head()

Unnamed: 0,_id,title,sentence,words,repl_words
0,1300364,イソチオシアネート,イソチオシアネート（Isothiocyanate）とは、-N=C=Sという構造を持つ物質の総...,"[イソチオシアネート, （, Isothiocyanate, ）, と, は, 、, -, ...","[[title-compound], （, Isothiocyanate, ）, と, は,..."
1,1300364,イソチオシアネート,アブラナ科の植物にしばしば含まれるアリルイソチオシアネートはカラシ油に含まれ、辛味の原因とな...,"[アブラナ, 科, の, 植物, に, しばしば, 含ま, れる, アリルイソチオシアネート...","[アブラナ, 科, の, 植物, に, しばしば, 含ま, れる, [compound], ..."
2,1300364,イソチオシアネート,エドマン分解ではアミノ酸の配列の解析に用いられる。,"[エド, マン, 分解, で, は, アミノ酸, の, 配列, の, 解析, に, 用い, ...","[エド, マン, 分解, で, は, アミノ酸, の, 配列, の, 解析, に, 用い, ..."
3,1300364,イソチオシアネート,イソチオシアネートは常に炭素原子を求電子中心とする求電子剤として働く。,"[イソチオシアネート, は, 常に, 炭素, 原子, を, 求, 電子, 中心, と, する...","[[title-compound], は, 常に, 炭素, 原子, を, 求, 電子, 中心..."
4,1300364,イソチオシアネート,フェニチルイソチオシアネートやスルフォラファンなどのイソチオシアネートは発癌や腫瘍化を防ぎ、...,"[フェニチルイソチオシアネート, や, スルフォラファン, など, の, イソチオシアネート...","[フェニチルイソチオシアネート, や, [compound], など, の, [title-..."


In [25]:
def attach_BOS_EOS(sentences):
    _sents = sentences.copy()
    for s in _sents:
        s.insert(0, '<BOS>')
        s.append('<EOS>')
    
    return _sents

In [29]:
sentences = wiki_df.repl_words.tolist()

tokenizer = Tokenizer()
tokenizer.fit_word(sentences)
sentences = attach_BOS_EOS(sentences)
sentences = tokenizer.transform_word(sentences)

In [30]:
def batch_generator(data, batch_size):
    data_size = len(data)
    num_batches = math.ceil(data_size / batch_size)
    
    shuffle_indices = np.random.permutation(np.arange(data_size))
    shuffle_data = np.array(data)[shuffle_indices]
    for batch_num in range(num_batches):
        start_index = batch_num * batch_size
        end_index = min((batch_num + 1) * batch_size, data_size)
        batch_data = shuffle_data[start_index:end_index]
        batch_data = pad_sequences(batch_data, padding='post')
        
        batch_data = torch.tensor(batch_data).long()
        batch_X = batch_data.transpose(1, 0).view(-1, batch_data.shape[0])
        
        yield (batch_num + 1), batch_X, batch_data

In [36]:
bi_lm_model = BiLM(100, 100, len(tokenizer.vocab_word))
loss_func = SoftmaxLoss()
optimizer = torch.optim.Adam(bi_lm_model.parameters())

In [37]:
writer = tbx.SummaryWriter()

batch_size = 32
num_batches = math.ceil(len(sentences) / batch_size)

for epoch in range(1):
    epoch_loss = 0.0
    for i, data, target in batch_generator(sentences, batch_size):
        optimizer.zero_grad()
        forward_output, backword_output, c = bi_lm_model(data)
        loss = loss_func(forward_output, backword_output, target)
        loss.backward()
        optimizer.step()
        
        writer.add_scalar('loss', loss.data, global_step=(epoch * batch_size + i))
        epoch_loss += loss.data
    
    print(epoch_loss / num_batches)
    
writer.close()

tensor(0.0076)


In [None]:
bi_lm_model

In [71]:
target[target > 2]

tensor([1362, 2150,   74,   75,  977,    9, 1204, 2114,   23,  127,   91,   10,
         367,  368,   21, 2180, 2421,   91, 1570,   20,   18, 6551,   30,   31,
          91,  373,  119,   45,   49,   50,   35])

In [72]:
torch.exp(backword_output).argmax(-1)

tensor([21, 10, 10, 10, 10, 10, 21, 21, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
        10, 21, 10, 10, 10, 10, 10, 10, 21, 10, 10, 35, 35])

In [44]:
tokenizer.vocab_word

{'<PAD>': 0,
 '<BOS>': 1,
 '<EOS>': 2,
 '<UNK>': 3,
 '[title-compound]': 4,
 '（': 5,
 'Isothiocyanate': 6,
 '）': 7,
 'と': 8,
 'は': 9,
 '、': 10,
 '-': 11,
 'N': 12,
 '=': 13,
 'C': 14,
 'S': 15,
 'という': 16,
 '構造': 17,
 'を': 18,
 '持つ': 19,
 '物質': 20,
 'の': 21,
 '総称': 22,
 'で': 23,
 'あり': 24,
 '[compound]': 25,
 '酸素': 26,
 '原子': 27,
 '硫黄': 28,
 '置換': 29,
 'する': 30,
 'こと': 31,
 'によって': 32,
 '得': 33,
 'られる': 34,
 '。': 35,
 'アブラナ': 36,
 '科': 37,
 '植物': 38,
 'に': 39,
 'しばしば': 40,
 '含ま': 41,
 'れる': 42,
 'カラシ': 43,
 '油': 44,
 'れ': 45,
 '辛味': 46,
 '原因': 47,
 'なっ': 48,
 'て': 49,
 'いる': 50,
 'エド': 51,
 'マン': 52,
 '分解': 53,
 'アミノ酸': 54,
 '配列': 55,
 '解析': 56,
 '用い': 57,
 '常に': 58,
 '炭素': 59,
 '求': 60,
 '電子': 61,
 '中心': 62,
 '剤': 63,
 'として': 64,
 '働く': 65,
 'フェニチルイソチオシアネート': 66,
 'や': 67,
 'など': 68,
 '発癌': 69,
 '腫瘍': 70,
 '化': 71,
 '防ぎ': 72,
 '化学': 73,
 '的': 74,
 'な': 75,
 '抗': 76,
 'がん': 77,
 'なる': 78,
 'これら': 79,
 '様々': 80,
 'レベル': 81,
 '働き': 82,
 '特に': 83,
 'シトクローム': 84,
 'P': 85,
 '450': 86,
 '阻害