In [1]:
import numpy as np
import pandas as pd

import gensim
import pickle
import scipy
import torch
from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM

paramiko missing, opening SSH/SCP/SFTP paths will be disabled.  `pip install paramiko` to suppress


In [2]:
class BertToW2v(torch.nn.Module):
    def __init__(self, bert_model_name, lin_shape_in, lin_shape_out, emb_layer): # -, 768, 100, 6
        super(BertToW2v, self).__init__()
        self.emb_layer = emb_layer - 1 # new
        self.bert_model = BertModel.from_pretrained(bert_model_name)
        #self.bert_model.eval()
        self.linear_model = torch.nn.Linear(lin_shape_in, lin_shape_out, bias=True) # bias?
        torch.nn.init.uniform_(self.linear_model.weight, -0.1, 0.1)
        
    def forward(self, input_sentence): # ожидаем уже токенизированное предложение
        encoded_layers, _ = self.bert_model(input_sentence)
        bert_output = encoded_layers[self.emb_layer][0][1]
        linear_output = self.linear_model(bert_output).unsqueeze(0)
        return linear_output

In [3]:
ozhegov_emb = pd.read_csv('rus/ozhegov/ozhegov_emb.csv')[['word', 'definition']]
ozhegov_no_emb = pd.read_csv('rus/ozhegov/ozhegov_no_emb.csv')

dfreq = pd.read_csv('rusfreq/freqrnc2011.csv', sep = '\t')

model_name = 'batchify_ep20_l6_5_15'

In [4]:
dfreq['percentile'] = pd.qcut(dfreq['Freq(ipm)'], 10, labels=False)

In [5]:
dfreq[dfreq['percentile'] >= 4].sort_values('Freq(ipm)')

Unnamed: 0,Lemma,PoS,Freq(ipm),R,D,Doc,percentile
49656,целить,v,1.4,54,85,94,4
6576,выковыривать,v,1.4,59,89,107,4
49822,цитирование,s,1.4,55,87,99,4
29432,пахота,s,1.4,59,87,89,4
13465,здравница,s,1.4,38,80,73,4
29402,патронаж,s,1.4,53,86,106,4
29400,патриций,s,1.4,50,75,68,4
37057,пугливо,adv,1.4,47,83,88,4
29367,патетика,s,1.4,57,89,99,4
13436,звукозапись,s,1.4,56,87,89,4


In [6]:
dfreq.sort_values('Freq(ipm)', ascending=False)

Unnamed: 0,Lemma,PoS,Freq(ipm),R,D,Doc,percentile
13824,и,conj,35801.8,100,99,37704,9
3710,в,pr,31374.2,100,98,37865,9
23328,не,part,18028.0,100,97,33999,9
22019,на,pr,15867.3,100,98,36748,9
51957,я,spro,12684.4,100,95,17116,9
3683,быть,v,12160.7,100,98,34184,9
27062,он,spro,11791.1,100,95,28132,9
40004,с,pr,11311.9,100,99,35700,9
50367,что,conj,8354.0,100,98,32419,9
0,а,conj,8198.0,100,97,32332,9


In [7]:
ozhegov_emb = pd.read_csv('rus/ozhegov/ozhegov_emb.csv')[['word', 'definition']]
ozhegov_no_emb = pd.read_csv('rus/ozhegov/ozhegov_no_emb.csv')

with open('rus/freq/low_freq.pkl', 'rb') as f:
    ulfreq = pickle.load(file=f)
    
ozhegov = pd.concat([ozhegov_emb, ozhegov_no_emb], axis = 0)

ozhegov['lfreq'] = ozhegov['word'].apply(lambda word: word in ulfreq)

ozhegov_lfreq = ozhegov[ozhegov['lfreq'] == True][['word', 'definition']]

In [8]:
defs = set(ozhegov_lfreq['word'])
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False)
w2v = gensim.models.KeyedVectors.load_word2vec_format('w2v_models/all_norm-sz500-w10-cb0-it3-min5.w2v', binary=True, unicode_errors='ignore')

test = pd.read_csv('russe-evaluation/russe/evaluation/test.csv')

In [9]:
bw2v = BertToW2v('bert-base-multilingual-cased', lin_shape_in=768, lin_shape_out=500, emb_layer=6) # !!!
bw2v.load_state_dict(torch.load(f'models/{model_name}.mdl')) # !!!
bw2v.to('cuda');

In [10]:
def find_embedding(word, model, w2v, ozhegov_lfreq, defs, tokenizer):
    if word in defs:
        print(word)
        defin = ozhegov_lfreq[ozhegov_lfreq['word'] == word].reset_index()['definition'][0]
        defin = '[CLS] [MASK] - ' + defin + ' [SEP]'
        tokens = tokenizer.tokenize(defin)
        tok_ids = torch.tensor([tokenizer.convert_tokens_to_ids(tokens)]).to('cuda')
        with torch.no_grad():
            embedding = model(tok_ids)
        return embedding.to('cpu').numpy()
    else:
        try:
            return w2v.get_vector(word)
        except KeyError:
            return np.nan
        
def get_cosine_distance(word1, word2, model, w2v, ozhegov_lfreq, defs, tokenizer):
    emb1 = find_embedding(word1, model, w2v, ozhegov_lfreq, defs, tokenizer)
    emb2 = find_embedding(word2, model, w2v, ozhegov_lfreq, defs, tokenizer)
    if (np.isnan(np.sum(emb1)) or np.isnan(np.sum(emb2))):
        return np.nan
    return 1 - scipy.spatial.distance.cosine(emb1, emb2)

#assert abs(get_cosine_distance('абрикос', 'год', bw2v, w2v, ozhegov_lfreq, defs, tokenizer) - (1 - w2v.distance('абрикос', 'год'))) < 0.000001

In [11]:
get_cosine_distance('диск-жокей', 'зачем-то', bw2v, w2v, ozhegov_lfreq, defs, tokenizer)

nan

In [12]:
# defin = ozhegov_lfreq[ozhegov_lfreq['word'] == 'зачем-то'].reset_index()['definition'][0]
# defin = '[CLS] [MASK] - ' + defin + ' [SEP]'
# tokens = tokenizer.tokenize(defin)
# tok_ids = torch.tensor([tokenizer.convert_tokens_to_ids(tokens)]).to('cuda')

In [13]:
# with torch.no_grad():
#     tmp = bw2v.bert_model(tok_ids)

In [14]:
test['sim'] = test.apply(lambda row: get_cosine_distance(row['word1'], row['word2'], bw2v, w2v, ozhegov_lfreq, defs, tokenizer), axis=1)

абрикос
абрикос
абрикос
абрикос
авангард
авангардизм
авангард
авангард
авангард
авангард
авангард
авангард
авангард
авангард
авангард
стилистика
авангард
авангард
авангард
авангард
формализм
автовокзал
автовокзал
автобаза
автовокзал
перевозчик
автоматчик
автоматчик
автоматчик
стрелок
автоматчик
валик
погрузчик
автотранспорт
агитация
агитация
агитация
агитация
агроном
агроном
агроном
агроном
адвокатура
адвокатура
адвокатура
адвокатура
адресат
адресат
получатель
адресат
адресат
ажур
ажур
азбука
аккомпанемент
аккомпанемент
аккомпанемент
акробат
киноактер
киноартист
лицедей
статист
алименты
алименты
алименты
алименты
непоследовательность
аметист
аметист
анаконда
анаконда
баян
анемия
малокровие
анемия
аномалия
аномалия
аномалия
аномалия
пробирка
негатив
антисанитария
антисанитария
хлопок
аппаратчик
аппаратчик
фармацевт
арбитр
арбитр
арбитр
арбитр
недуг
арбитр
арбитр
арбитр
арбитр
рефери
арбитр
арбитр
аритмия
аритмия
дедовщина
благоухание
архангел
архангел
расстановка
ассистент
акустика
ради

делегат
делегат
делегат
уезд
устье
депутация
депутация
депутация
депутация
деспотия
делегат
деспотия
диктатура
бакалавр
гран-при
диалект
зачет
курок
ложе
настоятель
переправа
поршень
регистр
ротор
сальник
уплотнитель
челнок
детонатор
детонатор
движитель
детонатор
детонатор
детонатор
детонатор
детонатор
катализатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
детонатор
ускоритель
дефиниция
дефиниция
добавление
диагональ
диагональ
геометрия
диагональ
гипотенуза
диагональ
дюйм
диагональ
диагональ
диагональ
диагональ
параллель
диагональ
диагональ
дьякон
диверсант
диверсант
дивиденд
дивиденд
диктофон
диктофон
оксид
директорат
дискомфорт
дискомфорт
дискомфорт
дискомфорт
дискомфорт
последователь
дискомфорт
слобода
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
дискотека
диспетчер
диспетчер
контраст

инструментарий
инструментарий
инструментарий
инструментарий
инструментарий
страховка
инструментарий
стык
инструментарий
инструментарий
сюита
инструментарий
инструментарий
инструментарий
транскрипция
инструментарий
инструментарий
инструментарий
инструментарий
упряжка
инструментарий
инструментарий
инструментарий
инструментарий
инструментарий
четверка
инструментарий
чучело
инструментарий
инструментарий
инструментарий
инструментарий
инсульт
пародия
рассудок
интоксикация
интоксикация
интоксикация
интоксикация
интоксикация
интоксикация
интоксикация
интоксикация
угар
бацилла
зараза
менингит
столбняк
ирод
аббатство
ирод
акула
ирод
ирод
божество
ирод
ирод
ирод
живодер
ирод
ирод
ирод
ирод
изверг
ирод
изувер
ирод
ирод
ирод
ирод
ирод
кровопийца
ирод
мучитель
ирод
ирод
ирод
ирод
ирод
ирод
ирод
садист
ирод
искатель
исповедник
духовник
исповедник
подпоручик
истопник
истопник
иеромонах
истопник
истопник
работяга
летопись
истукан
идол
истукан
комментатор
проектировщик
кабачок
баклажан
кабачок
кабачок
к

могущество
могущество
могущество
могущество
молебен
молебен
новобрачный
династия
долото
зубило
кувалда
молот
наковальня
отбойный
серп
мольба
мольба
оракул
монашество
монашество
монашество
монашество
монашество
монашество
директива
монашество
монашество
затворник
монашество
иеромонах
монашество
монашество
монашество
монашество
монашество
монашество
монашество
монашество
монашество
монашество
монашество
пустынник
монашество
монашество
монашество
монашество
кочевник
железнодорожник
картель
подполье
синдикат
трест
шашка
пластина
мордва
ода
омар
морфий
морфий
горсовет
движок
натиск
плавник
рецензент
электромотор
мох
мох
мох
мох
мох
мох
мох
мох
мох
мох
аферист
мошенник
королевство
крупа
мученичество
мытарство
пшено
мультфильм
мультфильм
мундштук
мундштук
мундштук
мундштук
мундштук
мундштук
мускул
мускул
мускулатура
мускул
мускул
муфта
муфта
муфта
муфта
мухомор
мухомор
мухомор
мухомор
герцог
рок
мягкость
мягкость
мягкость
мягкость
шейх
набивка
азот
набивка
набивка
набивка
набивка
набивка
наби

погрешность
осечка
осечка
проигрыш
осечка
промашка
осечка
просчет
осечка
реванш
осечка
прозрение
расхождение
служитель
авианосец
подписка
прозрение
разумение
самоанализ
абориген
атолл
буян
вокалист
главнокомандующий
клад
материк
невезение
пикник
полуостров
суша
батист
драматургия
геноцид
голкипер
отлет
отплытие
пленник
ратуша
вакуум
катализатор
мерзость
отдаление
доспехи
отдаление
оса
отдаление
разлад
отдаление
воздаяние
консерватор
напарник
откос
откос
бриллиант
откос
откос
гестапо
откос
откос
откос
откос
откос
откос
зодчий
откос
откос
откос
откос
несогласие
откос
откос
опись
откос
откос
отговорка
откос
откос
откос
откос
откос
откос
паводок
откос
откос
подручный
откос
откос
откос
откуп
откуп
отливка
отливка
отливка
литье
отливка
отливка
неолит
отливка
пятилетка
отлив
прилив
отлив
негодование
нейтралитет
отъем
приказание
оторочка
оторочка
оторочка
оторочка
ласт
оторочка
оторочка
оторочка
обшивка
оторочка
окантовка
оторочка
опушка
оторочка
оторочка
оторочка
оторочка
углеводород
оторочка

пояснение
сожжение
пояснение
пояснение
пояснение
пояснение
пояснение
уклад
пояснение
пояснение
пояснение
водохранилище
розыгрыш
диссидент
дьяк
младенчество
правнук
рать
вратарь
перебежчик
предводитель
предводитель
розница
скиф
учительская
петиция
правоведение
выдвиженец
исповедник
каньон
пианино
резервуар
эмиссар
предубеждение
выемка
пренебрежение
прелюдия
прелюдия
верховенство
главенство
доминанта
засилье
эрозия
преследователь
жеребьевка
преследователь
периодика
въезд
компаньон
криминал
латы
рецидив
стабилизатор
трактир
уголовщина
умножение
прецедент
прецедент
прецедент
прецедент
прецедент
прецедент
прибежище
прибежище
прибежище
прибежище
пристанище
прибежище
прибежище
приют
привоз
привоз
привоз
привоз
привоз
привоз
камыш
привоз
привоз
низина
привоз
привоз
привоз
привоз
привоз
привоз
распря
привоз
столяр
привоз
холст
призер
призер
призер
призер
призер
дипломант
призер
призер
призер
призер
призер
призер
медалист
призер
призер
минерал
призер
призер
призер
призер
призер
призер
призер
при

пастор
пастырь
патер
пресвитер
священнослужитель
северянин
церковник
секретариат
геральдика
секретариат
секретариат
секретариат
барабанщик
боб
квартет
пароль
шифр
шкатулка
гигиена
оранжерея
социал-демократия
шляпка
семечко
семечко
фонетика
семьянин
семьянин
изящество
семьянин
марихуана
семьянин
семьянин
семьянин
опьянение
семьянин
семьянин
чета
сердечник
сердечник
буфер
сердечник
сердечник
сердечник
сердечник
сердечник
скорпион
сердечник
уступ
сердечник
фонограмма
сердечник
эскулап
сердцевина
сердцевина
сетчатка
сетчатка
асбест
гравитация
сито
дуршлаг
сито
сито
сито
сито
сито
решето
сито
стрелок
сито
скачок
скачок
скачок
скачок
старожил
скептицизм
скептицизм
кредо
скептицизм
скептицизм
скептицизм
нигилизм
скептицизм
скепсис
влечение
наклонность
настроенность
нацизм
отпевание
получатель
популяризатор
раздор
семестр
устремленность
конфедерация
трение
адресат
маскировка
античность
бюст
гипс
изваяние
лепка
ореол
реноме
сладость
сладость
детектор
сладость
сладость
корь
сладость
сладость
люб

подвид
привод
русалка
слесарь
уполномоченный
фольклор
чешуя
шахтер
ящерица
хищник
хищник
хищник
хищник
хищник
хищник
хищник
хищник
хищник
мюзикл
хищник
хищник
хищник
хищник
рысь
хищник
хлопок
хлопок
байка
хлопок
благотворитель
хлопок
свая
хлопок
хлопок
хлопок
хлопок
эколог
прошение
зайка
хоккеист
атлет
хоккеист
хоккеист
хоккеист
хоккеист
физкультурник
хоккеист
курган
лесопарк
хорист
хорист
марионетка
хранитель
горчица
редька
кобальт
апельсин
ваятель
живописец
нарушитель
переплет
реалист
флорист
элеватор
гильдия
целина
целина
угодье
ценитель
дока
ценитель
ценитель
ценитель
ценитель
ценитель
ценитель
олицетворение
ценитель
ценитель
ценитель
тембр
ценитель
эстет
ценитель
монашество
заголовок
цирюльник
брадобрей
цирюльник
цирюльник
парикмахер
цирюльник
праведник
чаепитие
чародей
чародей
чародей
колдун
чародей
кудесник
чародей
чародей
чародей
сословие
чародей
чары
чары
чары
волшебство
чары
чары
чары
единорог
чары
чары
колдовство
чары
чары
чары
очарование
чары
питомец
чары
плагиат
чары
посох

In [15]:
test['sim'] = test['sim'].fillna(test['sim'].mean())

In [16]:
test.to_csv(f'russe-evaluation/russe/evaluation/{model_name}.csv', index=None)

In [17]:
def find_embedding_percentile(word, model, w2v, ozhegov_lfreq, defs, tokenizer, percentile, dfreq): # percentile: target (<=)
    if (dfreq[dfreq['Lemma'] == word].shape[0] != 1):
        try:
            return w2v.get_vector(word)
        except KeyError:
            return np.nan
    if (dfreq[dfreq['Lemma'] == word].iloc[0]['percentile'] > percentile):
        try:
            return w2v.get_vector(word)
        except KeyError:
            return np.nan
    return find_embedding(word, model, w2v, ozhegov_lfreq, defs, tokenizer)

def get_cosine_distance_percentile(word1, word2, model, w2v, ozhegov_lfreq, defs, tokenizer, percentile, dfreq):
    emb1 = find_embedding_percentile(word1, model, w2v, ozhegov_lfreq, defs, tokenizer, percentile, dfreq)
    emb2 = find_embedding_percentile(word2, model, w2v, ozhegov_lfreq, defs, tokenizer, percentile, dfreq)
    if (np.isnan(np.sum(emb1)) or np.isnan(np.sum(emb2))):
        return np.nan
    return 1 - scipy.spatial.distance.cosine(emb1, emb2)

In [18]:
percentiles = [0, 1, 2, 3]

for percentile in percentiles:
    sim = test.apply(lambda row: get_cosine_distance_percentile(row['word1'], row['word2'], bw2v, w2v, ozhegov_lfreq, defs, tokenizer, percentile, dfreq), axis=1)
    test['sim'] = sim
    test['sim'] = test['sim'].fillna(test['sim'].mean())
    test.to_csv(f'russe-evaluation/russe/evaluation/{model_name}_percentile{(percentile*10+10)}.csv')

авангардизм
анаконда
анаконда
малокровие
антисанитария
антисанитария
рефери
аэрация
аэрация
аэрация
аэрация
баштан
баштан
баштан
баштан
баштан
жертвователь
рефери
тугодум
прострел
брюква
брюква
брюква
брюква
брюква
брюква
бука
бука
времяпровождение
вельвет
вельвет
амальгама
рекреация
гидроузел
греча
депутация
депутация
депутация
депутация
уплотнитель
движитель
гипотенуза
директорат
присылка
единоначалие
единоначалие
супружница
засечка
снеговик
иван-чай
иван-чай
иван-чай
иван-чай
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
идолопоклонник
выжимка
бзик
гипотенуза
ряженка
блокадник
корж
двуличие
теплоцентраль
греча
засечка
мордва
хвороба
хвороба
леса
объективизм
иллюстратор
трясучка
океанология
краснобай
неолит
самоназвание
перепелка
блокадник
легат
бирюлька
мыза
патер
присылка
похудание
похудание
дипломант
полупустыня
позитрон
бирюлька
финт

валка
низменность
лютеранин
поисковик
поисковик
безделица
бесчестье
бирюлька
гравер
дзот
многоборье
мыза
систематика
помета
помета
помета
помета
помета
помета
патер
игуменья
протопоп
рей
латиница
присылка
рассыльный
похудание
похудание
правоведение
дипломант
пароксизм
атолл
полупустыня
протечка
халифат
позитрон
протопоп
протопоп
пруток
пруток
пруток
пруток
пук
грампластинка
директория
зачин
безделица
бирюлька
финтифлюшка
усач
забулдыга
пропойца
пьянчуга
бесчестье
правобережье
думка
осадка
палеолит
рассыльный
микрокосм
початок
цветоводство
чартер
реноме
реноме
реноме
реноме
репей
репей
полесье
рококо
рококо
гидроузел
пресвитер
засечка
рубчик
коллаборационист
саламандра
амфибия
саламандра
искуситель
сахароза
сахароза
сахароза
сахароза
хинди
оледенение
электрогитара
электросварщик
свиноферма
свиноферма
патер
пресвитер
церковник
геральдика
настроенность
популяризатор
реноме
отгадка
капельмейстер
статс-секретарь
бриг
квинтет
запарка
креатура
сталактит
сталактит
сталактит
сталагмит
сталактит

игуменья
иерей
протопоп
порицание
порицание
порицание
порицание
порицание
порицание
порицание
порицание
виолончелист
контрудар
рей
латиница
присылка
рассыльный
похудание
похудание
антрополог
петиция
правоведение
верховенство
главенство
жеребьевка
уголовщина
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
привоз
дипломант
медалист
пароксизм
атолл
оттяжка
портик
полупустыня
протечка
антагонист
конкурсант
супостат
халифат
позитрон
протопоп
протопоп
пруток
пруток
пруток
пруток
пук
лесопарк
грампластинка
директория
зачин
безделица
бирюлька
финтифлюшка
усач
забулдыга
пропойца
пьянчуга
бесчестье
магнитола
правобережье
радиотехника
мародерство
раздолье
раздолье
раздолье
раздолье
раздолье
раздолье
думка
осадка
ученичество
мидия
нелады
палеолит
разброд
рассыльный
растопка
растопка
растопка
растопка
растопка
растопка
антагонист
вегетация
микрокосм
початок
цветоводство
чартер
реноме
реноме
реноме
реноме
репей
репей
полесье
мазня
рокировка
ро

In [19]:
pd.set_option('max_colwidth', 160)

In [20]:
ozhegov_lfreq.shape

(21169, 2)

In [21]:
ozhegov_lfreq.sample(20)

Unnamed: 0,word,definition
28884,медвежатник,охотник на медведей
22997,яичница,кушанье из поджаренных яиц
2285,приплюснуть,"вдавить, вмять"
3546,безраздельный,"полностью принадлежащий кому-нибудь, не разделяемый ни с кем"
36827,вконец,"совершенно, совсем"
25531,беспринципный,"лишенный каких-либо определенных принципов, моральных устоев"
29244,исстрадаться,"страдая, дойти до изнурения, до крайности"
32120,заголовок,"небольшого произведения, статьи"
3494,непримиримый,"не допускающий никакого примирения, соглашательства"
25147,потайной,"скрытый, устроенный с секретом"


In [22]:
## необязательная часть, проверка:
with open('tmp_words.txt', 'r') as f:
    words = set(f.read().split('\n'))
    print(len(words))

2683


In [23]:
for word in words:
    if word != '':
        print(ozhegov_lfreq[ozhegov_lfreq['word'] == word].reset_index()['definition'][0])

набегающие на берег морские волны
положение, среднее между отвесным и горизонтальным; покатая поверхность
каждая их двух растворяющихся и затворяющихся половинок какого-нибудь предмета
поднимающийся кверху известковый нарост на дне пещеры, оббразованный падающими с потолка каплями и имеющий форму стоячей сосульки
== скорый N1/2
спортсмен-юноша, участник соревнований в своей возрастной группе
препятствие, помеха
комплекс гидротехнических сооружений, устройств


IndexError: index out of bounds

In [24]:
inp = torch.LongTensor([[   101,    103,    118,  79882,    543,  91654,  17497,    117,  10913,
          21071,  56280, 108108,  68831,    557,  79465,  76727,  55083,  17213,
          96758,  11921,  75431,  98903,  11977,  27711,    102,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0]]).to('cuda')

In [25]:
inp

tensor([[   101,    103,    118,  79882,    543,  91654,  17497,    117,  10913,
          21071,  56280, 108108,  68831,    557,  79465,  76727,  55083,  17213,
          96758,  11921,  75431,  98903,  11977,  27711,    102,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,    

In [26]:
bw2v.bert_model(inp)[0]

[tensor([[[ 0.3885, -0.0641, -1.0415,  ..., -0.6765, -0.5262,  1.7723],
          [ 0.6318,  0.1069,  0.1817,  ..., -0.5793, -0.4573,  1.9043],
          [ 0.1826, -0.1765, -0.8324,  ..., -0.3228, -0.3903,  1.4119],
          ...,
          [ 0.5812,  0.5102, -1.0834,  ...,  0.0060, -0.3888,  1.9221],
          [ 0.6346,  0.3416, -1.2332,  ..., -0.7121, -0.4977,  1.7870],
          [ 0.4715,  0.4982, -1.0451,  ...,  0.0396, -0.4876,  1.9366]]],
        device='cuda:0', grad_fn=<AddBackward0>),
 tensor([[[ 0.3404,  1.2405,  0.1625,  ...,  0.0857,  0.3774, -0.3296],
          [ 0.6186,  1.4174,  0.3489,  ..., -0.2049,  1.0013, -0.1757],
          [ 0.5655,  1.5161,  0.1580,  ...,  0.1866,  0.2633, -0.5030],
          ...,
          [ 0.4844,  1.1250,  0.2385,  ...,  0.2152,  0.8804, -0.2981],
          [ 0.5536,  1.1811,  0.0793,  ...,  0.0157,  1.1852, -0.2198],
          [ 0.1564,  1.1003,  0.2970,  ...,  0.0194,  0.9117, -0.3771]]],
        device='cuda:0', grad_fn=<AddBackward0>),
 t