In [1]:
import torch
from pytorch_transformers import BertTokenizer
from pytorch_transformers import BertModel
import pandas as pd
import numpy as np

In [2]:
import tqdm

In [3]:
import threading

threadLock = threading.Lock()

class MyThread(threading.Thread):
    def __init__(self, text, process, embeddings):
        threading.Thread.__init__(self)
        self.text = text # text
        self.process = process # bert_convert
        self.embeddings = embeddings # embeddings
    def run(self):
        embed_sentence = self.process(self.text)
        threadLock.acquire()
        self.embeddings.append(embed_sentence)
        threadLock.release()

In [32]:
def bert_convert(text):
    tokenized_text = tokenizer.tokenize(text)
    
    # limit
    if (len(tokenized_text) > 512):
        tokenized_text = tokenized_text[:512]
    
    indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
    
    tokens_tensor = torch.tensor([indexed_tokens])
    
    segments_ids = [1]*len(tokenized_text)

    tokens_tensor = torch.tensor([indexed_tokens])
    segments_tensors = torch.tensor([segments_ids])
        
    with torch.no_grad():
        outputs = model(tokens_tensor, segments_tensors)

        hidden_states = outputs[2]

        token_vecs = hidden_states[-2][0]
        sentence_embedding = torch.mean(token_vecs, dim = 0)
        
    return sentence_embedding

In [5]:
def get_embeddings(corpus, embeddings):
    for i in tqdm.tqdm(range(0, len(corpus), 8)):
        prepared_ten = [corpus[i+j] for j in range(8)]
    
        threads = [MyThread(prepared_ten[k], bert_convert, embeddings) for k in range(len(prepared_ten))]
    
        for t in threads:
            t.start()
        for t in threads:
            t.join()
    return embeddings

In [19]:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertModel.from_pretrained('bert-base-multilingual-cased', output_hidden_states=True)

In [57]:
data = pd.read_excel("articles_preprocess.xls")
data.drop("id", axis = 1, inplace = True)
data

Unnamed: 0,title,texts,date,tag
0,британский сми запрещать писать новость мужчин...,британский министерство информация принимать д...,"Октябрь 7, 2020",society
1,ненецкий автономный округ быть жить конституци...,несмотря отрицательный результат голосование о...,"Июль 3, 2020",society
2,минприроды обсуждать введение платный посещени...,специалист минприроды обсуждать коллега мвд мч...,"Декабрь 2, 2019",society
3,heroes три запрещать сша изза отсутствие транс...,онлайндистрибьютер компьютерный игра включая s...,"Февраль 1, 2020",society
4,подмосковный черноголовка строиться частный тю...,сми обсуждаться инициатива создание россия час...,"Ноябрь 21, 2019",society
...,...,...,...,...
4988,китайский министр объяснять почему пожимать ру...,китайский министр развитие высокий технология ...,"Февраль 11, 2019",politics
4989,действие краснодарский казак заставлять прохож...,правоохранительный орган заявлять находить пра...,"Ноябрь 29, 2020",society
4990,пьяный финн пытаться пересекать российскофинск...,сразу два пять нетрезвый финн обнаруживать рос...,"Ноябрь 17, 2019",society
4991,томский полицейский православный ученый попыта...,томский область правоохранительный орган возбу...,"Декабрь 3, 2019",science


In [8]:
titles = ["[CLS] " + item[1][0] + " [SEP]" for item in data.iterrows()]
texts = ["[CLS] " + item[1][1] + " [SEP]" for item in data.iterrows()]

titles = titles[:4992]
texts = texts[:4992]

In [9]:
embeddings_titles = []
embeddings_texts = []

In [10]:
model.eval();

In [13]:
embeddings_titles = get_embeddings(titles, embeddings_titles)

100%|████████████████████████████████████████████████████████████████████████████████| 624/624 [07:08<00:00,  1.46it/s]


In [40]:
embeddings_texts = get_embeddings(texts, embeddings_texts)

100%|██████████████████████████████████████████████████████████████████████████████| 624/624 [1:00:32<00:00,  5.82s/it]


In [70]:
embeddings_titles.append(bert_convert(data.iloc[-1][0]))
embeddings_texts.append(bert_convert(data.iloc[-1][1]))

In [71]:
vectors_of_titles = [embeddings_titles[i].tolist() for i in range(len(embeddings_titles))]
vectors_of_texts = [embeddings_texts[i].tolist() for i in range(len(embeddings_texts))]

In [72]:
data['titles_vectors'] = vectors_of_titles
data['texts_vectors'] = vectors_of_texts
data

Unnamed: 0,title,texts,date,tag,titles_vectors,texts_vectors
0,британский сми запрещать писать новость мужчин...,британский министерство информация принимать д...,"Октябрь 7, 2020",society,"[0.43135690689086914, -0.12684784829616547, 0....","[0.05123108625411987, -0.33983728289604187, 0...."
1,ненецкий автономный округ быть жить конституци...,несмотря отрицательный результат голосование о...,"Июль 3, 2020",society,"[-0.07435537874698639, -0.2160671502351761, 0....","[0.09880629926919937, -0.11783510446548462, 0...."
2,минприроды обсуждать введение платный посещени...,специалист минприроды обсуждать коллега мвд мч...,"Декабрь 2, 2019",society,"[-0.018304036930203438, -0.20475119352340698, ...","[-0.10022982209920883, -0.27333909273147583, 0..."
3,heroes три запрещать сша изза отсутствие транс...,онлайндистрибьютер компьютерный игра включая s...,"Февраль 1, 2020",society,"[-0.0020015460904687643, 0.053010910749435425,...","[-0.2740899324417114, -0.0964934378862381, 0.4..."
4,подмосковный черноголовка строиться частный тю...,сми обсуждаться инициатива создание россия час...,"Ноябрь 21, 2019",society,"[-0.10235397517681122, -0.10545561462640762, -...","[0.010158585384488106, -0.05085492879152298, 0..."
...,...,...,...,...,...,...
4988,китайский министр объяснять почему пожимать ру...,китайский министр развитие высокий технология ...,"Февраль 11, 2019",politics,"[-0.12317056953907013, -0.18591181933879852, 0...","[-0.0006253900355659425, -0.2565267086029053, ..."
4989,действие краснодарский казак заставлять прохож...,правоохранительный орган заявлять находить пра...,"Ноябрь 29, 2020",society,"[0.3665695786476135, -0.0748995766043663, 0.13...","[-0.06419273465871811, -0.2611224949359894, 0...."
4990,пьяный финн пытаться пересекать российскофинск...,сразу два пять нетрезвый финн обнаруживать рос...,"Ноябрь 17, 2019",society,"[0.05848738178610802, -0.024407558143138885, 0...","[0.2034653127193451, -0.15446805953979492, 0.4..."
4991,томский полицейский православный ученый попыта...,томский область правоохранительный орган возбу...,"Декабрь 3, 2019",science,"[-0.02524549514055252, -0.41839736700057983, 0...","[-0.18764857947826385, -0.20367543399333954, 0..."
