# Deep Pavlov RuBert for sentense embeddings

## 1 Download and extract BERT model

In [None]:
! wget http://files.deeppavlov.ai/deeppavlov_data/bert/rubert_cased_L-12_H-768_A-12_pt.tar.gz
! tar -xf rubert_cased_L-12_H-768_A-12_pt.tar.gz
! rm rubert_cased_L-12_H-768_A-12_pt.tar.gz

## 2 Install Deep Pavlov framework

In [None]:
! pip install deeppavlov transformers
# https://github.com/deepmipt/DeepPavlov/issues/1355
! python -m deeppavlov install bert_sentence_embedder

## 3 Build pretrained Russian BERT Pytorch based model  
RuBERT was trained on the Russian part of Wikipedia and news data. We used this training data to build vocabulary of Russian subtokens and took multilingual version of BERT-base as initialization for RuBERT   

Kuratov, Y., Arkhipov, M. (2019). Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. arXiv preprint arXiv:1905.07213

In [None]:
from deeppavlov.core.common.file import read_json
from deeppavlov import build_model, configs

bert_config = read_json(configs.embedder.bert_embedder)
bert_config['metadata']['variables']['BERT_PATH'] = '/content/rubert_cased_L-12_H-768_A-12_pt'

rubert_model = build_model(bert_config)

## 4 Вопрос: Что такое искусственный интеллект?

In [None]:
# Первый ответ правильный, второй и третий дали конкурсанты
texts = ['это способность компьютера обучаться, принимать решения и выполнять действия, свойственные человеческому интеллекту',
         'это свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека',
         'это алгоритмы для анализа данных, получения выводов или предсказаний в отношении чего-либо']

In [None]:
# Вычисляем эмбеддинги для каждого ответа
tokens, token_embs, subtokens, subtoken_embs, sent_max_embs, sent_mean_embs, bert_pooler_outputs = rubert_model(texts)

In [None]:
# Эмбеддинги имеют размер: (количества токенов в ответе, 768)
# 768 - длина вектора внутреннего состояния модели RuBERT

sentense_embed = []
for i in range(3):
  print(token_embs[i].shape)
  # Усредняем по токенам
  sentense_embed.append(token_embs[i].mean(axis=0))

(14, 768)
(13, 768)
(15, 768)


In [None]:
import numpy as np
print('Расстояние между правильным ответом и ответом первого конкурсанта - ',
      np.linalg.norm(sentense_embed[0] - sentense_embed[1]))

print('Расстояние между правильным ответом и ответом второго конкурсанта - ',
    np.linalg.norm(sentense_embed[0] - sentense_embed[2]))

print('Расстояние между ответами конкурсантов - ',
    np.linalg.norm(sentense_embed[1] - sentense_embed[2]))

Расстояние между правильным ответом и ответом первого конкурсанта -  10.903059
Расстояние между правильным ответом и ответом второго конкурсанта -  12.4934635
Расстояние между ответами конкурсантов -  15.052757


Судя по результатам вычислений, первый конкурсант дал более правильный ответ.