In [16]:
!pip install transformers
!pip install nmslib

[0m

#### Пример: семантическая близость

In [1]:
from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

In [2]:
sentences = [
    'Позовите оператора поддержки, бот не помог',
    'Нужна помощь человека для решения вопроса',
    'Мне нужна новая карта',
    'Хотел бы выпустить ещё одну карточку',
    'So, the robot was useless I need a human expert',
]

tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/paraphrase-xlm-r-multilingual-v1')
model = AutoModel.from_pretrained('sentence-transformers/paraphrase-xlm-r-multilingual-v1')

In [3]:
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = model(**encoded_input)

sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

In [48]:
sentence_embeddings

tensor([[ 0.0319,  0.3350, -0.0372,  ..., -0.0135, -0.1594,  0.2159],
        [ 0.0091,  0.2025,  0.1061,  ...,  0.1398, -0.0556,  0.0987],
        [-0.0028, -0.0662,  0.1808,  ..., -0.3124,  0.1364, -0.1686],
        [ 0.0397,  0.2135, -0.0526,  ...,  0.0632, -0.2187, -0.0405],
        [ 0.1122,  0.4121,  0.1259,  ...,  0.0062, -0.2281, -0.0306]])

In [53]:
import nmslib

index = nmslib.init(method='hnsw', space='cosinesimil')
index.addDataPointBatch(sentence_embeddings[: -1], ids=list(range(len(sentence_embeddings[: -1]))))
index.createIndex({'post': 2}, print_progress=True)

In [54]:
ids, distances = index.knnQuery(sentence_embeddings[-1], k=10)

In [56]:
for i, d in zip(ids, distances):
    print(sentences[i], '\t', d)

Позовите оператора поддержки, бот не помог 	 0.5327996
Нужна помощь человека для решения вопроса 	 0.6821636
Мне нужна новая карта 	 0.7499061
Хотел бы выпустить ещё одну карточку 	 0.95125544


#### Пример: генерация текста

In [6]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')
model = GPT2LMHeadModel.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')

In [8]:
text = 'Как же жить хорошо!'
input_ids = tokenizer.encode(text, return_tensors='pt')

tokens = model.generate(
    input_ids,
    max_length=64,
    repetition_penalty=5.0,
    do_sample=False,
    top_k=5,
    top_p=0.95,
    temperature=1.0,
    num_beams=5,
    no_repeat_ngram_size=4,
)
print([tokenizer.decode(t) for t in tokens])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


['Как же жить хорошо!&raquo; &mdash; подумал я.\n\nИ тут меня осенило: а почему бы и нет? Ведь у каждого из нас есть свой дом, своя семья, свои дети... И если мы не хотим быть несчастными, то что тогда делать с теми, кто']
