In [14]:
import torch
import numpy as np
from scipy.spatial.distance import euclidean
from transformers import AutoTokenizer, AutoModel

In [15]:
model_name = "bert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

In [16]:
def get_embedding(sentence, tokenizer, model):
    # Преобразование предложения в последовательность токенов
    tokens = tokenizer.encode(sentence, add_special_tokens=True)
    # Получение выходных эмбеддингов для каждого токена
    outputs = model(torch.tensor([tokens]))[0]
    # Усреднение эмбеддингов для получения единственного эмбеддинга для всего предложения
    embedding = torch.mean(outputs, dim=1).squeeze().detach().numpy()
    return embedding

In [17]:
sentence1_ru = "Машины обучаются быстрее, чем когда-либо."
sentence2_ru = "Искусственный интеллект меняет наш мир."

sentence3_ru = "Быстрые обучающие модели."
sentence4_ru = "Коты и собаки являются домашними питомцами."

embedding1_ru = get_embedding(sentence1_ru, tokenizer, model)
embedding2_ru = get_embedding(sentence2_ru, tokenizer, model)

embedding3_ru = get_embedding(sentence3_ru, tokenizer, model)
embedding4_ru = get_embedding(sentence4_ru, tokenizer, model)

In [18]:
distance1_ru = euclidean(embedding1_ru, embedding2_ru)
distance2_ru = euclidean(embedding3_ru, embedding4_ru)

print(f"Семантически похожие строки: {distance1_ru}")
print(f"Семантически разные строки: {distance2_ru}")
print(f"Евклидово расстояние между эмбеддингами для семантически похожих строк {'меньше' if distance1_ru < distance2_ru else 'больше'}, чем для двух семантически отличных строк. (ru)")

Семантически похожие строки: 10.171270370483398
Семантически разные строки: 11.817597389221191
Евклидово расстояние между эмбеддингами для семантически похожих строк меньше, чем для двух семантически отличных строк. (ru)


In [21]:
sentence1_en = "It is only with the heart that one can see rightly."
sentence2_en = "One can become a writer only if he is talented."

sentence3_en = "It seems that you have made a rude mistake."
sentence4_en = "My car won't start."

embedding1_en = get_embedding(sentence1_en, tokenizer, model)
embedding2_en = get_embedding(sentence2_en, tokenizer, model)

embedding3_en = get_embedding(sentence3_en, tokenizer, model)
embedding4_en = get_embedding(sentence4_en, tokenizer, model)

In [33]:
distance1_en = euclidean(embedding1_en, embedding2_en)
distance2_en = euclidean(embedding3_en, embedding4_en)

print(f"Семантически похожие строки: {distance1_en}")
print(f"Семантически разные строки: {distance2_en}")
print(f"Евклидово расстояние между эмбеддингами для семантически похожих строк {'меньше' if distance1_en < distance2_en else 'больше'}, чем для двух семантически отличных строк. (en)")

Семантически похожие строки: 15.462054252624512
Семантически разные строки: 11.976407051086426
Евклидово расстояние между эмбеддингами для семантически похожих строк больше, чем для двух семантически отличных строк. (en)
