# Импорт библиотек

Для работы с эмбеддингами мы будем использовать библиотеку `flair`, разработанную Берлинским университетом имени Гумбольдта. `flair` имеет простой интерфейс, который позволяет использовать и комбинировать различные эмбеддинги слов и документов.

In [None]:
#!pip install flair

In [None]:
import numpy as np
from flair.embeddings import WordEmbeddings
from flair.embeddings import TransformerWordEmbeddings
from flair.data import Sentence
from scipy.spatial import distance

# Пример эмбеддинга "GloVe"

Классические модели эмбеддингов, такие как *Word2Vec* слов предполагают, что каждое отдельное слово получает ровно один предварительно вычисленный вектор. Большинство эмбеддингов подпадают под этот класс, включая популярные эмбеддинги **GloVe** или **Komninos**.

Проилюстрируем работу *Word2Vec* с помощью эмбеддингов **GloVe**.

**GloVe** — это алгоритм обучения без учителя для получения векторных представлений слов. В то время, как *Word2Vec* фиксирует, появляются ли слова в похожих контекстах, **GloVe** фокусируется на совпадении слов во всем корпусе. Его эмбеддинги связаны с вероятностью того, что два слова появятся вместе.

In [None]:
# Скачаем заранее изученные эмбеддинги
glove_embedding = WordEmbeddings('glove')

## 1е предложение

In [None]:
sentence_1 = Sentence('Apple have released iphone 13 pro max in 2022')

 Элементы результирующего вектора называются ***токенами***.



In [None]:
glove_embedding.embed(sentence_1)

[Sentence: "Apple have released iphone 13 pro max in 2022"   [− Tokens: 9]]

In [None]:
for token in sentence_1:
    print(token)
    print(token.embedding.shape)
    print("\n")

Token: 1 Apple
torch.Size([100])


Token: 2 have
torch.Size([100])


Token: 3 released
torch.Size([100])


Token: 4 iphone
torch.Size([100])


Token: 5 13
torch.Size([100])


Token: 6 pro
torch.Size([100])


Token: 7 max
torch.Size([100])


Token: 8 in
torch.Size([100])


Token: 9 2022
torch.Size([100])




Выберем первое слово нашего предложения и посмотрим на его векторное представление

In [None]:
print(sentence_1[0],sentence_1[0].embedding)

Token: 1 Apple tensor([-0.5985, -0.4632,  0.1300, -0.0196,  0.4603, -0.3018,  0.8977, -0.6563,
         0.6686, -0.4916,  0.0376, -0.0509,  0.6451, -0.5388, -0.3765, -0.0431,
         0.5138,  0.1778,  0.2860,  0.9206, -0.4935, -0.4858,  0.6132,  0.7821,
         0.1925,  0.9123, -0.0556, -0.1251, -0.6569,  0.0686,  0.5563,  1.6110,
        -0.0074, -0.4888,  0.4549,  0.9610, -0.0634,  0.1743,  0.9814, -1.3125,
        -0.1580, -0.5430, -0.1389, -0.2615, -0.3691,  0.2684, -0.2438, -0.1948,
         0.6258, -0.7377,  0.3835, -0.7500, -0.3905,  0.0915, -0.3659, -1.4715,
        -0.4523,  0.2256,  1.1412, -0.3853, -0.0672,  0.5729, -0.3919,  0.3130,
        -0.2923, -0.9616,  0.1515, -0.2166,  0.2510,  0.0970,  0.2843,  1.4296,
        -0.5056, -0.5137, -0.4722,  0.3204,  0.0231,  0.2262, -0.0972,  0.8213,
         0.9260, -1.0086, -0.3864,  0.8641, -1.2060, -0.2853,  0.2265, -0.3877,
         0.4088,  0.5930,  0.3077,  0.8380, -0.6366, -0.4464, -0.4341, -0.7936,
        -0.2867, -0.0344,

In [None]:
sentence_1[0].embedding.shape

torch.Size([100])

## 2е предложение

In [None]:
sentence_2 = Sentence('An apple a day keeps the doctor away')

In [None]:
glove_embedding.embed(sentence_2)

[Sentence: "An apple a day keeps the doctor away"   [− Tokens: 8]]

In [None]:
for token in sentence_2:
    print(token)
    print(token.embedding.shape)
    print("\n")

Token: 1 An
torch.Size([100])


Token: 2 apple
torch.Size([100])


Token: 3 a
torch.Size([100])


Token: 4 day
torch.Size([100])


Token: 5 keeps
torch.Size([100])


Token: 6 the
torch.Size([100])


Token: 7 doctor
torch.Size([100])


Token: 8 away
torch.Size([100])




In [None]:
print(sentence_2[1], sentence_2[1].embedding)

Token: 2 apple

In [None]:
sentence_2[1].embedding.shape

torch.Size([100])

## Расстояние между словом apple в двух предложениях

In [None]:
glove_dst = distance.euclidean(np.array(sentence_1[0].embedding), 
                               np.array(sentence_2[1].embedding))

In [None]:
print("Distance between apple embeddings for Glove = {}".format(glove_dst))

Distance between apple embeddings for Glove = 0.0


# Эмбеддинг BERT

In [None]:
bert_embedding = TransformerWordEmbeddings('bert-base-multilingual-cased')

In [None]:
bert_embedding.embed(sentence_1)
for token in sentence_1:
    print(token)
    print(token.embedding.shape)

Token: 1 Apple
torch.Size([868])
Token: 2 have
torch.Size([868])
Token: 3 released
torch.Size([868])
Token: 4 iphone
torch.Size([868])
Token: 5 13
torch.Size([868])
Token: 6 pro
torch.Size([868])
Token: 7 max
torch.Size([868])
Token: 8 in
torch.Size([868])
Token: 9 2022
torch.Size([868])


In [None]:
print(sentence_1[0], sentence_1[0].embedding)

Token: 1 Apple tensor([-5.9850e-01, -4.6321e-01,  1.3001e-01, -1.9576e-02,  4.6030e-01,
        -3.0180e-01,  8.9770e-01, -6.5634e-01,  6.6858e-01, -4.9164e-01,
         3.7557e-02, -5.0889e-02,  6.4510e-01, -5.3882e-01, -3.7650e-01,
        -4.3120e-02,  5.1384e-01,  1.7783e-01,  2.8596e-01,  9.2063e-01,
        -4.9349e-01, -4.8583e-01,  6.1321e-01,  7.8211e-01,  1.9254e-01,
         9.1228e-01, -5.5596e-02, -1.2512e-01, -6.5688e-01,  6.8557e-02,
         5.5629e-01,  1.6110e+00, -7.3642e-03, -4.8879e-01,  4.5493e-01,
         9.6105e-01, -6.3369e-02,  1.7432e-01,  9.8140e-01, -1.3125e+00,
        -1.5801e-01, -5.4301e-01, -1.3888e-01, -2.6146e-01, -3.6910e-01,
         2.6844e-01, -2.4375e-01, -1.9484e-01,  6.2583e-01, -7.3770e-01,
         3.8351e-01, -7.5004e-01, -3.9053e-01,  9.1498e-02, -3.6591e-01,
        -1.4715e+00, -4.5228e-01,  2.2560e-01,  1.1412e+00, -3.8526e-01,
        -6.7160e-02,  5.7288e-01, -3.9191e-01,  3.1302e-01, -2.9235e-01,
        -9.6157e-01,  1.5154e-01, -2

In [None]:
sentence_1[0].embedding.shape

torch.Size([868])

In [None]:
bert_embedding.embed(sentence_2)

for token in sentence_2:
    print(token)
    print(token.embedding.shape)

Token: 1 An
torch.Size([868])
Token: 2 apple
torch.Size([868])
Token: 3 a
torch.Size([868])
Token: 4 day
torch.Size([868])
Token: 5 keeps
torch.Size([868])
Token: 6 the
torch.Size([868])
Token: 7 doctor
torch.Size([868])
Token: 8 away
torch.Size([868])


In [None]:
print(sentence_2[1], sentence_2[1].embedding)

Token: 2 apple tensor([-5.9850e-01, -4.6321e-01,  1.3001e-01, -1.9576e-02,  4.6030e-01,
        -3.0180e-01,  8.9770e-01, -6.5634e-01,  6.6858e-01, -4.9164e-01,
         3.7557e-02, -5.0889e-02,  6.4510e-01, -5.3882e-01, -3.7650e-01,
        -4.3120e-02,  5.1384e-01,  1.7783e-01,  2.8596e-01,  9.2063e-01,
        -4.9349e-01, -4.8583e-01,  6.1321e-01,  7.8211e-01,  1.9254e-01,
         9.1228e-01, -5.5596e-02, -1.2512e-01, -6.5688e-01,  6.8557e-02,
         5.5629e-01,  1.6110e+00, -7.3642e-03, -4.8879e-01,  4.5493e-01,
         9.6105e-01, -6.3369e-02,  1.7432e-01,  9.8140e-01, -1.3125e+00,
        -1.5801e-01, -5.4301e-01, -1.3888e-01, -2.6146e-01, -3.6910e-01,
         2.6844e-01, -2.4375e-01, -1.9484e-01,  6.2583e-01, -7.3770e-01,
         3.8351e-01, -7.5004e-01, -3.9053e-01,  9.1498e-02, -3.6591e-01,
        -1.4715e+00, -4.5228e-01,  2.2560e-01,  1.1412e+00, -3.8526e-01,
        -6.7160e-02,  5.7288e-01, -3.9191e-01,  3.1302e-01, -2.9235e-01,
        -9.6157e-01,  1.5154e-01, -2

In [None]:
sentence_2[1].embedding.shape

torch.Size([868])

In [None]:
bert_dst = distance.euclidean(np.array(sentence_1[0].embedding), 
                               np.array(sentence_2[1].embedding))

In [None]:
print("Distance between apple embeddings for Glove = {}".format(bert_dst))

Distance between apple embeddings for Glove = 20.749832153320312


Как мы видим, в отличие от классических моделей, BERT улавливает контекст всего предложения.