# Эмбеддинги (векторные представления) слов

### **1. Что такое word embedding?**

При работе с текстами нам хотелось бы понимать, как соотносятся между собой слова в языке (например, насколько они похожи или различны — в каком-то релевантном для решаемой задачи смысле). Поэтому мы можем работать не с самими словами в формате строк, а с их числовым — или скорее векторным — представлением.

Один из очевидных способов представить слово в виде строки — one-hot encoding. Однако такое представление, с одной стороны, требует огромного ресурса памяти (например, в русском языке более 100000 слов), а, с другой стороны, не даёт содержательной информации о том, как эти слова между собой соотносятся.

### **2. Word2Vec**

Краткое напоминание о том, что такое косинусное расстояние между векторами $x$ и $y$, которое можно рассматривать как меру сходства между ними:

$similarity(x, y) = \cos(\Theta) = \frac{\langle x, y \rangle}{||x|| \cdot ||y||}$, где $\Theta$ — угол между векторами.

Модель Word2Vec строит такие векторные представления, чтобы векторы похожих слов оказывались близки по косинусному расстоянию. Похожими считаются слова, которые часто встречаются в одном и том же контексте.

Есть различные подходы к тому, как обучать векторные представления. Первый из них — CBoW (Continuous Bag of Words), предсказание слова по контексту, и второй — SkipGram, предсказание контекста по слову. Подробнее об архитектуре и модификациях функции потерь можно прочитать [здесь](https://https://arxiv.org/pdf/1301.3781.pdf) и [здесь](https://https://arxiv.org/abs/1310.4546).

Рассмотрим word2vec, [реализованный](https://https://radimrehurek.com/gensim/models/word2vec.html) в библиотеке gensim.

In [None]:
!pip install -U gensim

Посмотрим, какие доступны предобученные модели.

In [None]:
from gensim.models import Word2Vec
import gensim.downloader as api

api.info()

Среди них есть word2vec-ruscorpora-300 — word2vec, обученный на Национальном корпусе русского языка. Можно выгрузить эту модель и, например, посмотреть на слова, самые близкие к заданным:

In [None]:
model = api.load("word2vec-ruscorpora-300")

In [None]:
model.most_similar('человек_NOUN', topn=5) #topn — сколько ближайших слов мы хотим получить

In [None]:
model.most_similar('счастливый_ADJ', topn=15)

Обратите внимание, что все слова помечены частями речи.

Попробуйте найти косинусное расстояние между векторными представлениями слов "кошка" и "собака", "дом" и "дерево", "радостный" и "грустный" (подсказка: вам НЕ нужно руками писать формулу косинусного расстояния).

In [None]:
# student.write_code()

Заметим, что слова, обозначающие объекты разной природы, отличаются гораздо сильнее, чем антонимичные по смыслу слова. Как вы думаете, почему?

Проверьте, работают ли с векторными представлениями слов арифметические операции: "король" - "мужчина" + "женщина" = ?

In [None]:
sorted(model.similar_by_vector(model["россия_NOUN"] - model["москва_NOUN"] + model["вашингтон_NOUN"]), key=lambda x: x[1])[::-1]

Однако результат зависит от использованного текстового корпуса, и такую предобученную модель вряд ли можно будет использовать, например, для анализа записей из Twitter. Поэтому может возникнуть необходимость обучить модель самостоятельно.

В качестве примера рассмотрим "игрушечный" датасет, который есть в gensim.

In [None]:
from gensim.test.utils import common_texts

for text in common_texts:
  print(text)

model_w2v_toy = Word2Vec(common_texts, size=20, min_count=1)
model_w2v_toy.wv.most_similar(positive='human', topn=3)

Однако для настоящего обучения модели нужен текст очень большого размера. Возьмём, например, Библию (потому что почему бы и нет). Обратите внимание, что перед обучением текст нужно предобработать (выбросить пунктуацию и стоп-слова).

In [None]:
!pip install pymorphy2

In [None]:
import urllib.request
import re
import pymorphy2
import nltk
from nltk.corpus import stopwords
#эта ячейка будет работать ДОЛГО
nltk.download('stopwords')
morph = pymorphy2.MorphAnalyzer()
regex = re.compile('[^а-яА-Я ё\-]')
stop = stopwords.words('russian')
# + ['сказать', 'и', 'твой']

data = urllib.request.urlopen('https://raw.githubusercontent.com/somethingneverending/nlp-files/master/Bible.txt')
X = []
for line in data:
  cur = regex.sub('',line.decode('utf-8')).split('\n')[0].split(' ')
  for word in cur:
    normal_word = morph.parse(word.lower())[0].normal_form
    if word != '' and normal_word not in stop:
      X.append(normal_word)

In [None]:
X[:20]

In [None]:
model_w2v = Word2Vec([X], size=300, window=5, min_count=1)

Посмотрите на синонимы тех же слов, которые мы рассматривали для предобученной модели.

In [None]:
#YOUR CODE HERE

...Кажется, что-то изменилось.

Визуализируем 55 наиболее встречающихся слов:

In [None]:
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import numpy as np

vocab = [(model_w2v.wv.vocab[x].count, x) for x in model_w2v.wv.vocab]
vocab.sort(reverse=True)
vocab = vocab[:55]

def visualize(vocab):
  all_vocab = []
  for i in range(len(vocab)):
    all_vocab = all_vocab + vocab[i]
  emb_tuple = tuple([model_w2v.wv[word] for word in all_vocab])
  X_vis = np.vstack(emb_tuple)

  model_tsne = TSNE(n_components=2, random_state=0)
  np.set_printoptions(suppress=True)

  X_tsne = model_tsne.fit_transform(X_vis)
  cur = 0

  for part in vocab:
    word_labels = [word for word in part]
    plt.scatter(X_tsne[cur:cur + len(part), 0], X_tsne[cur:cur + len(part), 1])
    for i, word in enumerate(word_labels):
        plt.annotate(word, (X_tsne[cur + i, 0], X_tsne[cur + i, 1]))
    cur += len(part)
  plt.show()

vocab = [tmp37[1] for tmp37 in vocab]
visualize([vocab])

Сделайте то же самое, например, для тридцати слов, ближайшим к какому-нибудь слову; для двадцати ближайших и двадцати самых дальних.

In [None]:
#YOUR CODE HERE

In [None]:
#YOUR CODE HERE

То же самое можете сделать самостоятельно и с предобученной моделью.