# Тема 20. Векторные представления слов.

## Введение

Вспомним Тему 8 о векторных представлениях изображений. Мы увидели, что изображение можно описать массивом чисел - выходом какого-то из слоев нейронной сети - настолько точно, что по этому массиву можно провести классификацию изображения, отличить одно от другого.

Раз можно так делать для изображений, то можно и для других типов данных, для звуков, сигналов и, конечно, для текстов.

Раньше мы использовали векторные представления внутри нейронной сети, чтобы проводить классификацию, но оказывается, векторные представления интересны и сами по себе. 

Давайте введем простые векторные представления для текстов и посмотрим, какие у них получаются интересные свойства.


# Унитарное кодирование
Пожалуй самым простым векторным представлением является *унитарное кодирование* (по-английски one-hot encoding).

Возьмем какой-либо текст, разобьем его на слова-элементы и составим словарь таких слов, в котором каждому слову будет приписан его номер в словаре. 

Этот номер слова можно представить в бинарном виде, сопоставим каждому слову в словаре *бинарный вектор*, состоящий из нулей и только одной единицы. Положение единицы в векторе показывает номер слова.

![img](https://drive.google.com/uc?id=1hDY2EKB7ND-Uxq9FnKVtxC-U-0bnuiTe)
 
В векторе будет столько элементов, сколько слов в словаре мы записали.

Обратите внимание, что единичка, по-сути, является признаком слова: стоит единичка в пятом элементе, значит слово номер пять.

Вообще, в словарь мы можем добавлять какие угодно "слова", это могут быть обычные привычные нам слова, части слов и даже отдельные буквы, словосочетания и целые предложения, знаки препинания, смайлики, и прочее. Главное, что у всех этих "слов" есть номер, представленный унитарным вектором.

Текст является последовательностью слов, а в унитарном представлении - последовательностью унитарных векторов.

![img](https://drive.google.com/uc?id=1uEodrFkeG433O_zCWf3EpR8JVPYEFysx)

Унитарное кодирование используется и для других типов информации, для изображений, сигналов и пр. Хорошим свойством является то, что унитарное представление не зависит от длины слова, ведь в словарь мы можем добавлять слова разной длины, хоть из одной буквы, хоть целое словосочетание.

Однако такое представление не дает нам никаких новых интересных свойств, ведь унитарные вектора никак не связаны между собой и зависят от нашего произвола - в каком порядке слова в словарь добавляем, такой вектор и получим. 

Поэтому создают другие, более интересные, векторные представления.

# Word2vec
Хочется как-то связать между собой слова и их векторные представления, ведь в реальных текстах слова, конечно же, связаны между собой **смыслом**. Вряд ли кто-то захочет читать тексты из случайных слов.

Если есть взаимосвязь между словами текста, то ее можно уловить, вычислить.

А давайте попробуем сделать так: 
- возьмем из текста три слова подряд.
- закроем одно слово и попробуем его угадать по двум оставшимся.

Во многих случаях, но конечно не всегда, это нам удастся. Попробуйте угадать какое слово скрыто под звездочками во фразе "Мама мыла ....".
Если вы сказали "раму", то угадали, но могли сказать "пол" и не угадали. 

Давайте возьмем больше слов "Мама мыла оконную ...": тут легче угадать слово "раму", но все равно есть и другие варианты (придумайте).

И все же, для многих последовательностей слов можно угадать какое слово закрыто, так пусть этим займется компьютер.

Текст это последовательность слов, слова можно представить унитарными векторами. Нам надо лишь по нескольким унитарным векторам вычислять следующий. Это абсолютно тоже самое, как если бы мы хотели обучить нейронную сеть. Известны входы - несколько унитарных векторов, знаем выход - один унитарный вектор, давайте обучим.

Можно посмотреть и с другой стороны, если по нескольким словам мы угадываем следующее, то давайте наоборот, по слову угадаем какие слова ему предшествовали. Технически задача такая же. Знаем вход - один унитарный вектор, знаем выход - несколько унитарных векторов - так давайте обучим нейронную сеть.

Эти подходы можно совместить, по нескольким векторам угадываем один пропущенный, а затем по нему угадываем обратно какие вектора были изначально, или, другими словами, угадываем слово по словам его окружающим, а затем по этому слову угадываем окружающие слова. Обычно угадывают среднее слово из трех, но это вовсе не обязательно.

Такая технология получила название **word2vec** (произносится "ворд ту век"). На картинке показана для пяти слов, обозначенных буквой V с индексом в скобках.  Первую половинку - угадывание слова по окружению - назвали CBOW, вторую - угадывания окружения по слову - SkipGram. 

![img](https://drive.google.com/uc?id=18pa20uv6xi8tGC6pdOS3Vc11KUUcpW2e)

Посмотрим на CBOW (это сокращение от Continuous Bag of Word, непрерывный мешок слов).

Мы можем использовать простую нейронную сеть только с одним скрытым слоем для него.

Унитарные вектора слов-окружения переводятся в скрытом слое в некоторые выходы, а затем по выходам этого скрытого слоя считается унитарный вектор исходного слова.

Перевод унитарного представления слов-окружения в скрытом слое производится, как мы понимаем из работы нейронной сети, умножением на матрицу весов W. Ее размер (число нейронов в скрытом слое) * (число слов в словаре). Нет необходимости делать эту матрицу разной для разных слов-окружений, пусть будет одна.

Аналогично, переход из скрытого слоя на выход также делается с помощью умножения на матрицу W'. Ее размер (число слов в словаре) * (число нейронов в скрытом слое). 

Матрица W' нам не важна, но посмотрим более внимательно на матрицу W.

Она умножается на унитарный вектор, т.е. вектор, в котором все элементы нули кроме одного. Что произойдет при таком умножении? 

Правильно, выберется только один столбец из матрицы, с таким номером, на какой позиции стоит единичка во входом векторе. Но положение этой единички означает номер слова в словаре! Значит, каждому слову из словаря соответствует свой вектор-столбец в матрице W. Его размерность определяется числом нейронов в скрытом слое, которое мы задаем сами при обучении. **Эти вектора-столбцы и являются новым векторным представлением слов**.   

Итак, вкратце, еще раз.
- Берем тексты
- разбиваем их на последовательность слов
- переводим слова в унитарные вектора
- на парах (соседние слова)-(среднее слово) обучаем простую нейронную сеть CBOW с ее матрицей W.
- используем столбцы матрицы W как новое векторное представление слов. Длина этих векторов задается произвольно при обучении.

![img](https://drive.google.com/uc?id=1bTpfqH0niwJKwMRHKdNbuOFiR9jucCZe)







# Геометрия слов
Создав векторные представления для слов, можно их использовать в различных *геометрических* операциях: сложить вектора, вычесть, найти угол меду ними.

И, что наиболее удивительно в таких векторных представлениях, эти геометрические операции с векторами имеют **смысл** с точки зрения самих слов.

Например:
* Король - мужчина + женщина = Королева
* Великобритания - Лондон + Москва = Россия
 и др.
 
 Прежде чем смотреть на примеры, несколько слов о сравнении векторов.
 
## Косинусное расстояние.

Вектора можно сравнивать между собой, логично, что близкие вектора означают близкие по смыслу слова. Но как именно сравнивать вектора?

Оказалось, что постое Евклидово расстояние между векторами не так интересно, более интересно сравнивать угол между векторами или, правильнее, косинус угла. 

Ну-ка, вспоминайте геометрию, как посчитать косинус угла между векторами?

А вот так: скалярное произведение векторов поделить на длины этих векторов. 

![img](https://drive.google.com/uc?id=1vxVWdSAjY5oK6U7CtGadB0-2T5YLFmSh)

Часто векторные представления *нормализуют*, т.е. приводят к единичной длине, тогда ее и считать не надо.

Итак, мера схожести векторов - косинус угла между ними. Близкие по смыслу слова скорей всего дадут близкие по углу вектора.

# Библиотека gensim

А теперь примеры. Поиграть с векторами онлайн вы можете [здесь](https://rare-technologies.com/word2vec-tutorial/#app), но давайте и сами реализуем.  

Нам поможет библиотека [gensim](https://radimrehurek.com/gensim/index.html). Установим ее.


In [None]:
#!pip install gensim



Подключим вспомогательную библиотеку для записи действий.

In [1]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

Скачаем уже обученную модель word2vec, она была обучена на огромном наборе текстов на английском языке из 3 млн. слов и занимает около 2 Гигабайт, придется подождать. Это надо сделать только один раз. Модель загружается в виде специального объекта, в котором прописаны многие методы для работы с векторами.

*Для учителя: иногда сайт обрывает связь и закачку, рекомендуется заранее скачать массивы использую методы load(), save()*.

In [4]:
import gensim.downloader as api # 
wv = api.load('word2vec-google-news-300') # 



2021-07-04 10:44:21,974 : INFO : word2vec-google-news-300 downloaded
2021-07-04 10:44:21,978 : INFO : loading projection weights from /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz
2021-07-04 10:46:47,132 : INFO : loaded (3000000, 300) matrix from /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz


Например, выведем на экран первые 100 слов из словаря, которые хранятся в итерируемом поле .index2word

In [5]:
for index, word in enumerate(wv.index2word):
    if index == 100:
        break
    print(f"word #{index}/{len(wv.index2word)} is {word}")

word #0/3000000 is </s>
word #1/3000000 is in
word #2/3000000 is for
word #3/3000000 is that
word #4/3000000 is is
word #5/3000000 is on
word #6/3000000 is ##
word #7/3000000 is The
word #8/3000000 is with
word #9/3000000 is said
word #10/3000000 is was
word #11/3000000 is the
word #12/3000000 is at
word #13/3000000 is not
word #14/3000000 is as
word #15/3000000 is it
word #16/3000000 is be
word #17/3000000 is from
word #18/3000000 is by
word #19/3000000 is are
word #20/3000000 is I
word #21/3000000 is have
word #22/3000000 is he
word #23/3000000 is will
word #24/3000000 is has
word #25/3000000 is ####
word #26/3000000 is his
word #27/3000000 is an
word #28/3000000 is this
word #29/3000000 is or
word #30/3000000 is their
word #31/3000000 is who
word #32/3000000 is they
word #33/3000000 is but
word #34/3000000 is $
word #35/3000000 is had
word #36/3000000 is year
word #37/3000000 is were
word #38/3000000 is we
word #39/3000000 is more
word #40/3000000 is ###
word #41/3000000 is up
word 

Получить вектор слова можно используя это слово как индекс. Получим для слова 'king'. Это вектор из 300 элементов. Конечно, это слово должно быть в словаре и именно в таком виде, иначе возникнет ошибка. Важен и регистр букв, попробуйте слово 'kinG'.

In [6]:
vec_king = wv['king']
vec_king.shape
#vec_king = wv['kinG']

(300,)

Посчитать "похожесть" слов, т.е. их векторов, можно с помощью метода .similarity(). Чем больше число, тем более похожи слова.

In [7]:
pairs = [                 # пары слов
    ('car', 'minivan'),   # минивэн это тип автомобиля
    ('car', 'bicycle'),   # мотоцикл имеет колеса как и автомобиль
    ('car', 'airplane'),  # ладно, самолет не колесное средство, но все же средство передвижения
    ('car', 'cereal'),    # зерно и автомобиль, хм..
    ('car', 'communism'), # какая связь между автомобилем и коммунизмом???
]
for w1, w2 in pairs:
    print('%r\t%r\t%.2f' % (w1, w2, wv.similarity(w1, w2)))

'car'	'minivan'	0.69
'car'	'bicycle'	0.54
'car'	'airplane'	0.42
'car'	'cereal'	0.14
'car'	'communism'	0.06


Перебирать вручную все пары слов, чтобы найти самые похожие будет трудно, пусть компьютер сравнит все-все вектора и выведет самые похожие на заданный. 

Метод .most_similar() принимает набор слов для которых искать похожие (аргумент positive) и число похожих слов (аргумент topn)

(Первый запуск может быть долгим, так как надо посчитать длины всех векторов, потом будет гораздо быстрее)

In [8]:
print(wv.most_similar(positive=['man', 'woman'], topn=5))
print(wv.most_similar(positive=['Russia'], topn=5))

2021-07-04 10:47:49,140 : INFO : precomputing L2-norms of word weight vectors


[('teenage_girl', 0.7174351811408997), ('girl', 0.7137972712516785), ('teenager', 0.6865389347076416), ('boy', 0.6810464859008789), ('teen_ager', 0.5822051763534546)]
[('Ukraine', 0.7918288111686707), ('Moscow', 0.7575765252113342), ('Russian', 0.7464962005615234), ('Belarus', 0.7303562164306641), ('Kremlin', 0.7048990726470947)]


Найти слово, которое непохоже на остальные? Легко, метод .doesnt_match(). Все слова (их вектора) будут сравнены между собой и выведется то, которое похоже меньше всех.

In [9]:
print(wv.doesnt_match(['fire', 'water', 'land', 'sea', 'air', 'car']))

car


  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


Геометрические операции, вектор 'France' минус вектор 'Paris' плюс вектор 'Moscow'. Получится какой-то вектор. Его может не быть в словаре, найдем ближайшие из словаря к нему, метод .similar_by_vector() 

In [10]:
Russia=wv['France']-wv['Paris']+wv['Moscow']
wv.similar_by_vector(Russia)

[('Russia', 0.8497266173362732),
 ('Moscow', 0.7469395995140076),
 ('Ukraine', 0.7185336351394653),
 ('Belarus', 0.6865631341934204),
 ('Russian', 0.6784680485725403),
 ('Kremlin', 0.6503680944442749),
 ('Moldova', 0.6195235848426819),
 ('ex_Soviet', 0.6118861436843872),
 ('Kazakhstan', 0.607187032699585),
 ('Russians', 0.6063269376754761)]

А на русском языке??

Такие модели тоже есть, но они гораздо слабее, мало слов, мало текстов.
Загрузим модель word2vec-ruscorpora-300 . Всего-то 200 тысяч слов.

In [11]:
wv_rus = api.load('word2vec-ruscorpora-300')



2021-07-04 10:50:37,219 : INFO : word2vec-ruscorpora-300 downloaded
2021-07-04 10:50:37,227 : INFO : loading projection weights from /root/gensim-data/word2vec-ruscorpora-300/word2vec-ruscorpora-300.gz
2021-07-04 10:50:49,811 : INFO : loaded (184973, 300) matrix from /root/gensim-data/word2vec-ruscorpora-300/word2vec-ruscorpora-300.gz


Здесь слова имеют приставки, показывающие их часть речи.

что получится для король - мужчина + женщина ?
По идее королева. Но получится король. Но и "правильный" ответ тоже недалеко, второй по счету.   

In [12]:
queen= wv_rus['король_NOUN'] - wv_rus['мужчина_NOUN'] + wv_rus['женщина_NOUN']

wv_rus.similar_by_vector(queen)

2021-07-04 10:50:54,343 : INFO : precomputing L2-norms of word weight vectors


[('король_NOUN', 0.880538821220398),
 ('королева_NOUN', 0.7313904166221619),
 ('герцог_NOUN', 0.6502388715744019),
 ('принцесса_NOUN', 0.6266285181045532),
 ('герцогиня_NOUN', 0.6240381002426147),
 ('королевство_NOUN', 0.6094207167625427),
 ('зюдерманландский_ADJ', 0.6084389686584473),
 ('дурлахский_ADJ', 0.6081665754318237),
 ('ульрик::элеонора_NOUN', 0.6073107719421387),
 ('максимилианов_NOUN', 0.6057003736495972)]

# Задания
Успешность геометрических операций с векторами слов сильно зависит и от вида модели и от текстов, на которых она обучалась. Не все понятные человеку аналогии слов, получаются и в компьютере. В качестве упражнения попробуйте найти примеры логичных и нелогичных аналогий. 

# Векторные представления GloVe

Word2Vec делает локальные связи между словами, теми, которые располагаются в предложении близко друг к другу. Но вполне может быть так, что и далекие слова тоже связаны между собой смыслом.

Хотелось бы и такие случаи учесть. Придуман другой способ построения векторов слов - GloVe (Global Vectors). 

Идея относительно проста:

Давайте посчитаем матрицу взаимной встречаемости $X_{ij}$ всех слов друг с другом, которая показывает как часто одно слово находится рядом (является контекстом) с другим. Это большая матрица размером по числу слов в словаре (миллионы). Давайте факторизуем эту матрицу, представим ее меньшим числом параметров, которые будем подбирать, чтобы получить как можно более точное представление такой матрицы.

В GloVe каждому слову сопоставляется два вектора $w, w'$ и смещений $b, b'$ (если матрица встречаемости симметрична, они практически совпадают). Создают функцию ошибки 

$ J=\sum_{i,j=1}^V f(X_{ij})(w_i^T*w'_j+b_i+b'_j - log(X_{ij}))^2 $

которую минимизируют с целью такого подбора векторов (и смещений), чтобы их скалярное произведение (плюс смещения) давали логарифм матрицы встречаемости как можно точнее для всех комбинаций пар слов. Дополнительный множитель $f(X)$ изменяет влияние слишком частых и слишком редких пар слов.

![img](https://www.researchgate.net/profile/Jeffrey-Pennington-2/publication/284576917/figure/fig1/AS:640924933697536@1529819820026/Weighting-function-f-with-a-3-4.png)

Посмотрим пример векторов на текстах с Wikipedia.



In [13]:
import numpy as np

import os
import pickle
import time

SENTENCE_LENGTH_MAX = 32
EMBEDDING_DIM=50

Используем библиотеку [glove-python](https://github.com/maciejkula/glove-python) для загрузки и работы с уже обученными векторными представлениями GloVe.

In [14]:
! pip install glove-python-binary

Collecting glove-python-binary
[?25l  Downloading https://files.pythonhosted.org/packages/cc/11/d8510a80110f736822856db566341dd2e1e7c3af536f77e409a6c09e0c22/glove_python_binary-0.2.0-cp37-cp37m-manylinux1_x86_64.whl (948kB)
[K     |▍                               | 10kB 19.0MB/s eta 0:00:01[K     |▊                               | 20kB 23.4MB/s eta 0:00:01[K     |█                               | 30kB 25.9MB/s eta 0:00:01[K     |█▍                              | 40kB 29.3MB/s eta 0:00:01[K     |█▊                              | 51kB 31.2MB/s eta 0:00:01[K     |██                              | 61kB 32.4MB/s eta 0:00:01[K     |██▍                             | 71kB 29.4MB/s eta 0:00:01[K     |██▊                             | 81kB 29.9MB/s eta 0:00:01[K     |███                             | 92kB 28.5MB/s eta 0:00:01[K     |███▌                            | 102kB 29.5MB/s eta 0:00:01[K     |███▉                            | 112kB 29.5MB/s eta 0:00:01[K     |████

Загружаем обученные вектора (полученые из текста с 6 миллирдами токенами 50-мерные вектора): http://nlp.stanford.edu/projects/glove/ 


In [15]:
import glove
import os, requests, shutil

glove_dir = './data/RNN/' # директория загрузки
glove_100k_50d = 'glove.first-100k.6B.50d.txt' # название файла с векторами
glove_100k_50d_path = os.path.join(glove_dir, glove_100k_50d) # путь к нему

# Временные файлы на случай если не будут загружаться основные (медленно)
data_cache = './data/cache'
glove_full_tar = 'glove.6B.zip'
glove_full_50d = 'glove.6B.50d.txt'

# Адрес загрузки
download_url= 'http://redcatlabs.com/downloads/deep-learning-workshop/notebooks/data/RNN/'+glove_100k_50d
original_url = 'http://nlp.stanford.edu/data/'+glove_full_tar

if not os.path.isfile( glove_100k_50d_path ): # если еще не загружали
    if not os.path.exists(glove_dir):
        os.makedirs(glove_dir)
    
    # пытаемся скачать файлы
    response = requests.get(download_url, stream=True)
    if response.status_code == requests.codes.ok:
        print("Downloading 42Mb pre-prepared GloVE file from RedCatLabs")
        with open(glove_100k_50d_path, 'wb') as out_file:
            shutil.copyfileobj(response.raw, out_file)
    else:
        # если не получается, скачиваем другие версии файлов 
        if not os.path.exists(data_cache):
            os.makedirs(data_cache)
        
        if not os.path.isfile( os.path.join(data_cache, glove_full_50d) ):
            zipfilepath = os.path.join(data_cache, glove_full_tar)
            if not os.path.isfile( zipfilepath ):
                print("Downloading 860Mb GloVE file from Stanford")
                response = requests.get(download_url, stream=True)
                with open(zipfilepath, 'wb') as out_file:
                    shutil.copyfileobj(response.raw, out_file)
            if os.path.isfile(zipfilepath):
                print("Unpacking 50d GloVE file from zip")
                import zipfile
                zipfile.ZipFile(zipfilepath, 'r').extract(glove_full_50d, data_cache)

        with open(os.path.join(data_cache, glove_full_50d), 'rt') as in_file:
            with open(glove_100k_50d_path, 'wt') as out_file:
                print("Reducing 50d GloVE file to first 100k words")
                for i, l in enumerate(in_file.readlines()):
                    if i>=100000: break
                    out_file.write(l)
    
        # Get rid of tarfile source (the required text file itself will remain)
        #os.unlink(zipfilepath)
        #os.unlink(os.path.join(data_cache, glove_full_50d))

print("GloVE available locally")

Downloading 42Mb pre-prepared GloVE file from RedCatLabs
GloVE available locally


In [16]:
# Ограничимся 100k наиболее частыми словами
word_embedding = glove.Glove.load_stanford( glove_100k_50d_path ) # загружаем в память
word_embedding.word_vectors.shape # размер матрицы

(100000, 50)

In [17]:
word_embedding.dictionary # словарь

{'the': 0,
 ',': 1,
 '.': 2,
 'of': 3,
 'to': 4,
 'and': 5,
 'in': 6,
 'a': 7,
 '"': 8,
 "'s": 9,
 'for': 10,
 '-': 11,
 'that': 12,
 'on': 13,
 'is': 14,
 'was': 15,
 'said': 16,
 'with': 17,
 'he': 18,
 'as': 19,
 'it': 20,
 'by': 21,
 'at': 22,
 '(': 23,
 ')': 24,
 'from': 25,
 'his': 26,
 "''": 27,
 '``': 28,
 'an': 29,
 'be': 30,
 'has': 31,
 'are': 32,
 'have': 33,
 'but': 34,
 'were': 35,
 'not': 36,
 'this': 37,
 'who': 38,
 'they': 39,
 'had': 40,
 'i': 41,
 'which': 42,
 'will': 43,
 'their': 44,
 ':': 45,
 'or': 46,
 'its': 47,
 'one': 48,
 'after': 49,
 'new': 50,
 'been': 51,
 'also': 52,
 'we': 53,
 'would': 54,
 'two': 55,
 'more': 56,
 "'": 57,
 'first': 58,
 'about': 59,
 'up': 60,
 'when': 61,
 'year': 62,
 'there': 63,
 'all': 64,
 '--': 65,
 'out': 66,
 'she': 67,
 'other': 68,
 'people': 69,
 "n't": 70,
 'her': 71,
 'percent': 72,
 'than': 73,
 'over': 74,
 'into': 75,
 'last': 76,
 'some': 77,
 'government': 78,
 'time': 79,
 '$': 80,
 'you': 81,
 'years': 82,
 'i

Проверяем работу векторов:

In [18]:
# Наиболее похожее слово
word_embedding.most_similar('country')

[('nation', 0.9162598787943158),
 ('bringing', 0.8718220802078342),
 ('now', 0.838748566812629),
 ('countries', 0.8238734388492914)]

In [28]:
import numpy as np
# получаем вектор для слова (приводим к нижнему регистру)
def get_embedding_vec(word):
    idx = word_embedding.dictionary.get(word.lower(), -1)
    if idx<0:
        #print("Missing word : '%s'" % (word,))
        return np.zeros(  (EMBEDDING_DIM, ), dtype='float32')  # UNK
    return word_embedding.word_vectors[idx]
# ищем ближайшее слово
def get_closest_word(vec, number=5):
    # считаем косинусное расстояние от заданных векторов до всех векторов словаря
    dst = (np.dot(word_embedding.word_vectors, vec)
                   / np.linalg.norm(word_embedding.word_vectors, axis=1)
                   / np.linalg.norm(vec))
    word_ids = np.argsort(-dst) # сортируем по убыванию расстояния
    return [(word_embedding.inverse_dictionary[x], dst[x]) for x in word_ids[:number]
            if x in word_embedding.inverse_dictionary]

In [29]:
# Аналогии слов: woman+king-man=?
analogy_vec = get_embedding_vec('woman') + get_embedding_vec('king') - get_embedding_vec('man')
get_closest_word(analogy_vec)

[('king', 0.8859834623625933),
 ('queen', 0.8609581258578943),
 ('daughter', 0.768451180089547),
 ('prince', 0.764069959135472),
 ('throne', 0.7634970756412145)]

В этом примере опять queen лишь второе, а king первое. Чтобы избежать таких ситуаций сами слова, входящие в выражение не учитывают при поиске результата.  

In [30]:
# аналогии слов
def test_analogy(s='one two three four'):
    (a,b,c,d) = s.split(' ')
    analogy_vec = get_embedding_vec(b) - get_embedding_vec(a) + get_embedding_vec(c)
    words = [ w for (w,p) in get_closest_word(analogy_vec) if w not in (a,b,c)] # не учитываем слова из выражения
    print("'%s' is to '%s' as '%s' is to {%s}" % (a,b,c,', '.join(words)))

In [31]:
test_analogy('man woman king queen')
test_analogy('paris france rome italy')
test_analogy('kitten cat puppy dog')
test_analogy('understand understood run ran')

'man' is to 'woman' as 'king' is to {queen, daughter, prince, throne}
'paris' is to 'france' as 'rome' is to {italy, spain, portugal}
'kitten' is to 'cat' as 'puppy' is to {dog, rabbit, horse}
'understand' is to 'understood' as 'run' is to {ran, running, runs, twice}


Стало гораздо лучше! Попробуйте другие аналогии слов, найдите такие, которые не получаются в векторах.

# Векторные представления FastText
В предыдущих представлениях слово должно быть в словаре, чтобы можно было найти для него вектор. Но что делать, если слова нет в словаре? 

Зададимся вопросом, что такое слово? 

В векторном представлении "слово" это элемент словаря, а значит им может быть все что угодно: смайлики, картинки, знаки пунктуации, словосочетания и т.п.

Набор букв (символов) тоже может быть элементом словаря. А давайте все тексты разобьем на последовательности символов определенной длинны (их называют n-граммы) и будем создавать вектора для этих последовательностей.

Реальное слово можно представить несколькими такими n-граммами, объединим (сложим) вектора для них и получим вектор для настоящего слова.

Никто не запрещает иметь в словаре одновременно и настоящие слова и их n-граммы. 

Но это значит что для любого слова, которого даже нет в словаре, мы можем построить вектор из векторов его n-грамм. Такой подход реализован, например, в [FastText](https://amitness.com/2020/06/fasttext-embeddings/), доступна в библиотеке gensim (но ее нужно обновить и перезапустить тетрадку).

![img](https://amitness.com/images/fasttext-center-word-embedding.png)

In [33]:
!pip install --upgrade gensim

Collecting gensim
[?25l  Downloading https://files.pythonhosted.org/packages/44/52/f1417772965652d4ca6f901515debcd9d6c5430969e8c02ee7737e6de61c/gensim-4.0.1-cp37-cp37m-manylinux1_x86_64.whl (23.9MB)
[K     |████████████████████████████████| 23.9MB 111kB/s 
Installing collected packages: gensim
  Found existing installation: gensim 3.6.0
    Uninstalling gensim-3.6.0:
      Successfully uninstalled gensim-3.6.0
Successfully installed gensim-4.0.1


In [1]:
from gensim.models import fasttext
from gensim.test.utils import datapath

cap_path = datapath("crime-and-punishment.bin") # вектора полученные по какому-то тексту  

wv = fasttext.load_facebook_vectors(cap_path) # загружаем их

print('landlord' in wv.key_to_index)  # проверяем есть ли такое слово в словаре
print(wv['landlord'])  # его нет, а вектор для него можем построить


print('хотел' in wv.key_to_index)  # а это слово есть в словаре
print(wv['хотел']) # и конечно вектор его

False
[-0.05853396 -0.00144831  0.00096381  0.09085083  0.08532218]
True
[-0.00507655  0.03531152  0.0417647   0.02530364  0.01639834]




In [4]:
print(wv['абракадабра111___)))']) # даже для такой ерунды есть вектор

[-0.03246168  0.04171836  0.03426896  0.08179154  0.03010553]


Здесь текст для обучения был маленьким (отрывок из Войны и мира), поэтому аналогии слов не очень понятны, но работают. 

In [2]:
# похожие слова
similarities = wv.most_similar(positive=['time'])
print(similarities)

# не связанное слово
not_matching = wv.doesnt_match("human computer interface tree".split())
print(not_matching)

# похожесть слов
sim_score = wv.similarity('computer', 'human')
print(sim_score)

[('under', 0.990774393081665), ('нерешимости,', 0.9880985617637634), ('останавливаться', 0.9870225191116333), ('лестницей', 0.9839380383491516), ('чувствовал', 0.9788582921028137), ('лестницу.', 0.9766556620597839), ('самою', 0.975305438041687), ('время,', 0.9742954969406128), ('переулке,', 0.9740443229675293), ('жаркое', 0.9740228056907654)]
tree
0.9894072


In [5]:
wv.key_to_index # словарь

{'--': 17,
 '</s>': 8,
 'And': 99,
 'He': 21,
 'His': 130,
 'July': 60,
 'K.': 140,
 'On': 53,
 'Place': 133,
 'S.': 132,
 'The': 156,
 'a': 9,
 'afraid': 128,
 'an': 51,
 'and': 4,
 'as': 136,
 'ashamed.': 124,
 'attendance,': 101,
 'avoided': 143,
 'below,': 104,
 'bridge.': 141,
 'came': 145,
 'cupboard': 153,
 'debt': 126,
 'dinners,': 100,
 'door': 111,
 'each': 116,
 'early': 59,
 'evening': 58,
 'every': 105,
 'exceptionally': 54,
 'feel': 123,
 'feeling,': 120,
 'five-storied': 149,
 'floor': 103,
 'frightened': 119,
 'garret': 42,
 'garret,': 115,
 'had': 25,
 'he': 14,
 'her': 109,
 'her.': 129,
 'hesitation,': 138,
 'high,': 148,
 'him': 28,
 'his': 29,
 'hopelessly': 125,
 'hot': 57,
 'house': 150,
 'in': 10,
 'invariably': 112,
 'kitchen,': 110,
 'landlady': 30,
 'landlady,': 127,
 'like': 152,
 'lived': 102,
 'lodged': 131,
 'made': 121,
 'man': 37,
 'meeting': 27,
 'more': 151,
 'obliged': 107,
 'of': 15,
 'on': 20,
 'open.': 114,
 'out': 23,
 'pass': 108,
 'passed,': 11

# Заключение
Сегодня существует множество моделей для векторных представлений слов на разных языках. По похожему принципу строятся и векторные представления предложений и даже текстов целиком. Мы еще познакомимся с некоторыми примерами в этой области.

## Ссылки

Использованы и адаптированы материалы:

https://radimrehurek.com/gensim/index.html


https://medium.com/sciforce/word-vectors-in-natural-language-processing-global-vectors-glove-51339db89639


https://colab.research.google.com/github/mdda/deep-learning-workshop/blob/master/notebooks/5-RNN/3-Text-Corpus-and-Embeddings.ipynb#scrollTo=h-CQETk6HPmx


https://radimrehurek.com/gensim/models/fasttext.html 

https://amitness.com/2020/06/fasttext-embeddings/



