<h1><center>Векторные представления слов</center></h1>



![w2v](https://cdn-images-1.medium.com/max/2600/1*sXNXYfAqfLUeiDXPCo130w.png)

Есть три сценария работы с векторными представлениями:
- Взять предобученную модель
- Обучить свою модель 
- Взять предобученную модель и дообучить ее


## Предобученные модели: RusVectōrēs


На сайте [RusVectōrēs](https://rusvectores.org/ru/) собраны предобученные на различных данных модели для русского языка, а также можно поискать наиболее близкие слова к заданному, посчитать семантическую близость нескольких слов и порешать примеры с помощью «калькулятора семантической близости».


Для других языков также можно найти предобученные модели — например, модели [fastText](https://fasttext.cc/docs/en/english-vectors.html) и [GloVe](https://nlp.stanford.edu/projects/glove/) (о них чуть дальше).

## Gensim

Использовать предобученную модель или обучить свою можно с помощью библиотеки `gensim`. Вот [ее документация](https://radimrehurek.com/gensim/models/word2vec.html).

### Как использовать готовую модель

Модели word2vec бывают разных форматов:

* .vec.gz — обычный текстовый файл 
* .bin.gz — бинарный файл

Загружаются они с помощью одного и того же класса `KeyedVectors`, меняется только параметр `binary` у функции `load_word2vec_format`. 

Если же векторы обучены **не** с помощью word2vec, то для загрузки нужно использовать функцию `load`. Т.е. для загрузки предобученных моделей *glove, fasttext, bpe* и любых других нужна именно она.

Скачаем с RusVectōrēs модель для русского языка, обученную на НКРЯ : https://rusvectores.org/ru/models/

In [2]:
import re
import gensim
import logging
import nltk.data 
import pandas as pd
from nltk.corpus import stopwords
from gensim.models import word2vec
from nltk.tokenize import sent_tokenize, RegexpTokenizer
# nltk.download('punkt')

In [3]:
!wget https://rusvectores.org/static/models/rusvectores2/ruscorpora_mystem_cbow_300_2_2015.bin.gz

--2022-05-12 10:14:03--  https://rusvectores.org/static/models/rusvectores2/ruscorpora_mystem_cbow_300_2_2015.bin.gz
Распознаётся rusvectores.org (rusvectores.org)… 116.203.104.23
Подключение к rusvectores.org (rusvectores.org)|116.203.104.23|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: 317128925 (302M) [application/x-gzip]
Сохранение в: «ruscorpora_mystem_cbow_300_2_2015.bin.gz»


2022-05-12 10:21:33 (700 KB/s) - «ruscorpora_mystem_cbow_300_2_2015.bin.gz» сохранён [317128925/317128925]



In [4]:
model_path = 'ruscorpora_mystem_cbow_300_2_2015.bin.gz'

model_ru = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)

In [5]:
words = ['день_S', 'ночь_S', 'человек_S', 'семантика_S', 'биткоин_S']

Частеречные тэги нужны, поскольку это специфика скачанной модели - она была натренирована на словах, аннотированных их частями речи (и лемматизированных). **Важно!** В названиях моделей на `rusvectores` указано, какой набор тегов они используют (mystem, upos и т.д.)

Попросим у модели 10 ближайших соседей для каждого слова и коэффициент косинусной близости для каждого:

In [6]:
for word in words:
    # есть ли слово в модели? 
    if word in model_ru:
        print(word)
        # выдаем 10 ближайших соседей слова:
        for word, sim in model_ru.most_similar(positive=[word], topn=10):
            # слово + коэффициент косинусной близости
            print(word, ': ', sim)
        print('\n')
    else:
        # Увы!
        print(f'Увы, слова "{word}" нет в модели!')

день_S
неделя_S :  0.7165195941925049
месяц_S :  0.6310489177703857
вечер_S :  0.5828738808631897
утро_S :  0.5676206946372986
час_S :  0.5605547428131104
минута_S :  0.5297019481658936
гекатомбеон_S :  0.4897990822792053
денек_S :  0.48224717378616333
полчаса_S :  0.48217129707336426
ночь_S :  0.478074848651886


ночь_S
вечер_S :  0.6946247816085815
утро_S :  0.5730193853378296
ноченька_S :  0.5582467317581177
рассвет_S :  0.555358350276947
ночка_S :  0.5351512432098389
полдень_S :  0.5334426760673523
полночь_S :  0.478694349527359
день_S :  0.4780748784542084
сумерки_S :  0.43902185559272766
фундерфун_S :  0.4340824782848358


человек_S
женщина_S :  0.5979775190353394
парень_S :  0.4991787374019623
мужчина_S :  0.4767409563064575
мужик_S :  0.47383999824523926
россиянин_S :  0.47190436720848083
народ_S :  0.4654741883277893
согражданин_S :  0.45378509163856506
горожанин_S :  0.44368088245391846
девушка_S :  0.443144828081131
иностранец_S :  0.43849870562553406


семантика_S
семантиче

In [6]:
model_ru['биткоин_S']

KeyError: "word 'биткоин_S' not in vocabulary"

Находим косинусную близость пары слов:

In [7]:
print(model_ru.similarity('человек_S', 'обезьяна_S'))

0.2389561


Построим аналогии: 
* *король: мужчина = королева: женщина* 
 $\Rightarrow$ 
* *король - мужчина + женщина = королева*


Что получится, если вычесть из пиццы Италию и прибавить Сибирь?

* positive — вектора, которые мы складываем
* negative — вектора, которые вычитаем

In [9]:
print(model_ru.most_similar(positive=['пицца_S', 'сибирь_S'], negative=['италия_S'])[0])

('пельмень_S', 0.3977898955345154)


In [10]:
model_ru.doesnt_match('пицца_S пельмень_S хот-дог_S ананас_S'.split())

'ананас_S'

## Предобученные модели: GloVe

Скачаем модель с сайта: https://nlp.stanford.edu/projects/glove/

In [11]:
! wget https://nlp.stanford.edu/data/glove.6B.zip

--2022-05-12 15:41:44--  https://nlp.stanford.edu/data/glove.6B.zip
Распознаётся nlp.stanford.edu (nlp.stanford.edu)… 171.64.67.140
Подключение к nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 301 Moved Permanently
Адрес: http://downloads.cs.stanford.edu/nlp/data/glove.6B.zip [переход]
--2022-05-12 15:41:46--  http://downloads.cs.stanford.edu/nlp/data/glove.6B.zip
Распознаётся downloads.cs.stanford.edu (downloads.cs.stanford.edu)… 171.64.64.22
Подключение к downloads.cs.stanford.edu (downloads.cs.stanford.edu)|171.64.64.22|:80... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: 862182613 (822M) [application/zip]
Сохранение в: «glove.6B.zip»


2022-05-12 15:59:49 (778 KB/s) - «glove.6B.zip» сохранён [862182613/862182613]



In [12]:
!unzip glove.6B.zip

Archive:  glove.6B.zip
  inflating: glove.6B.50d.txt        
  inflating: glove.6B.100d.txt       
  inflating: glove.6B.200d.txt       
  inflating: glove.6B.300d.txt       


In [15]:
! head -n 1 glove.6B.200d.txt

the -0.071549 0.093459 0.023738 -0.090339 0.056123 0.32547 -0.39796 -0.092139 0.061181 -0.1895 0.13061 0.14349 0.011479 0.38158 0.5403 -0.14088 0.24315 0.23036 -0.55339 0.048154 0.45662 3.2338 0.020199 0.049019 -0.014132 0.076017 -0.11527 0.2006 -0.077657 0.24328 0.16368 -0.34118 -0.06607 0.10152 0.038232 -0.17668 -0.88153 -0.33895 -0.035481 -0.55095 -0.016899 -0.43982 0.039004 0.40447 -0.2588 0.64594 0.26641 0.28009 -0.024625 0.63302 -0.317 0.10271 0.30886 0.097792 -0.38227 0.086552 0.047075 0.23511 -0.32127 -0.28538 0.1667 -0.0049707 -0.62714 -0.24904 0.29713 0.14379 -0.12325 -0.058178 -0.001029 -0.082126 0.36935 -0.00058442 0.34286 0.28426 -0.068599 0.65747 -0.029087 0.16184 0.073672 -0.30343 0.095733 -0.5286 -0.22898 0.064079 0.015218 0.34921 -0.4396 -0.43983 0.77515 -0.87767 -0.087504 0.39598 0.62362 -0.26211 -0.30539 -0.022964 0.30567 0.06766 0.15383 -0.11211 -0.09154 0.082562 0.16897 -0.032952 -0.28775 -0.2232 -0.090426 1.2407 -0.18244 -0.0075219 -0.041388 -0.011083 0.078186 0.3

In [19]:
import numpy as np

glove = {}
with open('glove.6B.200d.txt', 'r') as f:
    for line in f:
        word, embedding = line.split(' ',1)
        wordEmbedding = np.array([float(value) for value in embedding[1:].split(' ')])
        glove[word] = wordEmbedding

print(len(glove))

400000


In [20]:
len(glove['hello'])

200

## Предобученные модели: fastText

FastText использует не только векторы слов, но и векторы n-грам. В корпусе каждое слово автоматически представляется в виде набора символьных n-грамм. Скажем, если мы установим n=3, то вектор для слова "where" будет представлен суммой векторов следующих триграм: "<wh", "whe", "her", "ere", "re>" (где "<" и ">" символы, обозначающие начало и конец слова). Благодаря этому мы можем также получать вектора для слов, отсутствуюших в словаре, а также эффективно работать с текстами, содержащими ошибки и опечатки.

* [Статья](https://aclweb.org/anthology/Q17-1010)
* [Сайт](https://fasttext.cc/)
* [Руководство](https://fasttext.cc/docs/en/support.html)
* [Репозиторий](https://github.com/facebookresearch/fasttext)

Есть библиотека `fasttext` для питона (с готовыми моделями можно работать и через `gensim`).

На сайте проекта можно найти предобученные модели для 157 языков (в том числе русского): https://fasttext.cc/docs/en/crawl-vectors.html

In [None]:
import fasttext
import fasttext.util

fasttext.util.download_model('ru', if_exists='ignore')
ft = fasttext.load_model('cc.ru.300.bin')

Downloading https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ru.300.bin.gz


 (0.71%) [>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]                                                  ]>  

 (1.04%) [>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]]>

 (1.38%) [>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>  

 (1.59%) [>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]                                                  ]>                                                  ]>                                                  ]>                                                  ]>  

 (2.00%) [>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]>                                                  ]> 

 (2.35%) [=>                                                 ]>                                                  ]>                                                  ]>                                                  ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=> 

 (2.59%) [=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=

 (2.76%) [=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>

 (3.02%) [=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>  

 (3.26%) [=>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>  

 (3.43%) [=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>   

 (3.64%) [=>                                                 ]>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]                                                 ]]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>    

 (3.83%) [=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>   

 (4.18%) [==>                                                ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]                                                 ]]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=>                                                 ]=> 

 (4.62%) [==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]  

 (4.96%) [==>                                                ]==>                                                ]]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]=

 (5.19%) [==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==

 (5.41%) [==>                                                ]>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]                                                ]==>                                                ]>                                                ]==>         

 (5.61%) [==>                                                ]>                                                ]>                                                ]==>                                                ]                                                ]==>                                                ]                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]>                                                ]==>                                                ]==>             

 (5.87%) [==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]                                                ]>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]                                                ]==>                                                ]==>                                                ]==>       

 (6.06%) [===>                                               ]>                                                ]==>                                                ]]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>                                                ]==>

 (6.18%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]==

 (6.37%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>       

 (6.58%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]=

 (6.79%) [===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>    

 (7.06%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]==

 (7.25%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]]                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>          

 (7.54%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]==

 (7.70%) [===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===> 

 (7.88%) [===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]==

 (8.05%) [====>                                              ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>                                               ]===>    

 (8.25%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====> 

 (8.45%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]==

 (8.65%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]                                              ]====>                                              ]====>                                              ]>                  

 (8.90%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]==

 (9.06%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]==

 (9.30%) [====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====> 

 (9.57%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]                                              ]====>                                              ]====>                                              ]====>      

 (9.84%) [====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]==

 (10.02%) [=====>                                             ]===>                                              ]]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>                                              ]====>

 (10.28%) [=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====> 

 (10.50%) [=====>                                             ]=====>                                             ]=====>                                             ]]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]

 (10.64%) [=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=

 (10.87%) [=====>                                             ]=====>                                             ]=====>                                             ]>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]>                                             ]=====>                                             ]>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>          

 (11.16%) [=====>                                             ]                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]>                                             ]=====>     

 (11.45%) [=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=

 (11.65%) [=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]

 (11.84%) [=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]>                                             ]=====>                                             ]=====>                                             ]=====>                                             ]=====>















































































































































































































































































































































































































































































































































































































































































































































































































































































































In [None]:
! ls

In [18]:
ft['модель']

array([ 3.90226841e-02,  2.94893887e-02,  7.75389597e-02,  5.80755584e-02,
       -2.04796474e-02, -2.60778125e-02, -4.31554951e-02, -7.66336499e-03,
        7.35045224e-03,  8.39629862e-03, -3.03267990e-03,  6.59276769e-02,
        2.52222875e-03, -1.30695077e-02,  4.03538942e-02,  1.97116341e-02,
        7.49906823e-02,  3.26768160e-02, -1.30058741e-02,  5.22828884e-02,
        5.06116338e-02, -7.52337575e-02, -3.59434858e-02,  4.87469845e-02,
        1.21515250e-05,  2.44456176e-02, -6.05776981e-02,  3.70115340e-02,
        3.57847698e-02, -1.98335946e-02,  5.92223294e-02, -6.81746677e-02,
       -1.24129206e-02, -3.59787606e-02, -4.27804003e-03,  4.76003997e-02,
       -7.42428824e-02, -1.28765211e-01, -1.36825100e-01,  9.66134109e-03,
       -5.21074906e-02,  1.38343694e-02, -2.73327827e-02,  5.51195256e-02,
        2.06264984e-02,  5.95376752e-02,  2.22954024e-02,  7.45679426e-04,
       -5.00567667e-02,  4.27671038e-02, -2.68213451e-02,  1.15477806e-02,
       -2.37321910e-02,  

У fasttext есть все те же методы, что в gensim, но называются они иначе:

In [19]:
ft.get_nearest_neighbors('чай')

[(0.764227032661438, 'кофе'),
 (0.739784836769104, 'Чай'),
 (0.7071998119354248, 'чая'),
 (0.7018463015556335, 'чаи'),
 (0.6877091526985168, 'свежезаваренный'),
 (0.6864805221557617, 'напиток'),
 (0.6854358911514282, 'каркадэ'),
 (0.6772830486297607, 'чай.'),
 (0.667264461517334, 'чай-'),
 (0.6647352576255798, 'чаёк')]

In [20]:
ft.get_analogies("женщина", "мужчина", "актер")

[(0.8757159113883972, 'актриса'),
 (0.7068515419960022, 'артистка'),
 (0.694389820098877, 'киноактриса'),
 (0.6874823570251465, 'Актриса'),
 (0.6860095262527466, 'кинозвезда'),
 (0.6789741516113281, 'певица'),
 (0.6663230061531067, 'красавица-актриса'),
 (0.6603893637657166, 'актриса.'),
 (0.6569409966468811, 'Киноактриса'),
 (0.6488985419273376, 'актрисса')]

Важная особенность: так как модель обучена на символьных n-граммах, нет проблемы OOV (out of vocabulary) слов:

In [21]:
ft.get_nearest_neighbors('книжонка')

[(0.7441761493682861, 'книженция'),
 (0.7169104218482971, 'книжица'),
 (0.6966618895530701, 'брошюрка'),
 (0.6812918782234192, 'книжонку'),
 (0.6812120079994202, 'книжонок'),
 (0.6565592288970947, 'книжонки'),
 (0.6502901911735535, 'книжонке'),
 (0.6479876637458801, 'книжечка'),
 (0.6242943406105042, 'статейка'),
 (0.6214005351066589, 'книга-то')]

In [22]:
ft.get_nearest_neighbors('компютер')

[(0.7335842251777649, 'компъютер'),
 (0.7109572291374207, 'компютера'),
 (0.7098245024681091, 'компьютер'),
 (0.6971184015274048, 'компютерный'),
 (0.6874867081642151, 'копьютер'),
 (0.674636960029602, 'копм'),
 (0.6739663481712341, 'Компютер'),
 (0.6691707968711853, 'компутер'),
 (0.6670798063278198, 'компютеру'),
 (0.6656312346458435, 'комп')]

## Как обучить свою модель: word2vec

В качестве обучающих данных возьмем англоязычные отзывы о фильмах с сайта IMDB (данные взяты отсюда http://ai.stanford.edu/~amaas/data/sentiment/).

In [15]:
# если у вас линукс / мак / collab или ещё какая-то среда, в которой работает wget, можно так:
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1_QWwA3TmNu2T5tDqUUaCXsg9T78WADm-' -O imdb_data.csv

--2021-09-24 20:17:27--  https://docs.google.com/uc?export=download&id=1_QWwA3TmNu2T5tDqUUaCXsg9T78WADm-
Распознаётся docs.google.com (docs.google.com)… 173.194.220.194, 2a00:1450:4010:c1e::c2
Подключение к docs.google.com (docs.google.com)|173.194.220.194|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 302 Moved Temporarily
Адрес: https://doc-14-94-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/dets9b5rdm42m2vjhe6rhe3v4b06t3jk/1632503850000/10227726563468148216/*/1_QWwA3TmNu2T5tDqUUaCXsg9T78WADm-?e=download [переход]
Предупреждение: в HTTP маски не поддерживаются.
--2021-09-24 20:17:50--  https://doc-14-94-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/dets9b5rdm42m2vjhe6rhe3v4b06t3jk/1632503850000/10227726563468148216/*/1_QWwA3TmNu2T5tDqUUaCXsg9T78WADm-?e=download
Распознаётся doc-14-94-docs.googleusercontent.com (doc-14-94-docs.googleusercontent.com)… 74.125.131.132, 2a00:1450:4010:c02::84
Подключение к do

In [16]:
import pandas as pd

pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

In [18]:
data = pd.read_csv("imdb_data.csv")

len(data)

50000

In [25]:
data.head()

Unnamed: 0,review,sentiment
0,"One of the other reviewers has mentioned that after watching just 1 Oz episode you'll be hooked. They are right, as this is exactly what happened with me.<br /><br />The first thing that struck me about Oz was its brutality and unflinching scenes of violence, which set in right from the word GO. Trust me, this is not a show for the faint hearted or timid. This show pulls no punches with regards to drugs, sex or violence. Its is hardcore, in the classic use of the word.<br /><br />It is called OZ as that is the nickname given to the Oswald Maximum Security State Penitentary. It focuses mainly on Emerald City, an experimental section of the prison where all the cells have glass fronts and face inwards, so privacy is not high on the agenda. Em City is home to many..Aryans, Muslims, gangst...",positive
1,"A wonderful little production. <br /><br />The filming technique is very unassuming- very old-time-BBC fashion and gives a comforting, and sometimes discomforting, sense of realism to the entire piece. <br /><br />The actors are extremely well chosen- Michael Sheen not only ""has got all the polari"" but he has all the voices down pat too! You can truly see the seamless editing guided by the references to Williams' diary entries, not only is it well worth the watching but it is a terrificly written and performed piece. A masterful production about one of the great master's of comedy and his life. <br /><br />The realism really comes home with the little things: the fantasy of the guard which, rather than use the traditional 'dream' techniques remains solid then disappears. It plays on ou...",positive
2,"I thought this was a wonderful way to spend time on a too hot summer weekend, sitting in the air conditioned theater and watching a light-hearted comedy. The plot is simplistic, but the dialogue is witty and the characters are likable (even the well bread suspected serial killer). While some may be disappointed when they realize this is not Match Point 2: Risk Addiction, I thought it was proof that Woody Allen is still fully in control of the style many of us have grown to love.<br /><br />This was the most I'd laughed at one of Woody's comedies in years (dare I say a decade?). While I've never been impressed with Scarlet Johanson, in this she managed to tone down her ""sexy"" image and jumped right into a average, but spirited young woman.<br /><br />This may not be the crown jewel of h...",positive
3,"Basically there's a family where a little boy (Jake) thinks there's a zombie in his closet & his parents are fighting all the time.<br /><br />This movie is slower than a soap opera... and suddenly, Jake decides to become Rambo and kill the zombie.<br /><br />OK, first of all when you're going to make a film you must Decide if its a thriller or a drama! As a drama the movie is watchable. Parents are divorcing & arguing like in real life. And then we have Jake with his closet which totally ruins all the film! I expected to see a BOOGEYMAN similar movie, and instead i watched a drama with some meaningless thriller spots.<br /><br />3 out of 10 just for the well playing parents & descent dialogs. As for the shots with Jake: just ignore them.",negative
4,"Petter Mattei's ""Love in the Time of Money"" is a visually stunning film to watch. Mr. Mattei offers us a vivid portrait about human relations. This is a movie that seems to be telling us what money, power and success do to people in the different situations we encounter. <br /><br />This being a variation on the Arthur Schnitzler's play about the same theme, the director transfers the action to the present time New York where all these different characters meet and connect. Each one is connected in one way, or another to the next person, but no one seems to know the previous point of contact. Stylishly, the film has a sophisticated luxurious look. We are taken to see how these people live and the world they live in their own habitat.<br /><br />The only thing one gets out of all these ...",positive


Убираем из данных ссылки, html-разметку и небуквенные символы, а затем приведем все к нижнему регистру и токенизируем. На выходе получается массив из предложений, каждое из которых представляет собой массив слов. Здесь используется токенизатор из библиотеки `nltk`. 

In [26]:
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
from multiprocessing import Pool
import warnings
warnings.filterwarnings("ignore")

In [27]:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

In [28]:
def review_to_wordlist(review, remove_stopwords=False ):
    # убираем ссылки вне тегов
    review = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", " ", review)
    review_text = BeautifulSoup(review, "lxml").get_text()
    review_text = re.sub("[^a-zA-Z]"," ", review_text)
    words = review_text.lower().split()
    if remove_stopwords:
        stops = stopwords.words("english")
        words = [w for w in words if not w in stops]
    return(words)

def review_to_sentences(review, tokenizer=tokenizer, remove_stopwords=False):
    raw_sentences = tokenizer.tokenize(review.strip())
    sentences = []
    for raw_sentence in raw_sentences:
        if len(raw_sentence) > 0:
            sentences.append(review_to_wordlist(raw_sentence, remove_stopwords))
    return sentences

In [29]:
with Pool(4) as p:
    sentences = list(tqdm(p.imap(review_to_sentences, data["review"]), total=len(data)))

print(len(sentences))
print(*sentences[:3])

HBox(children=(FloatProgress(value=0.0, max=50000.0), HTML(value='')))


50000
[['one', 'of', 'the', 'other', 'reviewers', 'has', 'mentioned', 'that', 'after', 'watching', 'just', 'oz', 'episode', 'you', 'll', 'be', 'hooked'], ['they', 'are', 'right', 'as', 'this', 'is', 'exactly', 'what', 'happened', 'with', 'me', 'the', 'first', 'thing', 'that', 'struck', 'me', 'about', 'oz', 'was', 'its', 'brutality', 'and', 'unflinching', 'scenes', 'of', 'violence', 'which', 'set', 'in', 'right', 'from', 'the', 'word', 'go'], ['trust', 'me', 'this', 'is', 'not', 'a', 'show', 'for', 'the', 'faint', 'hearted', 'or', 'timid'], ['this', 'show', 'pulls', 'no', 'punches', 'with', 'regards', 'to', 'drugs', 'sex', 'or', 'violence'], ['its', 'is', 'hardcore', 'in', 'the', 'classic', 'use', 'of', 'the', 'word', 'it', 'is', 'called', 'oz', 'as', 'that', 'is', 'the', 'nickname', 'given', 'to', 'the', 'oswald', 'maximum', 'security', 'state', 'penitentary'], ['it', 'focuses', 'mainly', 'on', 'emerald', 'city', 'an', 'experimental', 'section', 'of', 'the', 'prison', 'where', 'all', 

In [30]:
flat_sentences = [item for sublist in sentences for item in sublist]
len(flat_sentences)

536641

In [31]:
# это понадобится нам позже для обучения модели fasttext

with open('clean_text.txt', 'w') as f:
    for s in flat_sentences:
        f.write(' '.join(s))
        f.write('\n')

Обучаем и сохраняем модель. 


Основные параметры:
* данные должны быть итерируемым объектом 
* size — размер вектора, 
* window — размер окна наблюдения,
* min_count — мин. частотность слова в корпусе,
* sg — используемый алгоритм обучения (0 — CBOW, 1 — Skip-gram),
* sample — порог для downsampling'a высокочастотных слов,
* workers — количество потоков,
* alpha — learning rate,
* iter — количество итераций,
* max_vocab_size — позволяет выставить ограничение по памяти при создании словаря (т.е. если ограничение превышается, то низкочастотные слова будут выбрасываться). Для сравнения: 10 млн слов = 1Гб RAM.

**Важно!** Обратите внимание, что тренировка модели не включает предобработку! Это значит, что избавляться от пунктуации, приводить слова к нижнему регистру, лемматизировать их, проставлять частеречные теги придется до тренировки модели (если, конечно, это необходимо для вашей задачи). Т.е. в каком виде слова будут в исходном тексте, в таком они будут и в модели.

In [32]:
print("Training model...")

%time model_en = word2vec.Word2Vec(flat_sentences, workers=4, size=300, min_count=10, window=10, sample=1e-3)

Training model...
CPU times: user 2min 38s, sys: 1.15 s, total: 2min 40s
Wall time: 46.4 s


Смотрим, сколько в модели слов.

In [33]:
print(len(model_en.wv.vocab))

27864


Попробуем оценить модель вручную, аналогично тому, как проверяли предобученные модели.

In [34]:
print(model_en.wv.most_similar(positive=["woman", "actor"], negative=["man"], topn=1))

[('actress', 0.7952963709831238)]


In [35]:
print(model_en.wv.most_similar(positive=["dogs", "man"], negative=["dog"], topn=1))

[('men', 0.5924724340438843)]


In [36]:
print(model_en.wv.most_similar("usa", topn=3))

[('europe', 0.7917618751525879), ('germany', 0.7751280665397644), ('canada', 0.774277925491333)]


In [37]:
print(model_en.wv.doesnt_match("comedy thriller western novel".split()))

novel


### Почему важно, на каких данных обучалась модель?

Посмотрим на ближайшие по смыслу слова к слову "star":
- в модели, обученной на обзорах фильмов
- в модели, обученной на Википедии

In [38]:
print(*model_en.wv.most_similar("star", topn=10), sep='\n')

('stars', 0.6092053651809692)
('hudson', 0.4575274586677551)
('singer', 0.446683406829834)
('stardom', 0.4426514506340027)
('fame', 0.4368395209312439)
('starred', 0.41369011998176575)
('studded', 0.4064015746116638)
('starring', 0.4028608202934265)
('tyrone', 0.4026487469673157)
('icon', 0.3995055556297302)


In [39]:
model_en.similarity('star', 'celebrity')

0.38832128

In [40]:
model_en.similarity('star', 'sky')

0.16640092

In [41]:
model_en.similarity('star', 'shine')

0.20186296

Скачаем предобученную модель fastText для английского:

In [42]:
import fasttext.util
#fasttext.util.download_model('en', if_exists='ignore') 

ft_eng = fasttext.load_model('cc.en.300.bin')



In [43]:
from sklearn.metrics.pairwise import cosine_similarity

In [44]:
cosine_similarity([ft_eng['star']], [ft_eng['celebrity']])

array([[0.44439566]], dtype=float32)

In [45]:
cosine_similarity([ft_eng['star']], [ft_eng['sky']])

array([[0.29363436]], dtype=float32)

In [46]:
cosine_similarity([ft_eng['star']], [ft_eng['shine']])

array([[0.26306346]], dtype=float32)

### Как дообучить существующую модель

При тренировке модели "с нуля" веса инициализируются случайно, однако можно использовать для инициализации векторов веса из предобученной модели, таким образом как бы дообучая ее.

Сначала посмотрим близость какой-нибудь пары слов в имеющейся модели, чтобы потом сравнить результат с дообученной.

In [47]:
model_en.wv.similarity('white', 'rabbit')

0.3138753

В качестве дополнительных данных для обучения возьмем английский текст «Алисы в Зазеркалье».

In [48]:
with open("alice.txt", 'r', encoding='utf-8') as f:
    text = f.read()

text = re.sub('\n', ' ', text)
sents = sent_tokenize(text)

punct = '!"#$%&()*+,-./:;<=>?@[\]^_`{|}~„“«»†*—/\-‘’'
clean_sents = []

for sent in sents:
    s = [w.lower().strip(punct) for w in sent.split()]
    clean_sents.append(s)
    
print(clean_sents[:2])

[['through', 'the', 'looking-glass', 'by', 'lewis', 'carroll', 'chapter', 'i', 'looking-glass', 'house', 'one', 'thing', 'was', 'certain', 'that', 'the', 'white', 'kitten', 'had', 'had', 'nothing', 'to', 'do', 'with', 'it', '', 'it', 'was', 'the', 'black', 'kitten’s', 'fault', 'entirely'], ['for', 'the', 'white', 'kitten', 'had', 'been', 'having', 'its', 'face', 'washed', 'by', 'the', 'old', 'cat', 'for', 'the', 'last', 'quarter', 'of', 'an', 'hour', 'and', 'bearing', 'it', 'pretty', 'well', 'considering', 'so', 'you', 'see', 'that', 'it', 'couldn’t', 'have', 'had', 'any', 'hand', 'in', 'the', 'mischief']]


Чтобы дообучить модель, надо сначала ее сохранить, а потом загрузить. Все параметры тренировки (размер вектора, мин. частота слова и т.п.) будут взяты из загруженной модели, т.е. задать их заново нельзя.

**NB!** Дообучить можно только полную модель, а `KeyedVectors` — нельзя. Поэтому сохранять модель нужно в соотвествующем формате. Подробнее о разнице [вот тут](https://radimrehurek.com/gensim/models/keyedvectors.html).

In [49]:
model_path = "movie_reviews.model"

print("Saving model...")
model_en.save(model_path)

Saving model...


In [50]:
model = word2vec.Word2Vec.load(model_path)

model.build_vocab(clean_sents, update=True)
model.train(clean_sents, total_examples=model.corpus_count, epochs=5)

(97278, 150225)

"Белый" и "кролик" стали ближе друг к другу!

In [51]:
model.wv.similarity('white', 'rabbit')

0.33047336

## Как обучить свою модель: fastText

Выше мы записали предобработанные данные IMDB в текстовый файл, теперь мы можем использовать его для обучения модели fastText.

In [52]:
import fasttext

# так можно обучить свою модель 
ft_model = fasttext.train_unsupervised('clean_text.txt', minn=3, maxn=4, dim=300)

In [53]:
ft_model.get_word_vector("movie")

array([ 0.10647972,  0.00348743,  0.00400553, -0.2220917 ,  0.02774876,
        0.28113014,  0.04588589, -0.00953584, -0.14305185,  0.06663238,
       -0.01932244,  0.06766095, -0.06964523, -0.00879823, -0.2754987 ,
        0.00865352, -0.02323557, -0.25205076, -0.12951218,  0.03342189,
        0.00371615, -0.05362495,  0.01820608,  0.1001416 , -0.00959393,
       -0.18463574,  0.3780635 , -0.02545302, -0.18444885,  0.12707062,
       -0.10905846,  0.16443293,  0.15409584, -0.11409819,  0.24385491,
       -0.00680395, -0.17201523, -0.11899467, -0.1555182 , -0.09888287,
       -0.0370929 ,  0.07110037, -0.18011254, -0.13228868,  0.06374579,
        0.11771804,  0.12609613, -0.0567237 ,  0.18499018,  0.1786773 ,
        0.14431344, -0.04145625, -0.05425412, -0.19320773, -0.00719959,
       -0.13159607, -0.15365084, -0.0127184 ,  0.0429236 , -0.0468537 ,
       -0.16655543,  0.14787091,  0.00640271,  0.10557158,  0.3033813 ,
        0.21118031,  0.0810559 , -0.15322076,  0.05768304,  0.03

In [54]:
ft_model.get_nearest_neighbors('actor')

[(0.6824725270271301, 'charactor'),
 (0.6627753973007202, 'ctor'),
 (0.6476548314094543, 'actors'),
 (0.630966067314148, 'tractor'),
 (0.5709237456321716, 'actress'),
 (0.5643734931945801, 'reactor'),
 (0.5564367771148682, 'benefactor'),
 (0.5310477018356323, 'hector'),
 (0.5144302845001221, 'contractor'),
 (0.5066649913787842, 'factor')]

In [55]:
ft_model.get_analogies("woman", "man", "actor")

[(0.6606210470199585, 'actress'),
 (0.5363813042640686, 'actresses'),
 (0.48164188861846924, 'ctor'),
 (0.4782077372074127, 'actors'),
 (0.46812912821769714, 'charactor'),
 (0.4576756954193115, 'seductress'),
 (0.4522528052330017, 'tractor'),
 (0.4366052448749542, 'hector'),
 (0.42155134677886963, 'womaniser'),
 (0.40410301089286804, 'abductor')]

OOV:

In [56]:
ft_model.get_nearest_neighbors('actr')

[(0.7510600090026855, 'actresses'),
 (0.747826099395752, 'actress'),
 (0.6713401675224304, 'actors'),
 (0.6301003098487854, 'actor'),
 (0.50783771276474, 'acting'),
 (0.4529079794883728, 'xd'),
 (0.4442768394947052, 'gzsz'),
 (0.44143927097320557, 'act'),
 (0.4292294681072235, 'acharya'),
 (0.42825278639793396, 'nb')]

In [57]:
ft_model.get_nearest_neighbors('moviegeek')

[(0.6236038208007812, 'eek'),
 (0.612317681312561, 'movie'),
 (0.5866702795028687, 'geek'),
 (0.5764365792274475, 'moviegoer'),
 (0.571036696434021, 'moviemaking'),
 (0.5661671161651611, 'movies'),
 (0.5481372475624084, 'creek'),
 (0.5346364974975586, 'moviegoers'),
 (0.5314581394195557, 'cq'),
 (0.5229887366294861, 'bwp')]

## Оценка

Мы научились обучать модели, научились загружать готовые, а как понять, какая модель лучше? Или вот, например, мы обучили модель, а как понять, насколько она хорошая? Рассмотрим два метода: с помощью метрик, основанных на подготовленных данных, и визуализации.

Для этого существуют специальные наборы данных для оценки качества дистрибутивных моделей. Основных два: один измеряет точность решения задач на аналогии (про Сибирь и пельмени), а второй используется для оценки коэффициента семантической близости. 

### Word Similarity

Этот метод заключается в том, чтобы оценить, насколько представления о семантической близости слов в модели соотносятся с "представлениями" людей.

| слово 1    | слово 2    | близость | 
|------------|------------|----------|
| кошка      | собака     | 0.7      |  
| чашка      | кружка     | 0.9      |       

Для каждой пары слов из заранее заданного набора данных мы можем посчитать косинусное расстояние, и получить список таких значений близости. При этом у нас уже есть список значений близостей, сделанный людьми. Мы можем сравнить эти два списка и понять, насколько они похожи (например, посчитав корреляцию). Эта мера схожести должна говорить о том, насколько модель хорошо моделирует расстояния до слова.

### Аналогии

Другая популярная задача для "внутренней" оценки называется задачей поиска аналогий. Как мы уже разбирали выше, с помощью простых арифметических операций мы можем модифицировать значение слова. Если заранее собрать набор слов-модификаторов, а также слов, которые мы хотим получить в результаты модификации, то на основе подсчёта количества "попаданий" в желаемое слово мы можем оценить, насколько хорошо работает модель.

В качестве слов-модификаторов мы можем использовать семантические аналогии. Скажем, если у нас есть некоторое отношение "страна-столица", то для оценки модели мы можем использовать пары наподобие "Россия-Москва", "Норвегия-Осло", и т.д. Набор данных будет выглядеть следующм образом:

| слово 1    | слово 2    | отношение     | 
|------------|------------|---------------|
| Россия     | Москва     | страна-столица|  
| Норвегия   | Осло       | страна-столица|

Рассматривая случайные две пары из этого набора, мы хотим, имея триплет (Россия, Москва, Норвегия) хотим получить слово "Осло", т.е. найти такое слово, которое будет находиться в том же отношении со словом "Норвегия", как "Россия" находится с Москвой. 

Данные для русского языка можно скачать на странице с моделями на RusVectores. Посчитаем качество нашей модели НКРЯ на датасете про аналогии:

In [58]:
res = model_ru.accuracy('ru_analogy_tagged.txt')

In [59]:
!less ru_analogy_tagged.txt

: capital-common-countries
афины_S греция_S багдад_S ирак_S
афины_S греция_S бангкок_S таиланд_S
афины_S греция_S пекин_S китай_S
афины_S греция_S берлин_S германия_S
афины_S греция_S берн_S швейцария_S
афины_S греция_S каир_S египет_S
афины_S греция_S канберра_S австралия_S
афины_S греция_S ханой_S вьетнам_S
афины_S греция_S гавана_S куба_S
афины_S греция_S хельсинки_S финляндия_S
афины_S греция_S исламабад_S пакистан_S
афины_S греция_S кабул_S афганистан_S
афины_S греция_S лондон_S англия_S
афины_S греция_S мадрид_S испания_S
афины_S греция_S москва_S россия_S
афины_S греция_S осло_S норвегия_S
афины_S греция_S оттава_S канада_S
афины_S греция_S париж_S франция_S
афины_S греция_S рим_S италия_S
афины_S греция_S стокгольм_S швеция_S
афины_S греция_S тегеран_S иран_S
афины_S греция_S токио_S япония_S
[Kбагдад_S ирак_S бангкок_S таиланд_S
:[K

In [60]:
print(res[4]['incorrect'][:10])

[('МАЛЬЧИК_S', 'ДЕВОЧКА_S', 'ДЕД_S', 'БАБКА_S'), ('МАЛЬЧИК_S', 'ДЕВОЧКА_S', 'КОРОЛЬ_S', 'КОРОЛЕВА_S'), ('МАЛЬЧИК_S', 'ДЕВОЧКА_S', 'ПРИНЦ_S', 'ПРИНЦЕССА_S'), ('МАЛЬЧИК_S', 'ДЕВОЧКА_S', 'ОТЧИМ_S', 'МАЧЕХА_S'), ('МАЛЬЧИК_S', 'ДЕВОЧКА_S', 'ПАСЫНОК_S', 'ПАДЧЕРИЦА_S'), ('БРАТ_S', 'СЕСТРА_S', 'ДЕД_S', 'БАБКА_S'), ('БРАТ_S', 'СЕСТРА_S', 'ОТЧИМ_S', 'МАЧЕХА_S'), ('БРАТ_S', 'СЕСТРА_S', 'ПАСЫНОК_S', 'ПАДЧЕРИЦА_S'), ('ПАПА_S', 'МАМА_S', 'ДЕД_S', 'БАБКА_S'), ('ПАПА_S', 'МАМА_S', 'ОТЧИМ_S', 'МАЧЕХА_S')]


In [61]:
print(model_ru.most_similar(positive=['мальчик_S', 'бабка_S'], negative=['девочка_S'])[0][0])

бабушка_S


In [62]:
len(res[4]['incorrect']), len(res[4]['correct'])

(88, 218)

## Визуализация

На полученную модель можно посмотреть, визуализировав ее, например, на плоскости.
### t-SNE

**t-SNE**  (*t-distributed Stochastic Neighbor Embedding*) — техника нелинейного снижения размерности и визуализации многомерных переменных. Она разработана специально для данных высокой размерности Л. ван дер Маатеном и Д. Хинтоном, [вот их статья](http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf). t-SNE — это итеративный алгоритм, основанный на вычислении попарных расстояний между всеми объектами (в том числе поэтому он довольно медленный).


Изобразим на плоскости 1000 самых частотных слов из коллекции текстов про кино:

In [63]:
model_path = "movie_reviews.model"

model = word2vec.Word2Vec.load(model_path)

In [64]:
from nltk import FreqDist
from tqdm import tqdm_notebook as tqdm
from sklearn.manifold import TSNE

top_words = []


fd = FreqDist()
for s in tqdm(flat_sentences):
    fd.update(s)

for w in fd.most_common(1000):
    top_words.append(w[0])
    
print(top_words[:50:])
top_words_vec = model[top_words]

HBox(children=(FloatProgress(value=0.0, max=536641.0), HTML(value='')))


['the', 'and', 'a', 'of', 'to', 'is', 'it', 'in', 'i', 'this', 'that', 's', 'was', 'as', 'movie', 'for', 'with', 'but', 'film', 'you', 't', 'on', 'not', 'he', 'are', 'his', 'have', 'one', 'be', 'all', 'at', 'they', 'by', 'an', 'who', 'so', 'from', 'like', 'there', 'or', 'just', 'her', 'out', 'about', 'if', 'has', 'what', 'some', 'good', 'can']


In [65]:
%%time
tsne = TSNE(n_components=2, random_state=0)
top_words_tsne = tsne.fit_transform(top_words_vec)

CPU times: user 26.9 s, sys: 379 ms, total: 27.3 s
Wall time: 4.19 s


In [66]:
from bokeh.models import ColumnDataSource, LabelSet
from bokeh.plotting import figure, show, output_file
from bokeh.io import output_notebook
output_notebook()

p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words)")

source = ColumnDataSource(data=dict(x1=top_words_tsne[:,0],
                                    x2=top_words_tsne[:,1],
                                    names=top_words))

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)

show(p)

Чтобы вычислить преобразование t-SNE быстрее (и иногда еще и эффективнее), можно сперва снизить размерность исходных данных с помощью, например, SVD, и потом применять t-SNE:

In [67]:
from sklearn.decomposition import TruncatedSVD

svd_50 = TruncatedSVD(n_components=50)
top_words_vec_50 = svd_50.fit_transform(top_words_vec)
top_words_tsne2 = TSNE(n_components=2, random_state=0).fit_transform(top_words_vec_50)

In [68]:
output_notebook()

p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words, +SVD)")

source = ColumnDataSource(data=dict(x1=top_words_tsne2[:,0],
                                    x2=top_words_tsne2[:,1],
                                    names=top_words))

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)

show(p)