# Импорты библиотек

In [50]:
from utils import get_list_gloss_dict, define_part_of_speech, \
                download_model_rusvectores, load_model, get_word_vector
import pymorphy2
import wget
import zipfile
import gensim

from numpy import dot
from numpy.linalg import norm

# Загрузка модели

In [2]:
# скачиваем и распаковываем zip с моделью
# на вход подаем id модели с сайта
# http://vectors.nlpl.eu/repository/#

# локальный путь до модели
model_path = download_model_rusvectores(model_id=180)

Model is downloaded already


In [3]:
# добавляем название модели в путь
model_path = f"{model_path}/model.bin"

# загрузка модели
model = load_model(model_path)

# Подготовка словаря глоссов

Части речи в модели с id=180:
- NOUN - существительное
- VERB - глагол
- ADJ - прилагательное
- ADV - наречие
- NUM - числительное


In [4]:
# загружаем словарь глоссов
dict_lst = get_list_gloss_dict()

In [5]:
# определяем часть речи для слов из словаря
# https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html
# обозначение частей речи из pymorphy2 приведены к частям речи из модели
dict_with_part = define_part_of_speech(dict_lst)

In [6]:
# количество слов в словаре, которое определилось
# как None и как часть речи
none_cnt = 0
not_none_cnt = 0
for k, v in dict_with_part.items():
    if v is None:
        none_cnt += 1
    else:
        not_none_cnt += 1
        
print("Слов с частью речи:", not_none_cnt)
print("Слов без части речи:", none_cnt)

Слов с частью речи: 1462
Слов без части речи: 134


# Получение векторов

In [10]:
# получение векторов для словаря глоссов
dict_word_vector = dict() # для хранения пары глосс: вектор
not_in_model = [] # для слов, которые не нашлись в модели

for word, part in dict_with_part.items():
    if part is not None:
        try:
            dict_word_vector[word] = get_word_vector(model, word, part)
        except:
            not_in_model.append(word)

print("Слов с векторным представлением:", len(dict_word_vector))
print("Слов, которых не нашлось в модели:", len(not_in_model))

Слов с векторным представлением: 1315
Слов, которых не нашлось в модели: 147


In [34]:
not_in_model

['10',
 '2',
 '20',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'а',
 'адрес/улица',
 'б',
 'без',
 'будто',
 'бы',
 'в',
 'ведь',
 'вероятно',
 'весь',
 'вместо',
 'внутри',
 'водоплавающий',
 'вокруг',
 'вот',
 'впрочем',
 'все',
 'г',
 'гавканье',
 'горазд',
 'группа/компания',
 'д',
 'да',
 'даже',
 'дистресс',
 'для',
 'до',
 'е',
 'если/или',
 'ж',
 'же',
 'за',
 'здесь/тут',
 'здравствуйте',
 'значит',
 'и',
 'из',
 'из-за',
 'известно',
 'именно',
 'к',
 'как',
 'класс/кабинет/комната',
 'км',
 'когда',
 'конечно',
 'кроме',
 'кстати',
 'куда',
 'л',
 'ленность',
 'ли',
 'либо',
 'лицензия/регистрация',
 'лишь',
 'м',
 'между',
 'мой/наш',
 'н',
 'на',
 'наверное',
 'над',
 'например',
 'не',
 'необходимо',
 'нераскрашенный',
 'ни',
 'нибыть',
 'но',
 'ну',
 'нужно',
 'о',
 'обманчивость',
 'обязательный/должный',
 'однако',
 'около',
 'от',
 'ответ/сказать',
 'откусывание',
 'п',
 'перед',
 'по',
 'под',
 'подобно',
 'после',
 'правда',
 'прежде',
 'при',
 'пример/казаться',
 '

In [37]:
model['кот_NOUN']

array([ 1.1391627e+00,  1.4767088e+00,  1.3636240e-01, -1.7756854e-01,
        9.6283734e-01, -3.3228356e-01, -3.2342744e-01, -2.1869073e+00,
        1.7392296e+00, -1.4195982e-01, -2.0983100e-01,  1.2536595e+00,
        1.6954955e-01,  1.7546435e-01,  5.6056488e-01, -1.2542830e+00,
       -1.7696638e+00, -6.8454581e-01, -9.8181409e-01,  1.0044917e+00,
       -2.2777457e+00,  7.7885824e-01,  1.1132251e+00,  2.5260478e-01,
        3.3887658e-02,  3.7296672e+00,  1.6522752e+00,  2.7220662e+00,
       -3.6900401e-01, -4.9925187e-01, -1.7408136e+00, -1.6693200e+00,
       -1.4383541e+00,  2.9847997e-01, -1.1380773e+00, -2.7712729e+00,
       -1.3632780e+00, -8.1886731e-02,  8.6836106e-01,  9.3677127e-01,
       -2.1554728e+00,  2.8527894e+00, -3.2131973e-01,  7.2689337e-01,
        1.3854561e+00,  1.6982088e+00,  1.2007028e+00,  9.0287930e-01,
       -5.3344481e-02, -2.1156247e+00, -9.1547638e-01, -3.7894330e+00,
        8.5169637e-01, -5.1680785e-01, -7.4358457e-01,  7.8974649e-02,
      

In [35]:
pymorphy2.MorphAnalyzer(lang='ru').parse('я')

[Parse(word='я', tag=OpencorporaTag('NPRO,1per sing,nomn'), normal_form='я', score=1.0, methods_stack=((DictionaryAnalyzer(), 'я', 3246, 0),))]

# Поиск похожего слова

In [16]:
# входное слово
input_word = {"word": "скрытный",
             "part_of_speech": "ADJ"}

In [17]:
if input_word['word'] in dict_word_vector:
    print("Слово есть в словаре")
else:
    try:
        input_word["vector"] = get_word_vector(model, 
                                               input_word['word'], 
                                               input_word['part_of_speech'])
    except:
        print("Слова нет в модели")
print(input_word)

{'word': 'скрытный', 'part_of_speech': 'ADJ', 'vector': array([-1.18764974e-02,  2.01013994e+00, -6.36601001e-02,  1.18739665e+00,
       -2.21029329e+00,  6.22732401e-01,  1.28004253e-01, -3.92130703e-01,
       -9.34103251e-01,  2.94004321e-01, -8.30500007e-01, -1.67595589e+00,
       -6.83406591e-01,  8.45585108e-01,  1.01534402e+00, -5.86717844e-01,
        1.36438632e+00,  2.69118118e+00, -6.77196801e-01, -1.26798415e+00,
       -1.95638135e-01, -1.34690273e+00, -5.30498743e-01, -7.24628568e-01,
        2.38946700e+00,  5.82580984e-01,  1.12643492e+00, -6.93647981e-01,
        4.32920307e-02,  1.37750041e+00, -5.86926639e-01, -1.54446244e+00,
        1.94281125e+00, -2.85727382e-01, -1.33169925e+00, -1.49185479e+00,
       -1.99388933e+00, -2.39723310e-01,  4.54890490e-01,  4.91910756e-01,
        1.41862464e+00, -9.20711279e-01,  1.39240730e+00, -2.07059622e-01,
        6.82412684e-01,  5.70577025e-01, -1.02197528e+00,  6.53450012e-01,
       -1.98645127e+00, -7.92010427e-01, -1.

In [51]:
# расчет косинусного расстояния
# между входным словом и словарем
similarity_lst = []

for word, vector in dict_word_vector.items():
    cos_sim = dot(input_word['vector'], 
                  vector)\
              / (norm(input_word['vector']) * norm(vector))
    similarity_lst.append((word, cos_sim))

In [58]:
sorted(similarity_lst, key=lambda x: x[1], reverse=True)[0: 10]

[('осторожный', 0.4906771),
 ('застенчивый', 0.43459475),
 ('ревнивый', 0.3990287),
 ('дружелюбный', 0.38437605),
 ('трусливый', 0.37427235),
 ('подозревать', 0.34695727),
 ('тщеславный', 0.32593945),
 ('угрюмый', 0.32156175),
 ('высокомерный', 0.321469),
 ('беспокойный', 0.3188924)]