# Импорты библиотек

In [1]:
from utils import get_list_gloss_dict, define_part_of_speech, \
                download_model_rusvectores, load_model, get_word_vector
import pymorphy2
import wget
import zipfile
import gensim

# Загрузка модели

In [2]:
# скачиваем и распаковываем zip с моделью
# на вход подаем id модели с сайта
# http://vectors.nlpl.eu/repository/#

# локальный путь до модели
model_path = download_model_rusvectores(model_id=180)

Model is downloaded already


In [3]:
# добавляем название модели в путь
model_path = f"{model_path}/model.bin"

# загрузка модели
model = load_model(model_path)

# Подготовка словаря глоссов

Части речи в модели с id=180:
- NOUN - существительное
- VERB - глагол
- ADJ - прилагательное
- ADV - наречие
- NUM - числительное


In [4]:
# загружаем словарь глоссов
dict_lst = get_list_gloss_dict()

In [5]:
# определяем часть речи для слов из словаря
# https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html
# обозначение частей речи из pymorphy2 приведены к частям речи из модели
dict_with_part = define_part_of_speech(dict_lst)

In [6]:
# количество слов в словаре, которое определилось
# как None и как часть речи
none_cnt = 0
not_none_cnt = 0
for k, v in dict_with_part.items():
    if v is None:
        none_cnt += 1
    else:
        not_none_cnt += 1
        
print("Слов с частью речи:", not_none_cnt)
print("Слов без части речи:", none_cnt)

Слов с частью речи: 1462
Слов без части речи: 134


# Получение векторов

In [10]:
# получение векторов для словаря глоссов
dict_word_vector = dict() # для хранения пары глосс: вектор
not_in_model = [] # для слов, которые не нашлись в модели

for word, part in dict_with_part.items():
    if part is not None:
        try:
            dict_word_vector[word] = get_word_vector(model, word, part)
        except:
            not_in_model.append(word)

print("Слов с векторным представлением:", len(dict_word_vector))
print("Слов, которых не нашлось в модели:", len(not_in_model))

Слов с векторным представлением: 1315
Слов, которых не нашлось в модели: 147


In [8]:
not_in_model

['10',
 '2',
 '20',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'а',
 'адрес/улица',
 'б',
 'без',
 'будто',
 'бы',
 'в',
 'ведь',
 'вероятно',
 'весь',
 'вместо',
 'внутри',
 'водоплавающий',
 'вокруг',
 'вот',
 'впрочем',
 'все',
 'г',
 'гавканье',
 'горазд',
 'группа/компания',
 'д',
 'да',
 'даже',
 'дистресс',
 'для',
 'до',
 'е',
 'если/или',
 'ж',
 'же',
 'за',
 'здесь/тут',
 'здравствуйте',
 'значит',
 'и',
 'из',
 'из-за',
 'известно',
 'именно',
 'к',
 'как',
 'класс/кабинет/комната',
 'км',
 'когда',
 'конечно',
 'кроме',
 'кстати',
 'куда',
 'л',
 'ленность',
 'ли',
 'либо',
 'лицензия/регистрация',
 'лишь',
 'м',
 'между',
 'мой/наш',
 'н',
 'на',
 'наверное',
 'над',
 'например',
 'не',
 'необходимо',
 'нераскрашенный',
 'ни',
 'нибыть',
 'но',
 'ну',
 'нужно',
 'о',
 'обманчивость',
 'обязательный/должный',
 'однако',
 'около',
 'от',
 'ответ/сказать',
 'откусывание',
 'п',
 'перед',
 'по',
 'под',
 'подобно',
 'после',
 'правда',
 'прежде',
 'при',
 'пример/казаться',
 '

In [42]:
model['значит_VERB']

array([ 1.9276414 , -0.6844416 , -0.27474856,  0.45247838, -0.31038246,
        0.52518904,  0.828711  ,  0.43487453, -0.38853338, -1.0630707 ,
        0.4774275 ,  0.5838506 , -0.7093304 , -0.11873683, -0.93342644,
        0.5652327 , -0.769728  , -1.2070237 ,  0.04328648, -0.04158301,
        1.4234709 ,  1.1682751 ,  0.32452816, -0.7679739 ,  0.909158  ,
       -0.09659468, -0.0879993 ,  0.70973927,  0.2644942 , -1.1143609 ,
        0.12172311,  0.8900971 , -0.29082006, -0.77720135, -1.1840255 ,
        0.22059953,  1.1235964 ,  0.81884366, -0.1674599 , -0.26487085,
       -0.7963036 , -1.4036188 ,  0.3475212 ,  0.5929433 ,  1.8302003 ,
        0.71322864,  1.064116  , -0.3248743 ,  0.01040979, -0.06713449,
       -0.05317435,  0.6815318 ,  0.36537296,  1.1571283 ,  0.41032696,
        0.1558528 ,  1.4839722 , -0.18195537,  1.7745606 ,  0.13641882,
       -0.79081273, -0.5780596 ,  0.8216932 ,  0.531445  ,  0.6531267 ,
        0.5577869 , -0.41889322,  0.23624106,  0.14817184, -0.83

In [48]:
pymorphy2.MorphAnalyzer(lang='ru').parse('обманчивость')

[Parse(word='обманчивость', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='обманчивость', score=0.5, methods_stack=((DictionaryAnalyzer(), 'обманчивость', 13, 0),)),
 Parse(word='обманчивость', tag=OpencorporaTag('NOUN,inan,femn sing,accs'), normal_form='обманчивость', score=0.5, methods_stack=((DictionaryAnalyzer(), 'обманчивость', 13, 3),))]

# Поиск похожего слова

Дальше не готово

In [16]:
# входное слово
input_word = {"word": "скрытный",
             "part_of_speech": "ADJ"}

In [17]:
if input_word['word'] in dict_word_vector:
    print("Слово есть в словаре")
else:
    try:
        input_word["vector"] = get_word_vector(model, 
                                               input_word['word'], 
                                               input_word['part_of_speech'])
    except:
        print("Слова нет в модели")
print(input_word)

{'word': 'скрытный', 'part_of_speech': 'ADJ', 'vector': array([-1.18764974e-02,  2.01013994e+00, -6.36601001e-02,  1.18739665e+00,
       -2.21029329e+00,  6.22732401e-01,  1.28004253e-01, -3.92130703e-01,
       -9.34103251e-01,  2.94004321e-01, -8.30500007e-01, -1.67595589e+00,
       -6.83406591e-01,  8.45585108e-01,  1.01534402e+00, -5.86717844e-01,
        1.36438632e+00,  2.69118118e+00, -6.77196801e-01, -1.26798415e+00,
       -1.95638135e-01, -1.34690273e+00, -5.30498743e-01, -7.24628568e-01,
        2.38946700e+00,  5.82580984e-01,  1.12643492e+00, -6.93647981e-01,
        4.32920307e-02,  1.37750041e+00, -5.86926639e-01, -1.54446244e+00,
        1.94281125e+00, -2.85727382e-01, -1.33169925e+00, -1.49185479e+00,
       -1.99388933e+00, -2.39723310e-01,  4.54890490e-01,  4.91910756e-01,
        1.41862464e+00, -9.20711279e-01,  1.39240730e+00, -2.07059622e-01,
        6.82412684e-01,  5.70577025e-01, -1.02197528e+00,  6.53450012e-01,
       -1.98645127e+00, -7.92010427e-01, -1.

In [29]:
# отбираем в словаре все слова той же части речи
according_part = {k: v for k, v in dict_with_part.items() if str(v) == input_word['part_of_speech']}

In [11]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cos_sim = cosine_similarity([nums1], [nums2])[0][0]