In [1]:
import sys
import gensim, logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)



## Работа с моделью

Для каких-то своих индивидуальных нужд и экспериментов бывает полезно самому натренировать модель на нужных данных и с нужными параметрами. Но для каких-то общих целей модели уже есть как для русского языка, так и для английского.

Модели для русского скачать можно здесь - http://rusvectores.org/ru/models

Скачаем модель для русского языка, созданную на основе НКРЯ. Поскольку модели бывают разных форматов, бывает полезно учитывать это в своем скрипте:

In [3]:
m = 'ruscorpora_mean_hs.model.bin'
if m.endswith('.vec.gz'):
    model = gensim.models.Word2Vec.load_word2vec_format(m, binary=False)
elif m.endswith('.bin'):
    model = gensim.models.KeyedVectors.load_word2vec_format(m, binary=True)
else:
    model = gensim.models.Word2Vec.load(m)

2018-03-05 14:40:54,327 : INFO : loading projection weights from ruscorpora_mean_hs.model.bin


2018-03-05 14:41:04,809 : INFO : loaded (281776, 300) matrix from ruscorpora_mean_hs.model.bin


In [4]:
model.init_sims(replace=True)

2018-03-05 14:41:04,817 : INFO : precomputing L2-norms of word weight vectors


Скажем, нам интересны такие слова (пример для русского языка):

In [9]:
words_new = ['начальник_S']

Частеречные тэги нужны, поскольку это специфика скачанной модели - она была натренирована на словах, аннотированных их частями речи (и лемматизированных).

Попросим у модели 10 ближайших соседей для каждого слова и коэффициент косинусной близости для каждого:

In [10]:
for word in words_new:
    # есть ли слово в модели? Может быть, и нет
    if word in model:
        print(word)
        # смотрим на вектор слова (его размерность 300, смотрим на первые 10 чисел)
        print(model[word][:10])
        # выдаем 10 ближайших соседей слова:
        for i in model.most_similar(positive=[word], topn=20):
            # слово + коэффициент косинусной близости
            print(i[0], i[1])
        print('\n')
    else:
        # Увы!
        print(word + ' is not present in the model')

начальник_S
[ 0.00141657 -0.08540501 -0.01739847  0.04126468 -0.01520346 -0.00201775
  0.00675521  0.08611108 -0.08708072 -0.08219937]
замначальник_S 0.6262379288673401
заведующий_S 0.5692601203918457
комендант_S 0.5626716017723083
дежурный_S 0.5406118035316467
инспектор_S 0.5218732357025146
шеф_S 0.5208274126052856
оперуполномоченный_S 0.4978322684764862
начальство_S 0.4953279197216034
руководитель_S 0.4885033369064331
командир_S 0.4845768213272095
разведуправление_S 0.48370814323425293
делопроизводитель_S 0.48230910301208496
заведовать_V 0.479209303855896
военком_S 0.4776104688644409
генерал-квартирмейстер_S 0.472171813249588
политчасть_S 0.47018593549728394
водораздельский_A 0.4695557653903961
полковник_S 0.46777814626693726
планово-производственный_A 0.4659891128540039
севкавокра_S 0.4646935760974884




Найди лишнее!

In [11]:
print(model.doesnt_match('говорить_V сказать_V писать_V удивляться_V'.split()))

удивляться_V
