In [1]:
import pickle
import nltk
import gensim

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem.snowball import RussianStemmer

In [2]:
with open('comments.list', 'rb') as file:
    comments = pickle.load(file)

In [3]:
len(comments)

300000

In [4]:
comments[:5]

['Почему кривые, если площадей нема',
 'Никто - это одно слово, а не два.',
 'Примерно треть людей в нашем городе (областном центре) получают ниже 15тр... И я не работаю пом.маш. но вкурсе зарплат.',
 'Так девяностые, блин, сплошная сказка. Там не катило в одном ключе.\xa0 Проснулся - страны нет, заснул - еще хуже. Чего один Горбачев стоил. Я его взахлеб слушал. И ни одной фразы, смысла, не понимал.',
 'Где в видео сказано, что он ее выгуливал?']

In [5]:
stopwords.words('russian')

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [6]:
len(stopwords.words('russian'))

151

In [7]:
stop_words = set(stopwords.words('russian'))

In [8]:
print(f'Original comments: {comments[1]}')
print(f'After tokenize: {word_tokenize(comments[1])}')

Original comments: Никто - это одно слово, а не два.
After tokenize: ['Никто', '-', 'это', 'одно', 'слово', ',', 'а', 'не', 'два', '.']


In [9]:
stemmer = RussianStemmer()

print(f"комментировать: {stemmer.stem('комментировать')}")
print(f"собаки: {stemmer.stem('собаки')}")
print(f"красное: {stemmer.stem('красное')}")

комментировать: комментирова
собаки: собак
красное: красн


In [10]:
def preprocess(comment):
    comment = comment.lower()
    tokens = word_tokenize(comment)
    tokens = [stemmer.stem(t) for t in tokens if t.isalpha() and t not in stop_words]
    
    return tokens

In [11]:
comments = [preprocess(com) for com in comments]

In [12]:
comments[:5]

[['поч', 'крив', 'площад', 'нем'],
 ['никт', 'эт', 'одн', 'слов'],
 ['примерн',
  'трет',
  'люд',
  'наш',
  'город',
  'областн',
  'центр',
  'получа',
  'ниж',
  'работа',
  'вкурс',
  'зарплат'],
 ['девян',
  'блин',
  'сплошн',
  'сказк',
  'кат',
  'одн',
  'ключ',
  'проснул',
  'стран',
  'заснул',
  'хуж',
  'горбач',
  'сто',
  'взахлеб',
  'слуша',
  'одн',
  'фраз',
  'смысл',
  'понима'],
 ['виде', 'сказа', 'выгулива']]

In [13]:
model = gensim.models.Word2Vec(comments,
                               vector_size=50,
                               window=5,
                               min_count=5,
                               sg=1,
                               epochs=50,
                               workers=4)

In [14]:
model.save('comments_model.w2v')

In [15]:
vocab_len = len(model.wv)

In [16]:
vocab_len

35950

In [17]:
model.wv.key_to_index

{'эт': 0,
 'так': 1,
 'котор': 2,
 'прост': 3,
 'сво': 4,
 'сам': 5,
 'друг': 6,
 'люд': 7,
 'ещ': 8,
 'одн': 9,
 'все': 10,
 'говор': 11,
 'очен': 12,
 'лет': 13,
 'вообщ': 14,
 'человек': 15,
 'год': 16,
 'дела': 17,
 'нужн': 18,
 'работа': 19,
 'дел': 20,
 'дума': 21,
 'перв': 22,
 'стран': 23,
 'пост': 24,
 'сдела': 25,
 'люб': 26,
 'хот': 27,
 'мо': 28,
 'дом': 29,
 'ваш': 30,
 'как': 31,
 'врем': 32,
 'работ': 33,
 'сказа': 34,
 'жизн': 35,
 'поч': 36,
 'кажд': 37,
 'прав': 38,
 'вопрос': 39,
 'понима': 40,
 'сто': 41,
 'слов': 42,
 'случа': 43,
 'теб': 44,
 'мест': 45,
 'нормальн': 46,
 'имен': 47,
 'част': 48,
 'зна': 49,
 'пок': 50,
 'наш': 51,
 'мог': 52,
 'нов': 53,
 'хорош': 54,
 'росс': 55,
 'всем': 56,
 'спасиб': 57,
 'вид': 58,
 'счита': 59,
 'прям': 60,
 'интересн': 61,
 'поня': 62,
 'получ': 63,
 'возможн': 64,
 'больш': 65,
 'нача': 66,
 'должн': 67,
 'никак': 68,
 'дет': 69,
 'обычн': 70,
 'написа': 71,
 'тво': 72,
 'сраз': 73,
 'стал': 74,
 'скор': 75,
 'деньг': 76,

In [18]:
model.wv.get_vecattr

<bound method KeyedVectors.get_vecattr of <gensim.models.keyedvectors.KeyedVectors object at 0x000002869618C640>>

In [19]:
model.wv.get_vecattr('собак', "count")

1677

In [20]:
model.wv.key_to_index["собак"]

315

In [21]:
model.wv.get_vector("собак")

array([-0.10785249, -0.00212853,  0.5673821 , -0.40320224,  0.14452922,
       -0.37837213, -0.15527286,  0.2951656 , -0.03641016, -0.19264531,
       -0.14172219, -0.14878874, -0.287797  , -0.02130985, -0.6293869 ,
        0.07289456, -0.46800932,  0.15994641, -0.15642822, -0.3878828 ,
        0.505546  ,  0.570377  , -0.2306776 , -0.20738272,  0.15438837,
       -0.08031824,  0.24036188,  0.2656124 , -0.42721322, -0.5130897 ,
       -0.35005322,  0.25535795, -0.3407191 ,  0.8336732 , -0.5095332 ,
        0.22559236,  0.8349447 ,  0.5325182 , -0.22835043, -0.02560134,
       -0.1449852 ,  0.11065436, -0.40769476,  0.6076557 ,  0.6883119 ,
        0.24928242,  0.2501388 , -0.27534127, -0.2167909 ,  0.47631988],
      dtype=float32)

In [22]:
model.wv.get_vector("котор")

array([-0.41837043,  0.23004612, -0.2184741 , -0.1258736 ,  0.0844436 ,
       -0.18948734, -0.04385142,  0.06924257, -0.04813538, -0.12773426,
        0.04927405, -0.22486816, -0.11043861, -0.08093287, -0.00130684,
       -0.03636529,  0.35267755,  0.09842736, -0.32280958, -0.11158999,
        0.02119992,  0.02338772,  0.41539875, -0.18397969,  0.22978285,
        0.15106645,  0.00912379,  0.31177053, -0.11285602, -0.27070907,
        0.12615868, -0.07620572, -0.04240578, -0.01886417,  0.00669988,
        0.10778237,  0.14432599,  0.16658702,  0.01348088,  0.04649904,
       -0.07788767, -0.09226615,  0.02789954,  0.12935218,  0.5381025 ,
        0.02063998,  0.3153489 , -0.02156573,  0.35177967,  0.333705  ],
      dtype=float32)

In [23]:
model.wv.most_similar(positive=stemmer.stem('аналитик'), topn=5)

[('политолог', 0.7261691093444824),
 ('методолог', 0.7161023616790771),
 ('программист', 0.6830675601959229),
 ('тестировщик', 0.6493881344795227),
 ('кремлебот', 0.6444650292396545)]

In [24]:
model.wv.most_similar(positive=stemmer.stem('автомобиль'), topn=5)

[('авт', 0.8892229795455933),
 ('машин', 0.8205527663230896),
 ('автомоб', 0.7825751900672913),
 ('нив', 0.7639012336730957),
 ('легков', 0.7620694637298584)]

In [25]:
model.wv.most_similar(positive=stemmer.stem('компьютер'), topn=5)

[('комп', 0.7809277176856995),
 ('смартфон', 0.7648018598556519),
 ('звонилк', 0.7528089284896851),
 ('ноутбук', 0.7272303104400635),
 ('устройств', 0.7211797833442688)]

In [26]:
model.wv.most_similar(positive=[stemmer.stem('модератор'), stemmer.stem('добро')], negative=[stemmer.stem('зло')], topn=3)

[('мультиаккаунт', 0.7286704778671265),
 ('supportcommunity', 0.705237627029419),
 ('admin', 0.6745316386222839)]

In [27]:
model.wv.most_similar(positive=[stemmer.stem('дети'), stemmer.stem('большой')], negative=[stemmer.stem('маленький')], topn=3)

[('родител', 0.6951695084571838),
 ('воспитыва', 0.6782867312431335),
 ('жертвен', 0.6531750559806824)]

In [28]:
model.wv.doesnt_match([stemmer.stem('капуста'),
                       stemmer.stem('помидор'),
                       stemmer.stem('кабачок'),
                       stemmer.stem('яблоко')])

'яблок'

In [29]:
model.wv.doesnt_match([stemmer.stem('пользователь'),
                       stemmer.stem('модератор'),
                       stemmer.stem('админ'),
                       stemmer.stem('человек'),
                       stemmer.stem('пикабушник')])

'человек'

In [30]:
model.wv.most_similar_to_given(stemmer.stem('пикабушника'),   [stemmer.stem('добрый'),
                                                           stemmer.stem('злой'),
                                                           stemmer.stem('грустный'),
                                                           stemmer.stem('скандальный'),
                                                           stemmer.stem('весёлый')])

'добр'