# Построение Word2Vec-модели на базе комментариев пользователей сайта

В этом воркшопе мы с вами научимся подготавливать текст для работы и строить word2vec-модель. Для этого мы будем использовать уже готовые инструменты, имеющиеся в NLTK и Gensim. На примере этой задачи мы с вами научимся использовать новые инструменты для задач NLP и посмотрим на базовые свойства word2vec-моделей.

Комментарии хранятся в бинарном файле, упакованном при помощи pickle.

In [1]:
import pickle

In [2]:
# в файле - список комментариев, давайте прочитаем его

with open('comments.list', 'rb') as file:
    comments = pickle.load(file)

In [3]:
len(comments)

300000

На самом деле 300 тысяч комментариев - это весьма малый массив данных для обучения хорошей модели. Обычно, чтобы построить хороший ебмеддинг, нужно проанализировать десятки и сотни гигабайт текста. Но чтобы не заставлять вас качать гигабайты данных, для нашей учебной задачи давайте воспользуемся таким небольшим датасетом.

In [4]:
# посмотрим, как выглядят комменты

comments[:50]

['Почему кривые, если площадей нема',
 'Никто - это одно слово, а не два.',
 'Примерно треть людей в нашем городе (областном центре) получают ниже 15тр... И я не работаю пом.маш. но вкурсе зарплат.',
 'Так девяностые, блин, сплошная сказка. Там не катило в одном ключе.\xa0 Проснулся - страны нет, заснул - еще хуже. Чего один Горбачев стоил. Я его взахлеб слушал. И ни одной фразы, смысла, не понимал.',
 'Где в видео сказано, что он ее выгуливал?',
 'Я к вам обращаюсь, а не к Гуглу. Или у вас своего понимания нет?',
 'Чувствуется свежий напор!',
 'Кстати, у него на яйках белое пятнышко и это очень мило)',
 'Всё у тебя продумано!)',
 'В списке ЦСКА нет. Но болею за ЦСКА с 2003 года. )))',
 'То есть это два разных документа надо подать или в одном все сделать? Какой алгоритм?Сначала ходатайство на восстановление сроков, дожидаемся решения суда и на отмену или как? Или сразу две бумаги?',
 'Так весь кавказ живёт',
 'В условиях эпидемии не может быть своей позиции. В условиях эпидемии может 

Как мы видим, текст требует некоторой предобработки. Как минимум, нам не нужны знаки препинания и заглавные буквы...

Для дальнейшей предобработки воспользуемся инструментами, имеющимися в NLTK.

In [None]:
# установите NLTK, если его у вас нет

!pip install nltk

In [5]:
# в NLTK уже имеются списки стоп-слов для разных языков
# давайте им воспользуемся
from nltk.corpus import stopwords

# токенизацию будем выполнять при помощи функции word_tokenize
from nltk.tokenize import word_tokenize

# будем осуществлять стеммизацию слов при помощи RussianStemmer
from nltk.stem.snowball import RussianStemmer

Если вы используете NLTK впервые, он может выкинуть исключение с просьбой докачать данные. В таком случае просто выполните команду, которую он предлагает.

Давайте посмотрим, что у нас находится в русских стоп-словах:

In [6]:
stopwords.words('russian')

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

Для дальнейшего использования сохраним их в виде множества, чтобы можно было быстро обращаться к нему операцией `in`.

In [7]:
stop_words = set(stopwords.words('russian'))

Токенизатор разделяет текст на токены: слова, знаки пунктуации...

Давайте посмотрим на пример его работы.

In [8]:
print(f"Оригинальный коммент: {comments[1]}")
print(f"После токенизации: {word_tokenize(comments[1])}")

Оригинальный коммент: Никто - это одно слово, а не два.
После токенизации: ['Никто', '-', 'это', 'одно', 'слово', ',', 'а', 'не', 'два', '.']


Для стеммизации нужно сперва создать объект класса.

Тоже посмотрим, как он работает.

In [9]:
stemmer = RussianStemmer()

print(f"комментировать: {stemmer.stem('комментировать')}")
print(f"собаки: {stemmer.stem('собаки')}")
print(f"красное: {stemmer.stem('красное')}")

комментировать: комментирова
собаки: собак
красное: красн


Перед тем, как работать с текстами, давайте их подготовим. Сперва приведём всё к нижнему регистру и токенизируем результат. Среди токенов оставим только те, что состоят из букв и не являются стоп-словами. Оставшиеся токены подвергнем стеммизации

In [10]:
def preprocess(comment):
    # сначала комментарий преобразуем к нижнему регистру
    # заглавные буквы нам ни к чему
    comment = comment.lower()

    # токенизируем текст, получив список токенов
    tokens = word_tokenize(comment)

    # в списке оставим только те токены, что являются словами (выкинув, например, знаки препинания)
    # также выкинем стоп-слова
    # всё, что осталось, подвергнем стеммизации
    tokens = [stemmer.stem(t) for t in tokens if t.isalpha() and t not in stop_words]

    return tokens

In [11]:
comments = [preprocess(comm) for comm in comments]

In [12]:
# как теперь выглядит наш датасет

comments[:10]

[['поч', 'крив', 'площад', 'нем'],
 ['никт', 'эт', 'одн', 'слов'],
 ['примерн',
  'трет',
  'люд',
  'наш',
  'город',
  'областн',
  'центр',
  'получа',
  'ниж',
  'работа',
  'вкурс',
  'зарплат'],
 ['девян',
  'блин',
  'сплошн',
  'сказк',
  'кат',
  'одн',
  'ключ',
  'проснул',
  'стран',
  'заснул',
  'хуж',
  'горбач',
  'сто',
  'взахлеб',
  'слуша',
  'одн',
  'фраз',
  'смысл',
  'понима'],
 ['виде', 'сказа', 'выгулива'],
 ['обраща', 'гугл', 'сво', 'пониман'],
 ['чувств', 'свеж', 'напор'],
 ['кстат', 'яйк', 'бел', 'пятнышк', 'эт', 'очен', 'мил'],
 ['все', 'продума'],
 ['списк', 'цска', 'бол', 'цска', 'год']]

Строить word2vec-модель мы будем при помощи пакета Gensim, в котором имеется множество инструментов для NLP. 

Установите его, если он у вас ещё не установлен.

In [None]:
# установите gensim, если он у вас ещё не установлен

!pip install gensim

In [13]:
import gensim

Для построения word2vec-модели в gensim достаточно использовать уже имеющийся класс. В аргументах необходимо указать желаемые параметры модели: от размерности вектора до выбранного алгоритма построения.

Обучение начнётся сразу после создания модели.

In [14]:
model = gensim.models.Word2Vec(comments,  # на вход подаём список "предложений"
                               size=100,  # размерность эмбеддинга
                               window=7,  # размер окна в word2vec
                               min_count=10,  # минимальное количество раз, которое должно встретиться слово
                               sg=1,  # в качестве алгоритма выбираем skip-gram, т.к. датасет небольшой
                               iter=30,  # количество эпох обучения
                               workers=4)  # количество потоков (укажите, исходя из количества ядер вашего процессора)

In [15]:
# сохраним для потомков

model.save('comments_model.w2v')

Теперь мы можем получать вектор для любого слова, имеющиегося в словаре (в данном случае - которое минимум 10 раз встретилось в нашем датасете).

In [16]:
# весь словарь хранится в объекте vocab

model.wv.vocab

{'поч': <gensim.models.keyedvectors.Vocab at 0x2a33b4ee490>,
 'крив': <gensim.models.keyedvectors.Vocab at 0x2a33b4e8430>,
 'площад': <gensim.models.keyedvectors.Vocab at 0x2a33b4e8130>,
 'нем': <gensim.models.keyedvectors.Vocab at 0x2a33b4e8190>,
 'никт': <gensim.models.keyedvectors.Vocab at 0x2a33ca9ad30>,
 'эт': <gensim.models.keyedvectors.Vocab at 0x2a33ca9ad90>,
 'одн': <gensim.models.keyedvectors.Vocab at 0x2a33ca9adc0>,
 'слов': <gensim.models.keyedvectors.Vocab at 0x2a33ca9ae20>,
 'примерн': <gensim.models.keyedvectors.Vocab at 0x2a33ca9ae80>,
 'трет': <gensim.models.keyedvectors.Vocab at 0x2a33ca9a8b0>,
 'люд': <gensim.models.keyedvectors.Vocab at 0x2a33ca9af10>,
 'наш': <gensim.models.keyedvectors.Vocab at 0x2a33ca9af70>,
 'город': <gensim.models.keyedvectors.Vocab at 0x2a33ca9afd0>,
 'областн': <gensim.models.keyedvectors.Vocab at 0x2a33ca9a4c0>,
 'центр': <gensim.models.keyedvectors.Vocab at 0x2a351dbb340>,
 'получа': <gensim.models.keyedvectors.Vocab at 0x2a351dbb2e0>,
 'н

In [18]:
# чтобы получить вектор конкретного слова, можно использовать функцию get_vector

model.wv.get_vector('кошк')

array([-0.3226964 ,  0.6393302 ,  0.45441407,  0.2224026 ,  0.06319614,
       -0.07098959,  0.49146298, -0.46238947,  0.4805155 ,  0.09468808,
       -0.12805012, -0.4840694 ,  0.22814453, -0.4035352 , -0.01974358,
       -0.36535627, -0.72279793, -0.08781783, -0.47936466,  0.11207724,
       -0.11807988,  0.26683843, -0.0120027 ,  0.52062637,  0.06033983,
        0.27940103,  0.3757668 , -0.4560905 , -0.6632277 ,  0.00259031,
       -0.01712201,  0.28063554, -0.7654456 , -0.6377426 ,  0.6656281 ,
        0.26438177, -0.16118546, -0.4786781 , -0.31584165, -0.2583714 ,
       -0.3717855 ,  0.08922195, -0.2445172 , -0.5488379 ,  0.6663653 ,
        0.06839547, -0.49663448,  0.1346117 ,  0.07618333,  0.26467648,
        0.16262884,  0.6348045 ,  0.17031457, -0.13500424,  0.22544916,
       -0.52601004, -0.51442814,  0.14677349,  0.08039584,  0.00743247,
        0.01623051,  0.22153434,  0.07267933,  0.01137718,  0.1206939 ,
        0.18941152,  0.09962156,  0.10290947, -0.18843654,  0.23

Самым важным свойством word2vec-моделей является тот факт, что они распознают контекст: близкие по смыслу слова будут находиться где-то рядом в векторном пространстве. 

Например, давайте посмотрим на самые близкие слова к словам "король", "автомобиль" и "компьютер".

In [19]:
model.wv.most_similar(positive=stemmer.stem('король'), topn=5)

[('ферз', 0.584980845451355),
 ('рыцар', 0.5687369108200073),
 ('герцог', 0.5446561574935913),
 ('лучник', 0.5414139032363892),
 ('xiii', 0.5260868668556213)]

In [20]:
model.wv.most_similar(positive=stemmer.stem('автомобиль'), topn=5)

[('авт', 0.7663224935531616),
 ('машин', 0.7254810929298401),
 ('велосипед', 0.664608359336853),
 ('колес', 0.6353932619094849),
 ('легков', 0.6232739090919495)]

In [21]:
model.wv.most_similar(positive=stemmer.stem('компьютер'), topn=5)

[('комп', 0.7024422883987427),
 ('смартфон', 0.6496104001998901),
 ('телефон', 0.5985431671142578),
 ('планшет', 0.5940207839012146),
 ('залогин', 0.5915631055831909)]

Со словами теперь можно производить векторные операции. Давайте посмотрим, что получится, если, например, из слова "собака" вычесть компонент "плохой" и добавить "хороший":

In [22]:
# в аргументе negative указываем слово, которое будем вычитать

model.wv.most_similar(positive=[stemmer.stem('собака'), stemmer.stem('хороший')], negative=[stemmer.stem('плохой')], topn=1)

[('кошк', 0.6429858207702637)]

In [23]:
# ещё пример: кто такие "больше дети"?

model.wv.most_similar(positive=[stemmer.stem('дети'), stemmer.stem('большой')], negative=[stemmer.stem('маленький')], topn=1)

[('родител', 0.5666666626930237)]

Можно также определять, какое слово в ряду "лишнее": т.е. какое слово меньше всего "похоже" на остальные в среднем.

In [24]:
# овощи против яблока

model.wv.doesnt_match([stemmer.stem('капуста'), 
                       stemmer.stem('помидор'), 
                       stemmer.stem('кабачок'),
                       stemmer.stem('яблоко')])

  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


'яблок'

In [25]:
# танцор против "суровых профессий"

model.wv.doesnt_match([stemmer.stem('сварщик'), 
                       stemmer.stem('строитель'), 
                       stemmer.stem('танцор'), 
                       stemmer.stem('каменщик'), 
                       stemmer.stem('плиточник')])

'танцор'

Можем посмотреть, какое слово ближе всего подходит к указанному.

In [26]:
# какое из слов лучше всего характеризует волка?

model.wv.most_similar_to_given(stemmer.stem('волк'), [stemmer.stem('добрый'), 
                                                      stemmer.stem('хитрый'), 
                                                      stemmer.stem('злой'), 
                                                      stemmer.stem('красивый'), 
                                                      stemmer.stem('шерстяной')])

'зло'

Сама по себе word2vec-модель не решает какую-то практическую задачу, но она служит отличным ембедингом, который затем мы сможем использовать в других задачах, связанных с текстом.