# Предварительная обработка и векторизация текста

Сегодня мы разберем и сравним три библиотеки для предварительной обработки текста:

1.   [pymorphy3](https://pymorphy2.readthedocs.io/en/latest/)
2.   [mystem](https://yandex.ru/dev/mystem/)
3.   [NLTK](https://www.nltk.org/)


**pymorphy3** – библиотека разработана для русского и украинского языков. Pymorphy умеет:

1.  приводить слово к нормальной форме (например, “люди -> человек”, или “гулял -> гулять”).
1.  ставить слово в нужную форму. Например, ставить слово во множественное число, менять падеж слова и т.д.
1. возвращать грамматическую информацию о слове (число, род, падеж, часть речи и т.д.)

При работе используется словарь OpenCorpora; для незнакомых слов строятся гипотезы. Библиотека достаточно быстрая: в настоящий момент скорость работы - от нескольких тыс слов/сек до > 100тыс слов/сек (в зависимости от выполняемой операции, интерпретатора и установленных пакетов); потребление памяти - 10…20Мб;
Pymorphy не поддерживает стемминг
Однако, поддерживает букву ё.


**mystem** – вероятностный морфоанализатор для русского языка, умеет строить гипотетические разборы для множества слов — включая те слова, которых нет в словаре. Первую версию программы написали Илья Сегалович и Виталий Титов. Mystem умеет:
1. проводить лемматизацию текста
2. выводить набор морфологических атрибутов для каждого токена

Расшифровку граммем можно посмотреть [здесь](https://yandex.ru/dev/mystem/doc/ru/grammemes-values)


**NLTK** – Natural language Tool Kit – платформа для создания программ на Python для работы с Естественным языком. NLTK стостоит из простых в использовании интерфейсов для более чем 50 текстовых корпусов и лексических ресурсов, таких как WordNet, а также из набора библиотек обработки текста, например, классификации, токенизации, стемминга, разметки частей речи, синтаксического анализа и семантического вывода.
[
  Расшифровка граммем](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)

In [79]:
pip install pymystem3 #для начала установим все инструменты и бибилиотеки

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.7/bin/python3.7 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [80]:
pip install pymorphy3

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.7/bin/python3.7 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [81]:
pip install NLTK

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.7/bin/python3.7 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [171]:
# возьмем текст из лекций
text = "За свою карьеру я пропустил более 9000 бросков, проиграл почти 300 игр. 26 раз мне доверяли сделать финальный победный бросок, и я промахивался. Я терпел поражения снова, и снова, и снова. И именно поэтому я добился успеха."

## pymystem3

In [83]:
from pymystem3 import Mystem

In [84]:
# Создаем экземпляр Mystem, который будет использоваться для выполнения морфологического анализа текста
mystem = Mystem()

# Лемматизация. Метод lemmatize() выполняет лемматизацию текста и возвращает список лемм (начальных форм слов).
lemmas_mystem = mystem.lemmatize(text)
print("Лемматизация:")
print("".join(lemmas_mystem))

Лемматизация:
за свой карьера я пропускать более 9000 бросок, проигрывать почти 300 игра. 26 раз я доверять сделать финальный победный бросок, и я промахиваться. я терпеть поражение снова, и снова, и снова. и именно поэтому я добиваться успех.



In [85]:
# Метод analyze() анализирует текст и возвращает результаты в виде списка объектов, представляющих анализ каждого слова в тексте.
analyser = mystem.analyze(text)
print (analyser)

[{'analysis': [{'lex': 'за', 'wt': 1, 'gr': 'PR='}], 'text': 'За'}, {'text': ' '}, {'analysis': [{'lex': 'свой', 'wt': 1, 'gr': 'APRO=вин,ед,жен'}], 'text': 'свою'}, {'text': ' '}, {'analysis': [{'lex': 'карьера', 'wt': 0.9589808846, 'gr': 'S,жен,неод=вин,ед'}], 'text': 'карьеру'}, {'text': ' '}, {'analysis': [{'lex': 'я', 'wt': 0.9999716281, 'gr': 'SPRO,ед,1-л=им'}], 'text': 'я'}, {'text': ' '}, {'analysis': [{'lex': 'пропускать', 'wt': 0.7310513447, 'gr': 'V=прош,ед,изъяв,муж,сов'}], 'text': 'пропустил'}, {'text': ' '}, {'analysis': [{'lex': 'более', 'wt': 0.9999468251, 'gr': 'ADV='}], 'text': 'более'}, {'text': ' '}, {'text': '9000'}, {'text': ' '}, {'analysis': [{'lex': 'бросок', 'wt': 1, 'gr': 'S,муж,неод=род,мн'}], 'text': 'бросков'}, {'text': ', '}, {'analysis': [{'lex': 'проигрывать', 'wt': 1, 'gr': 'V,пе=прош,ед,изъяв,муж,сов'}], 'text': 'проиграл'}, {'text': ' '}, {'analysis': [{'lex': 'почти', 'wt': 0.9984513216, 'gr': 'ADV='}], 'text': 'почти'}, {'text': ' '}, {'text': '300

In [87]:
# Стемминг.
stemmed_words = [analysis.get('text') for analysis in analyser if 'analysis' in analysis]
print("\nСтемминг:")
print(" ".join(stemmed_words))


Стемминг:
За свою карьеру я пропустил более бросков проиграл почти игр раз мне доверяли сделать финальный победный бросок и я промахивался Я терпел поражения снова и снова и снова И именно поэтому я добился успеха


Давайте внимательнее посмотрим на результат стемминга

In [88]:
# POS-разметка
pos = mystem.analyze(text)
print("\nPOS-разметка:")
for analysis in pos:
    if 'analysis' in analysis and analysis['analysis']:
        print(f"{analysis['text']}-{analysis['analysis'][0]['gr']}")  #Если объект анализа содержит информацию о морфологическом анализе,
                                                                        #то эта строка выводит текст слова и его частеречную разметку в формате
                                                                        #"слово - часть речи и грамматические характеристики".
    else:
        print(analysis['text']) # в противном случае выводим исходный текст


POS-разметка:
За-PR=
 
свою-APRO=вин,ед,жен
 
карьеру-S,жен,неод=вин,ед
 
я-SPRO,ед,1-л=им
 
пропустил-V=прош,ед,изъяв,муж,сов
 
более-ADV=
 
9000
 
бросков-S,муж,неод=род,мн
, 
проиграл-V,пе=прош,ед,изъяв,муж,сов
 
почти-ADV=
 
300
 
игр-S,жен,неод=род,мн
. 
26
 
раз-S,муж,неод=(вин,ед|род,мн|им,ед)
 
мне-SPRO,ед,1-л=(пр|дат)
 
доверяли-V,пе=прош,мн,изъяв,несов
 
сделать-V,сов,пе=инф
 
финальный-A=(вин,ед,полн,муж,неод|им,ед,полн,муж)
 
победный-A=(вин,ед,полн,муж,неод|им,ед,полн,муж)
 
бросок-S,муж,неод=(вин,ед|им,ед)
, 
и-CONJ=
 
я-SPRO,ед,1-л=им
 
промахивался-V,нп=прош,ед,изъяв,муж,несов
. 
Я-SPRO,ед,1-л=им
 
терпел-V,несов,пе=прош,ед,изъяв,муж
 
поражения-S,сред,неод=(вин,мн|род,ед|им,мн)
 
снова-ADV=
, 
и-CONJ=
 
снова-ADV=
, 
и-CONJ=
 
снова-ADV=
. 
И-CONJ=
 
именно-PART=
 
поэтому-ADVPRO=
 
я-SPRO,ед,1-л=им
 
добился-V,нп=прош,ед,изъяв,муж,сов
 
успеха-S,муж,неод=род,ед
.




## pymorphy3

In [89]:
import pymorphy3

In [90]:
# Создаем экземпляр pymorphy3
morph = pymorphy3.MorphAnalyzer()

# Лемматизация
lemmas_morph = [morph.parse(word)[0].normal_form for word in text.split()]
print("Лемматизация:")
print(" ".join(lemmas_morph))


Лемматизация:
за свой карьера я пропустить более 9000 бросков, проиграть почти 300 игр. 26 раз я доверять сделать финальный победный бросок, и я промахивался. я терпеть поражение снова, и снова, и снова. и именно поэтому я добиться успеха.


In [91]:
# Стемминг (pymorphy3 не поддерживает стемминг, только лемматизацию)

In [92]:
# POS-разметка
pos_tags = [morph.parse(word)[0].tag.POS for word in text.split()]
print("\nPOS-разметка:")
for word, pos in zip(text.split(), pos_tags):
    print(f"{word} - {pos}")


POS-разметка:
За - PREP
свою - ADJF
карьеру - NOUN
я - NPRO
пропустил - VERB
более - ADVB
9000 - None
бросков, - None
проиграл - VERB
почти - ADVB
300 - None
игр. - None
26 - None
раз - NOUN
мне - NPRO
доверяли - VERB
сделать - INFN
финальный - ADJF
победный - ADJF
бросок, - None
и - CONJ
я - NPRO
промахивался. - None
Я - NPRO
терпел - VERB
поражения - NOUN
снова, - None
и - CONJ
снова, - None
и - CONJ
снова. - None
И - CONJ
именно - PRCL
поэтому - ADVB
я - NPRO
добился - VERB
успеха. - None


## NLTK

In [178]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.stem.snowball import SnowballStemmer
from nltk import pos_tag

In [181]:
# Загрузка необходимых ресурсов NLTK
import ssl

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context


nltk.download('punkt')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_ru')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /Users/yuliya_ru/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/yuliya_ru/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Error loading ruscorpora: Package 'ruscorpora' not found
[nltk_data]     in index
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/yuliya_ru/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_ru to
[nltk_data]     /Users/yuliya_ru/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_ru is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/yuliya_ru/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [183]:
# Токенизация текста
tokens = word_tokenize("I've missed more than 9,000 shots in my career. I've lost almost 300 games. Twenty-six times, I've been trusted to take the game-winning shot and missed. I've failed over and over and over again in my life. And that is why I succeed.")

# Лемматизация
lemmatizer = WordNetLemmatizer()
lemmas_nltk = [lemmatizer.lemmatize(token) for token in tokens]
print("Лемматизация:")
print(" ".join(lemmas_nltk))

Лемматизация:
I 've missed more than 9,000 shot in my career . I 've lost almost 300 game . Twenty-six time , I 've been trusted to take the game-winning shot and missed . I 've failed over and over and over again in my life . And that is why I succeed .


In [173]:
# Стемминг
stemmer = SnowballStemmer("russian")

tokens = word_tokenize(text)
stemmed_words = [stemmer.stem(word) for word in tokens]
print("\nСтемминг:")
print(" ".join(stemmed_words))


Стемминг:
за сво карьер я пропуст бол 9000 броск , проигра почт 300 игр . 26 раз мне доверя сдела финальн победн бросок , и я промахива . я терпел поражен снов , и снов , и снов . и имен поэт я доб успех .


In [130]:
# POS-разметка
pos_tags = pos_tag(tokens)
print("\nPOS-разметка:")
for token, pos_tag in pos_tags:
    print(f"{token}-{pos_tag}")


POS-разметка:
За-JJ
свою-NNP
карьеру-NNP
я-NNP
пропустил-NNP
более-NNP
9000-CD
бросков-NNP
,-,
проиграл-NNP
почти-VBZ
300-CD
игр-NN
.-.
26-CD
раз-JJ
мне-NNP
доверяли-NNP
сделать-NNP
финальный-NNP
победный-NNP
бросок-NNP
,-,
и-NNP
я-NNP
промахивался-NNP
.-.
Я-VB
терпел-JJ
поражения-NNP
снова-NNP
,-,
и-NNP
снова-NNP
,-,
и-NNP
снова-NNP
.-.
И-VB
именно-JJ
поэтому-NNP
я-NNP
добился-NNP
успеха-NNP
.-.


In [140]:
# Выведем частеречную разметку для русского языка
pos_ru=pos_tag(tokens, lang='rus') 

print("\nPOS-разметка для русского языка:")
for token, pos_tag in pos_ru:
    print(f"{token}-{pos_tag}")



POS-разметка для русского языка:
За-PR
свою-A-PRO=f
карьеру-S
я-S-PRO
пропустил-V
более-NUM=comp
9000-NUM=ciph
бросков-S
,-NONLEX
проиграл-V
почти-ADV
300-NUM=ciph
игр-S
.-NONLEX
26-NUM=ciph
раз-S
мне-S-PRO
доверяли-V
сделать-V
финальный-A=m
победный-A=m
бросок-S
,-NONLEX
и-CONJ
я-S-PRO
промахивался-V
.-NONLEX
Я-S-PRO
терпел-V
поражения-S
снова-ADV
,-NONLEX
и-CONJ
снова-ADV
,-NONLEX
и-CONJ
снова-ADV
.-NONLEX
И-CONJ
именно-PART
поэтому-ADV-PRO
я-S-PRO
добился-V
успеха-S
.-NONLEX


Давайте сравним результаты лемматизации трех библиотек

In [184]:
print (lemmas_mystem)
print (lemmas_morph)

['за', ' ', 'свой', ' ', 'карьера', ' ', 'я', ' ', 'пропускать', ' ', 'более', ' ', '9000', ' ', 'бросок', ', ', 'проигрывать', ' ', 'почти', ' ', '300', ' ', 'игра', '. ', '26', ' ', 'раз', ' ', 'я', ' ', 'доверять', ' ', 'сделать', ' ', 'финальный', ' ', 'победный', ' ', 'бросок', ', ', 'и', ' ', 'я', ' ', 'промахиваться', '. ', 'я', ' ', 'терпеть', ' ', 'поражение', ' ', 'снова', ', ', 'и', ' ', 'снова', ', ', 'и', ' ', 'снова', '. ', 'и', ' ', 'именно', ' ', 'поэтому', ' ', 'я', ' ', 'добиваться', ' ', 'успех', '.', '\n']
['за', 'свой', 'карьера', 'я', 'пропустить', 'более', '9000', 'бросков,', 'проиграть', 'почти', '300', 'игр.', '26', 'раз', 'я', 'доверять', 'сделать', 'финальный', 'победный', 'бросок,', 'и', 'я', 'промахивался.', 'я', 'терпеть', 'поражение', 'снова,', 'и', 'снова,', 'и', 'снова.', 'и', 'именно', 'поэтому', 'я', 'добиться', 'успеха.']


Mystem отделяет пробелы в отдельные леммы, pymorphy склеивает знак препинания со словом 'бросков,', а NLTK сохраняет регистр слов. Так происходит из-за разницы токенизации в различных библиотеках

In [179]:
from nltk.corpus import stopwords as nltk_stopwords
self_stopWords = nltk_stopwords.words("russian")
print(self_stopWords)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

# Векторизация

## 1. Мешок слов


1. Токенизация
входной текст разбивается на токены

2. Создание словаря
выбираем уникальные слова и сортируем в алфавитном порядке

3. Создание вектора
Из получившегося словаря создается разреженная матрица. В этой разреженной матрице каждая строка представляет вектор предложения, длина которого равна размеру словаря.



In [142]:
from sklearn.feature_extraction.text import CountVectorizer

In [143]:
cv = CountVectorizer() # Сделаем экземпляр объекта CountVectorizer

В качестве "коллекции текстов" возьмем пример с лекции – детскую песенку, где каждая строка будет расцениваться как отдельный документ.
В лекции мы получили следующие вектора:

[1 1 1 0 0 0 0 0]

[1 1 0 1 0 0 0 0]

[1 1 0 0 1 1 1 1]

In [144]:
text_collecition = ['Какой чудесный день',
   'Какой чудесный пень',
   'Какой чудесный я и песенка моя',
                    ]

In [145]:
X = cv.fit_transform(text_collecition) # Преобразуем тексты в матрицу признаков или векторизуем нашу коллекцию
X = X.toarray()   #преобразуем вектора в массив NumPy для просмотра
print (X)

[[1 1 0 0 0 1]
 [0 1 0 1 0 1]
 [0 1 1 0 1 1]]


Вектора не совпадают, мы получили более короткие векторв! Давайте выведем словарь:

In [146]:
sorted(cv.vocabulary_.keys())

['день', 'какой', 'моя', 'пень', 'песенка', 'чудесный']

Видим, что слова "я" и "и" не вошли в словарь для построения векторов. CountVectorizer игнорирует односимвольные слова, чтобы учесть абсолютно все слова в нашем векторе, добавим параметр token_pattern

In [147]:
vectorizer_single = CountVectorizer(token_pattern=r"(?u)\b\w+\b")
X_single = vectorizer_single.fit_transform(text_collecition)

print(X_single.toarray())


[[1 0 1 0 0 0 1 0]
 [0 0 1 0 1 0 1 0]
 [0 1 1 1 0 1 1 1]]


In [148]:
sorted(vectorizer_single.vocabulary_.keys())

['день', 'и', 'какой', 'моя', 'пень', 'песенка', 'чудесный', 'я']

Получили векторное представление песенки, где каждая строка – равна вектору. Количество координат каждого вектора равно количеству уникальных слов во всей песенке (во всей коллекции текстов) или длине словаря.

Мы получили униграммное представление, а что, если посмотреть попарно встречающиеся слова – то есть биграммы? Это можно сделать изменив аргумент ngram_range при создании объекта CountVectorizer.

это представление можно перенастроить и для n-граммных признаков.

In [149]:
cv_2 = CountVectorizer(ngram_range=(2,2))
X_2 = cv_2.fit_transform(text_collecition)
X_2 = X_2.toarray()

In [150]:
print("\nВекторное представление биграмм:")
print (X_2)
print("\nСловарь биграмм:")
print (sorted(cv_2.vocabulary_.keys()))


Векторное представление биграмм:
[[1 0 1 0 0]
 [1 0 0 1 0]
 [1 1 0 0 1]]

Словарь биграмм:
['какой чудесный', 'песенка моя', 'чудесный день', 'чудесный пень', 'чудесный песенка']


## 2. TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) — это статистическая мера, используемая в обработке текста для оценки важности слова в контексте документа или корпуса документов

TF-IDF учитывает значимость слова — чем выше показатель, тем важнее слово.

In [151]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [152]:
tfidf = TfidfVectorizer() #Создадим экземпляр объекта TfidfVectorizer()

In [153]:
transformed = tfidf.fit_transform(text_collecition) #преобразуем данные

Посмотрим, какие признаки важны, а какие имеют меньший вес и меньший вклад.

In [154]:
import pandas as pd

In [155]:
# Создаем таблицу данных с названиями признаков, то есть со словами из коллекции текстов
df = pd.DataFrame(transformed[0].T.todense(), # При векторизации мы получили разреженную матрицу,
                                              # в коротой очень много нулей и не так много действительных значений,
                                              # такую матрицу удобнее представить в виде Numpy массива с помощью метода метод todense()
  index=tfidf.get_feature_names_out(), columns=["TF-IDF"]) # Полный словарь токенизированных слов получаем с помощью функции get_feature_names_out()
df = df.sort_values('TF-IDF', ascending=False)   # сортируем значения от наибольшего значения к наименьшему
print(df)

            TF-IDF
день      0.767495
какой     0.453295
чудесный  0.453295
моя       0.000000
пень      0.000000
песенка   0.000000


Согласно TF-IDF, слово "день" — самый важный признак, для модели также важны "какой" и "чудесный", а другие слова, которые использовались для создания признаков в подходе «мешок слов», равны нулю.

В подходе TF-IDF тоже можно применять биграммы, триграммы и N-граммы.

# Word2Vec

Перейдем от методов, основанных на частотности слов к эмбеддингами. Посмотрим, как на практике использовать word2vec для создания эмбеддингов.

У нас есть два варинта: воспользоваться предобученной моделью или обучить модель самостоятельно.



Воспользуемся предварительно обученной моделью Google. Скачать модель можно по [этой ссылке ](https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/view?resourcekey=0-wjGZdNAUop6WykTtMip30g)

 Эту модель вы можете забрать отсюда и ниже указать путь к разархивированному файлу, или получить её с помощью следующих команд Linux.

In [156]:
pip install gensim

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.7/bin/python3.7 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [157]:
import gensim

In [158]:
from gensim import models

In [159]:
from gensim.models import KeyedVectors

# Путь к файлу предобученной модели Word2Vec
path_to_model = 'productstar/GoogleNews-vectors-negative300.bin'

# Загрузка модели
word2vec_model = KeyedVectors.load_word2vec_format(path_to_model, binary=True)

# Проверка наличия слов в словаре
word_to_check='apple'

if word_to_check in word2vec_model:
    print("Слово", word_to_check, "найдено в модели.")
else:
    print("Слово", word_to_check, "отсутствует в модели.")


Слово apple найдено в модели.


In [160]:
# Выведем вектор нашего слова, мы получили 300 мерный вектор
vect = word2vec_model['apple']

In [161]:
print(vect)

[-0.06445312 -0.16015625 -0.01208496  0.13476562 -0.22949219  0.16210938
  0.3046875  -0.1796875  -0.12109375  0.25390625 -0.01428223 -0.06396484
 -0.08056641 -0.05688477 -0.19628906  0.2890625  -0.05151367  0.14257812
 -0.10498047 -0.04736328 -0.34765625  0.35742188  0.265625    0.00188446
 -0.01586914  0.00195312 -0.35546875  0.22167969  0.05761719  0.15917969
  0.08691406 -0.0267334  -0.04785156  0.23925781 -0.05981445  0.0378418
  0.17382812 -0.41796875  0.2890625   0.32617188  0.02429199 -0.01647949
 -0.06494141 -0.08886719  0.07666016 -0.15136719  0.05249023 -0.04199219
 -0.05419922  0.00108337 -0.20117188  0.12304688  0.09228516  0.10449219
 -0.00408936 -0.04199219  0.01409912 -0.02111816 -0.13476562 -0.24316406
  0.16015625 -0.06689453 -0.08984375 -0.07177734 -0.00595093 -0.00482178
 -0.00089264 -0.30664062 -0.0625      0.07958984 -0.00909424 -0.04492188
  0.09960938 -0.33398438 -0.3984375   0.05541992 -0.06689453 -0.04467773
  0.11767578 -0.13964844 -0.26367188  0.17480469 -0.

In [162]:
# Воспользуемся предобученной моделью, чтобы получить синонимы для входного слова
word2vec_model.most_similar('apple')

[('apples', 0.720359742641449),
 ('pear', 0.6450697183609009),
 ('fruit', 0.6410146951675415),
 ('berry', 0.6302295327186584),
 ('pears', 0.613396167755127),
 ('strawberry', 0.6058260798454285),
 ('peach', 0.6025872826576233),
 ('potato', 0.596093475818634),
 ('grape', 0.5935865044593811),
 ('blueberry', 0.5866668820381165)]

Модель вывела в порядке убывания сходства список пар: слово – вес

Давайте обучим собственную модель word2vec.

Возьмем цитату с которой мы работаем. Модели word2vec нужен набор данных для обучения в виде списка токенизированных предложений. Важно: каждое предложение должно быть на отдельной строчке. Преобразуем эти предложения в нужный формат:

In [163]:
sents_data = [text.split() for token in text]


Обучим нашу модель. Параметры в скобочках:

sents_data — данные для обучения,
size/vector_size — размер вектора,
window — размер окна наблюдения,
min_count — мин. частотность слова в корпусе, которое мы берем,
sg — используемый алгоритм обучения (0 — CBOW, 1 — Skip-gram)

In [164]:
custom_model = models.Word2Vec(sents_data, min_count=1,vector_size=10,workers=4, window=2, sg=1)

In [165]:
print (custom_model)

Word2Vec<vocab=32, vector_size=10, alpha=0.025>


In [166]:
custom_model.save('my_v2w.model') # 

In [167]:
custom_w2v = gensim.models.Word2Vec.load('my_v2w.model')

In [168]:
vector = custom_w2v.wv['я']
print (vector)

[-0.0803047   0.00163823  0.15109275 -0.26862448  0.1581448   0.08000744
  0.8672772   0.42532557 -0.5555587   0.08583979]


In [169]:
similar = custom_w2v.wv.most_similar('пропустил', topn=5)
print (similar)

[('карьеру', 0.990507185459137), ('свою', 0.9896315932273865), ('более', 0.9879581332206726), ('За', 0.9851393103599548), ('9000', 0.9699773788452148)]
