**Word2vec** — общее название для совокупности моделей на основе  нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке

**Слова-векторы (word vectors)** — это численные представления слов, сохраняющие семантическую связь между ними. 

Модель Word2Vec бывает двух видов: модель Skip Gram и модель Continuous Bag of Words (CBOW). 

In [3]:
import pandas as pd
import numpy as np
import gensim
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [4]:
documents = ['в небольшом квартале к западу от улицы перепутались и переломались в короткие полоски именуемые проездами',
        'эти проезды образуют странные углы и кривые линии',
        'одна улица там даже пересекает самe себя раза два',
        'некоему художнику удалось открыть весьма ценное свойство этой улицы',
        'предположим сборщик из магазина со счетом за краски бумагу и холст повстречает там самого себя идущего восвояси не получив ни единого цента по счету',
        'и вот в поисках окон выходящих на север кровель столетия голландских мансард и дешевой квартирной платы люди искусства набрели на своеобразный квартал',
        'затем они перевезли туда с шестой авеню несколько оловянных кружек и одну-две жаровни и основали колонию']

In [5]:
documents_2 =["господина пневмонию никак нельзя было назвать галантным старым джентльменом",
         "миниатюрная девушка малокровная от калифорнийских зефиров едва ли могла считаться достойным противником для дюжего старого тупицы с красными кулачищами и одышкой",
         "однако он свалил ее с ног и джонси лежала неподвижно на крашеной железной кровати глядя сквозь мелкий переплет голландского окна на глухую стену соседнего кирпичного дома",
         "однажды утром озабоченный доктор одним движением косматых седых бровей вызвал сью в коридор"
]

In [6]:

from gensim import corpora
from pprint import pprint

In [7]:
# Tokenize(split) the sentences into words
texts = [[text for text in doc.split()] for doc in documents]
# Create dictionary
dictionary = corpora.Dictionary(texts)
# Get information about the dictionary
print(dictionary)

Dictionary(91 unique tokens: ['в', 'западу', 'и', 'именуемые', 'к']...)


In [8]:
print(dictionary.token2id)

{'в': 0, 'западу': 1, 'и': 2, 'именуемые': 3, 'к': 4, 'квартале': 5, 'короткие': 6, 'небольшом': 7, 'от': 8, 'переломались': 9, 'перепутались': 10, 'полоски': 11, 'проездами': 12, 'улицы': 13, 'кривые': 14, 'линии': 15, 'образуют': 16, 'проезды': 17, 'странные': 18, 'углы': 19, 'эти': 20, 'даже': 21, 'два': 22, 'одна': 23, 'пересекает': 24, 'раза': 25, 'самe': 26, 'себя': 27, 'там': 28, 'улица': 29, 'весьма': 30, 'некоему': 31, 'открыть': 32, 'свойство': 33, 'удалось': 34, 'художнику': 35, 'ценное': 36, 'этой': 37, 'бумагу': 38, 'восвояси': 39, 'единого': 40, 'за': 41, 'идущего': 42, 'из': 43, 'краски': 44, 'магазина': 45, 'не': 46, 'ни': 47, 'по': 48, 'повстречает': 49, 'получив': 50, 'предположим': 51, 'самого': 52, 'сборщик': 53, 'со': 54, 'счетом': 55, 'счету': 56, 'холст': 57, 'цента': 58, 'вот': 59, 'выходящих': 60, 'голландских': 61, 'дешевой': 62, 'искусства': 63, 'квартал': 64, 'квартирной': 65, 'кровель': 66, 'люди': 67, 'мансард': 68, 'на': 69, 'набрели': 70, 'окон': 71, 'пл

In [10]:
from gensim.models.word2vec import Word2Vec
from multiprocessing import cpu_count
import gensim.downloader as api

model = Word2Vec(texts, min_count = 0, workers=cpu_count())



In [None]:
#w2v_model = Word2Vec(min_count=1, window=10, size=10, negative=10, alpha=0, min_alpha=0, sample=6e-5, sg=1)
#min_count — игнорировать все слова с частотой встречаемости меньше, чем это значение. windоw — размер контекстного окна, о котором говорили тут, обозначает диапазон контекста.
#size — размер векторного представления слова (word embedding).
#negative — сколько неконтекстных слов учитывать в обучении, используя negative sampling, о нем также упоминалось здесь.
#alpha — начальный learning_rate, используемый в алгоритме обратного распространения ошибки (Backpropogation).
#min_alpha — минимальное значение learning_rate, на которое может опуститься в процессе обучения.
#sg — если 1, то используется реализация Skip-gram; если 0, то CBOW.
#CBOW — предсказывание слова при данном контексте, а skip-gram наоборот — предсказывается контекст при данном слове.


In [12]:
model.most_similar('квартале')

  """Entry point for launching an IPython kernel.


[('улицы', 0.21570712327957153),
 ('западу', 0.20811647176742554),
 ('люди', 0.2052484154701233),
 ('художнику', 0.1478659212589264),
 ('с', 0.14329183101654053),
 ('углы', 0.11165761947631836),
 ('мансард', 0.1113348975777626),
 ('от', 0.10780748724937439),
 ('искусства', 0.10058373957872391),
 ('линии', 0.08653853833675385)]

In [14]:
model.wv.vocab

{'авеню': <gensim.models.keyedvectors.Vocab at 0x7f3b74cb2990>,
 'бумагу': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4810>,
 'в': <gensim.models.keyedvectors.Vocab at 0x7f3b74c92b10>,
 'весьма': <gensim.models.keyedvectors.Vocab at 0x7f3b74c924d0>,
 'восвояси': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4350>,
 'вот': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4750>,
 'выходящих': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4050>,
 'голландских': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4210>,
 'даже': <gensim.models.keyedvectors.Vocab at 0x7f3b74c92250>,
 'два': <gensim.models.keyedvectors.Vocab at 0x7f3b74c92750>,
 'дешевой': <gensim.models.keyedvectors.Vocab at 0x7f3b74cb2650>,
 'единого': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4650>,
 'жаровни': <gensim.models.keyedvectors.Vocab at 0x7f3b74cb2a10>,
 'за': <gensim.models.keyedvectors.Vocab at 0x7f3b74cd4110>,
 'западу': <gensim.models.keyedvectors.Vocab at 0x7f3b74c92c90>,
 'затем': <gensim.models.keyed

In [15]:
#выдаёт похожие слова
model.wv.most_similar(positive=["квартал"])

[('идущего', 0.21085870265960693),
 ('линии', 0.20330815017223358),
 ('из', 0.1967773586511612),
 ('перевезли', 0.16643115878105164),
 ('своеобразный', 0.1610868275165558),
 ('этой', 0.15702922642230988),
 ('переломались', 0.14875690639019012),
 ('единого', 0.1465202271938324),
 ('окон', 0.13690811395645142),
 ('странные', 0.13319918513298035)]

In [19]:
#можно складывать и вычитать вектора
model.wv.most_similar(positive=["квартал", "улица"], negative=["проезды"])

[('этой', 0.30522650480270386),
 ('линии', 0.21026799082756042),
 ('одна', 0.19910193979740143),
 ('единого', 0.18542221188545227),
 ('своеобразный', 0.1836809366941452),
 ('предположим', 0.17070025205612183),
 ('художнику', 0.15879812836647034),
 ('два', 0.15743833780288696),
 ('из', 0.14418232440948486),
 ('идущего', 0.1312064826488495)]

In [21]:
#выбирает самое близское из списка
model.wv.most_similar_to_given("холст", ["бумагу", "краски", "улица"])

'бумагу'

In [23]:
#векторное представление слова
model.wv.word_vec("улица")

array([ 2.71649635e-03, -4.87329345e-03, -3.96915158e-04,  3.88073316e-03,
       -4.76316456e-03,  1.87283638e-03,  3.04946629e-03,  1.18902139e-03,
       -4.44467319e-03,  3.60355596e-03,  4.35615797e-03,  2.82465061e-03,
       -8.76247213e-05,  3.26884422e-03,  4.86506242e-03, -3.37220635e-03,
        4.59972722e-03, -9.66917025e-04,  1.45435799e-03,  3.10889329e-03,
        3.11911898e-03, -2.85607483e-03,  4.03097039e-03,  2.72388547e-03,
       -4.25806828e-03,  4.61288309e-03, -2.96722283e-03, -3.35725024e-04,
       -3.59870784e-04,  1.07010936e-04, -1.44591578e-03,  1.09176664e-03,
       -1.23187507e-04, -3.19753122e-03, -6.20183928e-05, -2.69237626e-03,
        2.49659922e-03,  1.83710118e-03, -2.17364938e-03,  2.24835845e-03,
        3.53931030e-03,  6.11253956e-04, -2.50831363e-03,  1.12528447e-03,
        2.30336096e-03, -5.00933151e-04, -3.75820487e-03,  4.31258464e-03,
        3.09327082e-03,  3.19408951e-04,  3.19908606e-03, -1.64201751e-03,
       -4.58303327e-03, -