## Word2Vec

Будем обучать word2vec из пакета gensim на корпусе opencorpora.<br/>
Этот корпус небольшой, поэтому выдающихся результатов ждать не стоит, но зато обучение будет происходить быстро.

In [1]:
import opencorpora

import warnings
warnings.filterwarnings("ignore", category=UserWarning)

### Откроем корпус

In [2]:
corpus = opencorpora.CorpusReader('annot.opcorpora.xml')
docs = corpus.catalog()

In [3]:
for id, name in docs[100:110]:
    print(id, name)

102 08172 Альдо Нове. No future XXI века
103 21876 Эдгар По. Гений открытия
104 Землетрясение в Чили
105 Конец света 21 мая 2011 года не наступил
106 Иудеи громят евреев в Иерусалиме
107 Кровопролитие в Сирии затронуло Ливан
108 Ливия: повстанцы освободили французов
109 В Исландии проснулся ещё один вулкан
110 02420 Актуальность Дарвина
111 В Тунисе произошёл государственный переворот


In [4]:
corpus.parsed_sents(105)

[[('Конец',
   [('конец', 'NOUN,inan,masc,sing,nomn'),
    ('конец', 'NOUN,inan,masc,sing,accs')]),
  ('света', [('свет', 'NOUN,inan,masc,Sgtm,sing,gen1')]),
  (',', [(',', 'PNCT')]),
  ('который',
   [('который', 'ADJF,Apro,Subx,Anph,masc,sing,nomn'),
    ('который', 'ADJF,Apro,Subx,Anph,inan,masc,sing,accs')]),
  ('предрекал', [('предрекаю', 'VERB,impf,tran,masc,sing,past,indc')]),
  ('проповедник', [('проповедник', 'NOUN,anim,masc,sing,nomn')]),
  ('-', [('-', 'PNCT')]),
  ('евангелист', [('евангелист', 'NOUN,anim,masc,sing,nomn')]),
  ('Герольд', [('герольд', 'NOUN,anim,masc,Name,sing,nomn')]),
  ('Кемпинг', [('Кемпинг', 'UNKN')]),
  ('утром', [('утром', 'ADVB')]),
  ('в', [('в', 'PREP')]),
  ('06.00', [('06.00', 'NUMB')]),
  ('по', [('по', 'PREP')]),
  ('московскому',
   [('московский', 'ADJF,masc,sing,datv'),
    ('московский', 'ADJF,neut,sing,datv')]),
  ('времени', [('время', 'NOUN,inan,neut,sing,datv')]),
  ('21', [('21', 'NUMB')]),
  ('мая', [('май', 'NOUN,inan,masc,Sgtm,sing

### Посмотрим на контексты слов

In [5]:
from nltk.text import Text

all_tokens = []
for id, name in docs:
    all_tokens.extend(corpus.words(id))

textCorpus = Text(all_tokens)

In [6]:
textCorpus.concordance('король')

Displaying 25 of 66 matches:
ого вождя Малиетоа Лаупепу , однако король Лаупепа в 1885 году вступил в откры
лавредом , а в 2003-м Боря Ельцин – король вечеринок . Это ***ня . Но кто вам 
дарных спектаклей « Пчеловоды » и « Король - олень » , « Школа шутов » и « Фил
недано ушедший из жизни музыкальный король Майкл Джексон в своё время совершил
т всё внутри … 0 — а ведь голый наш король » . Король оказался не только гол ,
и … 0 — а ведь голый наш король » . Король оказался не только гол , но и чёрен
В 1660-м пуритане власть потеряли и король Чарльз II отменил запрет . Тем не м
ая-то . А всем остальным нравится . Король - таки голый , или со мной что-то н
оставлены под сомнение . Всем миром Король Испании Хуан Карлос I и президент С
щь в тушении российских пожаров . « Король Испании отметил , что Испания , нар
личаться милой обстоятельностью ( « Король Файфа » , эпизод « Авария » ) . Взр
я шахмат , в которой у белых только король и пешка , но зато они делают два хо
ь , вдохновлённый пьесо

Среди токенов есть пунктуация, которая несет мало контекстной информации.

Так как текстов немного, матрицу term-context можно сделать более плотно заполненной, если использовать нормальзованную форму слов.<br/>
В корпусе эта информация уже есть, но если бы не было мы бы могли воспользоваться pymorphy.

In [7]:
for id, name in docs[103:104]:
    sentences = corpus.parsed_sents(id)
    for sentence in sentences:
        words = []
        for word_info in sentence:
            word = word_info[0]
            word_norm = word_info[1][0][0]
            word_tag = word_info[1][0][1]
            if word_tag != 'PNCT':
                words.append(word_norm)
            #print word, word_norm, word_tag
        print(' '.join(words))

конец свет который предрекаю проповедник евангелист герольд Кемпинг утром в 06.00 по московский время 21 май 2011 год так и не наступил
это далеко не первый несбывшийся предсказание апокалипсис
поначалу на он практически не обратил внимание однако с приближение этот дата немало сми в поиск сюжет останавливаюсь на это создавая прекрасный бесплатный PR-компанию для горе-пророка
вполне вероятно что герольд Кемпинг объяснил это какой-либо неточность и перенёс катастрофа на некоторый время вперёд и по прежний есть оставаться в центр внимание
так согласно его пророчество 6 сентябрь 1994 год на земля должен есть опуститься иисус христос
следующий подобный мероприятие по прогноз майя ожидаюсь 21 декабрь 2012 год однако не следую забывать что конец этот цивилизация наступил значительно раньше и это отчего-то не отображён в их наследие поэтому и достоверность подобный прорицание далёк не очевиден
если же и майя ошибся то расслабляться всё-равно не стою
апокалиптический теория ещё достаточно
2021

### Обучим word2vec

In [8]:
import codecs, string
import pymorphy2


with codecs.open('opencorpora_for_word2vec.txt', 'w', encoding='utf-8') as f:
    morph = pymorphy2.MorphAnalyzer()
    for id, name in docs:
        sentences = corpus.parsed_sents(id)
        for sentence in sentences:
            #sentence = [w.lower() for w in sentence if not w in string.punctuation]
            #sentence = [morph.parse(w)[0].normal_form for w in sentence if not w in string.punctuation]
            words = []
            for word_info in sentence:
                word = word_info[0]
                word_norm = word_info[1][0][0]
                word_tag = word_info[1][0][1]
                if word_tag != 'PNCT':
                    words.append(word_norm)
            f.write(' '.join(words))
            f.write('\n')


In [9]:
# Посмотрим, что записалось в файл
!head -10 opencorpora_for_word2vec.txt

школа злословие учу прикусить язык
сохранился ли градус дискуссия в новый сезон
великолепный школа злословие вернулся в эфир после летний каникулы в новый формат
в история программа это уже не первый ребрендинг
сейчас с труд можно припомнить что начинаюсь школа на канал культура как стандартный ток-шоу который отличаюсь от другой кухонный обсуждение гость что называюсь за глаз и неожиданный персона в качество ведущий
писательница татьяна толстая и сценаристка дуня смирнова вроде бы не вполне соответствую принятый на российский телевидение стандарт телеведущая
впрочем на канал культура в роль телеведущая выступаю и писатель и композитор так что в это ничто сверхъестественный не есть а идея кухонный обсуждение не слишком прижился и некоторый выпуск программа обхожусь практически без они
в остальной школа злословие представляю себя интервью ведущий с герой выпуск
иногда и в самый дело не без злословие а по больший часть разговор с придыхание например в программа с участие борис бе

In [10]:
from gensim.models.word2vec import LineSentence, Word2Vec

sentences = LineSentence('opencorpora_for_word2vec.txt')

In [11]:
import gensim

model = Word2Vec(sentences, size=300, window=5, min_count=5, workers=4, iter=20)
model.init_sims(replace=True)

In [12]:
for w, sim in model.most_similar(positive=['Google']):
    print(w, sim)

Microsoft 0.7733358144760132
Apple 0.7688367366790771
Facebook 0.7307254076004028
сервис 0.6968520879745483
YouTube 0.6810016632080078
пользователь 0.6733637452125549
яндекс 0.6510469913482666
Chrome 0.6478660106658936
Yahoo 0.6327301859855652
рекламодатель 0.6317338943481445


  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


In [13]:
for w, sim in model.most_similar(positive=['оператор']):
    print(w, sim)

мегафон 0.7228008508682251
сотовый 0.7055100798606873
мтс 0.6862690448760986
билайн 0.6843782663345337
роснефть 0.6440812945365906
корпорация 0.6438336372375488
фирма 0.6420727968215942
поставщик 0.6391454339027405
абонент 0.6073191165924072
акционер 0.603447437286377


  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


In [14]:
for w, sim in model.most_similar(positive=['мальчик', 'женщина'], negative=['мужчина']):
    print(w, sim)

  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


девочка 0.6111050844192505
старик 0.5812318921089172
сестра 0.5790057182312012
дядя 0.564658522605896
дама 0.5566304326057434
томек 0.5463043451309204
саша 0.5431455969810486
муж 0.5385066270828247
старушка 0.5378419160842896
барыня 0.5378360748291016


In [15]:
for w, sim in model.most_similar(positive=['ходить']):
    print(w, sim)

сидеть 0.6498598456382751
бегать 0.6198238730430603
учиться 0.6178407669067383
танцевать 0.6153303980827332
слушать 0.6115636825561523
стоять 0.6080521941184998
этак 0.6042578220367432
взад 0.600244402885437
гулять 0.5944511890411377
спокойно 0.5908673405647278


  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


In [16]:
for w, sim in model.most_similar(positive=[u'брат', u'жена'], negative=[u'муж']):
    print(w, sim)

сестра 0.6683633327484131
мэри 0.6056320667266846
сын 0.6004716157913208
дочь 0.6002380847930908
двоюродный 0.5924419164657593
супруга 0.579126238822937
принцесса 0.5668215751647949
младший 0.565616250038147
дочка 0.5553632378578186
внук 0.5540353059768677


  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


In [17]:
print(model.doesnt_match("книга журнал машина".split()))

машина


  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


In [18]:
model.similarity('книга', 'телефон')

  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


0.13313232

In [19]:
model['книга']

  """Entry point for launching an IPython kernel.


array([-0.0242616 ,  0.02658006, -0.00249151, -0.10567036, -0.03770078,
        0.00359159,  0.07194454,  0.05467488, -0.04118169, -0.10851707,
       -0.00167334,  0.07419596,  0.04268392, -0.02159388, -0.05352156,
        0.01935973,  0.07914834, -0.0097222 , -0.05140994,  0.05089401,
        0.00347668,  0.05737204, -0.03051436,  0.0306374 , -0.00697271,
        0.02392966,  0.0955827 ,  0.04400755, -0.00113303, -0.01479197,
       -0.06282092, -0.09184636,  0.03925015,  0.15835634, -0.02344829,
        0.03895782,  0.01301008,  0.02830101,  0.06580176,  0.04709809,
        0.05425551,  0.05289546, -0.04516783,  0.04024826, -0.05966172,
        0.00184173,  0.01884853,  0.0003376 ,  0.01524585, -0.03286644,
       -0.08436275,  0.02103208,  0.06744386,  0.03832787, -0.05111707,
       -0.00148062, -0.02969595,  0.02305269, -0.07319619, -0.00449917,
        0.08505154,  0.0830898 ,  0.02670067, -0.03632951, -0.02581454,
       -0.0018978 ,  0.04487599, -0.08965686,  0.06032377, -0.08