# Введение в автоматическую обработку текста.

### __Регулярные выражения__

__*Классы символов:*__

__[A-Z]__ - символы верхнего регистра (латиница)

__[a-z]__ - символы нижнего регистра (латиница)

__[А-Я]__ - символы верхнего регистра (кириллица)

__[а-я]__ - символы нижнего регистра (кириллица)

__[0-9]__ или \d - цифра

__[^0-9]__ или \D - любой символ, кроме цифры

__.__ - любой символ

__*Служебные символы:*__

__\t__ - табуляция

__\s__ - любой пробельный символ

__\S__ - все символы, кроме пробельных

__\n__  - перенос строки

__^__ - начало строки

__$__ - конец строки

__*Операторы:*__

__?__ - предыдущий символ/группа может быть, а может не быть

__+__ - предыдущий символ/группа может повторяться 1 и более раз

__*__ - предыдущий символ/группа может повторяться 0 и более раз

__{n,m}__ - предыдущий символ/группа может повторяться от от n до m включительно

__{n,}__ - предыдущий символ/группа в скобках может повторяться n и более раз

__{,m}__ - предыдущий символ/группа может повторяться до m раз

__{n}__ - предыдущий символ/группа повторяется n раз

Внутри групп не работают операторы __.__, __+__, __*__, их необходимо экранировать с помощью обратного слеша: \


__*Методы:*__

__re.match(pattern, string)__ - найти подстроку pattern в начале строки string


In [1]:
import re

m = re.match(r'рыбак', 'рыбак рыбака видит издалека')

print(m)
print(m.group(0))
print(m.start(), m.end())

l = re.match(r'видит', 'рыбак рыбака видит издалека')
print(l)

<_sre.SRE_Match object; span=(0, 5), match='рыбак'>
рыбак
0 5
None



__re.search(pattern, string)__ - аналогичен методу match, но ищет не только в начале строки (но возвращает только первое вхождение!)



In [2]:
m = re.search(r'издалека', 'рыбак рыбака видит издалека')

print(m)
print(m.group(0))
print(m.start(), m.end())

l = re.search(r'прорубь', 'рыбак рыбака видит издалека')
print(l)

<_sre.SRE_Match object; span=(19, 27), match='издалека'>
издалека
19 27
None


__re.findall(pattern, string)__ -  возвращает все вхождения pattern в string в виде списка



In [3]:
m = re.findall(r'рыбак', 'рыбак рыбака видит издалека')

print(m)

l = re.findall(r'прорубь', 'рыбак рыбака видит издалека')
print(l)

['рыбак', 'рыбак']
[]


__re.split(pattern, string, [maxsplit=0])__ - разделяет строку string по шаблону pattern; параметр maxsplit отвечает за максимальное количество разбиений (если их существует несколько).



In [4]:
m = re.split(r'видит', 'рыбак рыбака видит издалека')

print(m)

l = re.split(r'рыбак', 'рыбак рыбака видит издалека')
print(l, len(l))

l1 = re.split(r'рыбак', 'рыбак рыбака видит издалека',maxsplit=1)
print(l1, len(l1))

['рыбак рыбака ', ' издалека']
['', ' ', 'а видит издалека'] 3
['', ' рыбака видит издалека'] 2


__re.sub(pattern, string2, string1)__ - заменяет все вхождения pattern в string1 на srting2



In [5]:
m = re.sub(r'рыбак', 'Рыбак', 'рыбак рыбака видит издалека')

print(m)

Рыбак Рыбака видит издалека


__re.compile(pattern)__ - создает объект для последующего поиска

In [6]:
prog = re.compile(r'рыбак')

m = prog.findall('рыбак рыбака видит издалека')

print(m)

['рыбак', 'рыбак']


In [7]:
prog = re.compile('[A-Я]') # поиск всех заглавныех букв в строке

m = prog.findall('Рыбак рыбака видит издалека. Всегда!')

print(m)

['Р', 'В']


__*Примеры:*__

In [8]:
prog = re.compile('[авекорсту]{1}[0-9]{3}[авекорсту]{2}') # регулярное выражение для поиска автомобильных
                                                          # номеров (русские буквы, совпадающие с латиницей)

s = 'у456ао, ы234ег, 99авто443'
print(s)
res = prog.findall(s)

print(*res)

у456ао, ы234ег, 99авто443
у456ао


In [9]:
# пример "жадных" операторов: ищем котов

s = 'кот котик компот'
res1 = re.findall(r'к.*т', s)
print(res1)

res2 = re.findall(r'к.*?т', s)
print(res2)

res3 = re.findall(r'к[\S]*?т', s)
print(res3)

res4 = re.findall(r'кот.*\s', s)
print(res4)

['кот котик компот']
['кот', 'кот', 'к компот']
['кот', 'кот', 'компот']
['кот котик ']


### __Задание 1:__

Найдите в тексте все номера телефонов; текст лежит в файле 'task1.txt'. Обратите внимание на возможные форматы написания номеров.

In [10]:
import re

with open ('task1.txt') as f:
    phones = f.read()
    
print(phones)

#здесь Ваш код

Гарантируется, что в номере 8 цифр и он отделен пробелом, но форматы написания могут отличаться:


89268659970	Анна
8(495)3451212	Алексей Иванин
Автомастерская	+7(234)456-78-90
8(956)234-23-23	соседка 125 квартира
Офис, 5 этаж	85679962312 
Игорь		+7-845-344-23-65



### __Токенизация с помощью регулярных выражений__

In [11]:
text = '«Карты, деньги, два ствола» культовый фильм Гая Ричи. Эта картина покорила сначала Британию, затем Америку, а потом и весь мир. Никому неизвестный режиссер Гай Ричи, у которого за плечами были только коротметражка «Трудное дело», дешевые рекламные ролики и клипы, создал шедевр на все времена. Это именно тот случай, когда и критики, и зрители в восторге. Здесь очень много черного юмора и насилия, но это и делает фильм таким какой он есть. Хотя он и не стал лидером проката, он собрал множество наград и стал классикой. Но вернемся в прошлое и перенесемся за океан. В 1994 году вышел фильм «Криминальное чтиво» Квентина Тарантино. По слухам, как-то его спросили — «Квентин, вам не кажется, что вы не сняли ничего лучше Криминального чтива?», на что он ответил — «А кто снял?». Нет, не снял, но снимет через четыре года. Молодой и талантливый режиссер Гай Ричи заставит заговорить о себе весь мир. Со своей картиной «Карты, деньги, два ствола» он не только встанет на один уровень со своим голливудским коллегой Квентином Тарантино и его фильмом «Криминальное чтиво», но и превзойдет его. Впрочем, здесь достаточно трудно утверждать чей фильм лучше, а чей хуже: оба этих фильма гениальны, однако свое предпочтение я все же отдам Гаю Ричи. А теперь, после того, как я похвалила режиссера, можно перейти к самой картине. О ней только и можно сказать что она невероятна. Именно такой и видится криминальный мир Лондона. Здесь есть все составляющие для хорошего кино. Все актеры подобраны идеально и стоят на своем месте. Стоит ли говорить, что после этого фильма Джейсон Стэйтем проснулся звездой. Кроме потрясающей режиссерской работы, здесь ещё и отличный сценарий, написанный так же Гаем Ричи. Все диалоги настолько хороши, что во время просмотра хочется взять бумагу и ручку и записать их. Так же к диалогам подобрано отличное музыкальное сопровождение. С первых минут фильм кажется ничем не примечательным, и думаешь почему же все считают его культовым. Но потом происходит что-то нереальное. Этот фильм настолько притягивает к себе, что оторваться просто невозможно, настолько интересно наблюдать, как сюжетные линии переплетаются между собой. После просмотра «Карты, деньги, два ствола», просто сидишь в оцепенении и думаешь «Черт возьми, что это было? И хочу ещё!» Безусловно, Гай Ричи создал культовое кино, которое хочется смотреть и пересматривать.'

print(text)

«Карты, деньги, два ствола» культовый фильм Гая Ричи. Эта картина покорила сначала Британию, затем Америку, а потом и весь мир. Никому неизвестный режиссер Гай Ричи, у которого за плечами были только коротметражка «Трудное дело», дешевые рекламные ролики и клипы, создал шедевр на все времена. Это именно тот случай, когда и критики, и зрители в восторге. Здесь очень много черного юмора и насилия, но это и делает фильм таким какой он есть. Хотя он и не стал лидером проката, он собрал множество наград и стал классикой. Но вернемся в прошлое и перенесемся за океан. В 1994 году вышел фильм «Криминальное чтиво» Квентина Тарантино. По слухам, как-то его спросили — «Квентин, вам не кажется, что вы не сняли ничего лучше Криминального чтива?», на что он ответил — «А кто снял?». Нет, не снял, но снимет через четыре года. Молодой и талантливый режиссер Гай Ричи заставит заговорить о себе весь мир. Со своей картиной «Карты, деньги, два ствола» он не только встанет на один уровень со своим голливудс

In [12]:
prog = re.compile('[А-Яа-я\-]+')
tokens = prog.findall(text.lower())
print(' '.join(tokens[:10]))

карты деньги два ствола культовый фильм гая ричи эта картина


### __Сегментация предложений__

In [13]:
from nltk.tokenize import sent_tokenize

text1 = 'Первое предложение. Второе предложение! И, наконец, третье?'
sents = sent_tokenize(text1)

print(len(sents))
print(*sents, sep='\n')

3
Первое предложение.
Второе предложение!
И, наконец, третье?


### __Частотный анализ текста__

10 самых частых слов (токенов):

In [14]:
import nltk

d1 = nltk.FreqDist(tokens) # частотный словарь для текста
d1.most_common(10) # токен и кол-во его появлений в тексте

[('и', 22),
 ('что', 7),
 ('фильм', 6),
 ('ричи', 6),
 ('все', 6),
 ('не', 6),
 ('но', 5),
 ('он', 5),
 ('а', 4),
 ('на', 4)]

Распределение длин слов в тексте:

In [15]:
d2 = nltk.FreqDist(len(w) for w in tokens)  

print(d2)  
print(d2.most_common(5)) # 5 самых частых длин слов
print(d2.freq(d2.max())) # как часто они встречаются в тексте

<FreqDist with 14 samples and 363 outcomes>
[(5, 56), (3, 46), (6, 41), (1, 39), (7, 38)]
0.15426997245179064


### __Задание 2:__

1. Посчитайте, сколько слов в тексте про Гая Ричи встречается больше 3 раз.
2. Посчитайте количество слов, состоящих из 5 букв и более.

### __Лемматизация текста__

In [16]:
sent = 'Безусловно, Гай Ричи создал культовое кино, которое хочется смотреть и пересматривать.'

Pymorphy:

In [17]:
%%time
from pymorphy2 import MorphAnalyzer

m = MorphAnalyzer()
lemmas1 = [m.parse(word)[0].normal_form for word in sent.split()]
print(' '.join(lemmas1))

безусловно, гай ричать создать культовый кино, который хотеться смотреть и пересматривать.
CPU times: user 74 ms, sys: 39.8 ms, total: 114 ms
Wall time: 198 ms


Mystem:

In [18]:
%%time
from pymystem3 import Mystem

m = Mystem()
lemmas2 = m.lemmatize(sent)
print(''.join(lemmas2))

ModuleNotFoundError: No module named 'pymystem3'

In [19]:
m = MorphAnalyzer()

m.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [20]:
p = m.parse('кот')[0]
print(p.tag)
print({'anim', 'nomn'} in p.tag)
print({'VERB'} in p.tag)

NOUN,anim,masc sing,nomn
True
False


Обозначения для граммем: http://pymorphy2.readthedocs.io/en/latest/user/grammemes.html#grammeme-docs

### Задание 3

Найдите в списке персонажей романа "Война и мир" все уникальные  женские имена.

In [21]:
with open ('persons.txt') as f:
    raw = f.read()
    
# здесь Ваш код

### Стемминг

In [22]:
from nltk.stem.snowball import RussianStemmer

stemmer = RussianStemmer()
words = ['распределение', 'приставить', 'сделала', 'словообразование']
for w in words:
    stem = stemmer.stem(w)
    print(stem)

распределен
пристав
сдела
словообразован


### __Удаление стоп-слов__

In [23]:
print(text)

«Карты, деньги, два ствола» культовый фильм Гая Ричи. Эта картина покорила сначала Британию, затем Америку, а потом и весь мир. Никому неизвестный режиссер Гай Ричи, у которого за плечами были только коротметражка «Трудное дело», дешевые рекламные ролики и клипы, создал шедевр на все времена. Это именно тот случай, когда и критики, и зрители в восторге. Здесь очень много черного юмора и насилия, но это и делает фильм таким какой он есть. Хотя он и не стал лидером проката, он собрал множество наград и стал классикой. Но вернемся в прошлое и перенесемся за океан. В 1994 году вышел фильм «Криминальное чтиво» Квентина Тарантино. По слухам, как-то его спросили — «Квентин, вам не кажется, что вы не сняли ничего лучше Криминального чтива?», на что он ответил — «А кто снял?». Нет, не снял, но снимет через четыре года. Молодой и талантливый режиссер Гай Ричи заставит заговорить о себе весь мир. Со своей картиной «Карты, деньги, два ствола» он не только встанет на один уровень со своим голливудс

In [24]:
from nltk.corpus import stopwords
import pymorphy2

morph = pymorphy2.MorphAnalyzer()
l = [morph.parse(token)[0].normal_form for token in tokens if not token in stopwords.words('russian')]
d3 = nltk.FreqDist(l)
d3.most_common(10)

[('фильм', 9),
 ('гай', 6),
 ('ричать', 6),
 ('криминальный', 4),
 ('снять', 4),
 ('свой', 4),
 ('карта', 3),
 ('деньга', 3),
 ('ствол', 3),
 ('культовый', 3)]

In [25]:
print (d3['снять'])
print (d3.freq('снять'))

4
0.017777777777777778


__Удаление небуквенных символов:__

In [26]:
s = 'Уфологи уверены, что таинственная планета "Нибиру" не только существует, но и обнаружена в 2007 году. По их словам, в NASA до сих пор не могут решить, отнести небесное тело под кодовым номером OGLE-2016-BLG-1190Lb к числу планет или звезд.'

print(s)

Уфологи уверены, что таинственная планета "Нибиру" не только существует, но и обнаружена в 2007 году. По их словам, в NASA до сих пор не могут решить, отнести небесное тело под кодовым номером OGLE-2016-BLG-1190Lb к числу планет или звезд.


In [27]:
prog = re.compile('[А-Яа-я\-]+')
tokens2 = prog.findall(s)

morph = pymorphy2.MorphAnalyzer()
l2 = [morph.parse(token)[0].normal_form for token in tokens2 if token.isalpha()]

print(*l2)

уфолог уверить что таинственный планет нибира не только существовать но и обнаружить в год по они слово в до сей пора не мочь решить отнести небесный тело под кодовый номер к число планета или звезда


### __NLTK-текст__

In [28]:
with open('Vinni-Puh.txt') as f:
    raw = f.read()
    
tokens = nltk.word_tokenize(raw)
nltk_text = nltk.Text(tokens)
nltk_text

<Text: Александр Милн , Борис Заходер Винни-Пух ПРЕДИСЛОВИЕ Ровно...>

In [29]:
nltk_text.concordance("Пух")

Displaying 25 of 25 matches:
се новые Шумелки , Пыхтелки и Вопилки Пух сочинял под моим руководством . Слово
ать , как было раньше ) . Во-вторых , Пух с друзьями разместились в целых двух 
 папа . Вот однажды , гуляя по лесу , Пух вышел на полянку . На полянке рос выс
ь на такие вышки ! По правде говоря , Пух уже порядком устал , поэтому Пыхтелка
точку — и… ТРРАХ ! — Мама ! — крикнул Пух , пролетев добрых три метра вниз и чу
 , что я слишком люблю мёд ! Мама ! … Пух выкарабкался из тернового куста , выт
рое утро , Кристофер Робин ! — сказал Пух . — Доброе утро , Винни-Пух ! — сказа
 — Мёд . — Что-о ? — Мёд ! — повторил Пух . — Кто же это ходит за мёдом с возду
здушными шарами ? — Я хожу ! — сказал Пух . Ну , а как раз накануне Кристофер Р
равится ? — спросил Кристофер Робин . Пух обхватил голову лапами и задумался . 
у разве не похож ? — тревожно спросил Пух . — Не очень . — Ну ладно , может быт
ову ! К сожалению , ветра не было , и Пух повис в воздухе совершенно неподвижно
релишь , то

In [30]:
nltk_text.similar('сказал') #контекстуальные синонимы для слова "сказал"

и спросил он вот если закричал тогда а ведь только так что но видел
был подумал крикнул повторил знаю пискнул


In [31]:
nltk_text.common_contexts(["ты", "я"]) #общие контексты для слов "ты" и "я"

а_думал нет_не пух_не разве_не что_говорил что_должен


In [32]:
nltk_text.collocations(10) #коллокации

Кристофер Робин; сказал Пух; Кристофера Робина; потому что; может
быть; Кристоферу Робину; сказала Кенга; сказала Сова; сказал Кролик;
сказал Кристофер


### __Задание 4:__

1. Лемматизируйте текст про Винни Пуха.
2. Найдите 10 самых частотных лемм.
3. Удалите все стоп-слова и небуквенные символы. Найдите 10 самых частотных лемм (без стоп-слов).
4. Проверьте закон Ципфа на примере данного текста: постройте на одном графике график функции 1/n и кривую Ципфа. 

## tf-idf

В папке лежит коллекция текстов 'recipes.txt' (кулинарные рецепты), разбитая по темам: супы, салаты и десерты. Проведем предобработку каждого текста, выделим ключевые слова для каждой категории с помощью tf-idf.

In [51]:
with open('soups.txt') as data_file:    
    soups_raw = data_file.read()
    
with open('salads.txt') as data_file:    
    salads_raw = data_file.read()
    
with open('desserts.txt') as data_file:    
    desserts_raw = data_file.read() 

In [53]:
from nltk import word_tokenize
recipes = [] #массив со всеми рецептами

#soups
data = soups_raw.replace(" г ", " грамм ").replace(" л ", " литр ").replace(" ст. ", " столовая ")
tokens = word_tokenize(data)
d = [morph.parse(token)[0].normal_form for token in tokens if not token.lower() in stopwords.words('russian')]
words = [ch.lower() for ch in d if ch.isalpha()] 
soups = ' '.join([w for w in words])
recipes.append(soups)

#salads
data = salads_raw.replace(" г ", " грамм ").replace(" л ", " литр ").replace(" ст. ", " столовая ")
tokens = word_tokenize(data)
d = [morph.parse(token)[0].normal_form for token in tokens if not token.lower() in stopwords.words('russian')]
words = [ch.lower() for ch in d if ch.isalpha()] 
salads = ' '.join([w for w in words])
recipes.append(salads)

#desserts
data = desserts_raw.replace(" г ", " грамм ").replace(" л ", " литр ").replace(" ст. ", " столовая ") 
tokens = word_tokenize(data)
d = [morph.parse(token)[0].normal_form for token in tokens if not token.lower() in stopwords.words('russian')]
words = [ch.lower() for ch in d if ch.isalpha()] 
desserts = ' '.join([w for w in words])
recipes.append(desserts)

In [55]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

tfidf = TfidfVectorizer(analyzer='word', ngram_range=(1,1), min_df = 0)
tfidf_matrix =  tfidf.fit_transform(recipes)
feature_names = tfidf.get_feature_names() 

categories = ['soups', 'salads', 'desserts']

df = []
dense = tfidf_matrix.todense()
for i in range(3):
    text = dense[i].tolist()[0]
    phrase_scores = [pair for pair in zip(range(0, len(text)), text) if pair[1] > 0]
    sorted_phrase_scores = sorted(phrase_scores, key=lambda t: t[1] * -1)
    phrases = []
    for phrase, score in [(feature_names[word_id], score) for (word_id, score) in sorted_phrase_scores][:50]:
        phrases.append(phrase)
    df.append([ categories[i], ' '.join(phrases)])
result = pd.DataFrame.from_records(df, columns = ['category','terms'])

In [56]:
result

Unnamed: 0,category,terms
0,soups,грамм бульон суп вода варить нарезать минута л...
1,salads,грамм салат нарезать ложка соль столовый огуре...
2,desserts,грамм масло стакан тесто ложка яйцо мука вода ...


## Word2Vec

In [38]:
with open('trump.txt') as f: # в файле лежит 51 новостоной текст про избрание Трампа президентом, разделенных '\n\n'
    text = f.read()          

    
    
doc_set = text.split('\n\n')
print(len(doc_set))
print(doc_set[0])

51
Полные тексты сообщений
Fresher (fresher.ru), Москва, 21 января 2017
ИНАУГУРАЦИЯ 45-ГО ПРЕЗИДЕНТА США ДОНАЛЬДА ТРАМПА
В полдень 20 января (20:00 мск) миллиардер Трамп стал хозяином Белого дома, сменив на этом посту Барака Обаму 
Ранним утром 20 января 2017 года здание Капитолия в Вашингтоне было готово к инаугурации нового президента США. Традиция проводить церемонию в западном крыле Капитолия ведется с 20 января 1981 года, когда на пост президента США заступил Рональд Рейган. 
Мормонский табернакальный хор, существующий с 1973 года, не впервые принял участие в церемонии инаугурации президента США. Хор пел во время вступления в должность главы Белого дома Линдона Джонсона в 1965 году, Ричарда Никсона - в 1969-м, Рональда Рейгана - в 1981-м и Джорджа Буша-старшего (в 1989 году) и Джорджа Буша-младшего (в 2001-м). 
Действующий президент США Барак Обама и его жена Мишель у входа в Белый дом ожидают избранного президента Дональда Трампа с супругой Меланией на традиционное чаепитие. Чере

In [42]:
from nltk.tokenize import RegexpTokenizer

raw = [doc.lower() for doc in doc_set]
no_urls = [re.sub('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', t) for t in raw]

tokenizer = RegexpTokenizer(r'\w+')
tokens = [tokenizer.tokenize(r) for r in no_urls]
print(tokens[0][:10])

['полные', 'тексты', 'сообщений', 'fresher', 'fresher', 'ru', 'москва', '21', 'января', '2017']


In [43]:
stopped_tokens = [[w for w in t if w.isalpha() and not w in stopwords.words('russian')] for t in tokens]

print(stopped_tokens[0][:10])

['полные', 'тексты', 'сообщений', 'fresher', 'fresher', 'ru', 'москва', 'января', 'инаугурация', 'го']


In [44]:
morph = pymorphy2.MorphAnalyzer()
lemmas = [[morph.parse(t)[0].normal_form for t in tokens] for tokens in stopped_tokens] 

In [46]:
%%time
from gensim.models import Word2Vec
model = Word2Vec(lemmas, size=100, window=5, min_count=5, workers=4)
model.save("izv_w2v.model")

CPU times: user 943 ms, sys: 224 ms, total: 1.17 s
Wall time: 1.3 s


Синонимы:

In [47]:
model.most_similar("трамп", topn=15)

  """Entry point for launching an IPython kernel.


[('сша', 0.999905526638031),
 ('президент', 0.9998775124549866),
 ('январь', 0.9998767971992493),
 ('инаугурация', 0.9998635053634644),
 ('избранный', 0.999793291091919),
 ('состояться', 0.9997864961624146),
 ('москва', 0.9997209906578064),
 ('церемония', 0.9996782541275024),
 ('дональд', 0.999654233455658),
 ('должность', 0.9996520280838013),
 ('кабинет', 0.9996214509010315),
 ('время', 0.9996209144592285),
 ('присяга', 0.9995948076248169),
 ('вашингтон', 0.9995070695877075),
 ('республиканец', 0.9994803071022034)]

Ассоциации вида (мужчина : король = женщина : королева)

In [48]:
model.most_similar(positive=["путин","сша"], negative=["трамп"])

  """Entry point for launching an IPython kernel.


[('глава', 0.9995779991149902),
 ('россия', 0.9995577335357666),
 ('стать', 0.9995557069778442),
 ('демократ', 0.9995537996292114),
 ('свой', 0.9995518922805786),
 ('новый', 0.9995412230491638),
 ('вашингтон', 0.9995331168174744),
 ('новое', 0.9995326399803162),
 ('который', 0.9995190501213074),
 ('день', 0.9995185136795044)]

Лишнее слово:

In [49]:
model.doesnt_match("обама трамп путин сша вашингтон".split())

  """Entry point for launching an IPython kernel.


'путин'

### Дополнительно: Синтаксический анализ

In [33]:
with open('sentences.txt') as f:
    text = f.read()
    
print(text)

clickhouse какая СУБД .

столбцовая СУБД . 

что такое INNER JOIN .

Почему Очень важно хранить данные компактно .

Что защищает от аппаратных сбоев .

Что могут иметь функции и операторы в качестве аргументов .





Запуск SyntaxNet из Docker: 

In [34]:
! cat sentences.txt | docker run --rm -i inemo/syntaxnet_rus > data.conll

docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?.
See 'docker run --help'.


Представление результатов с помощью Python:

In [35]:
from nltk import DependencyGraph
import codecs

processed_sentences = []
sentence = []
for line in codecs.open('data.conll', 'r', 'utf-8'):
    if len(line) == 1:
        processed_sentences.append(sentence)
        sentence = []
    else:
        word = line.split("\t")
        sentence.append(word)

deps = []
for sentence in processed_sentences:
    s = u""
    for line in sentence:
        s += u"\t".join(line) + u'\n'
    deps.append(s)

for sent_dep in deps:
    graph = DependencyGraph(tree_str=sent_dep)
    for triple in graph.triples():
        for e in triple:
            print(e[0] if isinstance(e, tuple) else e,)
        print()
    print()
    tree = graph.tree()
    print(tree.pretty_print())

In [36]:
for sent_dep in deps:
    verbs = {}
    for t in sent_dep.split('\n'):
        if len(t) > 1:
            splt = t.split('\t')
            if splt[3] == 'VERB':
                verbs[splt[0]] = [splt[1]]
    sent_split = sent_dep.split('\n')
    sent = [i.split('\t') for i in sent_split if len(i) > 1]
    for splt in sent:
        if splt[7] in ['dobj', 'nsubj']:
            if splt[6] in verbs:
                verbs[splt[6]].append(splt[1])
                
                
    for t in verbs.values():
        for elem in t:
            print(elem)
        print()

### Задание 5.

1. Исправьте данный код, чтобы он учитывал однородные члены при разборе предложения.
2. Найдите в тексте про Винни Пуха все SVO-тройки, где субъектом выступает Сова.