# Введение в автоматическую обработку текста.

### __Регулярные выражения__

__*Классы символов:*__

__[A-Z]__ - символы верхнего регистра (латиница)

__[a-z]__ - символы нижнего регистра (латиница)

__[А-Я]__ - символы верхнего регистра (кириллица)

__[а-я]__ - символы нижнего регистра (кириллица)

__[0-9]__ или \d - цифра

__[^0-9]__ или \D - любой символ, кроме цифры

__.__ - любой символ

__*Служебные символы:*__

__\t__ - табуляция

__\s__ - любой пробельный символ

__\S__ - все символы, кроме пробельных

__\n__  - перенос строки (\r)

__^__ - начало строки

__$__ - конец строки

__*Операторы:*__

__?__ - предыдущий символ/группа может быть, а может не быть

__+__ - предыдущий символ/группа может повторяться 1 и более раз

__*__ - предыдущий символ/группа может повторяться 0 и более раз

__{n,m}__ - предыдущий символ/группа может повторяться от от n до m включительно

__{n,}__ - предыдущий символ/группа в скобках может повторяться n и более раз

__{,m}__ - предыдущий символ/группа может повторяться до m раз

__{n}__ - предыдущий символ/группа повторяется n раз

Внутри групп не работают операторы __.__, __+__, __*__, их необходимо экранировать с помощью обратного слеша: \


__*Методы:*__

__re.match(pattern, string)__ - найти подстроку pattern в начале строки string


In [2]:
import re

m = re.match(r'рыбак', 'рыбак рыбака видит издалека')

print(m)
print(m.group(0))
print(m.start(), m.end())

l = re.match(r'видит', 'рыбак рыбака видит издалека')
print(l)

<_sre.SRE_Match object; span=(0, 5), match='рыбак'>
рыбак
0 5
None



__re.search(pattern, string)__ - аналогичен методу match, но ищет не только в начале строки (но возвращает только первое вхождение!)



In [22]:
m = re.search(r'издалека', 'рыбак рыбака видит издалека')

print(m)
print(m.group(0))
print(m.start(), m.end())

l = re.search(r'прорубь', 'рыбак рыбака видит издалека')
print(l)

<_sre.SRE_Match object; span=(19, 27), match='издалека'>
издалека
19 27
None


__re.findall(pattern, string)__ -  возвращает все вхождения pattern в string в виде списка



In [24]:
m = re.findall(r'рыбак', 'рыбак рыбака видит издалека')

print(m)

l = re.findall(r'прорубь', 'рыбак рыбака видит издалека')
print(l)

['рыбак', 'рыбак']
[]


__re.split(pattern, string, [maxsplit=0])__ - разделяет строку string по шаблону pattern; параметр maxsplit отвечает за максимальное количество разбиений (если их существует несколько).



In [3]:
m = re.split(r'видит', 'рыбак рыбака видит издалека')

print(m)

l = re.split(r'рыбак', 'рыбак рыбака видит издалека')
print(l, len(l))

l1 = re.split(r'рыбак', 'рыбак рыбака видит издалека',maxsplit=1)
print(l1, len(l1))

['рыбак рыбака ', ' издалека']
['', ' ', 'а видит издалека'] 3
['', ' рыбака видит издалека'] 2


__re.sub(pattern, string2, string1)__ - заменяет все вхождения pattern в string1 на srting2



In [6]:
m = re.sub(r'рыбак', 'Рыбак', 'рыбак рыбака видит издалека')

print(m)

Рыбак Рыбака видит издалека


__re.compile(pattern)__ - создает объект для последующего поиска

In [7]:
prog = re.compile(r'рыбак')

m = prog.findall('рыбак рыбака видит издалека')

print(m)

['рыбак', 'рыбак']


In [8]:
prog = re.compile('[A-Я]') # поиск всех заглавныех букв в строке

m = prog.findall('Рыбак рыбака видит издалека. Всегда!')

print(m)

['Р', 'В']


__*Примеры:*__

In [18]:
prog = re.compile('[авекорсту\(\)\*]{1}[0-9]{3}[авекорсту]{2}') # регулярное выражение для поиска автомобильных
                                                          # номеров (русские буквы, совпадающие с латиницей)

s = 'у456ао, ы234ег, 99авто443'
print(s)
res = prog.findall(s)

print(*res)

у456ао, ы234ег, 99авто443
у456ао


In [43]:
# пример "жадных" операторов: ищем котов

s = 'кот котик компот'
res1 = re.findall(r'к.*т', s)
print(res1)

res2 = re.findall(r'к.*?т', s)
print(res2)

res3 = re.findall(r'к[\S]*?т', s)
print(res3)

res4 = re.findall(r'кот.*\s', s)
print(res4)

['кот котик компот']
['кот', 'кот', 'к компот']
['кот', 'кот', 'компот']
['кот котик ']


### __Задание 1:__

Найдите в тексте все номера телефонов; текст лежит в файле 'task1.txt'. Обратите внимание на возможные форматы написания номеров.

In [12]:
import re

with open ('../data/task1.txt') as f:
    phones = f.read()
    
print(phones)

prog1 = re.compile('[+0-9\-(\)]{8,}')
res = prog1.findall(phones)
print(*res, sep='\n')

p = '+'

Гарантируется, что в номере 8 цифр и он отделен пробелом, но форматы написания могут отличаться:


89268659970	Анна
8(495)3451212	Алексей Иванин
Автомастерская	+7(234)456-78-90
8(956)234-23-23	соседка 125 квартира
Офис, 5 этаж	85679962312 
Игорь		+7-845-344-23-65

89268659970
8(495)3451212
+7(234)456-78-90
8(956)234-23-23
85679962312
+7-845-344-23-65


In [1]:
with open('../data/task1.txt', encoding = 'utf-8') as infile:
    lines = infile.readlines()

### __Токенизация с помощью регулярных выражений__

In [84]:
text = '«Карты, деньги, два ствола» культовый фильм Гая Ричи. Эта картина покорила сначала Британию, затем Америку, а потом и весь мир. Никому неизвестный режиссер Гай Ричи, у которого за плечами были только коротметражка «Трудное дело», дешевые рекламные ролики и клипы, создал шедевр на все времена. Это именно тот случай, когда и критики, и зрители в восторге. Здесь очень много черного юмора и насилия, но это и делает фильм таким какой он есть. Хотя он и не стал лидером проката, он собрал множество наград и стал классикой. Но вернемся в прошлое и перенесемся за океан. В 1994 году вышел фильм «Криминальное чтиво» Квентина Тарантино. По слухам, как-то его спросили — «Квентин, вам не кажется, что вы не сняли ничего лучше Криминального чтива?», на что он ответил — «А кто снял?». Нет, не снял, но снимет через четыре года. Молодой и талантливый режиссер Гай Ричи заставит заговорить о себе весь мир. Со своей картиной «Карты, деньги, два ствола» он не только встанет на один уровень со своим голливудским коллегой Квентином Тарантино и его фильмом «Криминальное чтиво», но и превзойдет его. Впрочем, здесь достаточно трудно утверждать чей фильм лучше, а чей хуже: оба этих фильма гениальны, однако свое предпочтение я все же отдам Гаю Ричи. А теперь, после того, как я похвалила режиссера, можно перейти к самой картине. О ней только и можно сказать что она невероятна. Именно такой и видится криминальный мир Лондона. Здесь есть все составляющие для хорошего кино. Все актеры подобраны идеально и стоят на своем месте. Стоит ли говорить, что после этого фильма Джейсон Стэйтем проснулся звездой. Кроме потрясающей режиссерской работы, здесь ещё и отличный сценарий, написанный так же Гаем Ричи. Все диалоги настолько хороши, что во время просмотра хочется взять бумагу и ручку и записать их. Так же к диалогам подобрано отличное музыкальное сопровождение. С первых минут фильм кажется ничем не примечательным, и думаешь почему же все считают его культовым. Но потом происходит что-то нереальное. Этот фильм настолько притягивает к себе, что оторваться просто невозможно, настолько интересно наблюдать, как сюжетные линии переплетаются между собой. После просмотра «Карты, деньги, два ствола», просто сидишь в оцепенении и думаешь «Черт возьми, что это было? И хочу ещё!» Безусловно, Гай Ричи создал культовое кино, которое хочется смотреть и пересматривать.'

print(text)

«Карты, деньги, два ствола» культовый фильм Гая Ричи. Эта картина покорила сначала Британию, затем Америку, а потом и весь мир. Никому неизвестный режиссер Гай Ричи, у которого за плечами были только коротметражка «Трудное дело», дешевые рекламные ролики и клипы, создал шедевр на все времена. Это именно тот случай, когда и критики, и зрители в восторге. Здесь очень много черного юмора и насилия, но это и делает фильм таким какой он есть. Хотя он и не стал лидером проката, он собрал множество наград и стал классикой. Но вернемся в прошлое и перенесемся за океан. В 1994 году вышел фильм «Криминальное чтиво» Квентина Тарантино. По слухам, как-то его спросили — «Квентин, вам не кажется, что вы не сняли ничего лучше Криминального чтива?», на что он ответил — «А кто снял?». Нет, не снял, но снимет через четыре года. Молодой и талантливый режиссер Гай Ричи заставит заговорить о себе весь мир. Со своей картиной «Карты, деньги, два ствола» он не только встанет на один уровень со своим голливудс

In [86]:
prog = re.compile('[А-Яа-я\-]+')
tokens = prog.findall(text.lower())
print(' '.join(tokens[:10]))

карты деньги два ствола культовый фильм гая ричи эта картина


### __Сегментация предложений__

In [15]:
from nltk.tokenize import sent_tokenize


text1 = 'Первое предложение. Второе предложение! И, наконец, третье?  Где находится г. Москва?'
sents = sent_tokenize(text1)

print(len(sents))
print(*sents, sep='\n')

4
Первое предложение.
Второе предложение!
И, наконец, третье?
Где находится г. Москва?


In [None]:
nltk.download('english.pkl')

### __Частотный анализ текста__

10 самых частых слов (токенов):

In [17]:
import nltk

d1 = nltk.FreqDist(tokens) # частотный словарь для текста
d1.most_common(10) # токен и кол-во его появлений в тексте

[('и', 22),
 ('что', 7),
 ('фильм', 6),
 ('ричи', 6),
 ('все', 6),
 ('не', 6),
 ('но', 5),
 ('он', 5),
 ('а', 4),
 ('на', 4)]

In [18]:
d1['здесь']

4

Распределение длин слов в тексте:

In [7]:
d2 = nltk.FreqDist(len(w) for w in tokens)  

print(d2)  
print(d2.most_common(5)) # 5 самых частых длин слов
print(d2.freq(d2.max())) # как часто они встречаются в тексте

<FreqDist with 14 samples and 363 outcomes>
[(5, 56), (3, 46), (6, 41), (1, 39), (7, 38)]
0.15426997245179064


### __Задание 2:__

1. Посчитайте, сколько слов в тексте про Гая Ричи встречается больше 3 раз.
2. Посчитайте количество слов, состоящих из 5 букв и более.

In [22]:
res = [i for i in d1.most_common() if i[1] > 3]

print(len(res))

14


In [26]:
res = [i for i in tokens if len(i) >= 5]
print(len(res))

res = [i[1] for i in d1.most_common() if len(i[0]) >= 5]
print(sum(res))

210
210


### __Лемматизация текста__

In [27]:
sent = 'Безусловно, Гай Ричи создал культовое кино, которое хочется смотреть и пересматривать.'

Pymorphy:

In [28]:
%%time
from pymorphy2 import MorphAnalyzer

m = MorphAnalyzer()
lemmas1 = [m.parse(word)[0].normal_form for word in sent.split()]
print(' '.join(lemmas1))

безусловно, гай ричать создать культовый кино, который хотеться смотреть и пересматривать.
CPU times: user 65.2 ms, sys: 29.8 ms, total: 95 ms
Wall time: 114 ms


In [31]:
m.parse('эмбеддинг')

[Parse(word='эмбеддинг', tag=OpencorporaTag('NOUN,anim,masc,Sgtm,Surn sing,nomn'), normal_form='эмбеддинг', score=0.14285714285714285, methods_stack=((<FakeDictionary>, 'эмбеддинг', 49, 0), (<KnownSuffixAnalyzer>, 'ддинг'))),
 Parse(word='эмбеддинг', tag=OpencorporaTag('NOUN,anim,femn,Sgtm,Fixd,Surn sing,nomn'), normal_form='эмбеддинг', score=0.14285714285714285, methods_stack=((<FakeDictionary>, 'эмбеддинг', 49, 6), (<KnownSuffixAnalyzer>, 'ддинг'))),
 Parse(word='эмбеддинг', tag=OpencorporaTag('NOUN,anim,femn,Sgtm,Fixd,Surn sing,gent'), normal_form='эмбеддинг', score=0.14285714285714285, methods_stack=((<FakeDictionary>, 'эмбеддинг', 49, 7), (<KnownSuffixAnalyzer>, 'ддинг'))),
 Parse(word='эмбеддинг', tag=OpencorporaTag('NOUN,anim,femn,Sgtm,Fixd,Surn sing,datv'), normal_form='эмбеддинг', score=0.14285714285714285, methods_stack=((<FakeDictionary>, 'эмбеддинг', 49, 8), (<KnownSuffixAnalyzer>, 'ддинг'))),
 Parse(word='эмбеддинг', tag=OpencorporaTag('NOUN,anim,femn,Sgtm,Fixd,Surn sing,a

Mystem:

In [32]:
%%time
from pymystem3 import Mystem

m = Mystem()
lemmas2 = m.lemmatize(sent)
print(lemmas2)
print(''.join(lemmas2))

['безусловно', ', ', 'гай', ' ', 'ричи', ' ', 'создавать', ' ', 'культовый', ' ', 'кино', ', ', 'который', ' ', 'хотеться', ' ', 'смотреть', ' ', 'и', ' ', 'пересматривать', '.', '\n']
безусловно, гай ричи создавать культовый кино, который хотеться смотреть и пересматривать.

CPU times: user 3.84 ms, sys: 7.79 ms, total: 11.6 ms
Wall time: 1.42 s


In [34]:
m.analyze('стали')

[{'analysis': [{'gr': 'V,нп=прош,мн,изъяв,сов', 'lex': 'становиться'}],
  'text': 'стали'},
 {'text': '\n'}]

In [85]:
m = MorphAnalyzer()

m.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [36]:
m = MorphAnalyzer()
p = m.parse('кот')[0]
print(p.tag)
print({'anim', 'nomn'} in p.tag)
print({'VERB'} in p.tag)

NOUN,anim,masc sing,nomn
True
False


In [42]:
m = Mystem()
m.analyze('красивая Саша пришла')

[{'analysis': [{'gr': 'A=им,ед,полн,жен', 'lex': 'красивый'}],
  'text': 'красивая'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,имя,мж,од=им,ед', 'lex': 'саша'}], 'text': 'Саша'},
 {'text': ' '},
 {'analysis': [{'gr': 'V,нп=прош,ед,изъяв,жен,сов', 'lex': 'приходить'}],
  'text': 'пришла'},
 {'text': '\n'}]

Обозначения для граммем: http://pymorphy2.readthedocs.io/en/latest/user/grammemes.html#grammeme-docs

### Задание 3

Найдите в списке персонажей романа "Война и мир" все уникальные  женские имена.

In [79]:
m = Mystem()
with open ('../data/persons.txt') as f:
    raw = f.read()
res = m.analyze(raw)
names = []
for i in res: 
    if 'analysis' in i:
        if i['analysis']:
            if 'имя,жен' in i['analysis'][0]['gr']:
                name = (i['text'])
                print(name)
                if not name  in names:
                    names.append(name)
print(len(names))

Вера
Наталья
Наталья
Наташа
Натальи
Наталья
Марьи
Соня
Елизавета
Марья
Марья
Алина
Елена
Элен
Анна
Катерина
Ольга
Софи
Жюли
Марьи
Марья
Марья
Кирстен
Штраух
Марья
Анна
Марии
Амалия
Марьи
Анисья
Пелагея
Настасья
Пелагеюшка
Аграфена
Анна
Марьи
Мария
Паулуччи
Дуняша
Марьи
Дуняша
Наташи
Мавра
Прасковья
Марьи
Аниска
Марьи
Анна
ун
Наташи
Марья
Марья
Марья
Матрена
Луиза
35


In [80]:
m = MorphAnalyzer()
prog = re.compile('[А-Я]{1}[а-я]+') #слова с заглавной буквы
tokens = prog.findall(raw)
lemmas = [m.parse(word)[0].normal_form for word in tokens]

names = set()
for w in lemmas:
    p = m.parse(w)[0].tag
    if {'Name', 'femn'} in p:
        print(w)
        names.add(w.capitalize())
        
print(len(names))

наталья
наталья
наташа
наталья
наталья
марья
соня
елизавета
марья
марья
курагина
курагина
курагина
курагина
курагина
курагина
елена
элен
анна
катерина
ольга
карагина
карагина
марья
карагина
марья
марья
толли
толли
пфуля
телянина
балашева
репнина
штрауха
щербинина
балашева
репнина
рамбаля
мюрата
рамбаля
мюрата
марья
анна
мария
смольянин
амалия
марья
анисья
пелагея
настасья
аграфена
анна
марья
мария
дуняша
марья
дуняша
наташа
жозефа
курагина
прасковья
марья
курагина
аниска
марья
анна
диммлера
наташа
марья
марья
марья
матрена
курагина
34


### Стемминг

In [53]:
from nltk.stem.snowball import RussianStemmer

stemmer = RussianStemmer()
words = ['распределение', 'приставить', 'сделала', 'словообразование']
for w in words:
    stem = stemmer.stem(w)
    print(stem)

распределен
пристав
сдела
словообразован


### __Удаление стоп-слов__

In [17]:
print(text)

«Карты, деньги, два ствола» культовый фильм Гая Ричи. Эта картина покорила сначала Британию, затем Америку, а потом и весь мир. Никому неизвестный режиссер Гай Ричи, у которого за плечами были только коротметражка «Трудное дело», дешевые рекламные ролики и клипы, создал шедевр на все времена. Это именно тот случай, когда и критики, и зрители в восторге. Здесь очень много черного юмора и насилия, но это и делает фильм таким какой он есть. Хотя он и не стал лидером проката, он собрал множество наград и стал классикой. Но вернемся в прошлое и перенесемся за океан. В 1994 году вышел фильм «Криминальное чтиво» Квентина Тарантино. По слухам, как-то его спросили — «Квентин, вам не кажется, что вы не сняли ничего лучше Криминального чтива?», на что он ответил — «А кто снял?». Нет, не снял, но снимет через четыре года. Молодой и талантливый режиссер Гай Ричи заставит заговорить о себе весь мир. Со своей картиной «Карты, деньги, два ствола» он не только встанет на один уровень со своим голливудс

In [82]:
from nltk.corpus import stopwords
print(stopwords.words('russian'))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [87]:
from nltk.corpus import stopwords
import pymorphy2

morph = pymorphy2.MorphAnalyzer()
l = [morph.parse(token)[0].normal_form for token in tokens if not token in stopwords.words('russian')]
d3 = nltk.FreqDist(l)
d3.most_common(10)

[('фильм', 9),
 ('гай', 6),
 ('ричать', 6),
 ('криминальный', 4),
 ('снять', 4),
 ('свой', 4),
 ('карта', 3),
 ('деньга', 3),
 ('ствол', 3),
 ('культовый', 3)]

In [19]:
print (d3['снять'])
print (d3.freq('снять'))

4
0.017777777777777778


__Удаление небуквенных символов:__

In [20]:
s = 'Уфологи уверены, что таинственная планета "Нибиру" не только существует, но и обнаружена в 2007 году. По их словам, в NASA до сих пор не могут решить, отнести небесное тело под кодовым номером OGLE-2016-BLG-1190Lb к числу планет или звезд.'

print(s)

Уфологи уверены, что таинственная планета "Нибиру" не только существует, но и обнаружена в 2007 году. По их словам, в NASA до сих пор не могут решить, отнести небесное тело под кодовым номером OGLE-2016-BLG-1190Lb к числу планет или звезд.


In [21]:
prog = re.compile('[А-Яа-я\-]+')
tokens2 = prog.findall(s)

morph = pymorphy2.MorphAnalyzer()
l2 = [morph.parse(token)[0].normal_form for token in tokens2 if token.isalpha()]

print(*l2)

уфолог уверить что таинственный планет нибира не только существовать но и обнаружить в год по они слово в до сей пора не мочь решить отнести небесный тело под кодовый номер к число планета или звезда


### __NLTK-текст__

In [55]:
with open('Vinni-Puh.txt') as f:
    raw = f.read()
    
tokens = nltk.word_tokenize(raw)
nltk_text = nltk.Text(tokens)
nltk_text

<Text: Александр Милн , Борис Заходер Винни-Пух ПРЕДИСЛОВИЕ Ровно...>

In [56]:
nltk_text.concordance("Пух")

Displaying 25 of 297 matches:
се новые Шумелки , Пыхтелки и Вопилки Пух сочинял под моим руководством . Слово
ать , как было раньше ) . Во-вторых , Пух с друзьями разместились в целых двух 
 папа . Вот однажды , гуляя по лесу , Пух вышел на полянку . На полянке рос выс
ь на такие вышки ! По правде говоря , Пух уже порядком устал , поэтому Пыхтелка
точку — и… ТРРАХ ! — Мама ! — крикнул Пух , пролетев добрых три метра вниз и чу
 , что я слишком люблю мёд ! Мама ! … Пух выкарабкался из тернового куста , выт
рое утро , Кристофер Робин ! — сказал Пух . — Доброе утро , Винни-Пух ! — сказа
 — Мёд . — Что-о ? — Мёд ! — повторил Пух . — Кто же это ходит за мёдом с возду
здушными шарами ? — Я хожу ! — сказал Пух . Ну , а как раз накануне Кристофер Р
равится ? — спросил Кристофер Робин . Пух обхватил голову лапами и задумался . 
у разве не похож ? — тревожно спросил Пух . — Не очень . — Ну ладно , может быт
ову ! К сожалению , ветра не было , и Пух повис в воздухе совершенно неподвижно
релишь , т

In [57]:
nltk_text.similar('сказал') #контекстуальные синонимы для слова "сказал"

и спросил он если закричал подумал вот так только пискнул повторил
тогда что но ведь крикнул знаю а я произнёс


In [58]:
nltk_text.common_contexts(["ты", "я"]) #общие контексты для слов "ты" и "я"

разве_не а_думал что_должен что_говорил есть_не нет_не


In [59]:
nltk_text.collocations(10) #коллокации

Кристофер Робин; сказал Пух; Кристофера Робина; потому что; может
быть; Кристоферу Робину; сказала Кенга; сказала Сова; сказал Кролик;
сказал Кристофер


### __Задание 4:__

1. Лемматизируйте текст про Винни Пуха.
2. Найдите 10 самых частотных лемм.
3. Удалите все стоп-слова и небуквенные символы. Найдите 10 самых частотных лемм (без стоп-слов).
4. Проверьте закон Ципфа на примере данного текста: постройте на одном графике график функции 1/n и кривую Ципфа. 

### Синтаксический анализ

In [123]:
with open('sentences.txt') as f:
    text = f.read()
    
print(text)

В Кремле не увидели провокации в выборе конкурсантки на «Евровидение» .

Замену маткапитала выплатами обсудят в Госдуме 23 марта .

Совет Евросоюза продлил антироссийские санкции на полгода .

Тимошенко заявила, что Украиной управляют извне .

Радикалы зажгли файеры возле офиса украинской «дочки» Сбербанка .

Россия и Китай договорились о постройке новой железной дороги .

Собянин открыл новый парк и детскую площадку . 



Запуск SyntaxNet из Docker: 

In [None]:
! cat sentences.txt | docker run --rm -i inemo/syntaxnet_rus > data.conll

Представление результатов с помощью Python:

In [121]:
from nltk import DependencyGraph
import codecs

processed_sentences = []
sentence = []
for line in codecs.open('data.conll', 'r', 'utf-8'):
    if len(line) == 1:
        processed_sentences.append(sentence)
        sentence = []
    else:
        word = line.split("\t")
        sentence.append(word)

deps = []
for sentence in processed_sentences:
    s = u""
    for line in sentence:
        s += u"\t".join(line) + u'\n'
    deps.append(s)

for sent_dep in deps:
    graph = DependencyGraph(tree_str=sent_dep)
    for triple in graph.triples():
        for e in triple:
            print(e[0] if isinstance(e, tuple) else e,)
        print()
    print()
    tree = graph.tree()
    print(tree.pretty_print())

увидели
nmod
Кремле

Кремле
case
В

увидели
neg
не

увидели
dobj
провокации

провокации
nmod
выборе

выборе
case
в

выборе
dobj
конкурсантки

конкурсантки
nmod
«Евровидение»

«Евровидение»
case
на

увидели
punct
.


        увидели                             
  _________|____________                     
 |   |     |        провокации              
 |   |     |            |                    
 |   |     |          выборе                
 |   |     |      ______|____________        
 |   |     |     |              конкурсантки
 |   |     |     |                   |       
 |   |   Кремле  |             «Евровидение»
 |   |     |     |                   |       
 не  .     В     в                   на     

None
обсудят
dobj
Замену

Замену
nmod
маткапитала

обсудят
nmod
выплатами

обсудят
nmod
Госдуме

Госдуме
case
в

обсудят
nmod
23

23
nmod
марта

обсудят
punct
.


                обсудят                
     ______________|________________    
    |      |     Замену   Госдуме   23 

In [122]:
for sent_dep in deps:
    verbs = {}
    for t in sent_dep.split('\n'):
        if len(t) > 1:
            splt = t.split('\t')
            if splt[3] == 'VERB':
                verbs[splt[0]] = [splt[1]]
    sent_split = sent_dep.split('\n')
    sent = [i.split('\t') for i in sent_split if len(i) > 1]
    for splt in sent:
        if splt[7] in ['dobj', 'nsubj']:
            if splt[6] in verbs:
                verbs[splt[6]].append(splt[1])
                
                
    for t in verbs.values():
        for elem in t:
            print(elem)
        print()

увидели
провокации

обсудят
Замену

продлил
Совет
санкции

управляют
Украиной

зажгли
Радикалы
файеры

договорились
Россия

открыл
Собянин
парк



### Задание 5.

1. Исправьте данный код, чтобы он учитывал однородные члены при разборе предложения.
2. Найдите в тексте про Винни Пуха все SVO-тройки, где субъектом выступает Сова.