# Морфологические процессоры для русского языка

Существует два основных вида морфологических процессоров: морфологические анализаторы и морфологические словари.
Морфологический анализатор определяет часть речи слова по его парадигме. Умеет определять вероятность того или иного разбора. 
Морфологический словарь определяет часть речи на основе разметки словаря / корпуса. Может возвращать несколько разборов каждого слова, причем для каждого разбора будет определена его частота в размеченном корпусе. 
* mystem – морфологический анализатор Yandex (https://tech.yandex.ru/mystem/) . Утверждается, что 3-я версия mystem снимает омонимию.
    *  pymystem3 –  обертка для Python (https://github.com/Digsolab/pymystem3)
* pymorphy2 – морфологический словарь на основе словарей Открытого корпуса (https://pymorphy2.readthedocs.org/en/latest/)

Морфологические процессоры чаще всего используются:
1. для лемматизации (lemmatization)
2. для определения части речи (Part-of-speech tagging, POS tagging)

Эти задачи, разумеется, связанные, но вызовы морфологических процессоров различаются.

## Лемматизация

In [12]:
from pymystem3 import Mystem
text = u"Красивые женщины красиво мыли раму и ножницами резали занавески"
m = Mystem()
lemmas = m.lemmatize(text)
print(''.join(lemmas))

красивый женщина красиво мыть рама и ножницы резать занавеска



In [13]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()
#возьмем 0 разбор – самый частый в ОК 

for word in text.split():
    print morph.parse(word)[0].normal_form

красивый
женщина
красиво
мыть
рам
и
ножницы
резать
занавеска


In [3]:
for i in morph.parse(u'раму'):
    print i

Parse(word=u'\u0440\u0430\u043c\u0443', tag=OpencorporaTag('NOUN,inan,masc,Geox sing,datv'), normal_form=u'\u0440\u0430\u043c', score=0.5, methods_stack=((<DictionaryAnalyzer>, u'\u0440\u0430\u043c\u0443', 32, 2),))
Parse(word=u'\u0440\u0430\u043c\u0443', tag=OpencorporaTag('NOUN,inan,femn sing,accs'), normal_form=u'\u0440\u0430\u043c\u0430', score=0.5, methods_stack=((<DictionaryAnalyzer>, u'\u0440\u0430\u043c\u0443', 55, 3),))


In [4]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()
#возьмем 0 разбор – самый частый в ОК 

for word in text.split():
    print morph.parse(word)[0].normal_form


# print morph.parse(u'стекло')
# print len(morph.parse(u'стекло'))
for i in morph.parse(u'раму'):
    print i.normal_form, i.tag

красивый
мама
красиво
мыло
рам
рам NOUN,inan,masc,Geox sing,datv
рама NOUN,inan,femn sing,accs


Проверим, как обстоят дела с омонимией. 

In [5]:
text = u"Он видел их семью своими глазами"
lemmas = m.lemmatize(text)
print(''.join(lemmas))
print '***'
for word in text.split():
    print morph.parse(word)[0].normal_form


он видеть их семья свой глаз

***
он
видеть
они
семь
свой
глаз


## Определение части речи

In [6]:
import json
text = u"Красивая мама красиво мыла раму"
gram_info = m.analyze(text)
print "full info:", json.dumps(gram_info, ensure_ascii=False, encoding='utf8')
for i in range(len(gram_info)):
    if not gram_info[i]["text"].isspace():
        print gram_info[i]["text"]
        print 'Gram info:', gram_info[i]["analysis"][0]["gr"]
        print 'POS tag:', gram_info[i]["analysis"][0]["gr"].split(',')[0].split('=')[0]
    

full info: [{"text": "Красивая", "analysis": [{"lex": "красивый", "gr": "A=им,ед,полн,жен"}]}, {"text": " "}, {"text": "мама", "analysis": [{"lex": "мама", "gr": "S,жен,од=им,ед"}]}, {"text": " "}, {"text": "красиво", "analysis": [{"lex": "красиво", "gr": "ADV="}]}, {"text": " "}, {"text": "мыла", "analysis": [{"lex": "мыть", "gr": "V,несов,пе=прош,ед,изъяв,жен"}]}, {"text": " "}, {"text": "раму", "analysis": [{"lex": "рама", "gr": "S,жен,неод=вин,ед"}]}, {"text": "\n"}]
Красивая
Gram info: A=им,ед,полн,жен
POS tag: A
мама
Gram info: S,жен,од=им,ед
POS tag: S
красиво
Gram info: ADV=
POS tag: ADV
мыла
Gram info: V,несов,пе=прош,ед,изъяв,жен
POS tag: V
раму
Gram info: S,жен,неод=вин,ед
POS tag: S


In [7]:
for word in text.split():
    print word
    print 'Gram info:', morph.parse(word)[0].tag
    print 'POS tag:', morph.parse(word)[0].tag.POS

Красивая
Gram info: ADJF,Qual femn,sing,nomn
POS tag: ADJF
мама
Gram info: NOUN,anim,femn sing,nomn
POS tag: NOUN
красиво
Gram info: ADVB
POS tag: ADVB
мыла
Gram info: NOUN,inan,neut sing,gent
POS tag: NOUN
раму
Gram info: NOUN,inan,masc,Geox sing,datv
POS tag: NOUN


Синтаксис pymystem3 существенно сложнее, POS тэги не хранятся в явном виде. Для того, что бы узнать POS тэг приходится использовать чудовищную строчку gram_info[i]["analysis"][0]["gr"].split(',')[0].split('=')[0] . 

In [13]:
verb = u'быть'
verb_parse = morph.parse(verb)[0]
femn_gram = {'VERB','impf','femn','sing','past','indc'}
musc_gram = {'VERB','impf','musc','sing','past','indc'}

femn_name = [u'Катя',u'Оля',u'Юля']
musc_name = [u'Митя',u'Сережа',u'Андрей']


name = raw_input(u'Привет, как тебя зовут? ')
name = name.decode('utf-8')
if name in femn_name:
    print u'%s, где ты %s всю прошлую ночь?' %(name,verb_parse.inflect(femn_gram).word)
elif name in musc_name:
    print u'%s, где ты %s всю прошлую ночь?' %(name,verb_parse.inflect(musc_gram).word)
else:
    print u'%s, как прошла ночь?' %(name)

Привет, как тебя зовут? Оля
Оля, где ты была всю прошлую ночь?


## Задание 1
1. Записать произвольный текст в файл.
2. Считать текст из файла.
3. Используя оба морфологических процессора, найти все существительные в тексте. На выходе должно быть 2 независимых списка существительных.
4. Посчитать количество совпадений и различий.
5. Используя nltk.FreqDist(), посчитать частоты всех существительных. На выходе должно быть 2 независимых частотных словаря. 
6. Найти 10 самых частых существительных в каждом частотном словаре (nltk.FreqDist().most_common()) и вывести их в цикле.
7. Можно ли эти существительные считать *ключевыми словами*? 

## Задание 2
1. Написать программу, которая ведет осмысленный диалог и склоняет существительные и глаголы. 

## Задание 3
1. Найти два текста разных стилей (или жанров), например, описание продукта из интернет-магазина и инструкцию по его употреблению.
2. Использовать любой морфологический процессор для разбора обоих текстов. На выходе должно быть два разобранных текста: каждый текст представлен списком из списков, каждый мини-список – это пара [слово, POS тег]. 
3. Посчитать, сколько раз какие части речи употребляются в каждом тексте (можно использовать nltk.FreqDist()).
4. Можно ли на основе частот разных частей речи делать выводы о стилевых различиях между текстами?

# Литература

* Manning & Shuetze: Ch. 10 – Part of Speech Tagging

* NLTK Book: Ch. 1, 3.1   Frequency Distributions – частотные словари

* Статья Сегаловича про mystem – http://download.yandex.ru/company/iseg-las-vegas.pdf
