# Морфология 1

Здесь мы познакомимся с двумя мофрологическими анализоторами: pymorphy и mystem.

In [31]:
import math

In [1]:
sample_text = u'Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка'

### 1. MyStem

In [2]:
from pymystem3 import Mystem
# инициализация собственно инициализатора
mystem_analyzer = Mystem(entire_input=False, disambiguation=False)
# entire_output - сохранение всего входа (напр. пробелов)
# disambiguation - снятие омонимии

Две основные функции Mystem:
- Проводить мофрологический анализ
- Приводить начальные формы для слов в тексте

In [3]:
mystem_result = mystem_analyzer.analyze(sample_text)
mystem_lemmas = mystem_analyzer.lemmatize(sample_text)

In [4]:
# Посмотрим, что у нас получилось при лемматизации 
# (да, чтобы вывести юникодные строки на втором питоне приходится так извращаться)
print (sample_text)
for word in mystem_lemmas:    
    print (word,)

Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
глокая
куздра
штеко
будлануть
бокра
и
курдячить
бокренка


In [5]:
# Ну и результат морфологического анализа
# выведены всевозможные разборы, чтобы оценить масшатбы
for word in mystem_result:
    print (word['text'])
    for res in word['analysis']:
        print('\t', res)

Гло́кая
	 {'lex': 'глокая', 'wt': 0.3605448292, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	 {'lex': 'глокать', 'wt': 0.3605448292, 'qual': 'bastard', 'gr': 'V,несов=непрош,деепр,пе'}
	 {'lex': 'глокая', 'wt': 0.1038369108, 'qual': 'bastard', 'gr': 'S,жен,од=им,ед'}
	 {'lex': 'глокай', 'wt': 0.09304979929, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
	 {'lex': 'глокать', 'wt': 0.03306575604, 'qual': 'bastard', 'gr': 'V,несов,нп=непрош,деепр'}
	 {'lex': 'глокий', 'wt': 0.01624943977, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	 {'lex': 'глокать', 'wt': 0.01512198266, 'qual': 'bastard', 'gr': 'V,несов,пе=непрош,деепр'}
	 {'lex': 'глокий', 'wt': 0.01077529943, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	 {'lex': 'глокать', 'wt': 0.006811153662, 'qual': 'bastard', 'gr': 'V,нп=непрош,деепр,несов'}
ку́здра
	 {'lex': 'куздра', 'wt': 0.6292693823, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	 {'lex': 'куздра', 'wt': 0.3707306177, 'qual': 'bastard', 'gr': 'S,гео,жен,неод=им,ед'}
ште́ко


Создадим теперь анализатор со снятием омонимии

In [6]:
mystem_analyzer2 = Mystem(entire_input=False, disambiguation=True)

In [7]:
mystem_result2 = mystem_analyzer2.analyze(sample_text)
mystem_lemmas2 = mystem_analyzer2.lemmatize(sample_text)

In [8]:
type(mystem_lemmas2)

list

In [9]:
print (sample_text)
for (word, word2) in zip(mystem_lemmas, mystem_lemmas2):    
    print (word, word2)

Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
глокая глокай
куздра куздра
штеко штеко
будлануть будланул
бокра бокра
и и
курдячить курдячить
бокренка бокренок


In [10]:
for word in mystem_result2:
    print (word['text'])
    for res in word['analysis']:
        print ('\t', res)

Гло́кая
	 {'lex': 'глокай', 'wt': 0.09304979929, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
ку́здра
	 {'lex': 'куздра', 'wt': 0.6292693823, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
ште́ко
	 {'lex': 'штеко', 'wt': 0.2574119755, 'qual': 'bastard', 'gr': 'ADV='}
будлану́ла
	 {'lex': 'будланул', 'wt': 0.03753661836, 'qual': 'bastard', 'gr': 'S,муж,од=(вин,ед|род,ед)'}
бо́кра
	 {'lex': 'бокра', 'wt': 0.8898982327, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
и
	 {'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='}
курдя́чит
	 {'lex': 'курдячить', 'wt': 0.5, 'qual': 'bastard', 'gr': 'V,обсц,сов,пе=непрош,ед,изъяв,3-л'}
бокрёнка
	 {'lex': 'бокренок', 'wt': 0.165166425, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}


In [11]:
from collections import Counter
import re

Проблемы MyStem

In [12]:
disambiguations = [ 'Александра Иванова пошла в кино',
                    'Александра Иванова видели в кино с кем-то',
                    'Воробьев сегодня встал не с той ноги']

disambiguation_results = []
for dis in disambiguations:
    disambiguation_results.append(mystem_analyzer2.lemmatize(dis))
    
for res in disambiguation_results:
    for word in res:
        print (word,)
    print

александра
иванов
пойти
в
кино
александра
иванов
видеть
в
кино
с
кто-то
воробей
сегодня
вставать
не
с
тот
нога


#### Задание
Для того, чтобы наиграться с MyStem, предлагается написать методы, которые:
- находит топ n лексем
- находит слова с наибольшей и наименьшей энтропией

In [13]:
import operator

In [33]:
def get_top_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most common words
    :return: list of most common lexemas
    '''
    mystem_lemmas = mystem_analyzer2.lemmatize(text)
    dictionary = dict()
    for lemnas in mystem_lemmas:
        if lemnas not in dictionary.keys():
            dictionary[lemnas] = 1
        else:
            dictionary[lemnas] += 1
            
    sorted_dict = sorted(dictionary.items(), key=operator.itemgetter(1), reverse=True)
    words = [x1 for (x1, x2) in sorted_dict]
    

    
    return (words[:n])

    

def get_max_entropy_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most words with maximun entropy
    :return: list of words with entropies
    '''
    entropy_arr = []
    
    for result in mystem_analyzer2.analyze(text):
        analyze = result['analysis']
        word = result['text']
        entropy = -1*sum([lex['wt']*math.log2(lex['wt']) for lex in analyze])
        entropy_arr.append((word, entropy))
    
    return sorted(entropy_arr, key=lambda x: x[1], reverse=True)[:n]
    

def get_min_entropy_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most words with minimum entropy
    :return: list of words with entropies
    '''
    entropy_arr = []
    
    for result in mystem_analyzer2.analyze(text):
        analyze = result['analysis']
        word = result['text']
        entropy = -1*sum([lex['wt']*math.log2(lex['wt']) for lex in analyze])
        entropy_arr.append((word, entropy))
        
    return sorted(entropy_arr, key=lambda x: x[1])[:n]

In [34]:
text = "мамина мама и мамин папа"
get_top_words(text, 2)

['мамин', 'мама']

In [38]:
get_max_entropy_words(sample_text, -1)

[('ште́ко', 0.5039737586652117),
 ('курдя́чит', 0.5),
 ('бокрёнка', 0.4291036355252055),
 ('ку́здра', 0.42050948242931024),
 ('Гло́кая', 0.31877494813522017),
 ('будлану́ла', 0.1777568147811354),
 ('бо́кра', 0.14975895672485304)]

In [36]:
get_min_entropy_words(text, 2)

[('мамина', -0.0), ('мама', -0.0)]

### 2. Pymorphy

In [40]:
# создание анализатора
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [41]:
# sample_text = u'Глокая куздра штеко будланула бокра и кудрячит бокренка'
# в отличие от mystem работает пословно
pymorphy_results = map(lambda x: morph.parse(x), sample_text.split())

In [42]:
# собираем результаты и выводим 
for word_result in pymorphy_results:
    print (word_result[0].word)
    for res in word_result:
#         print repr(res).decode('unicode_escape')
        print ('\t', res.normal_form, res.tag, res.score)

гло́кая
	 гло́кай NOUN,anim,masc,Name sing,gent 0.3333423559982676
	 гло́кай NOUN,anim,masc,Name sing,accs 0.3333423559982676
	 гло́кий ADJF femn,sing,nomn 0.3083315288003464
	 гло́кий NOUN,anim,femn,Sgtm,Surn sing,nomn 0.021410783889129488
	 гло́кать GRND,impf,intr pres 0.0035729753139887395
ку́здра
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,nomn 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,gent 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,datv 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,accs 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,ablt 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,loct 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm sing,nomn 0.05
	 ку́здра NOUN,inan,femn,Sgtm,Geox sing,nomn 0.05
ште́ко
	 ште́ко NOUN,anim,GNdr,Ms-f,Fixd,Surn sing,nomn 0.07995028997514501
	 ште́ко NOUN,anim,GNdr,Ms-f,Fixd,Surn sing,gent 0.07995028997514501
	 ште́ко

В отличие от mystem можно получать лексему и склонять слова

In [43]:
bokr = morph.parse(u'градус')[0]
for form in bokr.lexeme:
    print (form.word, form.tag.POS)

градус NOUN
градуса NOUN
градусу NOUN
градус NOUN
градусом NOUN
градусе NOUN
градусы NOUN
градусов NOUN
градусам NOUN
градусы NOUN
градусами NOUN
градусах NOUN


In [44]:
form.tag.POS

'NOUN'

In [45]:
print (bokr.inflect({'loct'}).word)
print (bokr.make_agree_with_number(1).word)
print (bokr.make_agree_with_number(2).word)
print (bokr.make_agree_with_number(5).word)

градусе
градус
градуса
градусов


#### Задание 
С помощью pymorphy на тексте получить:
- Распределение по частям речи
- Для части речи вывести топ n лексем

In [46]:
def get_pos_distribution(text, lexemas=None):
    '''
    :param: text: input text in russian
    :param: lexemas: list of interested pos, if None - all are interesting 
    :return: dict of pos - probability
    '''
    words = text.split()
    dict_of_pos = dict()
    count = 0
    for word in words:
        p = morph.parse(word)[0]
        if (not lexemas) or (p.tag.POS in lexemas):
            if p.tag.POS in dict_of_pos.keys():
                dict_of_pos[p.tag.POS] += 1
            else:
                dict_of_pos[p.tag.POS] = 1
        count += 1
    pos = [(key, value/count) for (key, value) in dict_of_pos.items()]
    return (pos)

def get_top_pos_words(text, pos, n):
    '''
    :param text: input text in russian
    :param pos: part of speech 
    :param n: number of most common words
    :return: list of most common lexemas with selected pos
    '''
    words = text.split()
    dict_of_pos = dict()
    for word in words:
        p = morph.parse(word)[0]
        if p.tag.POS == pos:
            if word in dict_of_pos.keys():
                dict_of_pos[word] += 1
            else:
                dict_of_pos[word] = 1
    sorted_dict = sorted(dict_of_pos.items(), key=operator.itemgetter(1), reverse=True)
    return (sorted_dict[:n])
    

In [47]:
text = "мой котик самый лучший ведь он котик"
get_pos_distribution(text, 'NOUN')

[('NOUN', 0.2857142857142857)]

In [96]:
get_top_pos_words(text, "ADJF", 2)

ADJF
NOUN
ADJF
ADJF
CONJ
NPRO
NOUN


[('мой', 1), ('самый', 1)]

In [48]:
get_pos_distribution(text)

[('ADJF', 0.42857142857142855),
 ('NOUN', 0.2857142857142857),
 ('CONJ', 0.14285714285714285),
 ('NPRO', 0.14285714285714285)]