# Морфология 1

Здесь мы познакомимся с двумя мофрологическими анализоторами: pymorphy и mystem.

In [1]:
sample_text = u'Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка'

### 1. MyStem

In [None]:
# поставим модуль если он еще не стоит
!pip install pymystem3

In [2]:
from pymystem3 import Mystem
# инициализация собственно инициализатора
mystem_analyzer = Mystem(entire_input=False, disambiguation=False)
# entire_output - сохранение всего входа (напр. пробелов)
# disambiguation - снятие омонимии

Две основные функции Mystem:
- Проводить мофрологический анализ
- Приводить начальные формы для слов в тексте

In [3]:
mystem_result = mystem_analyzer.analyze(sample_text)
mystem_lemmas = mystem_analyzer.lemmatize(sample_text)

In [4]:
# Посмотрим, что у нас получилось при лемматизации 
# (да, чтобы вывести юникодные строки на втором питоне приходится так извращаться)
print(sample_text)
for word in mystem_lemmas:    
    print(word)

Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
глокая
куздра
штеко
будлануть
бокра
и
курдячить
бокренка


In [10]:
# Ну и результат морфологического анализа
# выведены всевозможные разборы, чтобы оценить масшатбы
for word in mystem_result:
    print(word['text'])
    for res in word['analysis']:
        print('\t', res)

Гло́кая
	 {'lex': 'глокая', 'wt': 0.3605448292, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	 {'lex': 'глокать', 'wt': 0.3605448292, 'qual': 'bastard', 'gr': 'V,несов=непрош,деепр,пе'}
	 {'lex': 'глокая', 'wt': 0.1038369108, 'qual': 'bastard', 'gr': 'S,жен,од=им,ед'}
	 {'lex': 'глокай', 'wt': 0.09304979929, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
	 {'lex': 'глокать', 'wt': 0.03306575604, 'qual': 'bastard', 'gr': 'V,несов,нп=непрош,деепр'}
	 {'lex': 'глокий', 'wt': 0.01624943977, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	 {'lex': 'глокать', 'wt': 0.01512198266, 'qual': 'bastard', 'gr': 'V,несов,пе=непрош,деепр'}
	 {'lex': 'глокий', 'wt': 0.01077529943, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	 {'lex': 'глокать', 'wt': 0.006811153662, 'qual': 'bastard', 'gr': 'V,нп=непрош,деепр,несов'}
ку́здра
	 {'lex': 'куздра', 'wt': 0.6292693823, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	 {'lex': 'куздра', 'wt': 0.3707306177, 'qual': 'bastard', 'gr': 'S,гео,жен,неод=им,ед'}
ште́ко


Создадим теперь анализатор со снятием омонимии

In [11]:
mystem_analyzer2 = Mystem(entire_input=False, disambiguation=True)

In [12]:
mystem_result2 = mystem_analyzer2.analyze(sample_text)
mystem_lemmas2 = mystem_analyzer2.lemmatize(sample_text)

In [16]:
print(sample_text, end=)
for (word, word2) in zip(mystem_lemmas, mystem_lemmas2):    
    print(word, word2)

Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
глокая глокай
куздра куздра
штеко штеко
будлануть будланул
бокра бокра
и и
курдячить курдячить
бокренка бокренок


In [18]:
for word in mystem_result2:
    print(word['text'])
    for res in word['analysis']:
        print('\t', res)

Гло́кая
	 {'lex': 'глокай', 'wt': 0.09304979929, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
ку́здра
	 {'lex': 'куздра', 'wt': 0.6292693823, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
ште́ко
	 {'lex': 'штеко', 'wt': 0.2574119755, 'qual': 'bastard', 'gr': 'ADV='}
будлану́ла
	 {'lex': 'будланул', 'wt': 0.03753661836, 'qual': 'bastard', 'gr': 'S,муж,од=(вин,ед|род,ед)'}
бо́кра
	 {'lex': 'бокра', 'wt': 0.8898982327, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
и
	 {'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='}
курдя́чит
	 {'lex': 'курдячить', 'wt': 0.5, 'qual': 'bastard', 'gr': 'V,обсц,сов,пе=непрош,ед,изъяв,3-л'}
бокрёнка
	 {'lex': 'бокренок', 'wt': 0.165166425, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}


Проблемы MyStem

In [22]:
disambiguations = [ 'Александра Иванова пошла в кино',
                    'Александра Иванова видели в кино с кем-то',
                    'Воробьев сегодня встал не с той ноги']

disambiguation_results = []
for dis in disambiguations:
    disambiguation_results.append(mystem_analyzer2.lemmatize(dis))
    
for res in disambiguation_results:
    for word in res:
        print(word, end=' ')
    print()

александра иванов пойти в кино 
александра иванов видеть в кино с кто-то 
воробей сегодня вставать не с тот нога 


#### Задание
Для того, чтобы наиграться с MyStem, предлагается написать методы, которые:
- находит топ n лексем
- находит слова с наибольшей и наименьшей энтропией

In [29]:
from nltk import FreqDist
import numpy as np

In [86]:
def get_top_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most common words
    :return: list of most common lexemas
    '''
    res = mystem_analyzer.lemmatize(text)
    return [word_freq[0] for word_freq in FreqDist(res).most_common(n)]

def get_max_entropy_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most words with maximun entropy
    :return: list of words with entropies
    '''
    words, num = np.unique(mystem_analyzer.lemmatize(text), return_counts=True)
    freq = num / len(words)
    each_entropy = -freq * np.log2(freq)
    indexes = np.argsort(each_entropy)[::-1]
    for word, ent in zip(words[indexes][:n], each_entropy[indexes][:n]):
        print(word, ent, sep=' : ')
        
def get_min_entropy_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most words with minimum entropy
    :return: list of words with entropies
    '''
    words, num = np.unique(mystem_analyzer.lemmatize(text), return_counts=True)
    freq = num / len(words)
    each_entropy = -freq * np.log2(freq)
    indexes = np.argsort(each_entropy)
    for word, ent in zip(words[indexes][:n], each_entropy[indexes][:n]):
        print(word, ent, sep=' : ')

In [87]:
text = 'Дима шел по улице. Дима ел пирожок. На улице было тепло. Пирожок был вкусным. Дима сегодня молодец.'
n = 4 

In [88]:
get_top_words(text, n)

['дима', 'улица', 'пирожок', 'быть']

In [89]:
get_max_entropy_words(text, n)

дима : 0.5
улица : 0.430827083453526
пирожок : 0.430827083453526
быть : 0.430827083453526


In [90]:
get_min_entropy_words(text, n)

вкусный : 0.29874687506009634
есть : 0.29874687506009634
идти : 0.29874687506009634
молодец : 0.29874687506009634


### 2. Pymorphy

In [91]:
# установка модуля и словарей
!pip install pymorphy2
!pip install -U pymorphy2-dicts-ru

[33mYou are using pip version 10.0.1, however version 19.2.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m
Requirement already up-to-date: pymorphy2-dicts-ru in /home/anton/anaconda3/lib/python3.7/site-packages (2.4.404381.4453942)
[33mYou are using pip version 10.0.1, however version 19.2.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [92]:
# создание анализатора
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [98]:
# sample_text = u'Глокая куздра штеко будланула бокра и кудрячит бокренка'
# в отличие от mystem работает пословно
pymorphy_results = map(lambda x: morph.parse(x), sample_text.split())

In [99]:
# собираем результаты и выводим 
for word_result in pymorphy_results:
    print(word_result[0].word)
    for res in word_result:
        print(res)
        print('\t', res.normal_form, res.tag, res.score, end='\n\n')

гло́кая
Parse(word='гло́кая', tag=OpencorporaTag('NOUN,anim,masc,Name sing,gent'), normal_form='гло́кай', score=0.3333423559982676, methods_stack=((<DictionaryAnalyzer>, 'кая', 41, 1), (<UnknownPrefixAnalyzer>, 'гло́')))
	 гло́кай NOUN,anim,masc,Name sing,gent 0.3333423559982676

Parse(word='гло́кая', tag=OpencorporaTag('NOUN,anim,masc,Name sing,accs'), normal_form='гло́кай', score=0.3333423559982676, methods_stack=((<DictionaryAnalyzer>, 'кая', 41, 3), (<UnknownPrefixAnalyzer>, 'гло́')))
	 гло́кай NOUN,anim,masc,Name sing,accs 0.3333423559982676

Parse(word='гло́кая', tag=OpencorporaTag('ADJF femn,sing,nomn'), normal_form='гло́кий', score=0.3083315288003464, methods_stack=((<FakeDictionary>, 'гло́кая', 16, 7), (<KnownSuffixAnalyzer>, 'кая')))
	 гло́кий ADJF femn,sing,nomn 0.3083315288003464

Parse(word='гло́кая', tag=OpencorporaTag('NOUN,anim,femn,Sgtm,Surn sing,nomn'), normal_form='гло́кий', score=0.021410783889129488, methods_stack=((<FakeDictionary>, 'гло́кая', 102, 6), (<KnownSuff

В отличие от mystem можно получать лексему и склонять слова

In [152]:
morph.parse('стали')[0]

Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),))

In [111]:
bokr = morph.parse('стали')[0] # самое вероятное состояние - 0
for form in bokr.lexeme:
    print(form.word, form.tag)

стать INFN,perf,intr
стал VERB,perf,intr masc,sing,past,indc
стала VERB,perf,intr femn,sing,past,indc
стало VERB,perf,intr neut,sing,past,indc
стали VERB,perf,intr plur,past,indc
стану VERB,perf,intr sing,1per,futr,indc
станем VERB,perf,intr plur,1per,futr,indc
станешь VERB,perf,intr sing,2per,futr,indc
станете VERB,perf,intr plur,2per,futr,indc
станет VERB,perf,intr sing,3per,futr,indc
станут VERB,perf,intr plur,3per,futr,indc
станем VERB,perf,intr sing,impr,incl
станемте VERB,perf,intr plur,impr,incl
стань VERB,perf,intr sing,impr,excl
станьте VERB,perf,intr plur,impr,excl
ставший PRTF,perf,intr,past,actv masc,sing,nomn
ставшего PRTF,perf,intr,past,actv masc,sing,gent
ставшему PRTF,perf,intr,past,actv masc,sing,datv
ставшего PRTF,perf,intr,past,actv anim,masc,sing,accs
ставший PRTF,perf,intr,past,actv inan,masc,sing,accs
ставшим PRTF,perf,intr,past,actv masc,sing,ablt
ставшем PRTF,perf,intr,past,actv masc,sing,loct
ставшая PRTF,perf,intr,past,actv femn,sing,nomn
ставшей PRTF,perf,int

In [155]:
bokr = morph.parse('стали')[1]
bokr.tag.POS

'NOUN'

In [143]:
print(bokr.inflect({'loct'}).word) # слово в форме 'loct'
print(bokr.make_agree_with_number(1).word)
print(bokr.make_agree_with_number(2).word)
print(bokr.make_agree_with_number(3).word)
print(bokr.make_agree_with_number(20).word)

стали
стали
сталей
сталей
сталей


#### Задание 
С помощью pymorphy на тексте получить:
- Распределение по частям речи
- Для части речи вывести топ n лексем

In [144]:
text

'Дима шел по улице. Дима ел пирожок. На улице было тепло. Пирожок был вкусным. Дима сегодня молодец.'

In [219]:
def get_pos_distribution(text, lexemas=None):
    '''
    :param: text: input text in russian
    :param: lexemas: list of interested pos, if None - all are interesting 
    :return: dict of pos - probability
    '''
    words = []
    words = [word for word in text.split() if word.isalpha()]
    prob_pos = {}
    num = 0
    
    for word in words:
        if lexemas == None:
            num += 1
            pos = morph.parse(word)[0].tag.POS
            if pos in prob_pos:
                prob_pos[pos] += 1
            else:
                prob_pos[pos] = 1
        else:
            pos = morph.parse(word)[0].tag.POS
            if pos in lexemas:
                num += 1
                if pos in prob_pos:
                    prob_pos[pos] += 1
                else:
                    prob_pos[pos] = 1 
                    
    for pos in prob_pos:
        prob_pos[pos] /= num
    return prob_pos


def get_top_pos_words(text, pos, n):
    '''
    :param text: input text in russian
    :param pos: part of speech 
    :param n: number of most common words
    :return: list of most common lexemas with selected pos
    '''
    res = mystem_analyzer.lemmatize(text)
    word_num = FreqDist(res)

    return [word for word in word_num if morph.parse(word)[0].tag.POS == pos][:n]    

In [189]:
get_pos_distribution(text, lexemas=None)

{'NOUN': 0.4166666666666667,
 'VERB': 0.3333333333333333,
 'PREP': 0.16666666666666666,
 'ADVB': 0.08333333333333333}

In [190]:
get_pos_distribution(text, lexemas=['NOUN', 'VERB'])

{'NOUN': 0.5555555555555556, 'VERB': 0.4444444444444444}

In [220]:
get_top_pos_words(text, 'NOUN', 3)

['дима', 'улица', 'пирожок']