# Морфология 1

Здесь мы познакомимся с двумя мофрологическими анализоторами: pymorphy и mystem.

In [1]:
sample_text = u'Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка'

### 1. MyStem

In [2]:
# поставим модуль если он еще не стоит
!pip install pymystem3

Collecting pymystem3
  Downloading pymystem3-0.2.0-py3-none-any.whl (10 kB)
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0


In [2]:
from pymystem3 import Mystem
# инициализация собственно инициализатора
mystem_analyzer = Mystem(entire_input=False, disambiguation=False)
# entire_output - сохранение всего входа (напр. пробелов)
# disambiguation - снятие омонимии

Две основные функции Mystem:
- Проводить мофрологический анализ
- Приводить начальные формы для слов в тексте

In [3]:
mystem_result = mystem_analyzer.analyze(sample_text)
mystem_lemmas = mystem_analyzer.lemmatize(sample_text)

In [4]:
# Посмотрим, что у нас получилось при лемматизации 
# (да, чтобы вывести юникодные строки на втором питоне приходится так извращаться)
print (sample_text)
for word in mystem_lemmas:    
    print (word)

Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
глокая
куздра
штеко
будлануть
бокра
и
курдячить
бокренка


In [5]:
# Ну и результат морфологического анализа
# выведены всевозможные разборы, чтобы оценить масшатбы
for word in mystem_result:
    print (word['text'])
    for res in word['analysis']:
        print ('\t', repr(res))

Гло́кая
	 {'lex': 'глокая', 'wt': 0.3605448292, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	 {'lex': 'глокать', 'wt': 0.3605448292, 'qual': 'bastard', 'gr': 'V,несов=непрош,деепр,пе'}
	 {'lex': 'глокая', 'wt': 0.1038369108, 'qual': 'bastard', 'gr': 'S,жен,од=им,ед'}
	 {'lex': 'глокай', 'wt': 0.09304979929, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
	 {'lex': 'глокать', 'wt': 0.03306575604, 'qual': 'bastard', 'gr': 'V,несов,нп=непрош,деепр'}
	 {'lex': 'глокий', 'wt': 0.01624943977, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	 {'lex': 'глокать', 'wt': 0.01512198266, 'qual': 'bastard', 'gr': 'V,несов,пе=непрош,деепр'}
	 {'lex': 'глокий', 'wt': 0.01077529943, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	 {'lex': 'глокать', 'wt': 0.006811153662, 'qual': 'bastard', 'gr': 'V,нп=непрош,деепр,несов'}
ку́здра
	 {'lex': 'куздра', 'wt': 0.6292693823, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	 {'lex': 'куздра', 'wt': 0.3707306177, 'qual': 'bastard', 'gr': 'S,гео,жен,неод=им,ед'}
ште́ко


Создадим теперь анализатор со снятием омонимии

In [6]:
mystem_analyzer2 = Mystem(entire_input=False, disambiguation=True)

In [7]:
mystem_result2 = mystem_analyzer2.analyze(sample_text)
mystem_lemmas2 = mystem_analyzer2.lemmatize(sample_text)

In [8]:
print (sample_text)
for (word, word2) in zip(mystem_lemmas, mystem_lemmas2):    
    print (word, word2)

Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
глокая глокай
куздра куздра
штеко штеко
будлануть будланул
бокра бокра
и и
курдячить курдячить
бокренка бокренок


In [9]:
for word in mystem_result2:
    print (word['text'])
    for res in word['analysis']:
        print ('\t', repr(res))

Гло́кая
	 {'lex': 'глокай', 'wt': 0.09304979929, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
ку́здра
	 {'lex': 'куздра', 'wt': 0.6292693823, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
ште́ко
	 {'lex': 'штеко', 'wt': 0.2574119755, 'qual': 'bastard', 'gr': 'ADV='}
будлану́ла
	 {'lex': 'будланул', 'wt': 0.03753661836, 'qual': 'bastard', 'gr': 'S,муж,од=(вин,ед|род,ед)'}
бо́кра
	 {'lex': 'бокра', 'wt': 0.8898982327, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
и
	 {'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='}
курдя́чит
	 {'lex': 'курдячить', 'wt': 0.5, 'qual': 'bastard', 'gr': 'V,обсц,сов,пе=непрош,ед,изъяв,3-л'}
бокрёнка
	 {'lex': 'бокренок', 'wt': 0.165166425, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}


Проблемы MyStem

In [10]:
disambiguations = [ 'Александра Иванова пошла в кино',
                    'Александра Иванова видели в кино с кем-то',
                    'Воробьев сегодня встал не с той ноги']

disambiguation_results = []
for dis in disambiguations:
    disambiguation_results.append(mystem_analyzer2.lemmatize(dis))
    
for res in disambiguation_results:
    for word in res:
        print (word)
    print

александра
иванов
пойти
в
кино
александра
иванов
видеть
в
кино
с
кто-то
воробей
сегодня
вставать
не
с
тот
нога


In [11]:
test_string = 'Ночь, улица, фонарь, аптека, бессмысленный и тусклый свет. Живи еще хоть четверть века — всё будет так. Исхода нет. Умрешь — начнешь опять сначала И повторится всё, как встарь: Ночь, ледяная рябь канала, Аптека, улица, фонарь. '

In [12]:
test_lemmas = mystem_analyzer2.lemmatize(test_string)

In [16]:
from collections import Counter
dict(Counter(test_lemmas))

{'ночь': 2,
 'улица': 2,
 'фонарь': 2,
 'аптека': 2,
 'бессмысленный': 1,
 'и': 2,
 'тусклый': 1,
 'свет': 1,
 'жить': 1,
 'еще': 1,
 'хоть': 1,
 'четверть': 1,
 'век': 1,
 'все': 2,
 'быть': 1,
 'так': 1,
 'исход': 1,
 'нет': 1,
 'умирать': 1,
 'начинать': 1,
 'опять': 1,
 'сначала': 1,
 'повторяться': 1,
 'как': 1,
 'встарь': 1,
 'ледяной': 1,
 'рябь': 1,
 'канал': 1}

#### Задание
Для того, чтобы наиграться с MyStem, предлагается написать метод, который находит топ n лексем.

In [17]:
from collections import Counter

In [18]:
def get_top_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most common words
    :return: list of most common lexemas
    '''
    lemmas_arr = mystem_analyzer2.lemmatize(text)
    lem_count_dict = dict(Counter(lemmas_arr))
    lem_count_dict_sorted = dict(sorted(lem_count_dict.items(), key=lambda item: item[1]))
    result = list(lem_count_dict_sorted.keys())[::-1][:n+1]
    return result

In [19]:
test_string = 'Ночь, улица, фонарь, аптека, бессмысленный и тусклый свет. Живи еще хоть четверть века — всё будет так. Исхода нет. Умрешь — начнешь опять сначала И повторится всё, как встарь: Ночь, ледяная рябь канала, Аптека, улица, фонарь. '

In [20]:
get_top_words(test_string, 6)

['все', 'и', 'аптека', 'фонарь', 'улица', 'ночь', 'канал']

### 2. Pymorphy

In [44]:
# установка модуля и словарей
!pip install pymorphy2
!pip install -U pymorphy2-dicts-ru

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py): started
  Building wheel for docopt (setup.py): finished with status 'done'
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13709 sha256=5227219345db0444415f5507e9ad160b1e4e8b9f8a4f3a0ef6e8accc0f76d308
  Stored in directory: c:\users\marie\appdata\local\pip\cache\wheels\72\b0\3f\1d95f96ff986c7dfffe46ce2be4062f38ebd04b506c77c81b9
Successfully built docopt
Installing collected packages: pymorphy2-dicts-ru, docopt, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 docopt-0.6.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4

In [21]:
# создание анализатора
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [22]:
# sample_text = u'Глокая куздра штеко будланула бокра и кудрячит бокренка'
# в отличие от mystem работает пословно
pymorphy_results = map(lambda x: morph.parse(x), sample_text.split())

In [23]:
# собираем результаты и выводим 
for word_result in pymorphy_results:
    print (word_result[0].word)
    for res in word_result:
#         print repr(res).decode('unicode_escape')
        print ('\t', res.normal_form, res.tag, res.score)

гло́кая
	 гло́кай NOUN,anim,masc,Name sing,gent 0.3333421575115817
	 гло́кай NOUN,anim,masc,Name sing,accs 0.3333421575115817
	 гло́кий ADJF femn,sing,nomn 0.30877564526803436
	 гло́кий NOUN,anim,femn,Sgtm,Surn sing,nomn 0.021045665122435473
	 гло́кать GRND,impf,intr pres 0.0034943745863666442
ку́здра
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,nomn 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,gent 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,datv 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,accs 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,ablt 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,loct 0.15000000000000002
	 ку́здра NOUN,inan,femn,Sgtm sing,nomn 0.05
	 ку́здра NOUN,inan,femn,Sgtm,Geox sing,nomn 0.05
ште́ко
	 ште́ко NOUN,anim,ms-f,Fixd,Surn sing,nomn 0.0798025503907856
	 ште́ко NOUN,anim,ms-f,Fixd,Surn sing,gent 0.0798025503907856
	 ште́ко NOUN,anim,

В отличие от mystem можно получать лексему и склонять слова

In [24]:
bokr = morph.parse(u'градус')[0]
for form in bokr.lexeme:
    print (form.word, form.tag)

градус NOUN,inan,masc sing,nomn
градуса NOUN,inan,masc sing,gent
градусу NOUN,inan,masc sing,datv
градус NOUN,inan,masc sing,accs
градусом NOUN,inan,masc sing,ablt
градусе NOUN,inan,masc sing,loct
градусы NOUN,inan,masc plur,nomn
градусов NOUN,inan,masc plur,gent
градусам NOUN,inan,masc plur,datv
градусы NOUN,inan,masc plur,accs
градусами NOUN,inan,masc plur,ablt
градусах NOUN,inan,masc plur,loct


In [25]:
print (bokr.inflect({'loct'}).word)
print (bokr.make_agree_with_number(1).word)
print (bokr.make_agree_with_number(2).word)
print (bokr.make_agree_with_number(5).word)

градусе
градус
градуса
градусов


#### Задание 
С помощью pymorphy на тексте получить:
- Распределение по частям речи
- Для части речи вывести топ n лексем

In [83]:
test_string = 'Ночь, улица, фонарь, аптека, бессмысленный и тусклый свет. Живи еще хоть четверть века — всё будет так. Исхода нет. Умрешь — начнешь опять сначала И повторится всё, как встарь: Ночь, ледяная рябь канала, Аптека, улица, фонарь. '

In [84]:
import re

In [85]:
test_str_proc = re.sub(r'[^\w\s]','',test_string)
pymorphy_test = map(lambda x: morph.parse(x), test_str_proc.split())

In [86]:
norm_forms_arr = []
for word_result in pymorphy_test:
    norm_forms_arr.append([word_result[0].normal_form, word_result[0].tag.POS])

In [110]:
4/len(norm_forms_arr)

0.11764705882352941

In [107]:
def get_pos_distribution(text, lexemas=None):
    '''
    :param: text: input text in russian
    :param: lexemas: list of interested pos, if None - all are interesting 
    :return: dict of pos - probability
    '''
    morph = pymorphy2.MorphAnalyzer()
    str_proc = re.sub(r'[^\w\s]','',text)
    pymorphy_test = map(lambda x: morph.parse(x), str_proc.split())
    
    
    pos_arr = []
    for word_result in pymorphy_test:
        pos_arr.append(word_result[0].tag.POS)
            
    pos_arr_count = dict(Counter(pos_arr))
    #print(pos_arr, pos_arr_count, len(pos_arr))
    res = {key: pos_arr_count[key] / len(pos_arr) for key in pos_arr_count.keys()} 
    
    if lexemas==None:
        return res
    else:
        result_lex = {}
        for lex in lexemas:
            #print(lex, res[lex])
            result_lex[lex]=res[lex]
    
        return result_lex


In [108]:
get_pos_distribution(test_string, ['NOUN', 'ADVB'])

{'NOUN': 0.4117647058823529, 'ADVB': 0.11764705882352941}

In [114]:
def get_top_pos_words(text, pos, n):
    '''
    :param text: input text in russian
    :param pos: part of speech 
    :param n: number of most common words
    :return: list of most common lexemas with selected pos
    '''
    morph = pymorphy2.MorphAnalyzer()
    str_proc = re.sub(r'[^\w\s]','',text)
    pymorphy_test = map(lambda x: morph.parse(x), str_proc.split())
    
    
    norm_forms_arr = []
    for word_result in pymorphy_test:
        norm_forms_arr.append([word_result[0].normal_form, word_result[0].tag.POS])
    
    words_sel_pos = []
    for i in range(len(norm_forms_arr)):
        if pos in norm_forms_arr[i]:
            words_sel_pos.append(norm_forms_arr[i][0])
    
    lem_count_dict = dict(Counter(words_sel_pos))
    lem_count_dict_sorted = dict(sorted(lem_count_dict.items(), key=lambda item: item[1]))
    result = list(lem_count_dict_sorted.keys())[::-1][:n+1]
    return result
    

In [115]:
get_top_pos_words(test_string, 'NOUN', 5)

['аптека', 'фонарь', 'улица', 'ночь', 'канал', 'рябь']