# Морфология

Здесь мы познакомимся с двумя мофрологическими анализоторами: `pymorphy` и `mystem`.

In [1]:
sample_text = 'Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка'

### 1. MyStem

In [2]:
from pymystem3 import Mystem
from tabulate import tabulate

In [3]:
# Initialize analyzer
# `entire_input` -- copy entire input to output
# `disambiguation` -- apply disambiguation
mystem_analyzer = Mystem(entire_input=False, disambiguation=False)

Две основные функции `Mystem`:
* Проводить морфологический анализ
* Приводить слова в начальную форму

In [4]:
mystem_result = mystem_analyzer.analyze(sample_text)
mystem_lemmas = mystem_analyzer.lemmatize(sample_text)

In [5]:
# Let's compare original text and the lemmatized one
print('           Original: {}'.format(sample_text))
print('After lemmatization: {}'.format(' '.join(mystem_lemmas)))

           Original: Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка
After lemmatization: глокая куздра штеко будлануть бокра и курдячить бокренка


In [6]:
# Result of morphological analysis
for word in mystem_result:
    print(word['text'])
    for res in word['analysis']:
        print('\t{}'.format(repr(res)))

Гло́кая
	{'lex': 'глокая', 'wt': 0.3605448306, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	{'lex': 'глокать', 'wt': 0.3605448306, 'qual': 'bastard', 'gr': 'V,несов=непрош,деепр,пе'}
	{'lex': 'глокая', 'wt': 0.1038369089, 'qual': 'bastard', 'gr': 'S,жен,од=им,ед'}
	{'lex': 'глокай', 'wt': 0.09304980189, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
	{'lex': 'глокать', 'wt': 0.03306575492, 'qual': 'bastard', 'gr': 'V,несов,нп=непрош,деепр'}
	{'lex': 'глокий', 'wt': 0.01624944061, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	{'lex': 'глокать', 'wt': 0.01512198243, 'qual': 'bastard', 'gr': 'V,несов,пе=непрош,деепр'}
	{'lex': 'глокий', 'wt': 0.01077529974, 'qual': 'bastard', 'gr': 'A=им,ед,полн,жен'}
	{'lex': 'глокать', 'wt': 0.006811153609, 'qual': 'bastard', 'gr': 'V,нп=непрош,деепр,несов'}
ку́здра
	{'lex': 'куздра', 'wt': 0.6292693615, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
	{'lex': 'куздра', 'wt': 0.3707306087, 'qual': 'bastard', 'gr': 'S,гео,жен,неод=им,ед'}
ште́ко
	{'lex': 'ш

Создадим теперь анализатор со снятием омонимии.

In [7]:
mystem_analyzer2 = Mystem(entire_input=False, disambiguation=True)

In [8]:
mystem_result2 = mystem_analyzer2.analyze(sample_text)
mystem_lemmas2 = mystem_analyzer2.lemmatize(sample_text)

In [9]:
# Let's compare original text and two lemmatized variants
print('Original: {}\n'.format(sample_text))
print('\tAfter lemmatization')

headers = ['Without disambiguation', 'With disambiguation']
print(tabulate(zip(mystem_lemmas, mystem_lemmas2), headers=headers))

Original: Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка

	After lemmatization
Without disambiguation    With disambiguation
------------------------  ---------------------
глокая                    глокай
куздра                    куздра
штеко                     штеко
будлануть                 будланул
бокра                     бокра
и                         и
курдячить                 курдячить
бокренка                  бокренок


In [10]:
# Result of morphological analysis
for word in mystem_result2:
    print(word['text'])
    for res in word['analysis']:
        print('\t{}'.format(repr(res)))

Гло́кая
	{'lex': 'глокай', 'wt': 0.09304980189, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}
ку́здра
	{'lex': 'куздра', 'wt': 0.6292693615, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
ште́ко
	{'lex': 'штеко', 'wt': 0.2574119866, 'qual': 'bastard', 'gr': 'ADV='}
будлану́ла
	{'lex': 'будланул', 'wt': 0.03753661737, 'qual': 'bastard', 'gr': 'S,муж,од=(вин,ед|род,ед)'}
бо́кра
	{'lex': 'бокра', 'wt': 0.8898982406, 'qual': 'bastard', 'gr': 'S,ед,жен,неод=им'}
и
	{'lex': 'и', 'wt': 0.9999770522, 'gr': 'CONJ='}
курдя́чит
	{'lex': 'курдячить', 'wt': 0.5, 'qual': 'bastard', 'gr': 'V,обсц,сов,пе=непрош,ед,изъяв,3-л'}
бокрёнка
	{'lex': 'бокренок', 'wt': 0.1651664227, 'qual': 'bastard', 'gr': 'S,муж,неод=род,ед'}


Проблемы MyStem.

In [11]:
disambiguations = ['Александра Иванова пошла в кино',
                   'Александра Иванова видели в кино с кем-то',
                   'Воробьев сегодня встал не с той ноги']

disambiguation_results = []
for dis in disambiguations:
    disambiguation_results.append(mystem_analyzer2.lemmatize(dis))
    
for res in disambiguation_results:
    print(' '.join(res))

александра иванов пойти в кино
александра иванов видеть в кино с кто-то
воробей сегодня вставать не с тот нога


#### Задание
Для того, чтобы наиграться с `MyStem`, предлагается написать методы, которые:
* находят топ `n` лексем
* находят слова с наибольшей и наименьшей энтропией

In [12]:
def get_top_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most common words
    :return: list of most common lexemas
    '''
    vocabulary = {}

    analyzer = Mystem(entire_input=False, disambiguation=True)
    result = analyzer.analyze(text)

    for word in result:
        if word['analysis'][0]['lex'] in vocabulary:
            vocabulary[word['analysis'][0]['lex']] += 1
        else:
            vocabulary[word['analysis'][0]['lex']] = 1

    return sorted(vocabulary.items(), key=lambda kv: -kv[1])[:n]

def get_max_entropy_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most words with maximum entropy
    :return: list of words with entropies
    '''
    analyzer = Mystem(entire_input=False, disambiguation=True)
    result = analyzer.analyze(text)
    
    # Remove duplicates
    scored_words = set([(word['analysis'][0]['lex'], word['analysis'][0]['wt'])
                        for word in result])
    
    return sorted(scored_words, key=lambda kv: -kv[1])[:n]

def get_min_entropy_words(text, n):
    '''
    :param text: input text in russian
    :param n: number of most words with minimum entropy
    :return: list of words with entropies
    '''
    analyzer = Mystem(entire_input=False, disambiguation=True)
    result = analyzer.analyze(text)
    
    # Remove duplicates
    scored_words = set([(word['analysis'][0]['lex'], word['analysis'][0]['wt'])
                        for word in result])
    
    return sorted(scored_words, key=lambda kv: kv[1])[:n]

In [13]:
with open('data/text.txt', 'r') as file:
    text = file.read().replace('\n', ' ')

In [14]:
print(tabulate(get_top_words(text, 10), headers=['Lexema', 'Count']))

Lexema      Count
--------  -------
я              26
и              22
в              17
быть           16
на             16
он             12
не             11
с              10
но              9
что             8


In [15]:
print(tabulate(get_max_entropy_words(text, 10), headers=['Lexema', 'Entropy']))

Lexema        Entropy
----------  ---------
мой                 1
стоять              1
знать               1
слово               1
колыхаться          1
нога                1
открывать           1
грузовик            1
фартук              1
удивляться          1


In [16]:
print(tabulate(get_min_entropy_words(text, 10), headers=['Lexema', 'Entropy']))

Lexema          Entropy
----------  -----------
его         3.28409e-05
было        0.0243193
о           0.0261385
немало      0.0286313
одетый      0.0844251
глупый      0.0897583
разумеется  0.102032
вокруг      0.224326
тверская    0.296113
то          0.30407


### 2. Pymorphy

In [17]:
import pymorphy2

In [18]:
# Initialize analyzer
morph = pymorphy2.MorphAnalyzer()

In [19]:
# Analyzer processes word by word
pymorphy_results = map(lambda x: morph.parse(x), sample_text.split())

In [20]:
for word_result in pymorphy_results:
    print('\tWORD: {}'.format(word_result[0].word))

    results = []
    for res in word_result:
        results.append((res.normal_form, res.tag, res.score))

    print(tabulate(results, headers=['Lexema', 'Tag', 'Weight']))
    print()

	WORD: гло́кая
Lexema    Tag                                     Weight
--------  ----------------------------------  ----------
гло́кай    NOUN,anim,masc,Name sing,gent       0.333342
гло́кай    NOUN,anim,masc,Name sing,accs       0.333342
гло́кий    ADJF femn,sing,nomn                 0.308332
гло́кий    NOUN,anim,femn,Sgtm,Surn sing,nomn  0.0214108
гло́кать   GRND,impf,intr pres                 0.00357298

	WORD: ку́здра
Lexema    Tag                                             Weight
--------  --------------------------------------------  --------
ку́здра    NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,nomn      0.15
ку́здра    NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,gent      0.15
ку́здра    NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,datv      0.15
ку́здра    NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,accs      0.15
ку́здра    NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,ablt      0.15
ку́здра    NOUN,inan,femn,Sgtm,Fixd,Abbr,Geox sing,loct      0.15
ку́здра    NOUN,inan,femn,Sgtm sing,nomn      

В отличие от `mystem` можно получать лексему и склонять слова.

In [21]:
parsed = morph.parse('градус')[0]

results = []
for form in parsed.lexeme:
    results.append((form.word, form.tag.POS))

print(tabulate(results, headers=['Lexema', 'POS']))

Lexema     POS
---------  -----
градус     NOUN
градуса    NOUN
градусу    NOUN
градус     NOUN
градусом   NOUN
градусе    NOUN
градусы    NOUN
градусов   NOUN
градусам   NOUN
градусы    NOUN
градусами  NOUN
градусах   NOUN


In [22]:
print('WORD: {}'.format(parsed.inflect({'loct'}).word))

for number in [1, 2, 5]:
    print('{} {}'.format(number, parsed.make_agree_with_number(number).word))

WORD: градусе
1 градус
2 градуса
5 градусов


#### Задание 

С помощью `pymorphy` на тексте получить:
- Распределение по частям речи
- Для части речи вывести топ `n` лексем

In [23]:
def get_pos_distribution(text, pos=None):
    '''
    :param: text: input text in russian
    :param: pos: list of interested pos, if None - all are interesting 
    :return: dict of pos - probability
    '''
    morph = pymorphy2.MorphAnalyzer()

    tags = [morph.parse(word)[0].tag.POS for word in text.split()]

    distribution = {}
    for tag in tags:
        # Pretty
        if tag is None:
            tag = 'None'

        if tag not in distribution:
            distribution[tag] = 1
        else:
            distribution[tag] += 1
    
    for key in distribution.keys():
        distribution[key] /= len(tags)
    
    if pos is not None:
        tmp = {}
        
        for tag in pos:
            # Compability with pretty formatting above
            if tag is None:
                tag = 'None'

            if tag in distribution:
                tmp[tag] = distribution[tag]
            else:
                tmp[tag] = 0

        return tmp

    return distribution

def get_top_pos_words(text, pos, n):
    '''
    :param text: input text in russian
    :param pos: part of speech 
    :param n: number of most common words
    :return: list of most common lexemas with selected pos
    '''
    morph = pymorphy2.MorphAnalyzer()
    
    parsed = [(morph.parse(word)[0].word, morph.parse(word)[0].tag.POS)
              for word in text.split()]
    selected = [word[0] for word in parsed if word[1] == pos]
    
    vocabulary = {}
    
    for word in selected:
        if word not in vocabulary:
            vocabulary[word] = 1
        else:
            vocabulary[word] += 1

    return sorted(vocabulary.items(), key=lambda kv: -kv[1])[:n]

In [24]:
print(tabulate(get_pos_distribution(text, ['NOUN', None]).items(), headers=['POS', 'Distribution']))

POS      Distribution
-----  --------------
NOUN         0.146774
None         0.212903


In [25]:
print(tabulate(get_top_pos_words(text, 'ADJF', 5), headers=['Word', 'Count']))

Word       Count
-------  -------
чёрной         2
этой           2
красный        2
этот           2
таким          1
