# Morphological analysis in Python

```
pip install pymystem3

pip install pymorphy2
```

In [1]:
from pymystem3 import Mystem
import pymorphy2

## pymystem3

`Pymystem3` is the wrapper for the Mystem: https://pythonhosted.org/pymystem3/

First, we need to create an exemplar of the class:

In [2]:
m = Mystem()

This class has two methods:

+ `lemmatize` -- returns a list of lemmas
+ `analyze` -- returns the full analysis as a dictionary.

Let's try out the two methods on a simple text:

In [3]:
text = 'Живые выступления Делии де Франс - это камерные шоу,' +\
'в которых классические инструменты - фортепиано и арфа - соединяются с электроникой. ' +\
'Темой музыкального исследования Делии становятся пропорции - ' +\
'как много эксперимента нужно поп-музыке и как много попа нужно экспериментальной музыке.'

In [4]:
text

'Живые выступления Делии де Франс - это камерные шоу,в которых классические инструменты - фортепиано и арфа - соединяются с электроникой. Темой музыкального исследования Делии становятся пропорции - как много эксперимента нужно поп-музыке и как много попа нужно экспериментальной музыке.'

In [5]:
lemmas = m.lemmatize(text)
lemmas[10:20]

['это', ' ', 'камерный', ' ', 'шоу', ',', 'в', ' ', 'который', ' ']

We can easily put the text back together:

In [7]:
print(''.join(lemmas))

живой выступление делий де франс - это камерный шоу,в который классический инструмент - фортепиано и арфа - соединяться с электроника. тема музыкальный исследование делий становиться пропорция - как много эксперимент нужно поп-музыка и как много поп нужный экспериментальный музыка.



In [6]:
ana = m.analyze(text)
print(ana[:10])

[{'analysis': [{'lex': 'живой', 'wt': 0.9239751582, 'gr': 'A=(вин,мн,полн,неод|им,мн,полн)'}], 'text': 'Живые'}, {'text': ' '}, {'analysis': [{'lex': 'выступление', 'wt': 1, 'gr': 'S,сред,неод=(вин,мн|род,ед|им,мн)'}], 'text': 'выступления'}, {'text': ' '}, {'analysis': [{'lex': 'делий', 'wt': 1, 'gr': 'S,имя,муж,од=(пр,ед|им,мн)'}], 'text': 'Делии'}, {'text': ' '}, {'analysis': [{'lex': 'де', 'wt': 1, 'gr': 'PART='}], 'text': 'де'}, {'text': ' '}, {'analysis': [{'lex': 'франс', 'wt': 1, 'gr': 'S,имя,муж,од=им,ед'}], 'text': 'Франс'}, {'text': ' - '}]


The analysis of each word is an element of an array:

In [9]:
for word in ana[:10]:
    print(word)

{'analysis': [{'lex': 'живой', 'wt': 0.9239751582, 'gr': 'A=(вин,мн,полн,неод|им,мн,полн)'}], 'text': 'Живые'}
{'text': ' '}
{'analysis': [{'lex': 'выступление', 'wt': 1, 'gr': 'S,сред,неод=(вин,мн|род,ед|им,мн)'}], 'text': 'выступления'}
{'text': ' '}
{'analysis': [{'lex': 'делий', 'wt': 1, 'gr': 'S,имя,муж,од=(пр,ед|им,мн)'}], 'text': 'Делии'}
{'text': ' '}
{'analysis': [{'lex': 'де', 'wt': 1, 'gr': 'PART='}], 'text': 'де'}
{'text': ' '}
{'analysis': [{'lex': 'франс', 'wt': 1, 'gr': 'S,имя,муж,од=им,ед'}], 'text': 'Франс'}
{'text': ' - '}


The field `text` contains the original words, the field `analysis` (that could be absent) contains the grammatical characteristics of the lemma.

What is the meaning of `=` and `|` in the grammatical analysis above?

Let's extract the part of speech information:

In [7]:
for word in ana:
    if 'analysis' in word:
        gr = word['analysis'][0]['gr']
        pos = gr.split('=')[0].split(',')[0]
        print(word['text'], pos)

Живые A
выступления S
Делии S
де PART
Франс S
это PART
камерные A
шоу S
в PR
которых APRO
классические A
инструменты S
фортепиано S
и CONJ
арфа S
соединяются V
с PR
электроникой S
Темой S
музыкального A
исследования S
Делии S
становятся V
пропорции S
как CONJ
много ADV
эксперимента S
нужно ADV
поп-музыке S
и CONJ
как ADVPRO
много ADV
попа S
нужно A
экспериментальной A
музыке S


#### To sum up:

##### Advantages:

+ great quality of the analysis
+ it resolves part of speech homonymy 
+ it takes into account the context

##### Disadvantages:

+ it is slow (but if you strip the text of the punctuation, it will work much faster)


## pymorphy2

`pymorphy2` is not a wrapper, it is a morphological analyzer, created for and on Python. It can do what `pymystem3` can do, and more: for example, it can change the word form. `pymorphy2` can also deal with unknown words.

https://pymorphy2.readthedocs.io/en/latest/

`pymorphy2` was trained on the OpenCorpora word lists, which is reflected in its tag choice. 

Again, we start by creating an exemplar of the class MorphAnalyzer. It is recommended to create one exemplar and work with it, since it takes up a lot of the memory.

In [11]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

To analyze a word we use the method `parse`:

In [12]:
ana = morph.parse('стали')
ana

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

The analyzer returned all the possible analyses starting with the most likely analysis.

Each parse has the following attributes: the orginal word, the tag, the lemma, the probability of the parse:

In [23]:
first = ana[0]  # the first parse
print('Слово:', first.word)
print('Тэг:', first.tag)
print('Лемма:', first.normal_form)
print('Вероятность:', first.score)

Слово: стали
Тэг: VERB,perf,intr plur,past,indc
Лемма: стать
Вероятность: 0.984662


For each parse, we can get a corresponding lemma and all the information about it:

In [14]:
first.normalized

Parse(word='стать', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'стать', 904, 0),))

In [24]:
last = ana[-1] # the last parse
print('Разбор слова: ', last)
print()
print('Разбор леммы: ', last.normalized)

Разбор слова:  Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))

Разбор леммы:  Parse(word='сталь', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='сталь', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'сталь', 13, 0),))


If one prints the contents of the tag, one could think think that this is a string:

In [16]:
first = ana[0]  # первый разбор
print(first.tag)

VERB,perf,intr plur,past,indc


In reality, it is an object of the class `OpencorporaTag`, therefore, you can't manipulate it in all the ways you could manipulate a string.

You could, however, check whether a certain grammeme is in the tag:


In [17]:
'NOUN' in first.tag

False

In [18]:
'VERB' in first.tag

True

In [19]:
{'VERB', 'sing'} in first.tag

False

In [20]:
{'VERB', 'plur'} in first.tag

True

Out of each tag one could get more detailed information. If the grammeme is contained within the parse, we will get it, if not, we will get `None`.

In [None]:
p.tag.POS           # Part of Speech, часть речи
p.tag.animacy       # одушевленность
p.tag.aspect        # вид: совершенный или несовершенный
p.tag.case          # падеж
p.tag.gender        # род (мужской, женский, средний)
p.tag.involvement   # включенность говорящего в действие
p.tag.mood          # наклонение (повелительное, изъявительное)
p.tag.number        # число (единственное, множественное)
p.tag.person        # лицо (1, 2, 3)
p.tag.tense         # время (настоящее, прошедшее, будущее)
p.tag.transitivity  # переходность (переходный, непереходный)
p.tag.voice         # залог (действительный, страдательный)

In [21]:
print(first.tag)
print('Время: ', first.tag.tense)
print('Падеж: ', first.tag.case)

VERB,perf,intr plur,past,indc
Время:  past
Падеж:  None


Here you can fird the full list of grammemes used in the module - https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html. If you are searching for a grammeme that is not on the list, you will get an error.

One could also get a string in cyrillic:


In [22]:
first.tag.cyr_repr

'ГЛ,сов,неперех мн,прош,изъяв'

## Inflection

If we have the analysis for the word, we can put the word in a different form by using the `inflect` function. This fuction gets a set of grammemes as an input and tries to apply them to the analysis.

In [25]:
morph.parse('программирую')

[Parse(word='программирую', tag=OpencorporaTag('VERB,impf,tran sing,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программирую', 168, 1),))]

In [26]:
prog = morph.parse('программирую')[0]
prog.inflect({'plur'})

Parse(word='программируем', tag=OpencorporaTag('VERB,impf,tran plur,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программируем', 168, 2),))

In [27]:
prog.inflect({'plur', 'past'})

Parse(word='программировали', tag=OpencorporaTag('VERB,impf,tran plur,past,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программировали', 168, 10),))

In [28]:
prog.inflect({'past'})

Parse(word='программировал', tag=OpencorporaTag('VERB,impf,tran masc,sing,past,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программировал', 168, 7),))

In [29]:
prog.inflect({'past', 'femn'})

Parse(word='программировала', tag=OpencorporaTag('VERB,impf,tran femn,sing,past,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программировала', 168, 8),))

## Word forms

Using the `lexeme` attribute, we could get an array of all the word forms:


In [30]:
prog.lexeme

[Parse(word='программировать', tag=OpencorporaTag('INFN,impf,tran'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программировать', 168, 0),)),
 Parse(word='программирую', tag=OpencorporaTag('VERB,impf,tran sing,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программирую', 168, 1),)),
 Parse(word='программируем', tag=OpencorporaTag('VERB,impf,tran plur,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программируем', 168, 2),)),
 Parse(word='программируешь', tag=OpencorporaTag('VERB,impf,tran sing,2per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программируешь', 168, 3),)),
 Parse(word='программируете', tag=OpencorporaTag('VERB,impf,tran plur,2per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'программируете', 168, 4),)),
 Parse(word='программирует', tag=O

## Agreement with a numeral

From documentation:

>Слово нужно ставить в разные формы в зависимости от числительного, к которому оно относится. Например: “1 бутявка”, “2 бутявки”, “5 бутявок” Для этих целей используйте метод Parse.make_agree_with_number():



In [31]:
butyavka = morph.parse('бутявка')[0]

In [32]:
butyavka.make_agree_with_number(1).word

'бутявка'

In [33]:
butyavka.make_agree_with_number(2).word

'бутявки'

In [35]:
butyavka.make_agree_with_number(100).word

'бутявок'

#### Summing up:

##### Advantages:

+ it parses, it deals with the inclination cases
+ it generates hypotheses for unknown words
+ it is written on Python and is faster than Mystem
+ it can work with Ukranian -- note as an idea for your in-class presentation or your final project

##### Disadvantages:

+ some problems with the quality of the parses
+ it does not take into account the context

#### Exercise:

1. Find a poem
2. Print a list of all the words from the poem with their part of speech tags
3. Print a lemmatized version of the poem
4. Print the poem with all the verbs in the imperative 


## Tokenizing and tagging some text using NLTK

In [53]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [49]:
sentence = """At eight o'clock on Thursday morning Arthur didn't feel very good."""

In [51]:
tokens = nltk.word_tokenize(sentence)

In [54]:
tokens

['At',
 'eight',
 "o'clock",
 'on',
 'Thursday',
 'morning',
 'Arthur',
 'did',
 "n't",
 'feel',
 'very',
 'good',
 '.']

In [57]:
tagged = nltk.pos_tag(tokens)
tagged[0:13]

[('At', 'IN'),
 ('eight', 'CD'),
 ("o'clock", 'NN'),
 ('on', 'IN'),
 ('Thursday', 'NNP'),
 ('morning', 'NN'),
 ('Arthur', 'NNP'),
 ('did', 'VBD'),
 ("n't", 'RB'),
 ('feel', 'VB'),
 ('very', 'RB'),
 ('good', 'JJ'),
 ('.', '.')]