In [1]:
import pymorphy2

from nltk.tokenize import word_tokenize

In [2]:
morph = pymorphy2.MorphAnalyzer()

In [3]:
def analyze_word(word):
    P = morph.parse(word)
    max_score = P[0].score
    return [(p.word, p.normal_form, p.tag) for p in P if p.score == max_score]


def analyze_text(text):
    lemmas = []
    for word in word_tokenize(text):
        lemmas.append(analyze_word(word))
    return lemmas

In [4]:
FICTION_TEXT = 'Я был здоров, молод, весел, деньги у меня не переводились, заботы еще не успели завестись - я жил без оглядки, делал что хотел, процветал, одним словом. Мне тогда и в голову не приходило, что человек не растение и процветать ему долго нельзя. Молодость ест пряники золоченые, да и думает, что это-то и есть хлеб насущный; а придет время - и хлебца напросишься. Но толковать об этом не для чего.'
SCIENCE_TEXT = 'Описаны абелевы группы A и B такие, что группа гомоморфизмов Hom(A,B) является артиновым модулем над кольцом эндоморфизмов группы B. Описание групп A и B, для которых группа Hom(A,B) является артиновым модулем над кольцом эндоморфизмов группы A, сведена к случаю, когда группа A не имеет кручения, а группа B либо квазициклическая группа, либо делимая группа без кручения. Охарактеризованы абелевы группы A и B, для которых группа Hom(A,B) есть нётеров модуль над кольцом E(A) или E(B). Исследование произвольной абелевой группы с нётеровым слева кольцом эндоморфизмов сведено к исследованию группы без кручения с нётеровым слева кольцом эндоморфизмов. Исследование группы с нётеровым справа кольцом эндоморфизмов осталось незавершённым. Описаны сепарабельные абелевы группы без кручения с нётеровыми слева или справа кольцами эндоморфизмов.'
WEBFORUM_TEXT = 'Сап двач, учусь на втором курсе. Понял, что выбранная специальность - явно не мой конёк, и посему решил пойти сдать дополнительные ЕГЭ для поступления на первый курс новой специальности. Я ранее сдавал обществознание, но по глупости снова вписал его в список (думал, что балл очень низкий). Затем посмотрел и увидел, что балл нормальный и есть все шансы попасть на бюджет. Если я откажусь от сдачи обществознания, старые баллы не аннулируются? Пикча рандом)'

In [5]:
analyze_text(FICTION_TEXT)

[[('я', 'я', OpencorporaTag('NPRO,1per sing,nomn'))],
 [('был', 'быть', OpencorporaTag('VERB,impf,intr masc,sing,past,indc'))],
 [('здоров', 'здоровый', OpencorporaTag('ADJS,Qual masc,sing'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('молод', 'молодой', OpencorporaTag('ADJS,Qual masc,sing'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('весёл', 'весёлый', OpencorporaTag('ADJS,Qual masc,sing'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('деньги', 'деньга', OpencorporaTag('NOUN,inan,femn sing,gent'))],
 [('у', 'у', OpencorporaTag('PREP'))],
 [('меня', 'я', OpencorporaTag('NPRO,1per sing,accs'))],
 [('не', 'не', OpencorporaTag('PRCL'))],
 [('переводились',
   'переводиться',
   OpencorporaTag('VERB,impf,intr plur,past,indc'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('заботы', 'забота', OpencorporaTag('NOUN,inan,femn sing,gent'))],
 [('ещё', 'ещё', OpencorporaTag('PRCL'))],
 [('не', 'не', OpencorporaTag('PRCL'))],
 [('успели', 'успеть', OpencorporaTag('VERB,perf,intr plur,past,indc'))

In [6]:
analyze_text(SCIENCE_TEXT)

[[('описаны', 'описать', OpencorporaTag('PRTS,perf,past,pssv plur'))],
 [('абелевы', 'абелев', OpencorporaTag('ADJF,Poss plur,nomn')),
  ('абелевы', 'абелев', OpencorporaTag('ADJF,Poss inan,plur,accs'))],
 [('группы', 'группа', OpencorporaTag('NOUN,inan,femn sing,gent'))],
 [('a', 'a', OpencorporaTag('LATN'))],
 [('и', 'и', OpencorporaTag('CONJ'))],
 [('b', 'b', OpencorporaTag('LATN'))],
 [('такие', 'такой', OpencorporaTag('ADJF,Apro plur,nomn'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('что', 'что', OpencorporaTag('CONJ'))],
 [('группа', 'группа', OpencorporaTag('NOUN,inan,femn sing,nomn'))],
 [('гомоморфизмов',
   'гомоморфизм',
   OpencorporaTag('NOUN,inan,masc plur,gent'))],
 [('hom', 'hom', OpencorporaTag('LATN'))],
 [('(', '(', OpencorporaTag('PNCT'))],
 [('a', 'a', OpencorporaTag('LATN'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('b', 'b', OpencorporaTag('LATN'))],
 [(')', ')', OpencorporaTag('PNCT'))],
 [('является',
   'являться',
   OpencorporaTag('VERB,impf,intr sing,3p

In [7]:
analyze_text(WEBFORUM_TEXT)

[[('сап', 'сап', OpencorporaTag('NOUN,inan,masc sing,nomn')),
  ('сап', 'сап', OpencorporaTag('NOUN,inan,masc sing,accs')),
  ('сап', 'сапа', OpencorporaTag('NOUN,inan,femn plur,gent'))],
 [('двач', 'двач', OpencorporaTag('NOUN,anim,masc sing,nomn'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('учусь', 'учиться', OpencorporaTag('VERB,impf,intr sing,1per,pres,indc'))],
 [('на', 'на', OpencorporaTag('PREP'))],
 [('втором', 'второе', OpencorporaTag('NOUN,inan,neut sing,loct')),
  ('втором', 'два', OpencorporaTag('ADJF,Anum masc,sing,loct')),
  ('втором', 'два', OpencorporaTag('ADJF,Anum neut,sing,loct'))],
 [('курсе', 'курс', OpencorporaTag('NOUN,inan,masc sing,loct'))],
 [('.', '.', OpencorporaTag('PNCT'))],
 [('понял', 'понять', OpencorporaTag('VERB,perf,tran masc,sing,past,indc'))],
 [(',', ',', OpencorporaTag('PNCT'))],
 [('что', 'что', OpencorporaTag('CONJ'))],
 [('выбранная',
   'выбрать',
   OpencorporaTag('PRTF,perf,tran,past,pssv femn,sing,nomn'))],
 [('специальность',
   'специа