In [34]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

In [35]:
# исходная заявка
sentence = '''Для ремонта коридора поста ЭЦ ст Ферма необходимо изготовить и установить 3 противопожарные двери в дверные проемы'''

# разобъем ее на отдельные слова (токены)
words = sentence.split(' ')

# получим леммы (нормальная форма слова)
for word in words:
    result = morph.parse(word)
    print(result[0].normal_form)

для
ремонт
коридор
пост
эц
ст
ферма
необходимый
изготовить
и
установить
3
противопожарный
дверь
в
дверной
проём


In [36]:
# получим всю инфу
for word in words:
    result = morph.parse(word)
    print(word, result[0].tag)

Для PREP
ремонта NOUN,inan,masc sing,gent
коридора NOUN,inan,masc sing,gent
поста NOUN,inan,masc sing,gent
ЭЦ UNKN
ст NOUN,inan,femn,Fixd,Abbr sing,nomn
Ферма NOUN,inan,femn sing,nomn
необходимо ADJS,Qual neut,sing
изготовить INFN,perf,tran
и CONJ
установить INFN,perf,tran
3 NUMB,intg
противопожарные ADJF plur,nomn
двери NOUN,inan,femn sing,gent
в PREP
дверные ADJF plur,nomn
проемы NOUN,inan,masc plur,nomn


In [72]:
def pos(word, morth):
    return morth.parse(word)[0].tag.POS

# удаляем вводные слова и т.п. (междометие, предлоги, частицы, союзы)
functors_pos = {'INTJ', 'PRCL', 'CONJ', 'PREP'}  # function words
print(*[word for word in words if pos(word, morph) not in functors_pos])

ремонта коридора поста ЭЦ ст Ферма необходимо изготовить установить 3 противопожарные двери дверные проемы


In [73]:
import nltk

tokens = nltk.word_tokenize(sentence)
print(tokens)

['Для', 'ремонта', 'коридора', 'поста', 'ЭЦ', 'ст', 'Ферма', 'необходимо', 'изготовить', 'и', 'установить', '3', 'противопожарные', 'двери', 'в', 'дверные', 'проемы']


In [77]:
tagged = nltk.pos_tag(tokens, lang='rus')
print(tagged)

[('Для', 'PR'), ('ремонта', 'S'), ('коридора', 'S'), ('поста', 'S'), ('ЭЦ', 'S'), ('ст', 'S'), ('Ферма', 'S'), ('необходимо', 'PRAEDIC'), ('изготовить', 'V'), ('и', 'CONJ'), ('установить', 'V'), ('3', 'NUM=ciph'), ('противопожарные', 'A=pl'), ('двери', 'S'), ('в', 'PR'), ('дверные', 'A=pl'), ('проемы', 'S')]


In [82]:
words = nltk.word_tokenize(sentence)
functors_pos = {'PR', 'CONJ'}  # function words
print(*[word for word, pos in nltk.pos_tag(words, lang='rus') if pos not in functors_pos])

ремонта коридора поста ЭЦ ст Ферма необходимо изготовить установить 3 противопожарные двери дверные проемы


In [90]:
from nltk.corpus import wordnet as wn

# Just to make it a bit more readable
WN_NOUN = 'n'
WN_VERB = 'v'
WN_ADJECTIVE = 'a'
WN_ADJECTIVE_SATELLITE = 's'
WN_ADVERB = 'r'


def convert(word, from_pos, to_pos):    
    synsets = wn.synsets(word, pos=from_pos)

    # Word not found
    if not synsets:
        return []

    # Get all lemmas of the word (consider 'a'and 's' equivalent)
    lemmas = []
    for s in synsets:
        for l in s.lemmas():
            if s.name().split('.')[1] == from_pos or from_pos in (WN_ADJECTIVE, WN_ADJECTIVE_SATELLITE) and s.name().split('.')[1] in (WN_ADJECTIVE, WN_ADJECTIVE_SATELLITE):
                lemmas += [l]

    # Get related forms
    derivationally_related_forms = [(l, l.derivationally_related_forms()) for l in lemmas]

    # filter only the desired pos (consider 'a' and 's' equivalent)
    related_noun_lemmas = []

    for drf in derivationally_related_forms:
        for l in drf[1]:
            if l.synset().name().split('.')[1] == to_pos or to_pos in (WN_ADJECTIVE, WN_ADJECTIVE_SATELLITE) and l.synset().name().split('.')[1] in (WN_ADJECTIVE, WN_ADJECTIVE_SATELLITE):
                related_noun_lemmas += [l]

    # Extract the words from the lemmas
    words = [l.name() for l in related_noun_lemmas]
    len_words = len(words)

    # Build the result in the form of a list containing tuples (word, probability)
    result = [(w, float(words.count(w)) / len_words) for w in set(words)]
    result.sort(key=lambda w:-w[1])

    # return all the possibilities sorted by probability
    return result

convert('wonder', 'n', 'a')

[('curious', 0.4), ('marvellous', 0.2), ('marvelous', 0.2), ('wondrous', 0.2)]