In [54]:
from __future__ import unicode_literals
from dawg import RecordDAWG, DAWG, BytesDAWG
from itertools import imap
from collections import namedtuple
import re
from pprint import pprint

### Маппер частей речи из opencorpora на части речи из задания

In [2]:
class POSMapper(object):
    POSMAP = {
        'NOUN': 'S',     #Существительное 
        'ADVB': 'ADV',   #Наречие
        'INTJ': 'ADV',   #Междометие
        'PRED': 'ADV',   #Предикатив
        'PRCL': 'ADV',   #Частица
        'COMP': 'A',     #Компаратив
        'ADJF': 'A',     #Прилагательное
        'ADJS': 'A',     #Краткое прилагательное
        'VERB': 'V',     #Глагол
        'INFN': 'V',     #Инфинитив
        'PRTF': 'V',     #Причастие
        'PRTS': 'V',     #Краткое причастие
        'GRND': 'V',     #Деепричастие
        'CONJ': 'CONJ',  #Союз
        'PREP': 'PR',    #Предлог
        'NUMR': 'NI',    #Числительное
        'NPRO': 'NI',    #Местоимение
    }
    
    def __getitem__(self, key):
        return self.POSMAP.get(key, 'NI')
    

In [88]:
def get_regex_for_lemma(lemma):
    return '(?P<pref>[\А-Я]*)({lemma})(?P<tail>[\А-Я]*)'.format(lemma=lemma.replace('Ё', '[Ё|Е]'))

def parse_word_form(lemma, word_form):
    m = re.match(
        get_regex_for_lemma(lemma),
        word_form
    )
    
    if m:
        return m.di

In [61]:
r = get_regex_for_lemma('ЁЖ')

m = re.match(r, 'ЕЖЕЙ')

print m.groupdict()

{u'tail': u'\u0415\u0419', u'pref': u''}


In [19]:
Word = namedtuple('Word', 'pref tail pos')

In [91]:
words = {}

with open('hedgehog_dict.txt') as f:
    while True:
        line = f.readline()
        
        if not line:
            break
            
        if re.match('\s', line):
            continue
            
        if re.match('\d+', line):
            new_line = f.readline()
            
            word_num = re.match('\d+', line).groups(0)
            
            lemma, pos = new_line.split(b'\t')
            lemma = lemma.decode('UTF-8')
            pos = pos.split(',')[0]
            
            if words.get(lemma):
                words[lemma].append(Word('', '', pos))
            else:
                words[lemma] = [Word('', '', pos)]
            continue
            
        word_form, pos = line.decode('UTF-8').split('\t')
        
        try:
            print parse_word_form(lemma, word_form)
        except:
            print lemma, word_form
        pos = pos.split(',')[0]
        
        

{u'tail': u'\u0410', u'pref': u''}
{u'tail': u'\u0423', u'pref': u''}
{u'tail': u'\u0410', u'pref': u''}
{u'tail': u'\u041e\u041c', u'pref': u''}
{u'tail': u'\u0415', u'pref': u''}
{u'tail': u'\u0418', u'pref': u''}
{u'tail': u'\u0415\u0419', u'pref': u''}
{u'tail': u'\u0410\u041c', u'pref': u''}
{u'tail': u'\u0415\u0419', u'pref': u''}
{u'tail': u'\u0410\u041c\u0418', u'pref': u''}
{u'tail': u'\u0410\u0425', u'pref': u''}
{u'tail': u'\u0410', u'pref': u''}
{u'tail': u'\u0423', u'pref': u''}
{u'tail': u'', u'pref': u''}
{u'tail': u'\u041e\u041c', u'pref': u''}
{u'tail': u'\u0415', u'pref': u''}
{u'tail': u'\u0418', u'pref': u''}
{u'tail': u'\u0415\u0419', u'pref': u''}
{u'tail': u'\u0410\u041c', u'pref': u''}
{u'tail': u'\u0418', u'pref': u''}
{u'tail': u'\u0410\u041c\u0418', u'pref': u''}
{u'tail': u'\u0410\u0425', u'pref': u''}
{u'tail': u'\u0410', u'pref': u''}
{u'tail': u'\u0423', u'pref': u''}
{u'tail': u'\u0410', u'pref': u''}
{u'tail': u'\u041e\u041c', u'pref': u''}
{u'tail': u'

In [87]:
for k, v in words.items():
    print k, v

ЁЖИМ [Word(pref=u'', tail=u'', pos=u'PRTS')]
ЁЖИКОМ [Word(pref=u'', tail=u'', pos=u'ADVB \n')]
ЁЖУ [Word(pref=u'', tail=u'', pos=u'VERB')]
ЁЖИТЬСЯ [Word(pref=u'', tail=u'', pos=u'INFN')]
ЁЖА [Word(pref=u'', tail=u'', pos=u'GRND')]
ЁЖАСЬ [Word(pref=u'', tail=u'', pos=u'GRND')]
ЁЖИК [Word(pref=u'', tail=u'', pos=u'NOUN')]
ЁЖИТЬ [Word(pref=u'', tail=u'', pos=u'INFN')]
ЁЖИСТЫЙ [Word(pref=u'', tail=u'', pos=u'ADJF')]
ЁЖИМЫЙ [Word(pref=u'', tail=u'', pos=u'PRTF')]
ЁЖИВШИЙСЯ [Word(pref=u'', tail=u'', pos=u'PRTF')]
ЁЖАЩИЙСЯ [Word(pref=u'', tail=u'', pos=u'PRTF')]
ЁЖУСЬ [Word(pref=u'', tail=u'', pos=u'VERB')]
ЁЖ [Word(pref=u'', tail=u'', pos=u'NOUN'), Word(pref=u'', tail=u'', pos=u'NOUN')]
ЁЖИСТ [Word(pref=u'', tail=u'', pos=u'ADJS')]
ЁЖИСТЕЕ [Word(pref=u'', tail=u'', pos=u'COMP')]
