In [1]:
from ufal.udpipe import Model as udModel, Pipeline
import re

In [2]:
# model_path = "finnish-tdt-ud-2.5-191206.udpipe"
# ud_model = udModel.load(model_path)

In [3]:
def process_psor(token, number, person):
    """
    Erases possesive suffix
    token - string, word form
    number - string 'Sing' or 'Plur'
    person - string
    """
    output = token
    if 'Sing' in number:
        if '1' in person:
            output = re.sub(r"ni$", "", token)
        elif '2' in person:
            output = re.sub(r"si$", "", token)
        elif '3' in person:
            output = re.sub(r"(ns[aä]|[aeiouäöy]n)$", "", token)
    elif 'Plur' in number:
        if '1' in person:
            output = re.sub(r"mme$", "", token)
        elif '2' in person:
            output = re.sub(r"nne$", "", token)
        elif '3' in person:
            output = re.sub(r"(ns[aä]|[aeiouäöy]n)$", "", token)
    return output
            

def process_case(token, case):
    """
    deletes case marker
    token - string, word form
    case - string
    """
    output = token
    if 'Abl' in case:
        output = re.sub(r"lt[aä]$", "", token)
    elif 'Ade' in case:
        output = re.sub(r"ll[aä]$", "", token)
    elif 'All' in case:
        output = re.sub(r"lle$", "", token)
    elif 'Ela' in case:
        output = re.sub(r"st[aä]$", "", token)
    elif 'Ess' in case:
        output = re.sub(r"n[aä]$", "", token)
    elif 'Gen' in case:
        output = re.sub(r"n$", "", token)
    elif 'Ill' in case:
        output = re.sub(r"(seen|h?[aeiouäöy]n)$", "", token)
    elif 'Ine' in case:
        output = re.sub(r"ss[aä]$", "", token)
#     elif 'Nom' in case:
#         output = re.sub(r"t$", "", token)
    elif 'Par' in case:
        output = re.sub(r"(t?t?[aä])$", "", token)
    elif 'Tra' in case:
        output = re.sub(r"ksi$", "", token)
    return output

In [4]:
def process_number(word, number):
    
    return word

In [5]:
def process_token(token):
    output = token.form
    if 'Number[psor]' in token.feats:
        output = process_psor(output, token.feats['Number[psor]'], token.feats['Person[psor]'])
    if 'Case' in token.feats:
        case = token.feats['Case']
        output = process_case(output, case)
    if 'Number' in token.feats:
        output = process_number(output, token.feats['Number'])
    return output

### Тест модели на заведомо корректных данных

In [6]:
import pyconll

sents = pyconll.load_from_file("fi_tdt-ud-test.conllu")
answer = {}
for sentence in sents[:20]:
    for token in sentence:
        if token.xpos in ['A', 'N']:
            if 'Sing' in token.feats['Number']:
                answer[token.form] = process_token(token)

In [7]:
answer

{'teatteriin': 'teatteri',
 'pupulle': 'pupu',
 'sisarentyttärelleni': 'sisarentyttäre',
 'Turkuun': 'Turku',
 'lakia': 'laki',
 'kaupunginteatterin': 'kaupunginteatteri',
 '-musikaaliin': '-musikaali',
 'Suxessiin': 'Suxessi',
 'oluelle': 'olue',
 'matkalla': 'matka',
 'Päänsärkyä': 'Päänsärky',
 'tukkaa': 'tukka',
 'Asunto': 'Asunto',
 'aistikas': 'aistikas',
 'viinaa': 'viina',
 'pupun': 'pupu',
 'Mielestäni': 'Miele',
 'hauskin': 'hauskin',
 'osuus': 'osuus',
 'löytäminen': 'löytäminen',
 'pöytään': 'pöytä',
 'pupu': 'pupu',
 'Klubille': 'Klubi',
 'yökerhossa': 'yökerho',
 'vanhaa': 'vanha',
 'tuttavaani': 'tuttavaa',
 'uusi': 'uusi',
 'komea': 'komea',
 'mies': 'mies',
 'Kiva': 'Kiva',
 'uuden': 'uude',
 'naaman': 'naama',
 'mieheni': 'miehe',
 'puolisoni': 'puoliso',
 'vuotta': 'vuo',
 'Mopsin': 'Mopsi',
 'tyttönimeni': 'tyttönime',
 'Marple': 'Marple',
 'päässäni': 'pää',
 'viimeisenä': 'viimeise',
 'johtolankana': 'johtolanka',
 'nettiin': 'netti',
 'kuva': 'kuva',
 'pukuliivis