## Voikko

Voikko seems to be the only natural language processing tool that can morphologically analyze Finnish words.

In [1]:
from voikko.libvoikko import Voikko
import os

## Tokenize a sentence

In [2]:
v = Voikko("fi")

In [3]:
fin_toks = v.tokens("Te olette esittäneet toiveen,\
                    että tästä asiasta keskusteltaisiin lähipäivinä tämän istuntojakson aikana.")
# fin_toks is a list of Token objects <tokenText, tokenType>
print(fin_toks)
print(fin_toks[0].tokenText)
print(fin_toks[0].tokenType)
print(len(fin_toks))

word_toks = [fin_tok.tokenText for fin_tok in fin_toks if fin_tok.tokenType==1 or fin_tok.tokenType==2]
print(word_toks)

[<Te,WORD>, < ,WHITESPACE>, <olette,WORD>, < ,WHITESPACE>, <esittäneet,WORD>, < ,WHITESPACE>, <toiveen,WORD>, <,,PUNCTUATION>, <                    ,WHITESPACE>, <että,WORD>, < ,WHITESPACE>, <tästä,WORD>, < ,WHITESPACE>, <asiasta,WORD>, < ,WHITESPACE>, <keskusteltaisiin,WORD>, < ,WHITESPACE>, <lähipäivinä,WORD>, < ,WHITESPACE>, <tämän,WORD>, < ,WHITESPACE>, <istuntojakson,WORD>, < ,WHITESPACE>, <aikana,WORD>, <.,PUNCTUATION>]
Te
1
25
['Te', 'olette', 'esittäneet', 'toiveen', ',', 'että', 'tästä', 'asiasta', 'keskusteltaisiin', 'lähipäivinä', 'tämän', 'istuntojakson', 'aikana', '.']


In [4]:
v.terminate()

## Lemmatize

In [5]:
v = Voikko("fi")

In [6]:
base_form = v.analyze("asiasta")
print(base_form)
print(base_form[0].get('BASEFORM'))

[{'BASEFORM': 'asia', 'CLASS': 'nimisana', 'FSTOUTPUT': '[Ln][Xp]asia[X]asia[Sela][Ny]sta', 'NUMBER': 'singular', 'SIJAMUOTO': 'sisaeronto', 'STRUCTURE': '=ppppppp', 'WORDBASES': '+asia(asia)'}]
asia


In [7]:
sent = "Te olette esittäneet toiveen, että tästä asiasta keskusteltaisiin lähipäivinä tämän istuntojakson aikana."
sent_toks = v.tokens(sent)

words_baseform = [v.analyze(word.tokenText)[0].get('BASEFORM') if word.tokenType==1 else word.tokenText
                  for word in sent_toks]
print(words_baseform)
print(''.join(words_baseform))

['te', ' ', 'olla', ' ', 'esittänyt', ' ', 'toive', ',', ' ', 'että', ' ', 'tämä', ' ', 'asia', ' ', 'keskustella', ' ', 'lähipäivä', ' ', 'tämä', ' ', 'istuntojakso', ' ', 'aika', '.']
te olla esittänyt toive, että tämä asia keskustella lähipäivä tämä istuntojakso aika.


In [8]:
v.terminate()

## Lemmatize a document

In [9]:
def lemmatize_file(filename):
    v = Voikko("fi")
    lemmatized_file = open(filename + '_lemmatized', 'w') 

    with open(filename, 'r') as f:
        for sentence in f:
            sent_toks = v.tokens(sentence)

            words_baseform = []
            for word in sent_toks:
                if word.tokenType == 1:
                    word_analyzed = v.analyze(word.tokenText)
                    if len(word_analyzed) > 0:
                        words_baseform.append(word_analyzed[0].get('BASEFORM'))
                    else:
                        words_baseform.append(word.tokenText)
                else:
                    words_baseform.append(word.tokenText)

            sent_baseform = ''.join(words_baseform)
            lemmatized_file.write(sent_baseform)

    lemmatized_file.close()
    v.terminate()

In [10]:
filename = '../data/europarl-v8.fi'
lemmatize_file(filename)