In [27]:
%pip install hfst_dev

Note: you may need to restart the kernel to use updated packages.


In [28]:
from hfst_dev import compile_lexc_file, regex, compose

lexicon = compile_lexc_file('latvian.lexc')

### Nouns

Noun cases with declinations and consonant gradation.

In [29]:
# līdzskaņu mija
ConsonantGradationObj = {
    "s": "š",
    "t": "š",
    "z": "ž",
    "d": "ž",
    "c": "č",
    "dz": "dž",
    "l": "ļ",
    "n": "ņ",
    "p": "pj",
    "b": "bj",
    "m": "mj",
    "v": "vj"
}
# create a string for the regex
# example '[n -> ņ || _ "*"] .o. [n -> ņ || _ "*"] .o. [l -> ļ || _ "*"]'
ConsonantGradationStr = ""
for key, value in ConsonantGradationObj.items():
    ConsonantGradationStr += "[" + key + "->" + value + "|| _\"*\"]"
    ConsonantGradationStr += " .o. "
ConsonantGradationStr = ConsonantGradationStr[:-5]
ConsonantGradation = regex(ConsonantGradationStr) # substitution
CleanUp = regex('%* -> 0') # deletion
cascade = compose((lexicon, ConsonantGradation, CleanUp))

for noun in ["zēns", "suns", "brālis", "medus", "grāmata", "saule", "nakts"]:
    for number in ["Sg", "Pl"]:
        for form in ["Nom", "Gen", "Dat", "Acc", "Loc"]:
            print(noun + "+N+" + number + "+" + form + " - " + cascade.lookup(noun + "+N+" + number + "+" + form)[0][0])

zēns+N+Sg+Nom - zēns
zēns+N+Sg+Gen - zēna
zēns+N+Sg+Dat - zēnam
zēns+N+Sg+Acc - zēnu
zēns+N+Sg+Loc - zēnā
zēns+N+Pl+Nom - zēni
zēns+N+Pl+Gen - zēnu
zēns+N+Pl+Dat - zēniem
zēns+N+Pl+Acc - zēnus
zēns+N+Pl+Loc - zēnos
suns+N+Sg+Nom - suns
suns+N+Sg+Gen - suns
suns+N+Sg+Dat - sunim
suns+N+Sg+Acc - suni
suns+N+Sg+Loc - sunī
suns+N+Pl+Nom - suņi
suns+N+Pl+Gen - suņu
suns+N+Pl+Dat - suņiem
suns+N+Pl+Acc - suņus
suns+N+Pl+Loc - suņos
brālis+N+Sg+Nom - brālis
brālis+N+Sg+Gen - brāļa
brālis+N+Sg+Dat - brālim
brālis+N+Sg+Acc - brāli
brālis+N+Sg+Loc - brālī
brālis+N+Pl+Nom - brāļi
brālis+N+Pl+Gen - brāļu
brālis+N+Pl+Dat - brāļiem
brālis+N+Pl+Acc - brāļus
brālis+N+Pl+Loc - brāļos
medus+N+Sg+Nom - medus
medus+N+Sg+Gen - medus
medus+N+Sg+Dat - medum
medus+N+Sg+Acc - medu
medus+N+Sg+Loc - medū
medus+N+Pl+Nom - medi
medus+N+Pl+Gen - medu
medus+N+Pl+Dat - mediem
medus+N+Pl+Acc - medus
medus+N+Pl+Loc - medos
grāmata+N+Sg+Nom - grāmata
grāmata+N+Sg+Gen - grāmatas
grāmata+N+Sg+Dat - grāmatai
grāmata+N+Sg+A

### Adjectives

Adjective cases with comparative and superlative.
Formally in Latvian superlative prepends 'vis' but I could not figure out how to implement this.

In [30]:
for adjective in ["jauns", "zaļš", "skaista"]:
    for degree in ["", "Comp", "Sup"]:
        for number in ["Sg", "Pl"]:
            for form in ["Nom", "Gen", "Dat", "Acc", "Loc"]:
                if degree == "":
                    print(adjective + "+Adj+" + number + "+" + form + " - " + lexicon.lookup(adjective + "+Adj+" + number + "+" + form)[0][0])
                else:
                    print(adjective + "+Adj+" + degree + "+" + number + "+" + form + " - " + lexicon.lookup(adjective + "+Adj+" + degree + "+" + number + "+" + form)[0][0])

jauns+Adj+Sg+Nom - jauns
jauns+Adj+Sg+Gen - jaunā
jauns+Adj+Sg+Dat - jaunajam
jauns+Adj+Sg+Acc - jauno
jauns+Adj+Sg+Loc - jaunajā
jauns+Adj+Pl+Nom - jauni
jauns+Adj+Pl+Gen - jauno
jauns+Adj+Pl+Dat - jaunajiem
jauns+Adj+Pl+Acc - jaunos
jauns+Adj+Pl+Loc - jaunajos
jauns+Adj+Comp+Sg+Nom - jaunāks
jauns+Adj+Comp+Sg+Gen - jaunākā
jauns+Adj+Comp+Sg+Dat - jaunākajam
jauns+Adj+Comp+Sg+Acc - jaunāko
jauns+Adj+Comp+Sg+Loc - jaunākajā
jauns+Adj+Comp+Pl+Nom - jaunāki
jauns+Adj+Comp+Pl+Gen - jaunāko
jauns+Adj+Comp+Pl+Dat - jaunākajiem
jauns+Adj+Comp+Pl+Acc - jaunākos
jauns+Adj+Comp+Pl+Loc - jaunākajos
jauns+Adj+Sup+Sg+Nom - jaunākais
jauns+Adj+Sup+Sg+Gen - jaunākā
jauns+Adj+Sup+Sg+Dat - jaunākajam
jauns+Adj+Sup+Sg+Acc - jaunāko
jauns+Adj+Sup+Sg+Loc - jaunākajā
jauns+Adj+Sup+Pl+Nom - jaunākie
jauns+Adj+Sup+Pl+Gen - jaunāko
jauns+Adj+Sup+Pl+Dat - jaunākajiem
jauns+Adj+Sup+Pl+Acc - jaunākos
jauns+Adj+Sup+Pl+Loc - jaunākajos
zaļš+Adj+Sg+Nom - zaļš
zaļš+Adj+Sg+Gen - zaļā
zaļš+Adj+Sg+Dat - zaļajam
zaļš+A

### Verbs

Verbs in Latvian have many different groups and a lot stem changes depending on tense, person and conjugation. Added only some 2nd and 3rd conjugation for first person singular and plural in past, present and future tense.

For second conjugation it is necessary to insert J in some cases and in third conjustation both J or both J and Ī.

In [31]:
InsertII = regex('[..] -> ī || _ Ī J "^"') # insertion
CleanUpII = regex('Ī -> 0') # deletion
InsertJ = regex('[..] -> "j" || _ J "^" "^"') # insertion
CleanUpJ = regex('J -> 0') # deletion
CleanUp = regex('%* -> 0') # deletion

cascade = compose((lexicon, InsertII, InsertJ, CleanUpII, CleanUpJ, CleanUp))

for verbs in ["vērot", "rakstīt", "lasīt"]:
    for number in ["Sg", "Pl"]:
        for tense in ["Pa", "Pr", "Fu"]:
                print(verbs + "+V+" + number + "+" + tense + " - " + cascade.lookup(verbs + "+V+" + number + "+" + tense)[0][0])

vērot+V+Sg+Pa - vēroj^^u
vērot+V+Sg+Pr - vēroj^^u
vērot+V+Sg+Fu - vērošu
vērot+V+Pl+Pa - vēroj^^ām
vērot+V+Pl+Pr - vēroj^^am
vērot+V+Pl+Fu - vērosim
rakstīt+V+Sg+Pa - rakstīj^^u
rakstīt+V+Sg+Pr - rakstu
rakstīt+V+Sg+Fu - rakstī^šu
rakstīt+V+Pl+Pa - rakstīj^^ām
rakstīt+V+Pl+Pr - rakstām
rakstīt+V+Pl+Fu - rakstī^sim
lasīt+V+Sg+Pa - lasīj^^u
lasīt+V+Sg+Pr - lasu
lasīt+V+Sg+Fu - lasī^šu
lasīt+V+Pl+Pa - lasīj^^ām
lasīt+V+Pl+Pr - lasām
lasīt+V+Pl+Fu - lasī^sim
