In [1]:
#!pip install spacy
#!python -m spacy download fi_core_news_md
#!python -m spacy download fi_core_news_lg

In [2]:
import spacy

In [3]:
nlp = spacy.load("fi_core_news_lg", disable=["parser", "ner"])
doc = nlp("Koululaisten iltapäiväkerho! Ilmoittautumiset alla olevan varauskalenterin kautta. Tervetuloa askartelemaan yhdessä!")
print([(w.text, w.pos_, w.lemma_) for w in doc])

[('Koululaisten', 'NOUN', 'koululainen'), ('iltapäiväkerho', 'NOUN', 'iltapäiväkerho'), ('!', 'PUNCT', '!'), ('Ilmoittautumiset', 'NOUN', 'Ilmoittautumiset'), ('alla', 'ADV', 'alla'), ('olevan', 'VERB', 'olla'), ('varauskalenterin', 'NOUN', 'varauskalenteri'), ('kautta', 'ADP', 'kautta'), ('.', 'PUNCT', '.'), ('Tervetuloa', 'NOUN', 'Tervetuloa'), ('askartelemaan', 'VERB', 'askartelea'), ('yhdessä', 'ADV', 'yhdessä'), ('!', 'PUNCT', '!')]


In [4]:
# Comprehensive spaCy Finnish POS Tags Reference
# Test diverse Finnish words to extract all available POS tags

test_words = [
    # Nouns
    "koulu", "kissa", "Helsinki", "Matti",
    # Verbs
    "juoksee", "syödä", "mennä", "on",
    # Adjectives
    "suuri", "pieni", "punainen", "hyvä",
    # Adverbs
    "nopeasti", "hitaasti", "hyvin", "nyt",
    # Conjunctions
    "ja", "tai", "että", "kuin",
    # Pronouns
    "hän", "minä", "sinä", "se",
    # Prepositions
    "yli", "alle", "kanssa", "ilman",
    # Numerals
    "yksi", "kaksi", "kymmenen", "ensimmäinen",
    # Particles
    "kyllä", "ei", "vaan",
    # Punctuation
    ".", ",", "!", "?",
]

pos_tags = {}
lemmas_by_pos = {}

for word in test_words:
    doc = nlp(word)
    for token in doc:
        pos = token.pos_
        if pos not in pos_tags:
            pos_tags[pos] = []
            lemmas_by_pos[pos] = []
        if word not in pos_tags[pos]:
            pos_tags[pos].append(word)
        if token.lemma_ not in lemmas_by_pos[pos]:
            lemmas_by_pos[pos].append(token.lemma_)

print("\n" + "="*80)
print("COMPREHENSIVE SPACY FINNISH POS TAGS")
print("="*80)

for pos in sorted(pos_tags.keys()):
    examples = ", ".join(pos_tags[pos][:4])
    print(f"\n{pos:10} Examples: {examples}")

print("\n" + "="*80)
print(f"Total unique POS tags found: {len(pos_tags)}")
print("="*80)


COMPREHENSIVE SPACY FINNISH POS TAGS

ADJ        Examples: suuri, pieni, punainen, hyvä

ADP        Examples: kanssa, ilman

ADV        Examples: nopeasti, hitaasti, hyvin, nyt

AUX        Examples: on, ei

CCONJ      Examples: ja, tai, vaan

NOUN       Examples: koulu, kissa

NUM        Examples: yksi, kaksi, kymmenen

PRON       Examples: hän, minä, sinä, se

PROPN      Examples: Helsinki, Matti

PUNCT      Examples: ., ,, !, ?

SCONJ      Examples: että, kuin

VERB       Examples: juoksee, syödä, mennä

Total unique POS tags found: 12
