In [3]:
import spacy
from spacy.scorer import Scorer
from spacy.training.example import Example
import json

def load_spacy_data(path):
    with open(path, "r", encoding="utf-8") as f:
        data = json.load(f)
    new_data = []
    for entry in data:
        entities = [tuple(ent) for ent in entry[1]["entities"]]
        new_data.append((entry[0], {"entities": entities}))
    return new_data

nlp = spacy.load("gmonsters_ner_0.1")
test_data = load_spacy_data("../corpus/themodders_forum_monster_sentences_big/monster_big_no_overlap_test.json")

examples = []
for text, ann in test_data:
    doc = nlp(text)
    examples.append(Example.from_dict(doc, ann))

scorer = Scorer()
scores = scorer.score(examples)
print("Precision:", scores["ents_p"])
print("Recall:", scores["ents_r"])
print("F1-score:", scores["ents_f"])

Precision: 0.8641304347826086
Recall: 0.9190751445086706
F1-score: 0.8907563025210085


In [4]:
texts = [
    "Skóra ścierwojada wojownika",  # novel monster
    "Uciekał jakby goniło go stado baranów",  # exact wordform 'baranów' not present in the dataset
    "Trzeba zabić paru orków szamanów",
    "Trzeba zabić paru orków-szamanów",
    "Z chrząszcza potrawka",
    "Z chrzaszcza potrawka",  # no diacritics
    "Sceirwojady",
    "Ścierwojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.",
    "scierwojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.", # no diacritics
    "Scierwojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.", # no diacritics
    "Ściewrojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.", # typo
    "Skóra z orkowego psa",
    "Skóra z orkoewgo psa",
    "Gonił mnie jakiś straszny pies"
]

for text in texts:
    doc = nlp(text)
    print(f'Text: {text}')
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])

Text: Skóra ścierwojada wojownika
Entities [('ścierwojada wojownika', 'MONSTER')]
Text: Uciekał jakby goniło go stado baranów
Entities [('baranów', 'MONSTER')]
Text: Trzeba zabić paru orków szamanów
Entities [('orków szamanów', 'MONSTER')]
Text: Trzeba zabić paru orków-szamanów
Entities [('orków', 'MONSTER'), ('szamanów', 'MONSTER')]
Text: Z chrząszcza potrawka
Entities [('chrząszcza', 'MONSTER')]
Text: Z chrzaszcza potrawka
Entities [('chrzaszcza', 'MONSTER')]
Text: Sceirwojady
Entities []
Text: Ścierwojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.
Entities [('Ścierwojady', 'MONSTER')]
Text: scierwojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.
Entities []
Text: Scierwojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.
Entities []
Text: Ściewrojady – tak nazywamy te wielkie ptaszyska – należy atakować jeden po drugim.
Entities []
Text: Skóra z orkowego psa
Entities [('orkowego psa', 'MONSTER')]
Text: Sk