In [1]:
print("Test")

Test


In [None]:
dsa_dnames.txt       # Dämonennamen
dsa_gnames.txt       # Gottheiten
dsa_names.txt        # Aventurische Personennamen
dsa_stadtnames.txt   # Städte Aventuriens


NER Trainieren

In [30]:
import spacy
from spacy.pipeline import EntityRuler
from pathlib import Path
from spacy.training.example import Example


# -------------------------------
# Listen laden
# -------------------------------
def load_list(path):
    return [line.strip() for line in Path(path).read_text(encoding="utf8").split("\n") if line.strip()]

daemonen = load_list("dsa_dnames.txt")
goetter = load_list("dsa_gnames.txt")
personen = load_list("dsa_names.txt")
staedte = load_list("dsa_stadtnames.txt")

# -------------------------------
# Pretrained Modell laden (enthält tok2vec)
# -------------------------------
nlp = spacy.load("de_core_news_sm")  # enthält bereits tok2vec → kein KeyError

# -------------------------------
# NER Labels hinzufügen
# -------------------------------
ner = nlp.get_pipe("ner")
ner.add_label("DAEMON")
ner.add_label("GOTT")
ner.add_label("PERSON")
ner.add_label("STADT")

# -------------------------------
# EntityRuler hinzufügen
# -------------------------------
if "entity_ruler" not in nlp.pipe_names:
    ruler = nlp.add_pipe("entity_ruler", after="ner", config={"overwrite_ents": True})
else:
    ruler = nlp.get_pipe("entity_ruler")

patterns = []
for n in daemonen:
    patterns.append({"label": "DAEMON", "pattern": n})
for n in goetter:
    patterns.append({"label": "GOTT", "pattern": n})
for n in personen:
    patterns.append({"label": "PERSON", "pattern": n})
for n in staedte:
    patterns.append({"label": "STADT", "pattern": n})

ruler.add_patterns(patterns)

# -------------------------------
# Trainingsdaten
# -------------------------------
TRAIN_DATA = [
    ("Borbarad beschwor einen Zant, bevor er nach Gareth zog.",
     {"entities": [(0,8,"PERSON"), (25,29,"DAEMON"), (47,53,"STADT")]}),
    ("Praios sandte eine Vision nach Alveran.",
     {"entities": [(0,6,"GOTT"), (29,36,"STADT")]}),
]

# Training
optimizer = nlp.resume_training()

for i in range(30):
    losses = {}
    examples = []
    for text, annotations in TRAIN_DATA:
        doc = nlp.make_doc(text)
        examples.append(Example.from_dict(doc, annotations))
    nlp.update(examples, sgd=optimizer, losses=losses)
    print(f"Iteration {i+1} – Losses: {losses}")
    
# -------------------------------
# Speichern
# -------------------------------
OUTPUT_MODEL = "dsa_ner_model"
nlp.to_disk(OUTPUT_MODEL)
print(f"Modell gespeichert unter: {OUTPUT_MODEL}")

# -------------------------------
# Test
# -------------------------------
doc = nlp("In Gareth traf Borbarad auf den Dämon Belhalhar und betete zu Praios.")
for ent in doc.ents:
    print(ent.text, ent.label_)




Iteration 1 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(3.3892465)}
Iteration 2 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(3.1181347)}
Iteration 3 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(2.7268949)}
Iteration 4 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(2.4281201)}
Iteration 5 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(2.2720454)}
Iteration 6 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(2.2525506)}
Iteration 7 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(2.0454106)}
Iteration 8 – Losses

In [44]:
# -*- coding: utf-8 -*-
"""
DSA NER + EntityRuler Training (Offsets fix)
Autor: ChatGPT
"""

import spacy
from spacy.pipeline import EntityRuler
from spacy.training.example import Example
from pathlib import Path
import random

# -------------------------------
# 1. Listen laden
# -------------------------------
def load_list(path):
    return [line.strip() for line in Path(path).read_text(encoding="utf8").split("\n") if line.strip()]

daemonen = load_list("dsa_dnames.txt")
goetter  = load_list("dsa_gnames.txt")
personen = load_list("dsa_names.txt")
staedte  = load_list("dsa_stadtnames.txt")

# -------------------------------
# 2. Pre-trained Modell
# -------------------------------
nlp = spacy.load("de_core_news_sm")

# -------------------------------
# 3. EntityRuler vor NER
# -------------------------------
if "entity_ruler" not in nlp.pipe_names:
    ruler = nlp.add_pipe("entity_ruler", before="ner", config={"overwrite_ents": True})
else:
    ruler = nlp.get_pipe("entity_ruler")

patterns = []
for n in daemonen: patterns.append({"label": "DAEMON", "pattern": [{"LOWER": n.lower()}]})
for n in goetter:  patterns.append({"label": "GOTT", "pattern": [{"LOWER": n.lower()}]})
for n in personen: patterns.append({"label": "PERSON", "pattern": [{"LOWER": n.lower()}]})
for n in staedte:  patterns.append({"label": "STADT", "pattern": [{"LOWER": n.lower()}]})
ruler.add_patterns(patterns)
print(f"{len(patterns)} Muster zum EntityRuler hinzugefügt.")

# -------------------------------
# 4. NER Labels
# -------------------------------
ner = nlp.get_pipe("ner")
ner.add_label("DAEMON")
ner.add_label("GOTT")
ner.add_label("PERSON")
ner.add_label("STADT")

# -------------------------------
# 5. Automatische Trainingsdaten mit char_span Fix
# -------------------------------
import random
from spacy.training import Example

def generate_training_examples(nlp, num_examples=50):
    examples = []

    # -------------------------------
    # Erweiterte Beispiele aus Testtext
    # -------------------------------
    erweiterte_sents = [
        # Positive Beispiele
        ("Amara lacht bei der Frage.", [(0, 5, "PERSON")]),
        ("In Thorwal bringen wir die Nummer nicht.", [(3, 9, "STADT")]),
        ("Ein tapferer Recke stürmt in die Manege.", [(3, 18, "PERSON")]),
        ("Amara reicht ihre Hand.", [(0, 5, "PERSON")]),
        ("Thorwal ist eine große Stadt.", [(0, 6, "STADT")]),
        ("Ein Zuschauer stürmt auf die Bühne.", [(3, 11, "PERSON")]),
        
        # Negative Beispiele (keine Entität)
        ("Unterdessen antwortet sie schon.", []),
        ("Das Publikum reagiert stark.", []),
        ("Sie geht hinter den Vorhang.", []),
        ("Rein kommt niemand während der Vorstellung.", []),
        ("Die Nummer ist eine Provokation.", [])
    ]

    # -------------------------------
    # Basis-Satztypen
    # -------------------------------
    for _ in range(num_examples):
        p = random.choice(personen)
        s = random.choice(staedte)
        g = random.choice(goetter)
        d = random.choice(daemonen)

        s1 = f"{p} reiste nach {s}."
        s2 = f"{g} sandte einen Dämon namens {d}."
        s3 = f"{p} traf {g} in {s}."
        s4 = f"Ein Dämon namens {d} erschien vor {p}."
        s5 = f"{g} erschien in {s} und sprach zu {p}."
        s6 = f"{p} kämpfte gegen den Dämon {d} in {s}."
        s7 = f"{g} und {d} waren die Ursache für Chaos in {s}."
        s8 = f"{p} erhielt einen Auftrag von {g}, einen Dämon namens {d} zu besiegen."
        s9 = f"{d} wurde von {p} in {s} gebannt."
        s10 = f"{p}, {g} und {d} trafen sich in {s} zu einem Ritual."

        sents_and_ents = [
            (s1, [(p,"PERSON"), (s,"STADT")]),
            (s2, [(g,"GOTT"), (d,"DAEMON")]),
            (s3, [(p,"PERSON"), (g,"GOTT"), (s,"STADT")]),
            (s4, [(d,"DAEMON"), (p,"PERSON")]),
            (s5, [(g,"GOTT"), (s,"STADT"), (p,"PERSON")]),
            (s6, [(p,"PERSON"), (d,"DAEMON"), (s,"STADT")]),
            (s7, [(g,"GOTT"), (d,"DAEMON"), (s,"STADT")]),
            (s8, [(p,"PERSON"), (g,"GOTT"), (d,"DAEMON")]),
            (s9, [(d,"DAEMON"), (p,"PERSON"), (s,"STADT")]),
            (s10, [(p,"PERSON"), (g,"GOTT"), (d,"DAEMON"), (s,"STADT")])
        ]

        # Alle Basis-Sätze hinzufügen
        for sent, ents in sents_and_ents:
            doc = nlp.make_doc(sent)
            spans = []
            for text_val, label in ents:
                span = doc.char_span(
                    sent.index(text_val),
                    sent.index(text_val)+len(text_val),
                    label=label,
                    alignment_mode="contract"
                )
                if span:
                    spans.append(span)
            doc.ents = spans
            ex = Example.from_dict(doc, {"entities": [(e.start_char, e.end_char, e.label_) for e in spans]})
            examples.append(ex)

    # -------------------------------
    # Erweiterte Sätze hinzufügen
    # -------------------------------
    for sent, ents in erweiterte_sents:
        doc = nlp.make_doc(sent)
        spans = []
        for start, end, label in ents:
            span = doc.char_span(start, end, label=label, alignment_mode="contract")
            if span:
                spans.append(span)
        doc.ents = spans
        ex = Example.from_dict(doc, {"entities": [(e.start_char, e.end_char, e.label_) for e in spans]})
        examples.append(ex)

    return examples


# -------------------------------
# Training-Daten generieren
# -------------------------------
TRAIN_DATA = generate_training_examples(nlp, num_examples=100)  # 500 Sätze


# -------------------------------
# 6. Training
# -------------------------------
optimizer = nlp.resume_training()

for i in range(60):
    losses = {}
    nlp.update(TRAIN_DATA, sgd=optimizer, losses=losses)
    print(f"Iteration {i+1} – Losses: {losses}")

# -------------------------------
# 7. Modell speichern
# -------------------------------
OUTPUT_MODEL = "dsa_ner_model_clean"
nlp.to_disk(OUTPUT_MODEL)
print(f"Modell gespeichert unter: {OUTPUT_MODEL}")


7577 Muster zum EntityRuler hinzugefügt.
Iteration 1 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(5421.4253)}
Iteration 2 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(5036.749)}
Iteration 3 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(4717.8755)}
Iteration 4 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(4438.7183)}
Iteration 5 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(4176.8486)}
Iteration 6 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.float32(3930.6633)}
Iteration 7 – Losses: {'tok2vec': 0.0, 'tagger': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'lemmatizer': 0.0, 'ner': np.

In [48]:
# -------------------------------
# 8. Test
# -------------------------------

test_text_real = 'Bei der Frage ob ihre Haut wirklich so dunkel sei muss Amara lachen. "Ja, die ist schon immer so." \
antwortet sie und reicht der Geweihten dann ihre Hand, damit diese sich die dunkle Haut näher \
ansehen kann. Offenbar ist sie durchaus daran gewöhnt solche Fragen zu bekommen. \
Unterdessen antwortet sie aber schon auf die übrigen Bemerkungen. \
"In Thorwal bringen wir die Nummer natürlich nicht. Aber Ihr habt natürlich recht. Es ist eine \
Provokation. Früher hatten wir das auch nicht drin. Es hat sich eigentlich eher zufällig so ergeben. \
Das Publikum reagiert eben einfach stärker auf eine kaum zu bändigende Wilde als auf eine ... \
Naja, normale Artistin die zufällig dunkle Haut hat. \
Ein mal hatten wir einen tapferen Recken im Publikum, der noch während der Vorstellung in die \
Manege gestürmt ist um mich zu befreien. Aber wir sind bei der Nummer ja hinter Gittern und ehe \
er da rein gekommen ist war ich schon hinter dem Vorhang wo wir dann alles aufklären konnten. \
Aber ich bin unhöflich. Setzt Euch doch. Darf ich Euch etwas zu trinken anbieten?"'

doc = nlp(test_text_real.lower())
print("\nTestausgabe:\n")
for ent in doc.ents:
    print(ent.text, ent.label_)


Testausgabe:

amara PERSON
thorwal STADT


In [50]:
test_text_real2 = 'Siona schüttelt lächelnd den Kopf. "Ich hatte es vorhin nicht erwähnt. Ich komme aus Bjaldorn, \
falls Euch das etwas sagt." Bei der Erinnerung huscht ein kleiner Schatten über ihre Gesichtszüge, \
doch fängt sie sich schnell wieder. "Ifirn Kristallpalast ist dort, seit ein paar Jahren ist er auch \
wieder heiliger Grund und Boden." Jetzt lächelt sie schon wieder in Erinnerung an die Eisrose, \
welche Segen nach Borbarads Schergen zurück brachte.'

doc = nlp(test_text_real2.lower())
print("\nTestausgabe:\n")
for ent in doc.ents:
    print(ent.text, ent.label_)


Testausgabe:

siona PERSON
kopf PERSON
komme PERSON
bjaldorn PERSON
huscht LOC
ifirn PERSON
kristallpalast PERSON
borbarads STADT


In [49]:
test_text = "Borbarad reiste nach Gareth und traf auf den Dämon Belhalhar, während er zu Praios betete."

doc = nlp(test_text.lower())
print("\nTestausgabe:\n")
for ent in doc.ents:
    print(ent.text, ent.label_)


Testausgabe:

borbarad PERSON
gareth PERSON
dämon PERSON
belhalhar DAEMON
praios PERSON


In [47]:
doc = nlp("In der Kapelle der Travia sprach die Geweihte mit Praiodane aus Nordhag.")

for ent in doc.ents:
    print(ent.text, ent.label_)


Travia PERSON
Praiodane PERSON
Nordhag STADT


Speichern:

In [None]:
nlp.to_disk("dsa_nlp_hybrid")


Laden: 

In [None]:
nlp = spacy.load("dsa_nlp_hybrid")
