# Flair - Optimierung durch regelbasierte Entitätserkennung


Da Flair von den gewünschten Entitäten nur LOC erkennt, soll eine regelbasierte Erkennung weiterer Entitäten (DATE, TIME, EVENT) vorgenommen werden.  
In diesem notebook werden diese Regeln definiert. 

Die Kombination aus Flair und regelbasierter Entitätserkennung wird auf dem Datensatz angewendet und in die Ergebnisse zur weiteren Untersuchung einem Json gespeichert.

---
#### 1. Regeln  
    1.1 DATE  
    1.2 TIME  
    1.3 EVENT  
#### 2. Anwendung auf Datensatz
    2.1 nur regelbasierte Erkennung 
    2.2 in Kombination mit Flair

---

In [1]:
from flair.data import Sentence
from flair.models import SequenceTagger

tagger = SequenceTagger.load("flair/ner-german-large") 

2025-07-17 18:30:44,902 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, B-PER, E-PER, S-LOC, B-MISC, I-MISC, E-MISC, S-PER, B-ORG, E-ORG, S-ORG, I-ORG, B-LOC, E-LOC, S-MISC, I-PER, I-LOC, <START>, <STOP>


---
### 1. Regeln
#### 1.1 Regeln für DATE

In [2]:
import re

date_pattern = re.compile(r'''
(
    # Formate wie 12.07.2023 oder 12.07. (mit Punkt nach dem Monat!)
    (?<!\d)
    (?:
        (?:0?[1-9]|[12][0-9]|3[01])     # Tag
        \s*\.\s*
        (?:0?[1-9]|1[0-2])              # Monat
        \s*\.\s*
        (?:\d{2,4})?                    # optionales Jahr
    )
    (?!\d)

    |
    # Formate wie 12.07. - 14.07. 2023 (mit Punkten nach dem Monat)
    (?<!\d)
    (?:
        (?:0?[1-9]|[12][0-9]|3[01])
        \s*\.\s*
        (?:0?[1-9]|1[0-2])
        \s*\.\s*
        -\s*
        (?:0?[1-9]|[12][0-9]|3[01])
        \s*\.\s*
        (?:0?[1-9]|1[0-2])
        \s*\.\s*
        \d{2,4}
    )
    (?!\d)

    |
    # Format wie 13. August oder 13. August 2023
    (?<!\d)
    (?:
        (?:0?[1-9]|[12][0-9]|3[01])              # Tag
        \s*\.\s*
        (?:Januar|Februar|März|April|Mai|Juni|Juli|
           August|September|Oktober|November|Dezember)   # Monat ausgeschrieben
        (?:\s+\d{2,4})?                          # optionales Jahr
    )
    (?!\d)
    

    |
    # Format wie 1-1-2024
    (?<!\d)
    (?:
        (?:0?[1-9]|[12][0-9]|3[01])
        \s*-\s*
        (?:0?[1-9]|1[0-2])
        \s*-\s*
        \d{2,4}
    )
    (?!\d)

    |
    # Wochentage
    (?<=\s)(?:Mo|Di|Mi|Do|Fr|Sa|So)\.?(?=\s) |
    (?<=\s)(?:mo|di|mi|do|fr|sa|so)\.?(?=\s) |
    (?:Montag|Dienstag|Mittwoch|Donnerstag|Freitag|Samstag|Sonntag|Sonnabend)

    |
    # Monate
    (?:Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember) |
    (?:Jan|Feb|Mär|Apr|Mai|Jun|Jul|Aug|Sep|Okt|Nov|Dez)\.?

    |
    # relative Begriffe
    \b(?:morgen|heute|abend|Wochenende|WE)\b

    |
    # Erweiterte Kombinationen:
    \b(?:jeden|immer|nächsten|letzten|letztes|nächstes)\s+
    (?:
        Montag|Dienstag|Mittwoch|Donnerstag|Freitag|Samstag|Sonntag|Sonnabend|
        Montags|Dienstags|Mittwochs|Donnerstags|Freitags|Samstags|Sonntags|
        Wochenende
    )
)
''', re.IGNORECASE | re.VERBOSE)



#### 1.2 Regeln für TIME

In [3]:
import re

time_pattern = re.compile(r'''
    \b
    (                                           # Gruppe für die ganze Uhrzeit
        (?:                                     # Entweder:
            \d{1,2}                             # Stunde
            [:\-–]                              # Trenner: :, -, –
            \d{2}                               # Minuten
            (?:\s?(?:Uhr|h))?                   # Optional "Uhr"/"h"
        |
            \d{1,2}                             # Nur Stunde
            \s?(?:Uhr|h)                        # Aber **nur**, wenn "Uhr"/"h" folgt
        )
        (?:\s?[–-]\s?                           # Optionaler Bereich (z.B. " - ")
            (?:\d{1,2}
                (?:[:.]\d{2})?
            )
            (?:\s?(?:Uhr|h))?
        )?
    )
    \b
''', re.IGNORECASE | re.VERBOSE)





#### 1.3 Regeln für EVENT
es werden einzelne Worte, die typisch sind für Veranstaltungen definiert

In [8]:
import re

# Gruppe 1: Begriffe mit möglichem Präfix (z. B. Montagsdemo)
prefix_allowed = ["Demo", "Demonstration", "Kundgebung", "Gedenken", "Lesung", "Feier", "Spaziergang", "Fest", "Party", "Protest", "Abend"]

# Gruppe 2: Begriffe mit möglichem Suffix (z. B. Protesttag, Aktionswoche)
suffix_allowed = ["Protest", "Aktion", ]

# Gruppe 3: Nur als eigenständiges Wort zulässig
exact_only = [
    "Party", "Konzert", "Filmabend", "Aufführung", "Jubiläum", "Veranstaltung",
    "Vorführung", "Vortrag", "Flohmarkt", "Picknick", "Infotag", "Umzug", "Aufzug",
    "Fest", "Mahnwache", "Austellung", "Treffen", "Konferenz"
]

# Pattern bauen
prefix_pattern = r"\b(?:[\wäöüÄÖÜß]+-?)*(?:{})\b".format("|".join(prefix_allowed))
suffix_pattern = r"\b(?:{})[\wäöüÄÖÜß]*\b".format("|".join(suffix_allowed))
exact_pattern = r"\b(?:{})\b".format("|".join(exact_only))

# Gesamtpattern
event_pattern = r"{}|{}|{}".format(prefix_pattern, suffix_pattern, exact_pattern)




**TEST**

In [9]:

text = "Es gab Sommerfest Sonnabend eine Demo und eine FEIER Film gestern. 13. August 4.Juli 24 Jeden Party Frühlingsparty  Soli-Party Dienstag 10.10. um 10 Uhr Das 18.30 19-20 Uhr am 18.06.2025 im Januar und im Jul heute und dann gehen wir morgen Sonne 12.12. 2011 villeicht 8/8/24 um 14:30 Uhr statt."
dates = re.findall(date_pattern, text)
times = re.findall(time_pattern, text)
print(dates)
print(times)

events = re.findall(event_pattern, text, flags=re.IGNORECASE)
print(events)


['Sonnabend', '13. August', '4.Juli 24', 'Dienstag', '10.10. ', '18.06.2025', 'Januar', 'Jul', 'heute', 'morgen', '12.12. 2011']
['10 Uhr', '19-20 Uhr', '14:30 Uhr']
['Sommerfest', 'Sonnabend', 'Demo', 'FEIER', 'Party', 'Frühlingsparty', 'Soli-Party']


---
### 2. Anwenden
#### 2.1 auschließlich regelbasierte Entitätserkennung

In [10]:
import os
import json


JSON_PATH = "../../data/data_annotated.json"
OUTPUT_FILE = "../../data/NER/flair/ner_regex_results.json"

with open(JSON_PATH, "r", encoding="utf-8") as f:
    data = json.load(f)

results = {} #dictionary

for eintrag in data:
    file_name = eintrag.get("file_name")
    if not file_name:
        continue

    ground_truth = eintrag.get("text", "") 

    annotations = []

    for m in re.finditer(time_pattern, ground_truth):
        annotations.append({
            "start": m.start(),
            "end": m.end(),
            "label": "TIME",
            "text": m.group()
        })

    for m in re.finditer(date_pattern, ground_truth):
        annotations.append({
            "start": m.start(),
            "end": m.end(),
            "label": "DATE",
            "text": m.group()
        })

    for m in re.finditer(event_pattern, ground_truth, flags=re.IGNORECASE):
        annotations.append({
            "start": m.start(),
            "end": m.end(),
            "label": "EVENT",
            "text": m.group()
        })

    results[file_name] = annotations


with open(OUTPUT_FILE, "w", encoding="utf-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)



#### 2.2 Regeln + Flair

In [11]:
import os
import json


JSON_PATH = "../../data/data_annotated.json"
OUTPUT_FILE = "../../data/NER/flair/ner_regex_with_flair_results.json"


def extract_flair_entities(text):
    sentence = Sentence(text)
    tagger.predict(sentence)
    predicted = []

    for entity in sentence.get_spans("ner"):
        predicted.append({
            "start": entity.start_position,
            "end": entity.end_position,
            "label": entity.get_label("ner").value,
            "text": entity.text
        })
    return predicted



with open(JSON_PATH, "r", encoding="utf-8") as f:
    data = json.load(f)

relevant_label = {"LOC"}

results = {} #dictionary

for eintrag in data:
    file_name = eintrag.get("file_name")
    if not file_name:
        continue

    ground_truth = eintrag.get("text", "") 

    annotations = []

    predicted = extract_flair_entities(ground_truth)
    pred_spans = [
    {
        "start": e["start"],
        "end": e["end"],
        "label": e["label"],
        "text": e["text"]
    }
    for e in predicted if e["label"] in relevant_label
    ]

    annotations.extend(pred_spans)


    for m in re.finditer(time_pattern, ground_truth):
        annotations.append({
            "start": m.start(),
            "end": m.end(),
            "label": "TIME",
            "text": m.group()
        })

    for m in re.finditer(date_pattern, ground_truth):
        annotations.append({
            "start": m.start(),
            "end": m.end(),
            "label": "DATE",
            "text": m.group()
        })

    for m in re.finditer(event_pattern, ground_truth, flags=re.IGNORECASE):
        annotations.append({
            "start": m.start(),
            "end": m.end(),
            "label": "EVENT",
            "text": m.group()
        })

    results[file_name] = annotations


with open(OUTPUT_FILE, "w", encoding="utf-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

#### ---> die Auswertung findet im notebook [04_flair_evaluation_optimierung](04_flair_evaluation_optimierung.ipynb) statt