# Editionsdaten semantisch anreichern¬†‚Äì XML-Parsing und Named Entity Recognition (NER) mit Python

Dieses Notebook ist im Rahmen der Fortbildungsreihe "Vom Dokument zur Edition" und konkret des Workshops [Editionsdaten semantisch anreichern¬†‚Äì XML-Parsing und Named Entity Recognition (NER) mit Python](https://www.it.fu-berlin.de/unsere-services/kompetenzentwicklung/fortbildungen/workshops/E-Research/2026-01-27-Editionsdaten-WS4.html) im WiSe 2025/26 an der FU Berlin entstanden. Das Notebook soll als erster Einstieg dienen und erkl√§ren, wie XML-Dateien mit Python eingelesen sowie der enthaltene Text extrahiert, weiterverarbeitet und ins urspr√ºngliche XML zur√ºckgef√ºhrt werden kann.

## Teil 1: XML einlesen und aufbereiten

### 1. Installation
Um dieses Notebook ausf√ºhren zu k√∂nnen, m√ºssen [Python](https://www.python.org/) und [Jupyter Notebook](https://jupyter.org/) installiert sein. In Vorbereitung auf die Veranstaltung wird den Teilnehmenden eine darauf zugeschittene Anleitung zur Installation von Anaconda zugeschickt. Mit Anaconda sind neben Python bereits Jupyter Notebook sowie diverse weitere Bibliotheken vorinstalliert. Da die Bibliothek spacy (welche wir ben√∂tigen) leider nicht in der Liste der vorinstallierten Bibliotheken enthalten ist, erstellen wir eine seperate Entwicklungsumgebung. 

Hierzu √∂ffnen wir ein Kommandozeilenfenster (*CMD.exe Prompt*) und geben die folgenden Befehle jeweils nacheinander ein:

* `conda create -n ner4xml python=3.11`
* `y`
* `conda activate ner4xml`
* `conda install jupyter spacy pandas`
* `jupyter notebook`

Kurzzusammenfassung, was hier passiert ist: wir (1) erstellen mit dem Paketmanager `conda` eine neue Umgebung namens `ner4xml`, welche die Python-Version 3.11 nutzt, mit (2) `y` (`yes`) best√§tigen wir den Vorgang und sobald dies beendet ist (3) aktivieren wir die Umgebung, (4) installieren alle ben√∂tigten Bibliotheken und (5) rufen Jupyter Notebook auf. Dann m√ºssen wir noch zu unserem Notebook navigieren und k√∂nnen dieses √∂ffnen. Weitere Befehle, die sonst im Terminal eingegeben werden m√ºssten (z.B. zur Installation weiterer Bibliotheken), k√∂nnen wir nun auch im Notebook aufrufen, indem wir ein `!` voranstellen.

In [1]:
#ein typischer Befehl, um zu pr√ºfen ob und welche Version von Python installiert ist
!python --version

Python 3.9.23


Nun laden wir f√ºr sp√§ter noch ein Modell von spacy herunter (diesen Schritt m√ºssen wir nur einmal ausf√ºhren, dann k√∂nnen wir ihn z.B. mithilfe von `#` auskommentieren):

In [2]:
#!python -m spacy download en_core_web_sm

### 2. Import der Bibliotheken
W√§hrend die Bibliotheken grunds√§tzlich nur einmal installiert werden m√ºssen, m√ºssen wir sie jedes Mal vor der Verwendung importieren. Haben wir den Import vergessen, kommt z.B. eine Fehlermeldung wie `NameError: name '<name_bibliothek>' is not defined` üò°. Um das zu vermeiden, m√ºssen wir alle Python-Bibliotheken importieren - auch solche aus der Standardbibliothek (wie hier `xml.etree.ElementTree`), die wir gar nicht gesondert vorher installieren mussten. Das Importieren erledigen wir am besten immer direkt am Anfang eines Python-Skripts oder -Notebooks ‚úÖ

In [3]:
import xml.etree.ElementTree as ET
import pandas as pd
import spacy

### 3. Laden und Parsen der XML-Daten
Nun geht es ans Eingemachte ü´ô. Wir definieren eine Variable `path_to_file` und geben dort den relativen Pfad zur XML-Datei (kann abweichen und muss ggf. angepasst werden!) an. Mit `ET.parse()` wird die Datei geparsed (eingelesen) und mit `getroot()` sprechen wir den Wurzelknoten des XMLs an.

In [4]:
path_to_file = "data/input.xml"

tree = ET.parse(path_to_file)
root = tree.getroot()

Mit der `print()`-Funktion k√∂nnen wir eine Ausgabe erzeugen und uns hier beispielsweise das Element an der Wurzel anzeigen lassen. Wir sehen, dass vor dem Elementnamen noch eine Information √ºber den Namespace enthalten ist: `{http://www.tei-c.org/ns/1.0}`. Das verwundert vielleicht zun√§chst, da es im XML-Dokument nicht an dieser Position zu lesen war. Damit ET üëΩ wei√ü, dass wir uns auf diesen Namensraum beziehen, ohne dass wir nun jedes Mal diese Information voranstellen m√ºssen, um einen Knoten ansprechen zu k√∂nnen, definieren wir eine Variable `namespaces` auf die wir sp√§ter noch zugreifen werden. 

In [5]:
print(root)
print(root.tag)

namespaces={"":"http://www.tei-c.org/ns/1.0"}

<Element '{http://www.tei-c.org/ns/1.0}TEI' at 0x7e4a37bae630>
{http://www.tei-c.org/ns/1.0}TEI


Nun sammeln wir alle Informationen, die wir gleich noch ben√∂tigen k√∂nnten, und legen daf√ºr drei Listen an: `xml_nodes` f√ºr die Knoten der Elemente, auf die wir uns sp√§ter beziehen und die wir ggf. auch aktualisieren wollen (alle, die in irgendeiner Weise Text enthalten), `xml_tags` f√ºr die Tag-Namen der gleichen Knoten und `xml_text` f√ºr den darin enthaltenen Text.

In [6]:
xml_nodes = []
xml_tags = []
xml_text = []

Jetzt starten wir unseren ersten Loop üí´ - gl√ºcklichweise bietet ET daf√ºr auch direkt die Funktion `iter()` an. Wir machen zun√§chst den ersten (einzigen) Textknoten ausfindig (siehe auch: https://docs.python.org/3/library/xml.etree.elementtree.html#supported-xpath-syntax), iterieren durch dessen (Kind-)Elemente und speichern den mit `strip()` am Anfang und Ende von Leerzeichen befreiten Text dieser Elemente jeweils als `descendant_text`. Dann checken wir nochmal mit einer `if`-Bedingung ob auch wirklich Text enthalten ist und wenn dem so ist, f√ºgen wir jeder der Listen je einen entsprechenden Eintrag hinzu. Am Ende checken wir nochmal ein paar Eintr√§ge und lassen uns die Gesamtl√§nge der ersten Liste (die anderen beiden m√ºssten genau gleich lang sein) ausgeben.

In [7]:
#find nodes
title_node = root.findall(".//title", namespaces)[0]
text_node = root.findall(".//text", namespaces)[0]

In [8]:
#add nodes / tags / texts to list
xml_nodes.append(title_node)
xml_tags.append(title_node.tag)
xml_text.append(title_node.text)

In [9]:
#add nodes and information iteratively
for descendant in text_node.iter(): #for the full document, including metadata, use root.iter()
      descendant_text = str(descendant.text).strip()
      if descendant_text != "" and descendant_text != "None":
            xml_nodes.append(descendant)
            xml_tags.append(descendant.tag)
            xml_text.append(descendant.text)

print([(node, tag, text) for (node, tag, text) in zip(xml_nodes[:3], xml_tags[:3], xml_text[:3])])
print(len(xml_nodes))

[(<Element '{http://www.tei-c.org/ns/1.0}title' at 0x7e4a37bae8b0>, '{http://www.tei-c.org/ns/1.0}title', 'H. P. Lovecraft: Astronomical Observations (NAME)'), (<Element '{http://www.tei-c.org/ns/1.0}expan' at 0x7e4a37ae3900>, '{http://www.tei-c.org/ns/1.0}expan', 'Observed'), (<Element '{http://www.tei-c.org/ns/1.0}abbr' at 0x7e4a37ae39a0>, '{http://www.tei-c.org/ns/1.0}abbr', 'Obs‚Äôd')]
406


### 4. Daten mit pandas aufbereiten

Der Vorteil unserer Listen ist, dass wir sie jetzt mithilfe der `pandas` Bibliothek in einen Dataframe, also eine tabellarische Struktur, √ºberf√ºhren k√∂nnen. Das machen wir mit `pd.DataFrame`, hier k√∂nnen wir z.B. auch Namen f√ºr die Spalten (`columns`) mit angeben. Mit der `head()`-Funktion erhalten wir eine √úbersicht √ºber die ersten Eintr√§ge unseres Dataframes.

In [10]:
#import lists as cols to a pandas dataframe
xml_text_dataframe = pd.DataFrame(list(zip(xml_nodes, xml_tags, xml_text)), columns =["nodes", "tags", "text"])
xml_text_dataframe.head()

Unnamed: 0,nodes,tags,text
0,[],{http://www.tei-c.org/ns/1.0}title,H. P. Lovecraft: Astronomical Observations (NAME)
1,[],{http://www.tei-c.org/ns/1.0}expan,Observed
2,[],{http://www.tei-c.org/ns/1.0}abbr,Obs‚Äôd
3,[],{http://www.tei-c.org/ns/1.0}expan,Observed
4,[],{http://www.tei-c.org/ns/1.0}abbr,Obs‚Äôd


Seltsam - sind unsere `nodes` hier etwa verschwunden und nur noch leere Listen `[]` enthalten? Werfen wir nochmal einen genaueren Blick darauf und lassen uns den ersten Eintrag aus der Tabelle ausgeben:

In [11]:
print(xml_text_dataframe["nodes"][0])

<Element '{http://www.tei-c.org/ns/1.0}title' at 0x7e4a37bae8b0>


Puh, alles noch da! üòÖ When in doubt, use print: https://www.reddit.com/r/ProgrammerHumor/comments/ntro76/all_the_print_statements/

## Teil 2: Named Entity Recognition (NER) f√ºr XML 

### 5. NER auf einem Text anwenden
Um Named Entity Recognition (NER), also ein Verfahren zur Erkennung benannter Entit√§ten wie z.B. Personen-, Orts- oder Organisationsnamen, auf den textuellen Daten anzuwenden, m√ºssen wir zun√§chst ein entsprechendes Modell laden. Wir haben bereits weiter oben das vortrainerte `en_core_web_sm` Modell von [SpaCy](https://spacy.io) installiert, jetzt laden wir dieses mit `spacy.load()`. Als Textbeispiel (`xml_text_example`) nehmen wir den Titel aus der ersten Zeile des DataFrames und wenden das Modell darauf an. Nun k√∂nnen wir uns beispielsweise f√ºr alle im Titel erkannten Entit√§ten deren Inhalt (`text`), Position (`start_char` = erstes Zeichen im Eingabetext, `end_char` = letztes Zeichen im Eingabetext) sowie das vergebene `label_` (z.B. `PER` f√ºr Person, `ORG` f√ºr Organisation) ausgeben lassen.

In [12]:
nlp = spacy.load("en_core_web_sm")

In [13]:
xml_text_example = xml_text_dataframe["text"][0]
print(xml_text_example)
doc = nlp(xml_text_example)

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

H. P. Lovecraft: Astronomical Observations (NAME)
H. P. Lovecraft 0 15 PERSON
NAME 44 48 ORG


Es wurden zwei Entit√§ten im entsprechenden Text gefunden! Bei NAME handelt es sich wohl um einen Fehler, aber `H. P. Lovecraft` als Person auszuzeichnen erscheint sinnvoll. Um den zugeh√∂rigen Knoten im eingelesenen XML zu aktualisieren, definieren wir zwei weitere Variablen: `xml_title_node` und `per_to_be_added`. `xml_title_node` ist der Titelknoten aus der 1. Zeile des DataFrames und `per_to_be_added` die korrekt erkannte Person, die wir nun neu einbinden wollen.

In [14]:
xml_title_node = xml_text_dataframe["nodes"][0]
per_to_be_added = doc.ents[0]

In [15]:
print(per_to_be_added.end_char)

15


Jetzt aktualisieren wir den Knoten und f√ºgen ein NER-Tag hinzu. Dazu lesen wir zun√§chst den urspr√ºnglichen Text bis zur Startposition der erkannten Entit√§t aus. Dann nutzen wir `SubElement`, um ein Unterelement, in dem Fall `persName` hinzuzuf√ºgen. Anschlie√üend erh√§lt `persName` den Text der Entit√§t und wir f√ºgen nachfolgend den restlichen Text als `tail` hinzu.

In [16]:
xml_title_node.text = xml_text_example[0:per_to_be_added.start_char] #set text within node equal to all chars until PER entity starts
entity_tag = ET.SubElement(xml_title_node, 'persName') #add a nested tag for new entity
entity_tag.text = per_to_be_added.text #set entity tag text equal to ent.text for tag
entity_tag.tail = xml_text_example[per_to_be_added.end_char:len(xml_text_example)] #now, add the rest of the text        

Zum Schluss checken wir nochmal, ob persName innerhalb des `title`-Knotens entsprechend hinzugef√ºgt wurde, indem wir ihn mit `root.findall()` auslesen und durch dessen Kindelemente iterieren: 

In [17]:
#check if node changed
for i in root.findall(".//title", namespaces)[0]:
    print(i)

<Element 'persName' at 0x7e4a379de450>


Da wir im n√§chsten Schritt NER auf den gesamten Beispieltext anwenden wollen, bereinigen wir das Dokument vorerst wieder vom `persName`-Element (es diente hier nur der Demonstration). 

In [18]:
xml_title_node.text = xml_text_example
title_children = root.findall(".//title", namespaces)[0]
for i in title_children:
    title_children.remove(i)
print(xml_title_node.text)

H. P. Lovecraft: Astronomical Observations (NAME)


### 6. NER auf viele Textelemente gleichzeitig anzuwenden

Wir k√∂nnen auch eigene Funktionen definieren, um unseren Code u.a. leichter wiederverwenden zu k√∂nnen und besser zu strukturieren. Hier ein einfaches Beispiel, wie so eine Funktion aussehen k√∂nnte. F√ºr den Funktionsparameter `xml_table` k√∂nnen wir nun beispielsweise unseren `xml_text_dataframe` einsetzen und uns die ersten 5 Texteintr√§ge aus der Tabelle ausgeben lassen:

In [19]:
def print_text(xml_table):
    num = 1
    for text in xml_table["text"]:
        print("Text Snippet #" + str(num) + ": " + text)
        num += 1

print_text(xml_text_dataframe[:5])

Text Snippet #1: H. P. Lovecraft: Astronomical Observations (NAME)
Text Snippet #2: Observed
Text Snippet #3: Obs‚Äôd
Text Snippet #4: Observed
Text Snippet #5: Obs‚Äôd


In √§hnlicher Weise k√∂nnen wir nun auch unseren bisherigen NER Code in einer Funktion unterbringen. Mit `enumerate()` werden die einzelnen `text` innerhalb des for-Loops durchgez√§hlt und wir k√∂nnen die zugeh√∂rige Position (`index`) ansprechen - diese Position ben√∂tigten wir, um die entsprechenden NER-Tags an der jeweils richtigen Stelle im XML-Dokument einf√ºgen zu k√∂nnen.

In [20]:
def ner_text(xml_table):
    for index, text in enumerate(xml_table["text"]):
        doc = nlp(text)
        for ent_count, ent in enumerate(doc.ents):
            current_xml_node = xml_table["nodes"][index]
            
            # if else statements for different positions within text
            if ent_count==0: #first additional tag
                current_xml_node.text = text[0:ent.start_char]   
            else: #last tag
                current_xml_node.text = current_xml_node[last_end_char:ent.start_char]
            entity_tag = ET.SubElement(current_xml_node,  'name') 
            entity_tag.set('n', 'ner') #add additional attributes for more information
            entity_tag.set('type', str(ent.label_))
            entity_tag.text = ent.text 
            
            if len(doc.ents) > ent_count+1: #if there are more tags to add, only read until start_char of next ent
                entity_tag.tail = text[ent.end_char:doc.ents[ent_count+1].start_char]
            else:
                entity_tag.tail = text[ent.end_char:len(text)]
                
            last_end_char = ent.end_char

ner_text(xml_text_dataframe)

### 7. Vergleich: NER auf plaintext anwenden

In [21]:
import re

with open("data/input.txt", encoding="utf-8") as file:
    textfile = file.read()

textfile = textfile.strip()
textfile = re.sub(r'\s+', ' ', textfile)

print(textfile)

Astronomical Observations Made By H.P. Lovecraft, 598, Angell St., Providence, R.I. U.S.A. Years: 1909 1910 1911 1912 1913 1914 1915 Comet, Halleys, Observed May 26, 1910 p. 1 Comet, Delavan‚Äôs, Observed September 16, 1914 p. 7 Eclipse of ‚òΩÔ∏é - June 3, 1909 p. a. Eclipse of ‚òΩÔ∏é - March 11-12, 1914 p. 6 Halley's Comet - May 26, 1910 p. 1 Halo around ‚òΩÔ∏é, February 1, 1912 p 3. Mars, Occultation of, Observed September 1, 1909 p. 1 Moon, Eclipse of - June 3, 1909 p. a. Moon, Halo around, February 1, 1912 p. 3 Mercury near Moon - February 26, 1914 pp. 5-6 Occultation of Mars - September 1, 1909 p. 1 Paraselenae - Lunar Halo - February 1, 1912 p. 3 Special Observation June 3 - 1909 Moon‚Äôs Eclipse Clouds interfered, but several glimpses were obtained - Total 7.58 - ASTRONOMICAL OBSERVATIONS 1909 Begun September 1, 1909 September 1 - Observed Occultation of Mars by Moon‚Äôs bright limb at 8h 58m occultation took 40s. Ending at 9:57 was not observed. Shy hazy. Moon fair. Observed Ma

In [22]:
doc_textfile = nlp(textfile)

for ent in doc_textfile.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

H.P. Lovecraft 34 48 ORG
598 50 53 CARDINAL
Angell St. 55 65 ORG
Providence 67 77 GPE
R.I. 79 83 GPE
1909 1910 1911 1912 1913 1914 1915 98 132 DATE
Halleys 140 147 PERSON
May 26, 1910 158 170 DATE
1 174 175 CARDINAL
Delavan‚Äôs 183 192 ORG
September 16, 1914 203 221 DATE
7 225 226 CARDINAL
March 11-12, 1914 278 295 DATE
6 299 300 CARDINAL
Halley 301 307 ORG
1910 326 330 DATE
1 334 335 CARDINAL
February 1 352 362 DATE
1912 364 368 DATE
3 371 372 CARDINAL
September 1, 1909 405 422 DATE
1 426 427 CARDINAL
1909 455 459 DATE
Halo 472 476 PERSON
February 1, 1912 485 501 DATE
3 505 506 CARDINAL
Mercury 507 514 ORG
Moon 520 524 GPE
1914 540 544 DATE
5 549 550 CARDINAL
1909 588 592 DATE
1 596 597 CARDINAL
February 1 625 635 DATE
1912 637 641 DATE
3 645 646 CARDINAL
June 3 - 1909 Moon‚Äôs Eclipse Clouds 667 702 DATE
7.58 758 762 CARDINAL
1909 791 795 DATE
Begun September 1, 1909 September 1 - Observed Occultation of Mars 796 862 EVENT
Moon 866 870 PERSON
8h 58 888 893 CARDINAL
40s 912 915 DATE
9

### 8. Ergebnisse exportieren
Am Ende kann der aktualisierte XML-Baum mit `tree.write()` wieder in eine XML-Datei geschrieben werden. Damit der Namensraum-Pr√§fix nicht in den Elementen auftaucht, k√∂nnen wir ihn mit `register_namespace` vorher entsprechend angeben.

In [23]:
#write result to output file
ET.register_namespace("", "http://www.tei-c.org/ns/1.0")
tree.write('data/output.xml', xml_declaration=True, encoding='utf-8', method='xml')
#TODO: add PI/statement from L2: <?xml-model href="hpl_ao.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>