In [3]:
from bs4 import BeautifulSoup
import pathlib

# XML Parsing als Grundlage für weitere Analysen 

> XML Parsing bezeichnet den Prozess des Einlesens und Strukturierens von XML-Daten in einer Weise, dass sie maschinell verarbeitet werden können. Dabei wird das XML-Dokument in eine baumartige Datenstruktur (z. B. DOM – Document Object Model) umgewandelt, sodass einzelne Elemente, Attribute und Inhalte gezielt ausgelesen, verändert oder analysiert werden können.

Für das Einlesen und Verarbeiten der Daten verwenden wir die Python-Bibliothek [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/). 

Wir erstellen für die weitere Verwendung zunächst eine Referenz auf unser Arbeitsverzeichnis und dann auf die Datei, die wir beispielhaft auslesen und durchsuchen möchten:

In [8]:
NOTEBOOK_PATH = pathlib.Path().resolve()
DATA_DIRECTORY = NOTEBOOK_PATH / "data" / "annotated"
FILE_PATH = DATA_DIRECTORY / "1949-02-12_Labowsky_Klibansky.xml"

Anschließend kann die Datei eingelesen werden.

In [9]:
with open(FILE_PATH, "r", encoding="utf-8") as datei:
    soup = BeautifulSoup(datei, "xml")  

Sobald dies geschehen ist, erlaubt uns BeautifulSoup eine Vielzahl von Operationen für die Suche und Anzeige. Angenommen wir möchten uns das teiHeader-Element ansehen und (menschenlesbar) ausgeben lassen:

In [6]:
tei_header = soup.find("teiHeader")
print(tei_header.prettify())

<teiHeader>
 <fileDesc>
  <titleStmt>
   <title>
    Brief von Lotte Labowsky an Raymond Klibansky vom 12. Februar 1949
   </title>
   <author ref="http://d-nb.info/gnd/1029912939"/>
  </titleStmt>
  <publicationStmt>
   <publisher>
    Literaturarchiv Marbach
   </publisher>
   <idno>
    1949-02-12_Labowsky_Klibansky
   </idno>
  </publicationStmt>
  <sourceDesc>
   <msDesc>
    <msIdentifier>
     <repository>
      Literaturarchiv Marbach
     </repository>
     <idno/>
    </msIdentifier>
    <physDesc>
     <objectDesc>
      <supportDesc>
       <support>
        handschriftlich
       </support>
      </supportDesc>
     </objectDesc>
    </physDesc>
    <history>
     <origin>
      <origDate>
       1949-02-12
      </origDate>
      <origPlace>
       Somerville College
      </origPlace>
     </origin>
    </history>
   </msDesc>
  </sourceDesc>
 </fileDesc>
 <profileDesc>
  <langUsage>
   <language ident="en"/>
  </langUsage>
  <textClass>
   <keywords scheme="LOC">
    <t

Zugriff auf den *reinen* Text haben wir, in dem alle paragraph-Elemente herausgesucht und deren Text-Inhalt ausgegeben wird. 

In [None]:
paragraphs = soup.find_all("p")
for p in paragraphs:
    print(p.get_text())



[↑] and they seemed to enjoy themselves.
[↑] and frozen fruit and coffee and [?] and sandwiches
[↑] & another young man and girl. I gave them ice cream
[↑] I had a party with Chipman, Marianne [Horustein?],
Somerville College
12 February
My dear Raymond
many thanks for your
letters of 3rd and 8th February. I am very
glad that you get some pleasure out of your
lectures and that they are a great success,
though that does not surprise me in the least.
I sent you the Hobbes letter and the Lieftinck
photostats on Friday. Yesterday I received
from Miss Bing photostats of the relevant
passages in the Galen De Consuetudinibus.
At my request she has photostated (a)
the whole fascicule to keep it in the Library
at our disposal (b) the important pages,
to be sent to you.
It is a German.
translation of the Arabic text. A part from
the Proclus text which exists only in
Arabic, there are the two small fragments
from the Timaeus itself which are from a




(to the end of the dialogue)
[gestrichen] 

Auf ähnliche Weise können wir auch alle Personennamen (oder beliebige andere Elemente) suchen und uns anzeigen lassen.

In [7]:
pers_names = soup.find_all("persName") # funktioniert auch für placeName etc.

ergebnisse = []
for pers in pers_names:
    name_text = pers.get_text(strip=True)       
    ref_wert = pers.get("ref", None)
    ergebnisse.append((name_text, ref_wert))

for name, ref in ergebnisse:
    print(f"Name: {name}, Ref: {ref}")

Name: Raymond, Ref: gnd-118777378
Name: Lieftinck, Ref: gnd-126628432
Name: Miss Bing, Ref: gnd-116183853
Name: Chalcidius, Ref: gnd-118669036
Name: Chalcidius, Ref: gnd-118669036
Name: Cicero, Ref: gnd-102384894
Name: Mrs Bing, Ref: gnd-116183853
Name: Bing, Ref: gnd-116183853
Name: Walzer, Ref: gnd-123279933
Name: Dieterici, Ref: gnd-116112093
Name: Snell, Ref: gnd-118797786
Name: Bing, Ref: gnd-116183853
Name: Walzer, Ref: gnd-123279933
Name: Minias?, Ref: gnd-122779983
Name: Walzer, Ref: gnd-123279933
Name: Minio, Ref: gnd-122779983
Name: Lotte, Ref: gnd-1029912939
