In [None]:
from lxml import etree
import csv

# Datei als Bytes öffnen (wichtig wegen der XML-Deklaration)
with open("register.xhtml", "rb") as f:
    tree = etree.parse(f, etree.HTMLParser())

# XPath: Alle Personen-Einträge im Personenregister
entries = tree.xpath('//div[@id="psn"]/div[contains(@class, "entry")]')

# Liste für alle Personen
personen = []

for entry in entries:
    # Name
    name = entry.xpath('.//h1[@class="prefname"]/text()')
    name = name[0].strip() if name else ""

    # Geburts- und Sterbejahr
    bd_text = entry.xpath('.//div[@class="birthdeath"]/p/text()')
    geburtsjahr = ""
    todesjahr = ""
    for text in bd_text:
        text = text.strip()
        if text.startswith("*"):
            geburtsjahr = text.lstrip("*").strip()
        elif text.startswith("✝"):
            todesjahr = text.lstrip("✝").strip()

    konfession = entry.xpath('.//div[@class="faithcontainer"]//li/text()')
    konfession = konfession[0].strip() if konfession else ""

    # Weitere Namen
    varianten = entry.xpath('.//div[@class="variantcontainer"]//p/text()')
    varianten = varianten[0].strip() if varianten else ""

    autor_von = entry.xpath('.//div[@class="authorcontainer"]//li/text()')
    autor_von = autor_von[0].strip() if autor_von else ""

    vorkommen_im_text = entry.xpath('.//div[@class="occurrencescontainer"]//li/text()')
    vorkommen_im_text = vorkommen_im_text[0].strip() if vorkommen_im_text else ""

    wirkungsdaten = entry.xpath('.//div[@class="floruit"]//p/text()')
    for text in wirkungsdaten:
        text = text.strip()
        if text.startswith("Anfangsjahr"):
            anfangsjahr = text.split(":")[1].strip()
        elif text.startswith("Schlussjahr"):
            schlussjahr = text.split(":")[1].strip()
    else:
        anfangsjahr = ""
        schlussjahr = ""

    ist_mitglied_von = entry.xpath('.//div[@class="ismembercontainer"]//li/text()')
    ist_mitglied_von = ist_mitglied_von[0].strip() if ist_mitglied_von else ""

    bio = entry.xpath('.//div[@class="bio"]//p/text()')
    bio = bio[0].strip() if bio else ""

    kategorien = entry.xpath('.//div[@class="categorycontainer"]//li/text()')
    kategorien = kategorien[0].strip() if kategorien else ""

    kommentar = entry.xpath('.//div[@class="commentary"]//p/text()')
    kommentar = kommentar[0].strip() if kommentar else ""

    urheber_von = entry.xpath('.//div[@class="creatorcontainer"]//li/text()')
    urheber_von = urheber_von[0].strip() if urheber_von else ""

    mitglieder = entry.xpath('.//div[@class="hasmemberscontainer"]//li/text()')
    mitglieder = mitglieder[0].strip() if mitglieder else ""

    dargestellt_in = entry.xpath('.//div[@class="isdepictedcontainer"]//li/text()')
    dargestellt_in = dargestellt_in[0].strip() if dargestellt_in else ""

    literatur = entry.xpath('.//div[@class="litcontainer"]//li/text()')
    literatur = literatur[0].strip() if literatur else ""

    externe_ressourcen = entry.xpath('.//div[@class="uricontainer"]//li/text()')
    externe_ressourcen = externe_ressourcen[0].strip() if externe_ressourcen else ""

    # Ergebnisse sammeln
    personen.append({
        "Name": name,
        "Geburtsjahr": geburtsjahr,
        "Todesjahr": todesjahr,
        "Konfession": konfession,
        "Biographie": bio,
        "Vorkommen": vorkommen_im_text,
        "Varianten": varianten,
        "Autor von": autor_von,
        "Anfangsjahr": anfangsjahr,
        "Schlussjahr": schlussjahr,
        "Ist Mitglied von": ist_mitglied_von,
        "Kategorien": kategorien,
        "Kommentar": kommentar,
        "Urheber von": urheber_von,
        "Mitglieder": mitglieder,
        "Dargestellt in": dargestellt_in,
        "Literatur": literatur,
        "Externe Ressourcen": externe_ressourcen
    })

# Ausgabe als CSV speichern
with open("personenregister1.csv", "w", newline="", encoding="utf-8") as csvfile:
    fieldnames = ["Name", "Geburtsjahr", "Todesjahr", "Konfession", "Biographie", "Vorkommen", "Varianten", "Autor von", "Anfangsjahr", "Schlussjahr", "Ist Mitglied von", "Kategorien", "Kommentar", "Urheber von", "Mitglieder", "Dargestellt in", "Literatur", "Externe Ressourcen"]
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()
    for person in personen:
        writer.writerow(person)

print("✓ CSV-Datei 'register_personen_tabelle.csv' wurde erfolgreich erstellt!")

✓ CSV-Datei 'personenregister1.csv' wurde erfolgreich erstellt!
