# teiCorpus_in_den_TEIs

In [1]:
import os
import xml.etree.ElementTree as ET

# Funktion zum Extrahieren aller TEI-Elemente aus der teiCorpus-Datei unter Berücksichtigung aller Namensräume
def extract_tei_elements(teicorpus_file):
    tei_elements = []
    # Namensraum-Präfixe und ihre Zuordnung zu URIs entfernen
    ET.register_namespace('', 'http://www.tei-c.org/ns/1.0')
    ET.register_namespace("a","www.dglab.uni-jena.de/vmf/a")
    ET.register_namespace("b1", "www.dglab.uni-jena.de/vmf/b1")
    ET.register_namespace("b2","www.dglab.uni-jena.de/vmf/b2")
    ET.register_namespace("b3","www.dglab.uni-jena.de/vmf/b3")
    ET.register_namespace("b4","www.dglab.uni-jena.de/vmf/b4")
    ET.register_namespace("b5","www.dglab.uni-jena.de/vmf/b5")
    ET.register_namespace("c1","www.dglab.uni-jena.de/vmf/c1")
    ET.register_namespace("c2", "www.dglab.uni-jena.de/vmf/c2")
    ET.register_namespace("c3", "www.dglab.uni-jena.de/vmf/c3")
    ET.register_namespace("c4","www.dglab.uni-jena.de/vmf/c4")
    ET.register_namespace("c5","www.dglab.uni-jena.de/vmf/c5")
    ET.register_namespace("d","www.dglab.uni-jena.de/vmf/d")
    ET.register_namespace('xml', 'http://www.w3.org/XML/1998/namespace')
    
    try:
        tree = ET.parse(teicorpus_file)
        root = tree.getroot()
        # Verwenden von lokalen Namen ohne Präfixe
        for tei_element in root.findall('.//{http://www.tei-c.org/ns/1.0}TEI'):
            tei_elements.append(tei_element)
    except ET.ParseError as e:
        print(f"Error parsing XML file: {e}")
    
    return tei_elements

# Funktion zum Speichern eines TEI-Elements in eine separate XML-Datei mit Schemazuweisungen
def save_tei_element_with_schema(tei_element, output_folder, index):
    text_id = tei_element.find('.//{http://www.tei-c.org/ns/1.0}text').get('{http://www.w3.org/XML/1998/namespace}id')
    if text_id:
        filename = f'{text_id}.xml'
    else:
        filename = f'unnamed_{index}.xml'  # Eindeutiger Dateiname mit Index
    output_file = os.path.join(output_folder, filename)
    
    # Erstellen des XML-Dokuments
    doc = ET.ElementTree(tei_element)
    
    # Speichern der XML-Datei
    doc.write(output_file, encoding="utf-8", xml_declaration=False, default_namespace=None)

# Pfad zur teiCorpus-Datei
teicorpus_file = 'Messdaten.xml'
# Ausgabeordner für die gespeicherten TEI-XML-Dateien
output_folder = 'Messdaten'

# Überprüfen und Erstellen des Ausgabeordners, falls er nicht vorhanden ist
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Extrahieren aller TEI-Elemente aus der teiCorpus-Datei
tei_elements = extract_tei_elements(teicorpus_file)

# Speichern jedes TEI-Elements in eine separate XML-Datei mit Schemazuweisungen
for i, tei_element in enumerate(tei_elements):
    save_tei_element_with_schema(tei_element, output_folder, i)

print("TEI-Elemente wurden als separate XML-Dateien mit Schemazuweisungen gespeichert.")

TEI-Elemente wurden als separate XML-Dateien mit Schemazuweisungen gespeichert.
