# TextClass (inkl. für mehrere Werte)

In [37]:
import xml.etree.ElementTree as ET

# 1. Die Wurzel des XML-Baums aus der Datei `gesamt_märchen.xml` wird gelesen
root_node = ET.parse('gesamt_märchen.xml').getroot()

# 2. Initialisierung eines Sets für eindeutige `chisch`-Werte
unique_schema_set = set()

# 3. Iteration über das `teiCorpus`-Element
for corp in root_node.findall(".//{http://www.tei-c.org/ns/1.0}teiCorpus"):
    if "xtk" in corp.attrib["n"]:
        # 4. Iteration über jedes `TEI`-Element
        for ganze in corp.findall(".//{http://www.tei-c.org/ns/1.0}TEI"):
            mance = ganze.attrib['n']
            # 5. Überprüfen, ob der Wert mit '100' beginnt
            if "" in mance:
                for text in ganze.findall(".//{http://www.tei-c.org/ns/1.0}text"):
                    for segm in text.findall(".//{http://www.tei-c.org/ns/1.0}seg"):
                        tn=segm.attrib['{www.dglab.uni-jena.de/vmf/a}ana']
                        if "" in tn:
                            chisch = text.attrib.get('{http://www.w3.org/XML/1998/namespace}id', '')
                            if chisch:  # Überprüfen, ob der `chisch`-Wert nicht leer ist
                                unique_schema_set.add(chisch)  # Hinzufügen zur Menge

# 7. Schreiben der eindeutigen Werte in die Datei `TextClass.txt`
with open("TextClass.txt", 'w', encoding='utf-8') as f:
    # Erstellen der Liste im gewünschten Format
    chisch_list = sorted(unique_schema_set)  # Sortierte Liste der eindeutigen Werte
    formatted_list = str(chisch_list)  # In Python-Listenformat konvertieren
    f.write(formatted_list)

In [42]:
import ast
import xml.etree.ElementTree as ET

def setze_variable_aus_datei(dateiname: str, variablenname: str):
    try:
        with open(dateiname, "r", encoding="utf-8") as datei:
            inhalt = datei.read().strip()
        wert = ast.literal_eval(inhalt)
        globals()[variablenname] = wert
        return wert
    except Exception as e:
        print(f"Fehler beim Einlesen und Setzen der Variable: {e}")
        return None

# 1. Mehrere `chisch`-Werte definieren
chisch = setze_variable_aus_datei("TextClass.txt", "chisch")

# Überprüfen, ob die Variable korrekt gesetzt wurde
print(chisch)


['zyx_cc_agx_rus_35ß', 'zyx_cc_agx_rus_36ß', 'zyx_cc_ddo_rus_13', 'zyx_cc_ddo_rus_18ß', 'zyx_cc_ddo_rus_26ß', 'zyx_cc_ddo_rus_33ß', 'zyx_cc_ddo_rus_55ß', 'zyx_cc_ddo_rus_61ß', 'zyx_cc_ddo_rus_72ß', 'zyx_cc_ddo_rus_76ß', 'zyx_cc_ddo_rus_77', 'zyx_cc_ddo_rus_87ß', 'zyx_cc_ddo_rus_90ß', 'zyx_cc_kva_rus_13ß', 'zyx_cr_agx_rus_1', 'zyx_cr_agx_rus_10ß', 'zyx_cr_agx_rus_11ß', 'zyx_cr_agx_rus_12', 'zyx_cr_agx_rus_13', 'zyx_cr_agx_rus_14ß', 'zyx_cr_agx_rus_15', 'zyx_cr_agx_rus_16', 'zyx_cr_agx_rus_17', 'zyx_cr_agx_rus_18', 'zyx_cr_agx_rus_19', 'zyx_cr_agx_rus_20', 'zyx_cr_agx_rus_21', 'zyx_cr_agx_rus_22', 'zyx_cr_agx_rus_23', 'zyx_cr_agx_rus_24', 'zyx_cr_agx_rus_25', 'zyx_cr_agx_rus_26', 'zyx_cr_agx_rus_27', 'zyx_cr_agx_rus_28', 'zyx_cr_agx_rus_29ß', 'zyx_cr_agx_rus_2ß', 'zyx_cr_agx_rus_3', 'zyx_cr_agx_rus_30ß', 'zyx_cr_agx_rus_31', 'zyx_cr_agx_rus_32', 'zyx_cr_agx_rus_33', 'zyx_cr_agx_rus_34', 'zyx_cr_agx_rus_37', 'zyx_cr_agx_rus_38', 'zyx_cr_agx_rus_39ß', 'zyx_cr_agx_rus_4', 'zyx_cr_agx_rus_40

In [44]:
import os
import pandas as pd
import xml.etree.ElementTree as ET

# Modul zur Speicherung in einer zentralen Textdatei
def speichere_gesamt_ergebnisse(dateiname, daten):
    """
    Speichert die Gesamtergebnisse in eine Textdatei.
    
    :param dateiname: Name der Textdatei
    :param daten: Ergebnisse in Form eines Dictionaries {chisch: [Daten]}
    """
    with open(dateiname, 'w', encoding='utf-8') as f:
        for ch, ergebnisse in daten.items():
            f.write(f"\n{ch}:\n")
            for zeile in ergebnisse:
                f.write(f"{zeile}\n")

# Mehrere `chisch`-Werte definieren
chisch = setze_variable_aus_datei("TextClass.txt", "chisch")
#chisch = ['zyx_cr_lbe_rus_43'] # 1.1. Alternativ: Einen chisch-Wert eingeben

root_node = ET.parse('gesamt_märchen.xml').getroot()

# Speichern der Märchendaten für jedes `chisch`
maerchen_daten = {ch: "" for ch in chisch}

# 2. Schleife für jeden `chisch`-Wert in der Liste
for ch in chisch:
    for ganze in root_node.findall(".//{http://www.tei-c.org/ns/1.0}text"):
        if ganze.attrib.get('{http://www.w3.org/XML/1998/namespace}id') == ch:
            for body in ganze.findall(".//{http://www.tei-c.org/ns/1.0}body"):
                for absatz in body.findall(".//{http://www.tei-c.org/ns/1.0}p"):
                    for phrase in absatz.findall(".//{http://www.tei-c.org/ns/1.0}seg"):
                        try:
                            # Extrahieren der relevanten Attribute
                            labela = phrase.attrib['{www.dglab.uni-jena.de/vmf/a}ana']
                            labelb1 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b1}ana', 'N')
                            labelb2 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b2}ana', 'N')
                            labelb3 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b3}ana', 'N')
                            labelb4 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b4}ana', 'N')
                            labelb5 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b5}ana', 'N')
                            labelc1 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c1}ana', 'N')
                            labelc2 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c2}ana', 'N')
                            labelc3 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c3}ana', 'N')
                            labelc4 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c4}ana', 'N')
                            labelc5 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c5}ana', 'N')
                            labeld = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/d}ana', 'N')
                            quelle = ganze.attrib['{http://www.w3.org/XML/1998/namespace}id']
                            inhalt = (phrase.text.lower().strip()
                                      .replace('|','').replace(':','').replace("ä","ae").replace("ü","ue")
                                      .replace("ö","oe").replace("ß","ss").replace(",","").replace("«","")
                                      .replace("»","").replace(".","").replace(";","").replace('"',"")
                                      .replace("?","").replace("!","").replace("-"," ").replace("'", "")
                                      .replace("(", "").replace(")", "").replace("\n","").replace("  "," "))
                            
                            if labela.startswith('a'):
                                # Speichern der Märchendaten in der entsprechenden `chisch`-Liste
                                maerchen_daten[ch] += f"{quelle},{labela},{labelb1},{labelc1},{labelb2},{labelc2},{labelb3},{labelc3},{labelb4},{labelc4},{labelb5},{labelc5},{labeld},{inhalt},0\n"
                        except KeyError as e:
                            print(f"Fehlendes Attribut: {e}")

# 3. Ausgabestruktur für jeden `chisch`-Wert erstellen
gesamt_ergebnisse = {}

# Erstellen der CSV-Dateien und Verarbeiten der Daten
for ch in chisch:
    # CSV-Datei erstellen
    with open(f"text_{ch}.csv", 'w', encoding='utf-8') as f:
        f.write('quelle,labela,labelb1,labelc1,labelb2,labelc2,labelb3,labelc3,labelb4,labelc4,labelb5,labelc5,labeld,inhalt,index_binar\n')
        f.write(maerchen_daten[ch])

    # Index-Strings erstellen
    abcd_data = []
    df = pd.read_csv(f"text_{ch}.csv", encoding='utf-8')

    for index, row in df.iterrows():
        quelle = row['quelle']
        labela = row['labela']
        for i in range(1, 6):
            labelb = row[f'labelb{i}']
            labelc = row[f'labelc{i}']
            labeld = row['labeld']
            inhalt = row['inhalt']
            abcd_data.append(f"{labela}:{labelb}:{labelc}:{labeld}")

    # Filterung der Daten
    filtered_data = [line for line in abcd_data if ':N:' not in line]

    # Speichern der gefilterten Daten in der Gesamt-Ausgabeliste
    gesamt_ergebnisse[ch] = filtered_data

# Speichern in einer Textdatei
speichere_gesamt_ergebnisse("TextClassGesamt.txt", gesamt_ergebnisse)

# 4. Ausgabe der separaten Listen
for ch, ergebnisse in gesamt_ergebnisse.items():
    print(f"\n{ch}")
    print('\t', *ergebnisse, sep='\n\t')

# Löschen der erstellten CSV-Dateien
for ch in chisch:
    try:
        os.remove(f"text_{ch}.csv")  # Löschen der CSV-Datei
    except FileNotFoundError:
        print(f"Datei text_{ch}.csv wurde nicht gefunden und konnte nicht gelöscht werden.")
    except Exception as e:
        print(f"Fehler beim Löschen der Datei text_{ch}.csv: {e}")



zyx_cc_agx_rus_35ß
	
	a1543:F:PROVOKATION:zs
	a1543:H:Der_PROVOKATION_nachgehen:zt
	a1543:H:Eine_numinose_Einmischung_VORTÄUSCHEN:zt
	a1543:H:Dem_VORTÄUSCHEN_nachgehen:zs_zt
	a1543:H:Behauptung_der_ABSURDITÄT:zs_zt
	a1543:f:Den_Vorgang_deuten:zs_zt
	a1543:h:Das_VORTÄUSCHEN_eingestehen:zs_zt
	a1543:f:Gerechte_Rückgabe_fordern:zs_zt
	a1543:H:Eine_löst_andere_ABSURDITÄT_aus:zs_zt
	a1543:F:Streit_schlichten:zs_zt_zv
	a1543:h:Den_Vorgang_deuten:zs_zt_zv
	a1543:H:ABSURDITÄT_glaubhaft_zu_halten_VORTÄUSCHEN:zs_zt_zv
	a1543:H:Behauptung_der_ABSURDITÄT:zs_zt_zv
	a1543:H:Beglaubigen_der_Behauptung_der_ABSURDITÄT:zs_zt_zv

zyx_cc_agx_rus_36ß
	
	anh531:F:WARE_verkaufen:zs_zt
	anh531:h:Handeln_als_ABSURDITÄT:zs
	anh531:h:Sachschaden_anrichten:zs
	anh531:H:Schlußfolgerung_als_ABSURDITÄT:zs
	anh531:f:Den_Vorgang_deuten:zs_zsa
	anh531:H:ABSURDITÄT_glaubhaft_zu_halten_VORTÄUSCHEN:zs_zsa

zyx_cc_ddo_rus_13
	
	aU:h:VERTREIBUNG:rHH_fHH
	aU:H:Notwendiges_auf_wunderbare_Weise_besorgen:rHD_rHH
	aU:H:Goldhaar

In [39]:
import xml.etree.ElementTree as ET
import pandas as pd
import csv
import os

# 1. Mehrere `chisch`-Werte definieren
chisch = setze_variable_aus_datei("TextClass.txt", "chisch")
#chisch = ['zyx_cr_lbe_rus_43'] # 1.1. Alternativ: Einen chisch-Wert eingeben

root_node = ET.parse('gesamt_märchen.xml').getroot()

# Speichern der Märchendaten für jedes `chisch`
maerchen_daten = {ch: "" for ch in chisch}

# 2. Schleife für jeden `chisch`-Wert in der Liste
for ch in chisch:
    for ganze in root_node.findall(".//{http://www.tei-c.org/ns/1.0}text"):
        if ganze.attrib.get('{http://www.w3.org/XML/1998/namespace}id') == ch:
            for body in ganze.findall(".//{http://www.tei-c.org/ns/1.0}body"):
                for absatz in body.findall(".//{http://www.tei-c.org/ns/1.0}p"):
                    for phrase in absatz.findall(".//{http://www.tei-c.org/ns/1.0}seg"):
                        try:
                            # Extrahieren der relevanten Attribute
                            labela = phrase.attrib['{www.dglab.uni-jena.de/vmf/a}ana']
                            labelb1 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b1}ana', 'N')
                            labelb2 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b2}ana', 'N')
                            labelb3 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b3}ana', 'N')
                            labelb4 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b4}ana', 'N')
                            labelb5 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b5}ana', 'N')
                            labelc1 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c1}ana', 'N')
                            labelc2 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c2}ana', 'N')
                            labelc3 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c3}ana', 'N')
                            labelc4 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c4}ana', 'N')
                            labelc5 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c5}ana', 'N')
                            labeld = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/d}ana', 'N')
                            quelle = ganze.attrib['{http://www.w3.org/XML/1998/namespace}id']
                            inhalt = (phrase.text.lower().strip()
                                      .replace('|','').replace(':','').replace("ä","ae").replace("ü","ue")
                                      .replace("ö","oe").replace("ß","ss").replace(",","").replace("«","")
                                      .replace("»","").replace(".","").replace(";","").replace('"',"")
                                      .replace("?","").replace("!","").replace("-"," ").replace("'", "")
                                      .replace("(", "").replace(")", "").replace("\n","").replace("  "," "))
                            
                            if labela.startswith('a'):# and labela not in ['N', 'aUnklar']:
                                # Speichern der Märchendaten in der entsprechenden `chisch`-Liste
                                maerchen_daten[ch] += f"{quelle},{labela},{labelb1},{labelc1},{labelb2},{labelc2},{labelb3},{labelc3},{labelb4},{labelc4},{labelb5},{labelc5},{labeld},{inhalt},0\n"
                        except KeyError as e:
                            print(f"Fehlendes Attribut: {e}")

# 3. Ausgabestruktur für jeden `chisch`-Wert erstellen
gesamt_ergebnisse = {}

import os

# Erstellen der CSV-Dateien und Verarbeiten der Daten
for ch in chisch:
    # CSV-Datei erstellen
    with open(f"text_{ch}.csv", 'w', encoding='utf-8') as f:
        f.write('quelle,labela,labelb1,labelc1,labelb2,labelc2,labelb3,labelc3,labelb4,labelc4,labelb5,labelc5,labeld,inhalt,index_binar\n')
        f.write(maerchen_daten[ch])

    # Index-Strings erstellen
    abcd_data = []
    df = pd.read_csv(f"text_{ch}.csv", encoding='utf-8')

    for index, row in df.iterrows():
        quelle = row['quelle']
        labela = row['labela']
        for i in range(1, 6):
            labelb = row[f'labelb{i}']
            labelc = row[f'labelc{i}']
            labeld = row['labeld']
            inhalt = row['inhalt']
            abcd_data.append(f"{labela}:{labelb}:{labelc}:{labeld}")

    # Filterung der Daten
    filtered_data = [line for line in abcd_data if ':N:' not in line]

    # Speichern der gefilterten Daten in der Gesamt-Ausgabeliste
    gesamt_ergebnisse[ch] = filtered_data

# 4. Ausgabe der separaten Listen
for ch, ergebnisse in gesamt_ergebnisse.items():
    print(f"\n{ch}")
    print('\t', *ergebnisse, sep='\n\t')

# Löschen der erstellten CSV-Dateien
for ch in chisch:
    try:
        os.remove(f"text_{ch}.csv")  # Löschen der CSV-Datei
        #print(f"\nDatei text_{ch}.csv wurde erfolgreich gelöscht.")
    except FileNotFoundError:
        print(f"Datei text_{ch}.csv wurde nicht gefunden und konnte nicht gelöscht werden.")
    except Exception as e:
        print(f"Fehler beim Löschen der Datei text_{ch}.csv: {e}")



zyx_cc_agx_rus_35ß
	
	a1543:F:PROVOKATION:zs
	a1543:H:Der_PROVOKATION_nachgehen:zt
	a1543:H:Eine_numinose_Einmischung_VORTÄUSCHEN:zt
	a1543:H:Dem_VORTÄUSCHEN_nachgehen:zs_zt
	a1543:H:Behauptung_der_ABSURDITÄT:zs_zt
	a1543:f:Den_Vorgang_deuten:zs_zt
	a1543:h:Das_VORTÄUSCHEN_eingestehen:zs_zt
	a1543:f:Gerechte_Rückgabe_fordern:zs_zt
	a1543:H:Eine_löst_andere_ABSURDITÄT_aus:zs_zt
	a1543:F:Streit_schlichten:zs_zt_zv
	a1543:h:Den_Vorgang_deuten:zs_zt_zv
	a1543:H:ABSURDITÄT_glaubhaft_zu_halten_VORTÄUSCHEN:zs_zt_zv
	a1543:H:Behauptung_der_ABSURDITÄT:zs_zt_zv
	a1543:H:Beglaubigen_der_Behauptung_der_ABSURDITÄT:zs_zt_zv

zyx_cc_agx_rus_36ß
	
	anh531:F:WARE_verkaufen:zs_zt
	anh531:h:Handeln_als_ABSURDITÄT:zs
	anh531:h:Sachschaden_anrichten:zs
	anh531:H:Schlußfolgerung_als_ABSURDITÄT:zs
	anh531:f:Den_Vorgang_deuten:zs_zsa
	anh531:H:ABSURDITÄT_glaubhaft_zu_halten_VORTÄUSCHEN:zs_zsa

zyx_cc_ddo_rus_13
	
	aU:h:VERTREIBUNG:rHH_fHH
	aU:H:Notwendiges_auf_wunderbare_Weise_besorgen:rHD_rHH
	aU:H:Goldhaar