# TextClass (inkl. für mehrere Werte)

In [154]:
import xml.etree.ElementTree as ET

# XML-Datei laden und Wurzel abrufen
root_node = ET.parse('gesamt_märchen.xml').getroot()

# Namespace definieren
NS = {'tei': 'http://www.tei-c.org/ns/1.0'}
filter_ident = ""  # Kann auf "" gesetzt werden, um keinen Filter anzuwenden
unique_schema_set = set()

# Durchlaufen des XML-Baums
for corp in root_node.findall(".//tei:teiCorpus", NS):
    if ("tg" in corp.attrib.get("n", "") or "xtk" in corp.attrib.get("n", "")):
        for ganze in corp.findall(".//tei:TEI", NS):
            language = ganze.find(".//tei:teiHeader//tei:langUsage/tei:language", NS)
            # Bedingung für Sprache: anwenden, wenn filter_ident definiert ist, oder überspringen
            if language is not None and (not filter_ident or language.attrib.get('ident') == filter_ident):
                for text in ganze.findall(".//tei:text", NS):
                    if "" in text.attrib['{http://www.w3.org/XML/1998/namespace}id']:  
                        for segm in text.findall(".//tei:seg", NS):
                            tn = segm.attrib.get('{www.dglab.uni-jena.de/vmf/a}ana', '')
                            if "" in tn:  # Sicherstellen, dass `tn` das gesuchte Muster enthält
                                chisch = text.attrib.get('{http://www.w3.org/XML/1998/namespace}id', '')
                                if chisch:
                                    unique_schema_set.add(chisch)

# Ergebnisse in Datei schreiben
with open("TextClass.txt", 'w', encoding='utf-8') as f:
    f.write(str(sorted(unique_schema_set)))


In [155]:
import ast
import xml.etree.ElementTree as ET

def setze_variable_aus_datei(dateiname: str, variablenname: str):
    try:
        with open(dateiname, "r", encoding="utf-8") as datei:
            inhalt = datei.read().strip()
        wert = ast.literal_eval(inhalt)
        globals()[variablenname] = wert
        return wert
    except Exception as e:
        print(f"Fehler beim Einlesen und Setzen der Variable: {e}")
        return None

# 1. Mehrere `chisch`-Werte definieren
chisch = setze_variable_aus_datei("TextClass.txt", "chisch")

# Überprüfen, ob die Variable korrekt gesetzt wurde
print(chisch)


['cc_agx_rus_54', 'cc_agx_rus_55', 'cc_agx_rus_56ß', 'cc_agx_rus_57', 'cc_ani_rus_10', 'cc_ani_rus_11', 'cc_ani_rus_12ß', 'cc_ani_rus_13', 'cc_ani_rus_14', 'cc_ani_rus_15', 'cc_ani_rus_16', 'cc_ani_rus_17', 'cc_ani_rus_8', 'cc_ani_rus_9', 'cc_aqc_rus_19', 'cc_aqc_rus_20', 'cc_aqc_rus_21', 'cc_aqc_rus_22', 'cc_aqc_rus_23', 'cc_aqc_rus_24', 'cc_aqc_rus_25', 'cc_aqc_rus_26', 'cc_aqc_rus_27', 'cc_aqc_rus_28', 'cc_aqc_rus_29', 'cc_aqc_rus_30', 'cc_aqc_rus_31', 'cc_aqc_rus_32', 'cc_aqc_rus_33', 'cc_ava_ava_204', 'cc_ava_ava_205', 'cc_ava_ava_206', 'cc_ava_ava_207', 'cc_ava_ava_208', 'cc_ava_ava_209', 'cc_ava_ava_210', 'cc_ava_ava_211', 'cc_ava_ava_212', 'cc_ava_ava_213', 'cc_ava_ava_214', 'cc_ava_deu_204', 'cc_ava_deu_205', 'cc_ava_deu_206', 'cc_ava_deu_207', 'cc_ava_deu_208', 'cc_ava_deu_209', 'cc_ava_deu_210', 'cc_ava_deu_211', 'cc_ava_deu_212', 'cc_ava_deu_213', 'cc_ava_rus_214', 'cc_ddo_ddo_95', 'cc_ddo_ddo_96', 'cc_ddo_ddo_97', 'cc_ddo_ddo_98', 'cc_ddo_ddo_99', 'cc_ddo_kat_95', 'cc_ddo_

In [156]:
import os
import pandas as pd
import xml.etree.ElementTree as ET

# Modul zur Speicherung in einer zentralen Textdatei
def speichere_gesamt_ergebnisse(dateiname, daten):
    """
    Speichert die Gesamtergebnisse in eine Textdatei.
    
    :param dateiname: Name der Textdatei
    :param daten: Ergebnisse in Form eines Dictionaries {chisch: [Daten]}
    """
    with open(dateiname, 'w', encoding='utf-8') as f:
        for ch, ergebnisse in daten.items():
            f.write(f"\n{ch}:\n")
            for zeile in ergebnisse:
                f.write(f"{zeile}\n")

# Mehrere `chisch`-Werte definieren
chisch = setze_variable_aus_datei("TextClass.txt", "chisch")
# chisch = ['zyx_cr_lbe_rus_43'] # 1.1. Alternativ: Einen chisch-Wert eingeben

root_node = ET.parse('gesamt_märchen.xml').getroot()

# Speichern der Märchendaten für jedes `chisch`
maerchen_daten = {ch: "" for ch in chisch}

# 2. Schleife für jeden `chisch`-Wert in der Liste
for ch in chisch:
    for ganze in root_node.findall(".//{http://www.tei-c.org/ns/1.0}text"):
        if ganze.attrib.get('{http://www.w3.org/XML/1998/namespace}id') == ch:
            for body in ganze.findall(".//{http://www.tei-c.org/ns/1.0}body"):
                for absatz in body.findall(".//{http://www.tei-c.org/ns/1.0}p"):
                    for phrase in absatz.findall(".//{http://www.tei-c.org/ns/1.0}seg"):
                        try:
                            # Extrahieren der relevanten Attribute
                            labela = phrase.attrib['{www.dglab.uni-jena.de/vmf/a}ana']
                            labelb1 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b1}ana', 'N')
                            labelb2 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b2}ana', 'N')
                            labelb3 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b3}ana', 'N')
                            labelb4 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b4}ana', 'N')
                            labelb5 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/b5}ana', 'N')
                            labelc1 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c1}ana', 'N')
                            labelc2 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c2}ana', 'N')
                            labelc3 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c3}ana', 'N')
                            labelc4 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c4}ana', 'N')
                            labelc5 = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/c5}ana', 'N')
                            labeld = phrase.attrib.get('{www.dglab.uni-jena.de/vmf/d}ana', 'N')
                            quelle = ganze.attrib['{http://www.w3.org/XML/1998/namespace}id']                            
                            if labela.startswith('a'):
                                # Speichern der Märchendaten in der entsprechenden `chisch`-Liste
                                maerchen_daten[ch] += f"{quelle},{labela},{labelb1},{labelc1},{labelb2},{labelc2},{labelb3},{labelc3},{labelb4},{labelc4},{labelb5},{labelc5},{labeld},{inhalt},0\n"
                        except KeyError as e:
                            print(f"Fehlendes Attribut: {e}")

# 3. Ausgabestruktur für jeden `chisch`-Wert erstellen
gesamt_ergebnisse = {}

# Erstellen der CSV-Dateien und Verarbeiten der Daten
unique_values_per_ch = {}
result_data_per_ch = {}
for ch in chisch:
    # CSV-Datei erstellen
    with open(f"text_{ch}.csv", 'w', encoding='utf-8') as f:
        f.write('quelle,labela,labelb1,labelc1,labelb2,labelc2,labelb3,labelc3,labelb4,labelc4,labelb5,labelc5,labeld,inhalt,index_binar\n')
        f.write(maerchen_daten[ch])

    # Index-Strings erstellen
    abcd_data = []
    df = pd.read_csv(f"text_{ch}.csv", encoding='utf-8')

    for index, row in df.iterrows():
        quelle = row['quelle']
        labela = row['labela']
        for i in range(1, 6):
            labelb = row[f'labelb{i}']
            labelc = row[f'labelc{i}']
            labeld = row['labeld']
            inhalt = row['inhalt']
            abcd_data.append(f"{labela}:{labelb}:{labelc}:{labeld}")

    # Filterung der Daten
    filtered_data = [line for line in abcd_data if ':N:' not in line]

    # Extrahieren einzigartiger Werte vor dem ersten ':'
    unique_values = set(line.split(':')[0] for line in filtered_data)
    unique_values_per_ch[ch] = unique_values
    result_data_per_ch[ch] = filtered_data

    # Speichern der gefilterten Daten in der Gesamt-Ausgabeliste
    gesamt_ergebnisse[ch] = filtered_data

# Zählen der `chisch`-Werte mit und ohne Ergebnisse
chisch_mit_ergebnissen = [ch for ch, ergebnisse in gesamt_ergebnisse.items() if ergebnisse]
chisch_ohne_ergebnisse = [ch for ch, ergebnisse in gesamt_ergebnisse.items() if not ergebnisse]

print(f"Anzahl der chisch-Werte mit Ergebnissen: {len(chisch_mit_ergebnissen)}")
print(f"Anzahl der chisch-Werte ohne Ergebnisse: {len(chisch_ohne_ergebnisse)}")

# Parsen der `fk/vmf_a.xsd`-Datei und Überprüfen von Werten mit Leerzeichen
fk_tree = ET.parse('kf/vmf_a.xsd').getroot()
enum_elements = fk_tree.findall(".//{http://www.w3.org/2001/XMLSchema}enumeration")
enum_values_with_spaces = {enum.attrib['value'] for enum in enum_elements if ' ' in enum.attrib['value']}

# Ausgabe der Ergebnisse
for ch, unique_values in unique_values_per_ch.items():
    print(f"\n\n{ch}")
    print("-----------------")
    matching_values = [
    value for value in enum_values_with_spaces 
    if any(value.split(' ')[0] == uval for uval in unique_values)
]
    print(*matching_values, sep='\n')
    print("-----------------")

    # Ergebnisse mit Werten anzeigen
    if ch in result_data_per_ch:
        #print("Gefilterte Ergebnisse:")
        for result in result_data_per_ch[ch]:
            print(result)

# Speichern in einer Textdatei
speichere_gesamt_ergebnisse("TextClassaLaufende.txt", gesamt_ergebnisse)

# Löschen der erstellten CSV-Dateien
for ch in chisch:
    try:
        os.remove(f"text_{ch}.csv")  # Löschen der CSV-Datei
    except FileNotFoundError:
        print(f"Datei text_{ch}.csv wurde nicht gefunden und konnte nicht gelöscht werden.")
    except Exception as e:
        print(f"Fehler beim Löschen der Datei text_{ch}.csv: {e}")



Anzahl der chisch-Werte mit Ergebnissen: 372
Anzahl der chisch-Werte ohne Ergebnisse: 735


cc_agx_rus_54
-----------------

-----------------


cc_agx_rus_55
-----------------

-----------------


cc_agx_rus_56ß
-----------------
a654 Die behenden Brüder
-----------------
a654:F:SELTENEN_Gegenstand_besorgen:rHP
a654:H:Fernseher_als_ZAUBERMITTEL_erhalten:rHD
a654:H:WAFFE_ZAUBERMITTEL_erhalten:rHD
a654:H:Flugzeugendes_ZAUBERMITTEL_erhalten:rHD
a654:F:Um_eine_Frau_werben:rHD_rHP
a654:F:Eine_ENTFÜHRUNG_beheben:N
a654:F:ZAUBERMITTEL_AUSRÜSTUNG_oder_WAFFE_einsetzen:rHD
a654:H:VORHERSAGE_des_Aufenthaltsortes:rHD
a654:F:ZAUBERMITTEL_AUSRÜSTUNG_oder_WAFFE_einsetzen:N
a654:H:Komplikationsfreier_Flug:N
a654:H:Eine_ENTFÜHRUNG_beheben:N
a654:F:Dilemma_lösen:N


cc_agx_rus_57
-----------------

-----------------


cc_ani_rus_10
-----------------

-----------------


cc_ani_rus_11
-----------------
anh384 Мупла Насреддин и дети
-----------------
anh384:#:#:#
anh384:#:#:#


cc_ani_rus_12ß
-----------

a1704 Anecdotes about Absurdli Stingy Person
-----------------
a1704:#:#:#
a1704:#:#:#
a1704:#:#:#


zyx_cr_ava_rus_141
-----------------
aTMJ1392_1 Dem Dieb gefolgt, der alle seine Sachen gestohlen hat: Ich dachte, wir ziehen um
-----------------
aTMJ1392_1:#:#:#
aTMJ1392_1:#:#:#
aTMJ1392_1:#:#:#
aTMJ1392_1:#:#:#
aTMJ1392_1:#:#:#
aTMJ1392_1:#:#:#


zyx_cr_ava_rus_142
-----------------

-----------------


zyx_cr_ava_rus_143
-----------------

-----------------


zyx_cr_ava_rus_144
-----------------

-----------------


zyx_cr_ava_rus_145ß
-----------------
a881A Frau in Männerkleidung
a881 Vielgeprüfte Treue
-----------------
a881:#:#:#
a881:#:#:#
a881:#:#:#
a881:#:#:#
a881:#:#:#
a881:#:#:#
a881:#:#:#
a881:h:Begehren_einer_Person_oder_eines_GEGENSTANDES:fPP
a881:f:Einen_Bösen_einstellen:fVB_fPP
a881:h:Ausplaudern:rHH_fVB
a881:h:VERLEUMDUNG_bei_Untreue:N
a881:h:BEHINDERUNG_durch_Verstümmelung:rHD_fPP
a881:f:FLUCHT_vorbereiten:rHD_fPP
a881:h:FLUCHT:rHD_fPP
a881:H:Eine_BEHINDERUNG_behebe


-----------------


zyx_cr_dar_rus_57
-----------------

-----------------


zyx_cr_dar_rus_58
-----------------

-----------------


zyx_cr_dar_rus_59
-----------------

-----------------


zyx_cr_dar_rus_5ß
-----------------
a303 Die zwei Brueder
a315 Die treulose Schwester
a519 Heldenjungfrau
a300 Der Drachentöter
-----------------
a315:f:Geburt_des_NACHKOMMENs:rHD_rHH
a315:f:TODESAUFTRAG:rHD_rHH
a315:h:Geburt_des_NACHKOMMENs:rHD_fHD
a315:H:Sorge_um_Mitleidsbedürftige:rHD_fHD
a315:H:Einem_TODESAUFTRAG_entkommen:rHD_fHD
a315:F:Im_Verborgenen_lauern:rHD_fHD
a315:Hh:Mehrere_Gegner_nacheinander_besiegen:rHD_rAN
a315:h:Sich_auf_Eindringlinge_einlassen:rAN_fHD
a315:h:GEHEIME_LIEBESBEZIEHUNG:rAN_fHD
a315:F:Geburt_des_NACHKOMMENs:rHD_rHD_fHD
a315:H:Geburt_des_NACHKOMMENs:rHD_rHD_fHD
a315:h:Aussetzung:rHD_rHD_fHD
a315:H:Adoption:rHD_rHD
a315:f:VERGIFTUNG:rHD_fHD
a315:HF:VERGIFTUNG_beheben:rHD_rHD
a315:H:VERGIFTUNG_beheben:rHD_fHD
a315:f:VERGIFTUNG:rHD_fHD
a315:HF:VERGIFTUNG_beheben:rHD_rHD


a449 Sidi Numan
a302 Herz des Unholds im Ei
-----------------
a449:F:Liebe_wird_ausgelöst:rHD_rPP
a449:F:GEHEIMNIS_AUFKLÄREN:rHD_rPP
a449:F:GEHEIMNIS_AUFKLÄREN_in_Angriff_nehmen:rHD
a449:F:Zum_STAUNEN_bringen:rHD_rBZ
a449:H:Dem_STAUNEN_nachgehen:rHD_rBZ
a449:Ff:HERDE_besorgen:rHD_rBZ
a449:hf:TABU_Sonstiges:rHD_rBZ
a449:Hh:HERDE_erfassen:rHD_rBZ_fZO
a449:h:TABU_nachgehen:rHD_rBZ_fZO
a302:H:Unterkommen:rHD_rHF
a302:HF:Zweikampf:rHD_rHF
a302:HF:Waffe_Zaubermittel_erfassen:rHD_rHF
a302:H:Waffe_Zaubermittel_erfassen:rHD_rZM_rAN
a302:H:Zweikampf:rHD_rZM_rAN
a302:H:EXTERNEN_SEELE_vernichten:rHD_rZM_rAN
a302:H:HEILMITTEL_erfassen:rHD_rZM_rAN
a449:H:HEILMITTEL_besorgen:rHD_rZM_rBZ
a449:H:WIEDERBELEBEN:rHD_rZM_rBZ
a449:H:GEHEIMNIS_AUFKLÄREN:rHD_rPP
a449:H:Heiraten:N
a449:H:Ende:N


zyx_cr_lbe_rus_34
-----------------
a302B Life Dependet on a Sword
-----------------
a302B:H:Die_SCHÖNE_erfassen:N
a302B:h:Sich_auf_Eindringlinge_einlassen:N
a302B:f:VERLOCKUNG:N
a302B:h:Der_VERLOCKUNG_nachgehen:N
a30