# StoppWordsBereiniger

In [2]:
import os
import re
import xml.etree.ElementTree as ET
from nltk.corpus import stopwords

# Laden der Stoppwörter
stop_words = set(stopwords.words('russian'))

# Funktion zum Bereinigen des Textes von Stoppwörtern
def clean_text(text):
    if text:
        # Tokenisierung und Entfernen von Stoppwörtern
        tokens = text.lower().split()
        clean_tokens = [word for word in tokens if word not in stop_words]
        # Zurückgeben des bereinigten Textes als String
        return ' '.join(clean_tokens)
    else:
        return ''

# Funktion zum rekursiven Durchlaufen von Elementen und Bereinigen des Textes
def clean_elements(element):
    # Bereinigen des Textes innerhalb des aktuellen Elements
    if element.text:
        element.text = clean_text(element.text)
    
    # Durchlaufen der Unterelemente und Bereinigen des Textes
    for child in element:
        clean_elements(child)
        if child.tail:
            child.tail = clean_text(child.tail)

# Pfad zum Datenordner mit den XML-Dateien
data_folder = 'tei_Corpus_in'

# Pfad zum Ausgabeordner für die bereinigten Dateien
output_folder = 'tei_Corpus_abl'

# Überprüfen und Erstellen des Ausgabeordners, falls er nicht vorhanden ist
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Durchsuchen des Datenordners nach XML-Dateien
for filename in os.listdir(data_folder):
    if filename.endswith('.xml'):
        # Öffnen der XML-Datei zum Lesen
        tree = ET.parse(os.path.join(data_folder, filename))
        root = tree.getroot()
        
        # Namespace-Präfix und -URI
        #ns = {'tei': 'http://www.tei-c.org/ns/1.0'}
        
        # Durchlaufen der <tei:text>-Elemente und Bereinigen des Textes
        for text_element in root.findall('.//text'):
            clean_elements(text_element)
        
        # Speichern des geänderten XML-Baums in der Ausgabedatei
        output_filename = '' + filename
        tree.write(os.path.join(output_folder, output_filename), encoding="utf-8", xml_declaration=False)

        print(f'Datei "{filename}" wurde bereinigt und als "{output_filename}" gespeichert.')

Datei "zyx_cr_agx_rus_1.xml" wurde bereinigt und als "zyx_cr_agx_rus_1.xml" gespeichert.
Datei "zyx_cr_agx_rus_10.xml" wurde bereinigt und als "zyx_cr_agx_rus_10.xml" gespeichert.
Datei "zyx_cr_agx_rus_11.xml" wurde bereinigt und als "zyx_cr_agx_rus_11.xml" gespeichert.
Datei "zyx_cr_agx_rus_12.xml" wurde bereinigt und als "zyx_cr_agx_rus_12.xml" gespeichert.
Datei "zyx_cr_agx_rus_13.xml" wurde bereinigt und als "zyx_cr_agx_rus_13.xml" gespeichert.
Datei "zyx_cr_agx_rus_14.xml" wurde bereinigt und als "zyx_cr_agx_rus_14.xml" gespeichert.
Datei "zyx_cr_agx_rus_15.xml" wurde bereinigt und als "zyx_cr_agx_rus_15.xml" gespeichert.
Datei "zyx_cr_agx_rus_16.xml" wurde bereinigt und als "zyx_cr_agx_rus_16.xml" gespeichert.
Datei "zyx_cr_agx_rus_17.xml" wurde bereinigt und als "zyx_cr_agx_rus_17.xml" gespeichert.
Datei "zyx_cr_agx_rus_18.xml" wurde bereinigt und als "zyx_cr_agx_rus_18.xml" gespeichert.
Datei "zyx_cr_agx_rus_19.xml" wurde bereinigt und als "zyx_cr_agx_rus_19.xml" gespeichert.
D

Datei "zyx_cr_ava_rus_130.xml" wurde bereinigt und als "zyx_cr_ava_rus_130.xml" gespeichert.
Datei "zyx_cr_ava_rus_131.xml" wurde bereinigt und als "zyx_cr_ava_rus_131.xml" gespeichert.
Datei "zyx_cr_ava_rus_132.xml" wurde bereinigt und als "zyx_cr_ava_rus_132.xml" gespeichert.
Datei "zyx_cr_ava_rus_133.xml" wurde bereinigt und als "zyx_cr_ava_rus_133.xml" gespeichert.
Datei "zyx_cr_ava_rus_134.xml" wurde bereinigt und als "zyx_cr_ava_rus_134.xml" gespeichert.
Datei "zyx_cr_ava_rus_135.xml" wurde bereinigt und als "zyx_cr_ava_rus_135.xml" gespeichert.
Datei "zyx_cr_ava_rus_136.xml" wurde bereinigt und als "zyx_cr_ava_rus_136.xml" gespeichert.
Datei "zyx_cr_ava_rus_137.xml" wurde bereinigt und als "zyx_cr_ava_rus_137.xml" gespeichert.
Datei "zyx_cr_ava_rus_138.xml" wurde bereinigt und als "zyx_cr_ava_rus_138.xml" gespeichert.
Datei "zyx_cr_ava_rus_139.xml" wurde bereinigt und als "zyx_cr_ava_rus_139.xml" gespeichert.
Datei "zyx_cr_ava_rus_14.xml" wurde bereinigt und als "zyx_cr_ava_rus_

Datei "zyx_cr_ava_rus_51.xml" wurde bereinigt und als "zyx_cr_ava_rus_51.xml" gespeichert.
Datei "zyx_cr_ava_rus_52.xml" wurde bereinigt und als "zyx_cr_ava_rus_52.xml" gespeichert.
Datei "zyx_cr_ava_rus_53.xml" wurde bereinigt und als "zyx_cr_ava_rus_53.xml" gespeichert.
Datei "zyx_cr_ava_rus_54.xml" wurde bereinigt und als "zyx_cr_ava_rus_54.xml" gespeichert.
Datei "zyx_cr_ava_rus_55.xml" wurde bereinigt und als "zyx_cr_ava_rus_55.xml" gespeichert.
Datei "zyx_cr_ava_rus_56.xml" wurde bereinigt und als "zyx_cr_ava_rus_56.xml" gespeichert.
Datei "zyx_cr_ava_rus_57.xml" wurde bereinigt und als "zyx_cr_ava_rus_57.xml" gespeichert.
Datei "zyx_cr_ava_rus_58.xml" wurde bereinigt und als "zyx_cr_ava_rus_58.xml" gespeichert.
Datei "zyx_cr_ava_rus_59.xml" wurde bereinigt und als "zyx_cr_ava_rus_59.xml" gespeichert.
Datei "zyx_cr_ava_rus_6.xml" wurde bereinigt und als "zyx_cr_ava_rus_6.xml" gespeichert.
Datei "zyx_cr_ava_rus_60.xml" wurde bereinigt und als "zyx_cr_ava_rus_60.xml" gespeichert.
D

Datei "zyx_cr_dar_rus_159.xml" wurde bereinigt und als "zyx_cr_dar_rus_159.xml" gespeichert.
Datei "zyx_cr_dar_rus_16.xml" wurde bereinigt und als "zyx_cr_dar_rus_16.xml" gespeichert.
Datei "zyx_cr_dar_rus_160.xml" wurde bereinigt und als "zyx_cr_dar_rus_160.xml" gespeichert.
Datei "zyx_cr_dar_rus_161.xml" wurde bereinigt und als "zyx_cr_dar_rus_161.xml" gespeichert.
Datei "zyx_cr_dar_rus_162.xml" wurde bereinigt und als "zyx_cr_dar_rus_162.xml" gespeichert.
Datei "zyx_cr_dar_rus_163.xml" wurde bereinigt und als "zyx_cr_dar_rus_163.xml" gespeichert.
Datei "zyx_cr_dar_rus_164.xml" wurde bereinigt und als "zyx_cr_dar_rus_164.xml" gespeichert.
Datei "zyx_cr_dar_rus_165.xml" wurde bereinigt und als "zyx_cr_dar_rus_165.xml" gespeichert.
Datei "zyx_cr_dar_rus_166.xml" wurde bereinigt und als "zyx_cr_dar_rus_166.xml" gespeichert.
Datei "zyx_cr_dar_rus_167.xml" wurde bereinigt und als "zyx_cr_dar_rus_167.xml" gespeichert.
Datei "zyx_cr_dar_rus_168.xml" wurde bereinigt und als "zyx_cr_dar_rus_1

Datei "zyx_cr_ddo_rus_18.xml" wurde bereinigt und als "zyx_cr_ddo_rus_18.xml" gespeichert.
Datei "zyx_cr_ddo_rus_19.xml" wurde bereinigt und als "zyx_cr_ddo_rus_19.xml" gespeichert.
Datei "zyx_cr_ddo_rus_2.xml" wurde bereinigt und als "zyx_cr_ddo_rus_2.xml" gespeichert.
Datei "zyx_cr_ddo_rus_20.xml" wurde bereinigt und als "zyx_cr_ddo_rus_20.xml" gespeichert.
Datei "zyx_cr_ddo_rus_21.xml" wurde bereinigt und als "zyx_cr_ddo_rus_21.xml" gespeichert.
Datei "zyx_cr_ddo_rus_22.xml" wurde bereinigt und als "zyx_cr_ddo_rus_22.xml" gespeichert.
Datei "zyx_cr_ddo_rus_23.xml" wurde bereinigt und als "zyx_cr_ddo_rus_23.xml" gespeichert.
Datei "zyx_cr_ddo_rus_24.xml" wurde bereinigt und als "zyx_cr_ddo_rus_24.xml" gespeichert.
Datei "zyx_cr_ddo_rus_25.xml" wurde bereinigt und als "zyx_cr_ddo_rus_25.xml" gespeichert.
Datei "zyx_cr_ddo_rus_26.xml" wurde bereinigt und als "zyx_cr_ddo_rus_26.xml" gespeichert.
Datei "zyx_cr_ddo_rus_27.xml" wurde bereinigt und als "zyx_cr_ddo_rus_27.xml" gespeichert.
D

Datei "zyx_cr_khv_rus_135.xml" wurde bereinigt und als "zyx_cr_khv_rus_135.xml" gespeichert.
Datei "zyx_cr_khv_rus_136.xml" wurde bereinigt und als "zyx_cr_khv_rus_136.xml" gespeichert.
Datei "zyx_cr_khv_rus_137.xml" wurde bereinigt und als "zyx_cr_khv_rus_137.xml" gespeichert.
Datei "zyx_cr_khv_rus_138.xml" wurde bereinigt und als "zyx_cr_khv_rus_138.xml" gespeichert.
Datei "zyx_cr_khv_rus_14.xml" wurde bereinigt und als "zyx_cr_khv_rus_14.xml" gespeichert.
Datei "zyx_cr_khv_rus_15.xml" wurde bereinigt und als "zyx_cr_khv_rus_15.xml" gespeichert.
Datei "zyx_cr_khv_rus_16.xml" wurde bereinigt und als "zyx_cr_khv_rus_16.xml" gespeichert.
Datei "zyx_cr_khv_rus_17.xml" wurde bereinigt und als "zyx_cr_khv_rus_17.xml" gespeichert.
Datei "zyx_cr_khv_rus_18.xml" wurde bereinigt und als "zyx_cr_khv_rus_18.xml" gespeichert.
Datei "zyx_cr_khv_rus_19.xml" wurde bereinigt und als "zyx_cr_khv_rus_19.xml" gespeichert.
Datei "zyx_cr_khv_rus_2.xml" wurde bereinigt und als "zyx_cr_khv_rus_2.xml" gespei

Datei "zyx_cr_kum_rus_22.xml" wurde bereinigt und als "zyx_cr_kum_rus_22.xml" gespeichert.
Datei "zyx_cr_kum_rus_23.xml" wurde bereinigt und als "zyx_cr_kum_rus_23.xml" gespeichert.
Datei "zyx_cr_kum_rus_24.xml" wurde bereinigt und als "zyx_cr_kum_rus_24.xml" gespeichert.
Datei "zyx_cr_kum_rus_25.xml" wurde bereinigt und als "zyx_cr_kum_rus_25.xml" gespeichert.
Datei "zyx_cr_kum_rus_26.xml" wurde bereinigt und als "zyx_cr_kum_rus_26.xml" gespeichert.
Datei "zyx_cr_kum_rus_27.xml" wurde bereinigt und als "zyx_cr_kum_rus_27.xml" gespeichert.
Datei "zyx_cr_kum_rus_28.xml" wurde bereinigt und als "zyx_cr_kum_rus_28.xml" gespeichert.
Datei "zyx_cr_kum_rus_29.xml" wurde bereinigt und als "zyx_cr_kum_rus_29.xml" gespeichert.
Datei "zyx_cr_kum_rus_3.xml" wurde bereinigt und als "zyx_cr_kum_rus_3.xml" gespeichert.
Datei "zyx_cr_kum_rus_30.xml" wurde bereinigt und als "zyx_cr_kum_rus_30.xml" gespeichert.
Datei "zyx_cr_kum_rus_31.xml" wurde bereinigt und als "zyx_cr_kum_rus_31.xml" gespeichert.
D

Datei "zyx_cr_lez_rus_30.xml" wurde bereinigt und als "zyx_cr_lez_rus_30.xml" gespeichert.
Datei "zyx_cr_lez_rus_31.xml" wurde bereinigt und als "zyx_cr_lez_rus_31.xml" gespeichert.
Datei "zyx_cr_lez_rus_32.xml" wurde bereinigt und als "zyx_cr_lez_rus_32.xml" gespeichert.
Datei "zyx_cr_lez_rus_33.xml" wurde bereinigt und als "zyx_cr_lez_rus_33.xml" gespeichert.
Datei "zyx_cr_lez_rus_34.xml" wurde bereinigt und als "zyx_cr_lez_rus_34.xml" gespeichert.
Datei "zyx_cr_lez_rus_35.xml" wurde bereinigt und als "zyx_cr_lez_rus_35.xml" gespeichert.
Datei "zyx_cr_lez_rus_36.xml" wurde bereinigt und als "zyx_cr_lez_rus_36.xml" gespeichert.
Datei "zyx_cr_lez_rus_37.xml" wurde bereinigt und als "zyx_cr_lez_rus_37.xml" gespeichert.
Datei "zyx_cr_lez_rus_38.xml" wurde bereinigt und als "zyx_cr_lez_rus_38.xml" gespeichert.
Datei "zyx_cr_lez_rus_39.xml" wurde bereinigt und als "zyx_cr_lez_rus_39.xml" gespeichert.
Datei "zyx_cr_lez_rus_4.xml" wurde bereinigt und als "zyx_cr_lez_rus_4.xml" gespeichert.
D

Datei "zyx_cr_tab_rus_26.xml" wurde bereinigt und als "zyx_cr_tab_rus_26.xml" gespeichert.
Datei "zyx_cr_tab_rus_27.xml" wurde bereinigt und als "zyx_cr_tab_rus_27.xml" gespeichert.
Datei "zyx_cr_tab_rus_28.xml" wurde bereinigt und als "zyx_cr_tab_rus_28.xml" gespeichert.
Datei "zyx_cr_tab_rus_29.xml" wurde bereinigt und als "zyx_cr_tab_rus_29.xml" gespeichert.
Datei "zyx_cr_tab_rus_3.xml" wurde bereinigt und als "zyx_cr_tab_rus_3.xml" gespeichert.
Datei "zyx_cr_tab_rus_30.xml" wurde bereinigt und als "zyx_cr_tab_rus_30.xml" gespeichert.
Datei "zyx_cr_tab_rus_31.xml" wurde bereinigt und als "zyx_cr_tab_rus_31.xml" gespeichert.
Datei "zyx_cr_tab_rus_32.xml" wurde bereinigt und als "zyx_cr_tab_rus_32.xml" gespeichert.
Datei "zyx_cr_tab_rus_33.xml" wurde bereinigt und als "zyx_cr_tab_rus_33.xml" gespeichert.
Datei "zyx_cr_tab_rus_34.xml" wurde bereinigt und als "zyx_cr_tab_rus_34.xml" gespeichert.
Datei "zyx_cr_tab_rus_35.xml" wurde bereinigt und als "zyx_cr_tab_rus_35.xml" gespeichert.
D