In [9]:
import os
import pdfplumber
from collections import defaultdict

def detect_columns(text_blocks, page_width):
    """Gruppiere Textblöcke basierend auf ihrer horizontalen Position (Spalten)."""
    columns = defaultdict(list)
    threshold = page_width * 0.15  # Threshold, um Spalten zu erkennen

    for block in text_blocks:
        x_center = (block['x0'] + block['x1']) / 2

        assigned = False
        for col_x in columns:
            if abs(col_x - x_center) < threshold:
                columns[col_x].append(block)
                assigned = True
                break
        
        if not assigned:
            columns[x_center].append(block)

    return columns

def extract_text_from_column(column_blocks):
    """Sortiere die Blöcke innerhalb einer Spalte und extrahiere den Text."""
    sorted_blocks = sorted(column_blocks, key=lambda block: (block['top'], block['x0']))
    return ' '.join([block['text'] for block in sorted_blocks])

def extract_text_from_page_g1(page):
    """Extrahiere den Text aus einer Seite für PDFs in g1, behalte dabei das Layout."""
    text_blocks = page.extract_words()
    if not text_blocks:
        return ""

    columns = detect_columns(text_blocks, page.width)
    full_text = []

    for col_x, blocks in sorted(columns.items()):
        column_text = extract_text_from_column(blocks)
        full_text.append(column_text)

    return "\n\n".join(full_text)

def extract_text_from_page_g2(page):
    """Alternative Methode zur Textextraktion für PDFs in g2."""
    # Beispielhafte einfache Extraktion, die besser auf das Layout abgestimmt ist
    # Dies kann durch Methoden wie pdfminer.six, die textorientierter sind, ergänzt werden.
    text_blocks = page.extract_words()
    if not text_blocks:
        return ""
    
    full_text = [block['text'] for block in sorted(text_blocks, key=lambda block: (block['top'], block['x0']))]
    
    return ' '.join(full_text)

def extract_text_from_pdfs(pdf_folder_path, extraction_function):
    documents = []

    for filename in os.listdir(pdf_folder_path):
        if filename.endswith(".pdf"):
            pdf_path = os.path.join(pdf_folder_path, filename)

            with pdfplumber.open(pdf_path) as pdf:
                full_text = []

                for page in pdf.pages:
                    page_text = extraction_function(page)
                    full_text.append(page_text)

                documents.append("\n\n".join(full_text))

    return documents

# Pfade zu den PDF-Ordnern
pdf_folder_path_g1 = os.path.join('data', 'pdf', 'g1')
pdf_folder_path_g2 = os.path.join('data', 'pdf', 'g2')



# Extrahiere die Texte aus den PDFs in g1
documents_g1 = extract_text_from_pdfs(pdf_folder_path_g1, extract_text_from_page_g1)

# Extrahiere die Texte aus den PDFs in g2
documents_g2 = extract_text_from_pdfs(pdf_folder_path_g2, extract_text_from_page_g2)

# Kombiniere alle Dokumente
documents = documents_g1 + documents_g2

# Beispielhafte Ausgabe des ersten Dokuments
# print(documents[2] if documents else "Keine Dokumente gefunden")
for i, doc in enumerate(documents):
    print(f"Document {i}:\n")
    print(doc)
    print("\n" + "="*50 + "\n")

Document 0:

Der blaue Altglascontainer. Das kommt hinein Saubere Flaschen und Deckelgläser nach den Farben Weiß, Grün und Braun getrennt; blaues oder buntes Glas bitte zum Grünglas geben.  Glasfl aschen  Konservengläser Das kommt nicht hinein  Flachglas wie Spiegel und Scheiben (Restmüll oder  Trinkgläser und Blumenvasen (Restmüll)  Porzellan und Keramik (Restmüll)  Glühbirnen (Restmüll), Energiesparlampen (Schadstoffmobil oder Wertstoffhöfe)  Stark verschmutzte Gläser (Restmüll) Standort: auf öffentlichen

immer Sperrmüll) Plätzen

Was kommt wo hinein? FES Frankfurter Entsorgungs- Abfall richtig trennen – und Service GmbH Weidenbornstraße 40 60389 Frankfurt am Main Servicetelefon 0800 2008007-0 Servicetelefax 069 212-31323 services@fes-frankfurt.de www.fes-frankfurt.de FES-Servicecenter Liebfrauenberg 52–54 (Ecke Töngesgasse/Schärfengässchen) 60313 Frankfurt am Main Mo. – Fr. 10.00 – 18.00 Uhr Sa. 10.00 – 16.00 Uhr rgungsfachbetrie Entso b rtschafte.V.-EdDn oE El -öK tsn 0 gla

In [10]:
import os

def load_md_files(md_folder_path):
    """
    Lädt alle .md-Dateien aus einem angegebenen Ordner und gibt sie als Liste von Dokumenten zurück.

    :param md_folder_path: Der Pfad zum Ordner, der die .md-Dateien enthält.
    :return: Eine Liste mit dem Inhalt aller .md-Dateien.
    """
    documents = []

    # Durchlaufe alle Dateien im angegebenen Ordner
    for filename in os.listdir(md_folder_path):
        # Überprüfen, ob die Datei eine .md-Datei ist
        if filename.endswith('.md'):
            # Vollständigen Pfad zur Datei erstellen
            file_path = os.path.join(md_folder_path, filename)
            # Datei öffnen und Inhalt lesen
            with open(file_path, 'r', encoding='utf-8') as file:
                # Inhalt zur Dokumentenliste hinzufügen
                documents.append(file.read())

    return documents

# Beispiel: Die Funktion aufrufen
md_folder_path = os.path.join('data', 'md')
documents_md = load_md_files(md_folder_path)

# print(documents_md[0] if documents else "Keine Dokumente gefunden")
# documents = documents + documents_md
documents =  documents_md

# print(documents[7] if documents else "Keine Dokumente gefunden")

for i, doc in enumerate(documents_md):
    print(f"Document {i}:\n")
    print(doc)
    print("\n" + "="*50 + "\n")

Document 0:

Batterien und Akkumulatoren
… gehören nicht in den Hausmüll, denn sie können Brände
auslösen und gesundheits- und umweltgefährdende Stoffe
enthalten, die Mensch und Umwelt belasten – Ressourcen
und Rohstoffe gehen auch verloren.
Sammelboxen und -behältnisse
• Überall im Handel, wo neue Batterien verkauft
werden (z.B. Supermärkte, Drogeriemärkte,
Warenhäuser, Elektro-Fachgeschäfte,
Baumärkte, Tankstellen, Kioske, …) – oftmals
im Eingangs- oder Ausgangsbereich,
beispielsweise im Bereich der Einpacktische.
• kommunale Sammelstellen (z. B. Wertstoffhöfe, Schadstoffmobile)
• freiwillige Sammelstellen (z. B. Unternehmen, Behörden, Hochschulen)
Wenn möglich und nicht fest verbaut, Batterien bitte aus Elektrogeräten
vor der Entsorgung entnehmen und in die Batteriesammlung geben.


Document 1:

Getränkekartons in die Gelbe Tonne.
Gelbe Tonne und gelber Sack
Alle leeren Verpackungen außer Glas und
Papier/Pappe, vor allem aus
• Kunststoff
• Metallen wie Aluminium und Weißblech
• Verb

In [12]:
import re

def clean_text(documents):
    """Durchläuft die Liste der Dokumente und bereinigt die Texte."""
    cleaned_documents = []
    
    # Liste unerwünschter Zeichen oder Muster
    unwanted_patterns = [
        r"",     # Entferne das Symbol 
        r"",     # Beispiel für ein weiteres unerwünschtes Symbol
        r"(\b\w+\s*-\s*\w+\b)",  # Entferne Worte mit unvollständigen Endungen (z.B. "Glasfl aschen")
        r"\n+",   # Entferne überflüssige Zeilenumbrüche
        r"\s{2,}",# Entferne überflüssige Leerzeichen
        r"\s*:\s*",  # Entferne überflüssige Doppelpunkte
        r"\b\w{1,2}\b",  # Entferne isolierte kurze Wörter (z.B. "fi" in "finden")
        r"[^A-Za-z0-9äöüÄÖÜß.,;:!?()\-'\s]"  # Entferne nicht-alphanumerische Zeichen
    ]

    # Regex-Muster kombinieren
    combined_pattern = re.compile("|".join(unwanted_patterns))

    for document in documents:
        # Entferne unerwünschte Zeichen und Muster
        cleaned_text = combined_pattern.sub(" ", document)
        # Entferne mehrfach aufeinanderfolgende Leerzeichen, um den Text zu bereinigen
        cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
        cleaned_documents.append(cleaned_text)
    
    return cleaned_documents

# Verwende die bestehende documents-Liste aus dem vorherigen Skript
cleaned_documents = clean_text(documents)

# Beispielhafte Ausgabe eines bereinigten Dokuments
#print(cleaned_documents[9])
for i, doc in enumerate(cleaned_documents):
    print(f"Document {i}:\n")
    print(doc)
    print("\n" + "="*50 + "\n")
#print(cleaned_documents[7] if documents else "Keine Dokumente gefunden")
    

Document 0:

Batterien und Akkumulatoren gehören nicht den Hausmüll, denn sie können Brände auslösen und umweltgefährdende Stoffe enthalten, die Mensch und Umwelt belasten Ressourcen und Rohstoffe gehen auch verloren. Sammelboxen Überall Handel, neue Batterien verkauft werden ( . . Supermärkte, Drogeriemärkte, Warenhäuser, , Baumärkte, Tankstellen, Kioske, ) oftmals Ausgangsbereich, beispielsweise Bereich der Einpacktische. kommunale Sammelstellen ( . . Wertstoffhöfe, Schadstoffmobile) freiwillige Sammelstellen ( . . Unternehmen, Behörden, Hochschulen) Wenn möglich und nicht fest verbaut, Batterien bitte aus Elektrogeräten vor der Entsorgung entnehmen und die Batteriesammlung geben.


Document 1:

Getränkekartons die Gelbe Tonne. Gelbe Tonne und gelber Sack Alle leeren Verpackungen außer Glas und Papier Pappe, vor allem aus Kunststoff Metallen wie Aluminium und Weißblech Verbundmaterialien, Getränkekartons, Getränkebecher, Tipps und Tricks bei Verpackungen Materialien möglichst trennen

In [5]:
import re
import spacy

# Lade das deutsche spaCy-Modell
nlp = spacy.load('de_core_news_sm')

def preprocess_text_with_advanced_cleaning(documents):
    """Bereinigt die Dokumente, entfernt unnötige Stopwörter und normalisiert den Text."""
    custom_stopwords = nlp.Defaults.stop_words.difference({'nicht', 'kein', 'wichtig', 'ohne', 'aus', 'zum', 'keinen', 'Fall', 'außer'})

    preprocessed_documents = []

    for document in documents:
        text = document.lower()
        text = re.sub(r'\b(?:[\w\-]+\.)+[\w]{2,4}(?:/[\w\-.?%&=]*)?\b', '', text)
        text = re.sub(r'\b[\w\.\-]+@[\w\.\-]+\.\w{2,4}\b', '', text)
        text = re.sub(r'\b(?:www|servicetelefon|servicetelefax|services|frankfurt|main|weidenbornstraße|liebfrauenberg)\b', '', text)
        text = re.sub(r'[^a-zäöüß\s]', '', text)

        doc = nlp(text)
        filtered_tokens = [token.text for token in doc if token.text not in custom_stopwords and len(token.text) > 2]

        # Entferne unzusammenhängende Zeichenfolgen und extrem kurze Wörter
        text = ' '.join(filtered_tokens)
        text = re.sub(r'\b\w{1,3}\b', '', text)

        # Entferne mehrfach aufeinanderfolgende gleiche Wörter
        text = re.sub(r'\b(\w+)\s+\1\b', r'\1', text)

        # Entferne weiterhin sinnlose Textfragmente
        text = re.sub(r'\b[a-zäöüß]{2,3}\b\s+\b[a-zäöüß]{2,3}\b', '', text)

        preprocessed_documents.append(text.strip())

    return preprocessed_documents

# Bereinige die Dokumente weiter
preprocessed_documents = preprocess_text_with_advanced_cleaning(cleaned_documents)

# Beispielhafte Ausgabe eines bereinigten Dokuments
#print(preprocessed_documents[9])
for i, doc in enumerate(preprocessed_documents):
    print(f"Document {i}:\n")
    print(doc)
    print("\n" + "="*50 + "\n")

Document 0:

batterien akkumulatoren gehören nicht hausmüll brände auslösen umweltgefährdende stoffe enthalten mensch umwelt belasten ressourcen rohstoffe verloren sammelboxen überall handel batterien verkauft     supermärkte drogeriemärkte warenhäuser baumärkte tankstellen kioske oftmals ausgangsbereich beispielsweise bereich einpacktische kommunale sammelstellen     wertstoffhöfe schadstoffmobile freiwillige sammelstellen     unternehmen behörden hochschulen nicht fest verbaut batterien bitte  elektrogeräten entsorgung entnehmen batteriesammlung geben


Document 1:

getränkekartons gelbe tonne gelbe tonne gelber sack leeren verpackungen außer glas papier pappe  kunststoff metallen aluminium weißblech verbundmaterialien getränkekartons getränkebecher tipps tricks verpackungen materialien möglichst trennen nicht ineinander stopfen recycelt bitte deckel joghurtbecher kunststofftüten  pappkarton herausnehmen  umwelt dankt


Document 2:

elektronikaltgeräte aufgrund hohen wertstoffgehalte

In [7]:
import spacy

# Lade das deutsche Sprachmodell
nlp = spacy.load('de_core_news_sm')

# Wörterbuch zur Korrektur von Lemmata und POS-Tags
manual_corrections = {
    "deckelgläser": ("NOUN", "Deckelglas"),
    "konservengläser": ("NOUN", "Konservenglas"),
    "keramik": ("NOUN", "Keramik"),
    "glühbirnen": ("NOUN", "Glühbirne"),
    "energiesparlampen": ("NOUN", "Energiesparlampe"),
    "weiß": ("ADJ", "weiß"),  # Spezifische Regel für das Adjektiv "weiß"
    "lacke": ("NOUN", "Lack"),  # Korrektur für Lacke als Nomen
    "wertstoffhöfe": ("NOUN", "Wertstoffhof"),  # Korrektur für Wertstoffhöfe
}

# Definiere benutzerdefinierte Stopwörter, die nicht entfernt werden sollen
custom_stopwords = {'nicht', 'kein', 'wichtig', 'ohne', 'aus', 'zum', 'keinen', 'Fall', 'außer'}

def correct_token(token):
    # Falls eine manuelle Korrektur vorliegt, diese anwenden
    if token.text.lower() in manual_corrections:
        return manual_corrections[token.text.lower()]
    else:
        lemma = token.lemma_
        pos = token.pos_
        return pos, lemma

def process_document(doc):
    spacy_doc = nlp(doc)
    
    processed_tokens = []
    for token in spacy_doc:
        # Korrekturen für häufige Fehler und Lemmatisierung
        pos, lemma = correct_token(token)

        # Behalte das Token, wenn es ein relevantes POS-Tag hat und nicht in den Standard-Stopwörtern ist
        # oder es sich in den benutzerdefinierten Stopwörtern befindet
        if pos in {"NOUN", "VERB", "ADJ", "PART", "ADP"}:
            if token.text.lower() not in nlp.Defaults.stop_words or token.text.lower() in custom_stopwords:
                processed_tokens.append((token.text, pos, lemma))
    
    return processed_tokens

def process_documents(documents):
    return [process_document(doc) for doc in documents]

# Beispielnutzung:
processed_documents = process_documents(preprocessed_documents)

#print(processed_documents[9])

# Ausgabe des Ergebnisses für alle Dokumente
for i, doc in enumerate(processed_documents):
    print(f"Document {i+1}:")
    for token_info in doc:
        print(token_info)
    print("\n" + "="*50 + "\n")  # Trennung zwischen den Dokumenten

Document 1:
('batterien', 'NOUN', 'batterien')
('akkumulatoren', 'NOUN', 'Akkumulator')
('gehören', 'VERB', 'gehören')
('nicht', 'PART', 'nicht')
('brände', 'ADJ', 'bränd')
('auslösen', 'VERB', 'auslösen')
('umweltgefährdende', 'ADJ', 'umweltgefährdend')
('stoffe', 'NOUN', 'Stoff')
('enthalten', 'ADJ', 'enthalt')
('mensch', 'NOUN', 'Mensch')
('umwelt', 'NOUN', 'Umwelt')
('belasten', 'VERB', 'belasten')
('ressourcen', 'NOUN', 'Ressource')
('rohstoffe', 'NOUN', 'Rohstoff')
('sammelboxen', 'VERB', 'sammelboxen')
('handel', 'NOUN', 'Handel')
('batterien', 'NOUN', 'batterien')
('verkauft', 'VERB', 'verkaufen')
('supermärkte', 'ADJ', 'supermärkt')
('drogeriemärkte', 'NOUN', 'drogeriemärkte')
('warenhäuser', 'ADJ', 'Warenhäuser')
('baumärkte', 'NOUN', 'baumärkte')
('tankstellen', 'VERB', 'Tankstelle')
('einpacktische', 'ADJ', 'einpacktisch')
('kommunale', 'ADJ', 'kommunal')
('sammelstellen', 'NOUN', 'Sammelstellen')
('wertstoffhöfe', 'NOUN', 'Wertstoffhof')
('schadstoffmobile', 'NOUN', 'Schad

In [None]:
# Ausgabe des Ergebnisses für alle Dokumente
for i, doc in enumerate(processed_documents):
    print(f"Original Document {i+1}: {doc}")
    for token_info in processed_documents[i]:
        print(token_info)
    print("\n" + "-"*50 + "\n")  # Trennung zwischen den Dokumenten

In [None]:
for i, doc in enumerate(processed_documents):
    print(f"Document {i}:\n")
    print(doc)
    print("\n" + "="*50 + "\n")

In [8]:
import os
import pickle

def save_processed_documents(processed_documents, filename="processed_documents.pkl"):
    # Sicherstellen, dass der Ordner "data/pickle" existiert
    os.makedirs(os.path.dirname(filename), exist_ok=True)
    
    # Speichern der Datei im angegebenen Pfad
    with open(filename, "wb") as file:
        pickle.dump(processed_documents, file)
    
    print(f"Die Datei '{filename}' wurde erfolgreich gespeichert.")

# Beispielnutzung:
save_processed_documents(processed_documents, filename="data/pickle/processed_documents.pkl")

Die Datei 'data/pickle/processed_documents.pkl' wurde erfolgreich gespeichert.
