In [10]:
import re
import pandas as pd

def extract_entries(text):
    entries = []

    # Aktualisiertes Regex-Muster
    entry_pattern = re.compile(
        r'(\d+)\s*(.+?):\s*(.*?)\.\s*([^:\n]+):\s*([^\d,]+),?\s*(\d{4})\.'
    )
#Erklärung der Logik:
#(\d+): Erfasst die Eintragsnummer.
#([\w\s,]+?): Erfasst alles bis zum ersten Doppelpunkt als Autor.
#Danach:
#\s*(.*?)\.: Erfasst den Titel bis zum ersten Punkt.
#([^:\n]+):: Erfasst den Standort oder den Verleger bis zum nächsten Doppelpunkt.
#([^\d,]+): Erfasst zusätzliche Details.
#(\d{4})\.: Erfasst das Jahr.
    
    # Text in Einträge aufteilen basierend auf dem Muster Nummer + Leerzeichen
    sections = re.split(r'\n{2,}|\n(?=\d{1,3} )', text)
    
    for section in sections:
        # Suche nach dem Eintrag-Muster in jedem Abschnitt
        match = entry_pattern.search(section)
        if match:
            author = match.group(2).strip()

            # Korrektur: Entferne offensichtliche Fehler bei Autoren
            if author.lower() in ["in", "inhalt", "berlin", "die arbeit", "n"]:
                continue  # Überspringe fehlerhafte Einträge

            entry = {
                'Author': author,
                'Title': match.group(3).strip(),
                'Location and Publisher': f"{match.group(4).strip()}: {match.group(5).strip()}",
                'Year': match.group(6).strip()
            }
            entries.append(entry)
    
    return entries

# Lese die hochgeladene Datei
with open('gesamtr.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# Extrahiere die Einträge
entries = extract_entries(text)

# In ein DataFrame umwandeln und in eine Excel-Datei speichern
df = pd.DataFrame(entries)
output_filename = 'ergebnisse.xlsx'
df.to_excel(output_filename, index=False)

print(f"Die bereinigten Einträge wurden erfolgreich in '{output_filename}' gespeichert.")


Die bereinigten Einträge wurden erfolgreich in 'ergebnisse.xlsx' gespeichert.
