# Python Fortgeschritten: Textverarbeitung und Regex
## Tag 5 - Notebook 31
***
In diesem Notebook wird behandelt:
- re Modul Funktionen
- Regex-Metazeichen und Character Classes
- Gruppen und Capturing
- re Funktionen (search, match, findall, sub, split)
- String-Methoden
- Häufige Patterns
- Flags
***


## 1 re Modul Funktionen

Das `re` Modul bietet umfassende Regex-Funktionalität:
- **search()**: Sucht nach erstem Match im Text
- **match()**: Sucht nur am Anfang des Textes
- **findall()**: Findet alle Matches
- **finditer()**: Iterator über alle Matches
- **sub()**: Ersetzt Matches
- **split()**: Teilt Text an Matches
- **compile()**: Kompiliert Pattern für Wiederverwendung


In [None]:
import re

# search(): Findet erstes Vorkommen
text = "Meine Telefonnummer ist 123-456-7890"
pattern = r'\d{3}-\d{3}-\d{4}'
match = re.search(pattern, text)
if match:
    print(f"search() gefunden: {match.group()}")
    print(f"Position: {match.start()}-{match.end()}")

# match(): Nur am Anfang
text2 = "123-456-7890 ist meine Nummer"
match2 = re.match(pattern, text2)
if match2:
    print(f"\nmatch() gefunden: {match2.group()}")
else:
    print("\nmatch() findet nichts (Pattern muss am Anfang stehen)")

# findall(): Alle Vorkommen
text3 = "Nummern: 123-456-7890 und 987-654-3210"
matches = re.findall(pattern, text3)
print(f"\nfindall() gefunden: {matches}")

# finditer(): Iterator über Matches
print("\nfinditer():")
for match in re.finditer(pattern, text3):
    print(f"  {match.group()} an Position {match.start()}-{match.end()}")


## 2 Regex-Metazeichen

Metazeichen haben spezielle Bedeutung in Regex:
- **.**: Beliebiges Zeichen (außer Newline)
- **^**: Anfang des Strings
- **$**: Ende des Strings
- *****: 0 oder mehr Vorkommen
- **+**: 1 oder mehr Vorkommen
- **?**: 0 oder 1 Vorkommen
- **{}**: Genau n Vorkommen `{n}`, n bis m `{n,m}`
- **[]**: Character Class (Zeichenmenge)
- **|**: Oder-Operator
- **()**: Gruppe
- **\\**: Escape-Zeichen


In [None]:
# Metazeichen-Beispiele
text = "Die Katze sitzt auf der Matte. Die Katzen spielen."

# . (beliebiges Zeichen)
matches = re.findall(r'Kat.e', text)
print(f". (beliebiges Zeichen): {matches}")

# ^ (Anfang)
match_start = re.search(r'^Die', text)
if match_start:
    print(f"^ (Anfang): '{match_start.group()}' gefunden")

# $ (Ende)
match_end = re.search(r'spielen\.$', text)
if match_end:
    print(f"$ (Ende): '{match_end.group()}' gefunden")

# * (0 oder mehr)
matches_star = re.findall(r'Katz.*', text)
print(f"* (0 oder mehr): {matches_star}")

# + (1 oder mehr)
matches_plus = re.findall(r'Kat.+', text)
print(f"+ (1 oder mehr): {matches_plus}")

# ? (0 oder 1)
matches_quest = re.findall(r'Katz.?', text)
print(f"? (0 oder 1): {matches_quest}")

# {} (genaue Anzahl)
matches_brace = re.findall(r'[a-z]{4}', text)
print(f"{{4}} (genau 4): {matches_brace[:5]}")  # Erste 5

# [] (Character Class)
matches_class = re.findall(r'[Kk]atze?', text)
print(f"[] (Character Class): {matches_class}")

# | (Oder)
matches_or = re.findall(r'Katze|Matte', text)
print(f"| (Oder): {matches_or}")


## 3 Character Classes

Character Classes sind vordefinierte Zeichenmengen:
- **\d**: Ziffer (0-9)
- **\w**: Wort-Zeichen (Buchstaben, Ziffern, _)
- **\s**: Whitespace (Leerzeichen, Tab, etc.)
- **\D**: Nicht-Ziffer
- **\W**: Nicht-Wort-Zeichen
- **\S**: Nicht-Whitespace
- **[0-9]**: Ziffern 0-9
- **[a-z]**: Kleinbuchstaben
- **[A-Z]**: Großbuchstaben
- **[^...]**: Negation (alles außer...)


In [None]:
text = "Ich habe 5 Äpfel und 3 Orangen. Preis: 12.50€"

# \d (Ziffern)
numbers = re.findall(r'\d+', text)
print(f"\\d (Ziffern): {numbers}")

# \w (Wort-Zeichen)
words = re.findall(r'\w+', text)
print(f"\\w (Wort-Zeichen): {words[:5]}")  # Erste 5

# \s (Whitespace)
spaces = re.findall(r'\s', text)
print(f"\\s (Whitespace): {len(spaces)} Leerzeichen gefunden")

# \D (Nicht-Ziffern)
non_digits = re.findall(r'\D+', text)
print(f"\\D (Nicht-Ziffern): {non_digits[:3]}")  # Erste 3

# [0-9] (explizite Ziffern)
explicit_digits = re.findall(r'[0-9]+', text)
print(f"[0-9] (explizite Ziffern): {explicit_digits}")

# [a-z] (Kleinbuchstaben)
lowercase = re.findall(r'[a-z]+', text)
print(f"[a-z] (Kleinbuchstaben): {lowercase[:5]}")  # Erste 5

# [^0-9] (Negation: alles außer Ziffern)
non_numbers = re.findall(r'[^0-9\s]+', text)
print(f"[^0-9] (Negation): {non_numbers[:5]}")  # Erste 5



## 4 Gruppen und Capturing

Gruppen ermöglichen das Extrahieren von Teilen eines Matches:
- **()**: Capturing Group (wird gespeichert)
- **(?:...)**: Non-capturing Group (wird nicht gespeichert)
- **\1, \2, ...**: Backreferences zu Gruppen
- **Named Groups**: `(?P<name>...)` für benannte Gruppen


In [None]:
# Capturing Groups
text = "Datum: 2025-01-15, Zeit: 14:30:00"

# Gruppen extrahieren
pattern = r'(\d{4})-(\d{2})-(\d{2})'
match = re.search(pattern, text)
if match:
    print(f"Vollständiger Match: {match.group(0)}")
    print(f"Gruppe 1 (Jahr): {match.group(1)}")
    print(f"Gruppe 2 (Monat): {match.group(2)}")
    print(f"Gruppe 3 (Tag): {match.group(3)}")
    print(f"Alle Gruppen: {match.groups()}")

# Named Groups
pattern_named = r'(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})'
match_named = re.search(pattern_named, text)
if match_named:
    print(f"\nNamed Groups:")
    print(f"Jahr: {match_named.group('year')}")
    print(f"Monat: {match_named.group('month')}")
    print(f"Tag: {match_named.group('day')}")

# Non-capturing Groups
pattern_noncap = r'(?:Datum|Date): (\d{4}-\d{2}-\d{2})'
match_noncap = re.search(pattern_noncap, text)
if match_noncap:
    print(f"\nNon-capturing Group: {match_noncap.group(1)}")

# Backreferences
text_backref = "Der Hund jagt den Hund"
pattern_backref = r'(\w+) jagt \1'
match_backref = re.search(pattern_backref, text_backref)
if match_backref:
    print(f"\nBackreference: {match_backref.group()}")


## 5 re Funktionen: sub() und split()

- **sub()**: Ersetzt Matches durch Text
- **subn()**: Wie sub(), gibt auch Anzahl der Ersetzungen zurück
- **split()**: Teilt Text an Matches


In [None]:
# sub(): Ersetzen
text = "Python ist toll. Python ist einfach. Python ist schnell."
replaced = re.sub(r'Python', 'Java', text)
print(f"sub():\n{replaced}")

# sub() mit Funktion
def replace_func(match):
    return match.group(0).upper()

replaced_func = re.sub(r'Python', replace_func, text)
print(f"\nsub() mit Funktion:\n{replaced_func}")

# subn(): Mit Anzahl
replaced_n, count = re.subn(r'Python', 'Java', text)
print(f"\nsubn(): {count} Ersetzungen")
print(replaced_n)

# split(): Aufteilen
text_split = "Apfel,Birne;Orange:Banane"
parts = re.split(r'[,;:]', text_split)
print(f"\nsplit():\n{parts}")

# split() mit maxsplit
parts_limited = re.split(r'[,;:]', text_split, maxsplit=2)
print(f"split() mit maxsplit=2:\n{parts_limited}")


## 6 compile() für Performance

`compile()` kompiliert ein Pattern für Wiederverwendung:
- **Vorteil**: Pattern wird nur einmal kompiliert
- **Performance**: Schneller bei wiederholter Verwendung
- **Methoden**: `pattern.search()`, `pattern.findall()`, etc.


In [None]:
# Pattern kompilieren
pattern = re.compile(r'\d{3}-\d{3}-\d{4}')

texts = [
    "Meine Nummer: 123-456-7890",
    "Kontakt: 987-654-3210",
    "Tel: 555-123-4567"
]

# Kompiliertes Pattern verwenden
print("Mit kompiliertem Pattern:")
for text in texts:
    match = pattern.search(text)
    if match:
        print(f"  {match.group()}")

# Vergleich: Ohne compile (langsamer bei Wiederholung)
print("\nOhne compile (für einmalige Verwendung OK):")
for text in texts:
    match = re.search(r'\d{3}-\d{3}-\d{4}', text)
    if match:
        print(f"  {match.group()}")


## 7 String-Methoden

Python-String-Methoden als Ergänzung zu Regex:
- **split()**: Aufteilen an Trennzeichen
- **join()**: Zusammenfügen
- **replace()**: Einfaches Ersetzen
- **strip()**: Whitespace entfernen
- **format()**: String-Formatierung


In [None]:
# String-Methoden
text = "  Python ist toll  "

# strip(): Whitespace entfernen
print(f"strip(): '{text.strip()}'")

# split(): Aufteilen
text_split = "Apfel,Birne,Orange"
parts = text_split.split(',')
print(f"split(): {parts}")

# join(): Zusammenfügen
joined = '-'.join(parts)
print(f"join(): {joined}")

# replace(): Ersetzen
replaced = text.replace('Python', 'Java')
print(f"replace(): {replaced}")

# format(): Formatierung
formatted = "Name: {}, Alter: {}".format("Alice", 25)
print(f"format(): {formatted}")

# f-strings (moderne Alternative)
name = "Bob"
age = 30
f_string = f"Name: {name}, Alter: {age}"
print(f"f-string: {f_string}")


## 8 Häufige Patterns

Praktische Regex-Patterns für häufige Anwendungen:
- **E-Mail**: `[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}`
- **Telefon**: `\d{3}-\d{3}-\d{4}` oder `\(\d{3}\)\s?\d{3}-\d{4}`
- **URL**: `https?://[^\s]+`
- **Datum**: `\d{4}-\d{2}-\d{2}` oder `\d{2}/\d{2}/\d{4}`
- **IP-Adresse**: `\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}`


In [None]:
# Häufige Patterns

# E-Mail
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
email_text = "Kontakt: email@example.com oder info@test.de"
emails = re.findall(email_pattern, email_text)
print(f"E-Mails: {emails}")

# Telefon (verschiedene Formate)
phone_text = "Tel: 123-456-7890 oder (555) 123-4567"
phone_pattern1 = r'\d{3}-\d{3}-\d{4}'
phone_pattern2 = r'\(\d{3}\)\s?\d{3}-\d{4}'
phones1 = re.findall(phone_pattern1, phone_text)
phones2 = re.findall(phone_pattern2, phone_text)
print(f"Telefon (Format 1): {phones1}")
print(f"Telefon (Format 2): {phones2}")

# URL
url_pattern = r'https?://[^\s]+'
url_text = "Besuche https://example.com oder http://test.org"
urls = re.findall(url_pattern, url_text)
print(f"URLs: {urls}")

# Datum
date_pattern = r'\d{4}-\d{2}-\d{2}'
date_text = "Termine: 2025-01-15, 2025-02-20"
dates = re.findall(date_pattern, date_text)
print(f"Daten: {dates}")

# IP-Adresse (vereinfacht)
ip_pattern = r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}'
ip_text = "Server: 192.168.1.1 und 10.0.0.1"
ips = re.findall(ip_pattern, ip_text)
print(f"IP-Adressen: {ips}")


## 9 Flags

Regex-Flags modifizieren das Verhalten von Patterns:
- **re.IGNORECASE (re.I)**: Groß-/Kleinschreibung ignorieren
- **re.MULTILINE (re.M)**: ^ und $ gelten für jede Zeile
- **re.DOTALL (re.S)**: . matcht auch Newline
- **re.VERBOSE (re.X)**: Erlaubt Kommentare im Pattern


In [None]:
# Flags-Beispiele

text = "Python ist toll\nPYTHON ist einfach\npython ist schnell"

# IGNORECASE
matches_ic = re.findall(r'python', text, re.IGNORECASE)
print(f"IGNORECASE: {matches_ic}")

# MULTILINE
matches_ml = re.findall(r'^python', text, re.MULTILINE | re.IGNORECASE)
print(f"MULTILINE: {matches_ml}")

# DOTALL
text_multiline = "Zeile 1\nZeile 2\nZeile 3"
match_dot = re.search(r'Zeile.*Zeile', text_multiline)
match_dotall = re.search(r'Zeile.*Zeile', text_multiline, re.DOTALL)
print(f"\nOhne DOTALL: {match_dot.group() if match_dot else 'Nichts'}")
print(f"Mit DOTALL: {match_dotall.group() if match_dotall else 'Nichts'}")

# VERBOSE (für komplexe Patterns)
pattern_verbose = re.compile(r"""
    \d{4}      # Jahr
    -          # Trennzeichen
    \d{2}      # Monat
    -          # Trennzeichen
    \d{2}      # Tag
""", re.VERBOSE)

date_text = "Datum: 2025-01-15"
match_verbose = pattern_verbose.search(date_text)
if match_verbose:
    print(f"\nVERBOSE Pattern: {match_verbose.group()}")


## 10 Praktisches Beispiel: Log-Parsing

Anwendung von Regex auf reale Daten (Log-Dateien):


In [None]:
from pathlib import Path

# Log-Datei lesen
log_file = Path('../data/system.log')
if log_file.exists():
    log_content = log_file.read_text(encoding='utf-8')
    lines = log_content.split('\n')[:10]  # Erste 10 Zeilen
    
    # Log-Pattern: Timestamp - LEVEL - Message
    log_pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) - (\w+) - (.+)'
    
    print("Log-Einträge geparst:")
    for line in lines:
        match = re.match(log_pattern, line)
        if match:
            timestamp, level, message = match.groups()
            print(f"  {timestamp} [{level}]: {message[:50]}...")
    
    # Alle ERROR-Einträge finden
    error_pattern = r'.* - ERROR - .*'
    errors = re.findall(error_pattern, log_content, re.MULTILINE)
    print(f"\nGefundene ERROR-Einträge: {len(errors)}")
    for error in errors[:3]:  # Erste 3
        print(f"  {error[:60]}...")
else:
    print("Log-Datei nicht gefunden")


## 7 Aufgaben

### Aufgabe (a): Grundlegende Regex-Operationen

Verwende Regex für Textsuche:

**Anforderungen:**
- Lies `data/text_file_1.txt` ein
- Finde alle E-Mail-Adressen im Text (Pattern: `\b[\w.-]+@[\w.-]+\.\w+\b`)
- Finde alle Telefonnummern (verschiedene Formate: z.B. `\d{3}[-.\s]?\d{3}[-.\s]?\d{4}` oder ähnlich)
- Finde alle URLs (Pattern: `https?://[\w.-]+(?:\.[\w.-]+)*(?:/[\w.-]*)*`)
- Gib alle gefundenen Matches aus

**Tipp:** Verwende `re.findall()` oder `re.finditer()` für die Suche. Teste verschiedene Pattern-Varianten für Telefonnummern.

In [None]:
# Deine Lösung

### Aufgabe (b): Textbereinigung mit Regex

Bereinige Text mit Regex:

**Anforderungen:**
- Lies eine Textdatei aus `data/` ein (z.B. `text_file_2.txt`)
- Entferne alle Sonderzeichen außer Buchstaben, Zahlen und Leerzeichen (verwende `re.sub()`)
- Normalisiere Whitespace: Ersetze mehrere Leerzeichen/Tabs/Newlines durch ein einzelnes Leerzeichen
- Ersetze alle Zahlen durch "#" (z.B. "123" → "###")
- Speichere den bereinigten Text in eine neue Datei `data/text_cleaned.txt`
- Gib die Anzahl der Ersetzungen aus

**Tipp:** Verwende `re.sub(r'[^\w\s]', '', text)` für Sonderzeichen, `re.sub(r'\s+', ' ', text)` für Whitespace-Normalisierung, und `re.sub(r'\d+', lambda m: '#' * len(m.group()), text)` für Zahlen-Ersetzung.

In [None]:
# Deine Lösung

### Aufgabe (c): Log-Datei Parsing

Parse Log-Dateien mit Regex:

**Anforderungen:**
- Lies `data/system.log` oder `data/measurements.log` ein (verwende die, die existiert)
- Extrahiere Timestamps, Log-Level (INFO, WARNING, ERROR, etc.) und Nachrichten aus jedem Log-Eintrag
- Verwende Named Groups für bessere Lesbarkeit (z.B. `(?P<timestamp>...)`, `(?P<level>...)`, `(?P<message>...)`)
- Gruppiere Einträge nach Log-Level
- Zähle die Anzahl der Einträge pro Level
- Gib die Ergebnisse aus

**Tipp:** Verwende `re.finditer()` mit Named Groups. Ein typisches Log-Pattern könnte sein: `r'(?P<timestamp>\d{4}-\d{2}-\d{2}.*?)\s+(?P<level>\w+)\s+(?P<message>.*)'`

In [None]:
# Deine Lösung

### Aufgabe (d): Daten-Extraktion aus gemischten Formaten

Extrahiere strukturierte Daten aus verschiedenen Textdateien:

**Anforderungen:**
- Lies mehrere Textdateien aus `data/` ein (z.B. `text_file_*.txt`)
- Extrahiere alle Datumsangaben (verschiedene Formate: DD.MM.YYYY, YYYY-MM-DD, DD/MM/YYYY, etc.)
- Extrahiere alle Währungsbeträge (€, $, EUR, USD) mit Zahlen (z.B. "€100", "$50.99", "EUR 200")
- Erstelle eine Zusammenfassung mit allen gefundenen Daten (Datum, Betrag, Quelle-Datei)
- Speichere die Zusammenfassung in strukturiertem Format (JSON oder CSV) in `data/extracted_data.json` oder `.csv`
- Gib die Anzahl der gefundenen Datumsangaben und Beträge aus

**Tipp:** Verwende verschiedene Regex-Pattern für Datumsformate: `r'\d{2}[./-]\d{2}[./-]\d{4}'`, `r'\d{4}-\d{2}-\d{2}'`. Für Währungen: `r'[€$]?\s*\d+[.,]?\d*\s*(?:EUR|USD)?'` oder ähnlich.

In [None]:
# Deine Lösung

### Lösungen

In [None]:
import re
from pathlib import Path
import json
import logging

logging.basicConfig(level=logging.DEBUG, format='%(levelname)s: %(message)s')

# Musterlösung (a)
logging.debug("=== Aufgabe (a): Grundlegende Regex-Operationen ===")

text_file = Path('../data/text_file_1.txt')
if text_file.exists():
    content = text_file.read_text(encoding='utf-8')
    
    # E-Mail-Adressen finden
    email_pattern = r'\b[\w.-]+@[\w.-]+\.\w+\b'
    emails = re.findall(email_pattern, content)
    logging.debug(f"\nGefundene E-Mail-Adressen ({len(emails)}):")
    for email in emails:
        logging.debug(f"  {email}")
    
    # Telefonnummern finden (verschiedene Formate)
    phone_patterns = [
        r'\d{3}[-.\s]?\d{3}[-.\s]?\d{4}',  # US-Format
        r'\+?\d{1,3}[-.\s]?\(?\d{1,4}\)?[-.\s]?\d{1,4}[-.\s]?\d{1,9}',  # International
        r'\d{2,3}[-.\s]?\d{3,4}[-.\s]?\d{4,5}'  # DE-Format
    ]
    
    all_phones = []
    for pattern in phone_patterns:
        phones = re.findall(pattern, content)
        all_phones.extend(phones)
    
    logging.debug(f"\nGefundene Telefonnummern ({len(all_phones)}):")
    for phone in set(all_phones):  # Duplikate entfernen
        logging.debug(f"  {phone}")
    
    # URLs finden
    url_pattern = r'https?://[\w.-]+(?:\.[\w.-]+)*(?:/[\w.-]*)*'
    urls = re.findall(url_pattern, content)
    logging.debug(f"\nGefundene URLs ({len(urls)}):")
    for url in urls:
        logging.debug(f"  {url}")
else:
    logging.debug(f"Datei nicht gefunden: {text_file}")

# Musterlösung (b)
logging.debug("\n=== Aufgabe (b): Textbereinigung mit Regex ===")

text_file_b = Path('../data/text_file_2.txt')
if text_file_b.exists():
    content_b = text_file_b.read_text(encoding='utf-8')
    original_length = len(content_b)
    
    # Sonderzeichen entfernen (außer Buchstaben, Zahlen, Leerzeichen)
    cleaned = re.sub(r'[^\w\s]', '', content_b)
    
    # Whitespace normalisieren
    cleaned = re.sub(r'\s+', ' ', cleaned)
    
    # Zahlen durch # ersetzen
    def replace_numbers(match):
        return '#' * len(match.group())
    
    cleaned = re.sub(r'\d+', replace_numbers, cleaned)
    
    # Speichern
    output_file = Path('../data/text_cleaned.txt')
    output_file.write_text(cleaned, encoding='utf-8')
    
    logging.debug(f"Original-Länge: {original_length} Zeichen")
    logging.debug(f"Bereinigte Länge: {len(cleaned)} Zeichen")
    logging.debug(f"Bereinigter Text gespeichert in: {output_file}")
else:
    logging.debug(f"Datei nicht gefunden: {text_file_b}")

# Musterlösung (c)
logging.debug("\n=== Aufgabe (c): Log-Datei Parsing ===")

log_file = Path('../data/system.log')
if not log_file.exists():
    log_file = Path('../data/measurements.log')

if log_file.exists():
    log_content = log_file.read_text(encoding='utf-8')
    
    # Pattern mit Named Groups
    log_pattern = r'(?P<timestamp>\d{4}-\d{2}-\d{2}[\sT]\d{2}:\d{2}:\d{2}[.,]?\d*)?\s*(?P<level>\w+)\s+(?P<message>.*)'
    
    entries_by_level = {}
    
    for match in re.finditer(log_pattern, log_content):
        level = match.group('level').upper()
        timestamp = match.group('timestamp') or 'N/A'
        message = match.group('message')
        
        if level not in entries_by_level:
            entries_by_level[level] = []
        
        entries_by_level[level].append({
            'timestamp': timestamp,
            'message': message
        })
    
    logging.debug("\nLog-Einträge nach Level:")
    for level, entries in entries_by_level.items():
        logging.debug(f"  {level}: {len(entries)} Einträge")
        if entries:
            logging.debug(f"    Beispiel: {entries[0]['message'][:50]}...")
else:
    logging.debug("Keine Log-Datei gefunden")

# Musterlösung (d)
logging.debug("\n=== Aufgabe (d): Daten-Extraktion aus gemischten Formaten ===")

text_files = list(Path('../data').glob('text_file_*.txt'))
extracted_data = []

for text_file_d in text_files:
    if text_file_d.exists():
        content_d = text_file_d.read_text(encoding='utf-8')
        
        # Datumsangaben extrahieren (verschiedene Formate)
        date_patterns = [
            r'\d{2}[./-]\d{2}[./-]\d{4}',  # DD.MM.YYYY, DD/MM/YYYY, DD-MM-YYYY
            r'\d{4}-\d{2}-\d{2}',  # YYYY-MM-DD
            r'\d{1,2}\.\d{1,2}\.\d{4}',  # D.M.YYYY
        ]
        
        dates = []
        for pattern in date_patterns:
            dates.extend(re.findall(pattern, content_d))
        
        # Währungsbeträge extrahieren
        currency_patterns = [
            r'[€$]\s*\d+[.,]?\d*',  # €100, $50.99
            r'\d+[.,]?\d*\s*(?:EUR|USD)',  # 100 EUR, 50.99 USD
            r'(?:EUR|USD)\s*\d+[.,]?\d*',  # EUR 100, USD 50.99
        ]
        
        amounts = []
        for pattern in currency_patterns:
            amounts.extend(re.findall(pattern, content_d, re.IGNORECASE))
        
        if dates or amounts:
            extracted_data.append({
                'source_file': text_file_d.name,
                'dates': list(set(dates)),  # Duplikate entfernen
                'amounts': list(set(amounts))
            })
            
            logging.debug(f"\n{text_file_d.name}:")
            logging.debug(f"  Datumsangaben: {len(set(dates))}")
            logging.debug(f"  Währungsbeträge: {len(set(amounts))}")

# Zusammenfassung speichern
if extracted_data:
    summary = {
        'total_files': len(extracted_data),
        'total_dates': sum(len(item['dates']) for item in extracted_data),
        'total_amounts': sum(len(item['amounts']) for item in extracted_data),
        'extracted_data': extracted_data
    }
    
    json_file = Path('../data/extracted_data.json')
    json_file.write_text(json.dumps(summary, indent=2, ensure_ascii=False), encoding='utf-8')
    
    logging.debug(f"\nZusammenfassung gespeichert in: {json_file}")
    logging.debug(f"Gesamt: {summary['total_dates']} Datumsangaben, {summary['total_amounts']} Währungsbeträge")
else:
    logging.debug("Keine Daten extrahiert")
