# 📄 Datenvorbereitung: Enron E-Mails für Spam-Erkennung

## ✅ Ziel

Ziel dieses Schrittes war es, die ursprünglichen E-Mails aus dem **Enron Spam Dataset** in ein strukturiertes, bereinigtes Format zu bringen, das für Machine Learning nutzbar ist – insbesondere für die Klassifikation von Spam und Ham (nicht-Spam).

---

## 🔍 Vorgehen

1. **Einlesen von E-Mails aus Textdateien:**
   - Die Daten lagen im Original als `.txt`-Dateien in zwei Ordnern vor: `ham` (normale E-Mails) und `spam` (unerwünschte E-Mails).
   - Jede E-Mail wurde als einzelne Datei gespeichert.

2. **Bereinigung der Inhalte:**
   - Entfernen von Betreffzeilen (`Subject:`).
   - Entfernen von Headern (Metadaten am Anfang der E-Mail).
   - Entfernen von nicht sichtbaren Steuerzeichen (z. B. `\x01`, `\x0b`), um Kompatibilität mit Excel sicherzustellen.
   - Vereinheitlichung von Leerzeichen und Zeilenumbrüchen.

3. **Strukturierung in einem DataFrame:**
   - Alle E-Mails wurden zusammengeführt und in einem `pandas.DataFrame` gespeichert.
   - Jede Zeile enthält den bereinigten Text einer E-Mail und das zugehörige Label (`spam` oder `ham`).

4. **Label-Encoding:**
   - Zusätzlich wurde eine numerische Spalte `label_num` erstellt:
     - `1` für Spam
     - `0` für Ham

5. **Export als Excel-Datei:**
   - Der finale Datensatz wurde als `.xlsx`-Datei gespeichert.
   - Pfad: `C:\Users\...\enron_bereinigt.xlsx`
   - Die Datei kann direkt für Training, Analyse oder Visualisierung verwendet werden.

---

## 📁 Ergebnis

Die Excel-Datei enthält drei Spalten:

| text (bereinigt) | label (Text) | label_num (numerisch) |
|------------------|--------------|------------------------|
| "Hallo, ich hoffe..." | ham |                |0 |
| "Sie haben gewonnen!" | spam |               |1 |

---

## 💡 Warum dieser Schritt wichtig ist

- Machine-Learning-Modelle (z. B. Naive Bayes, BERT) benötigen **strukturierte und saubere Daten**.
- E-Mail-Daten enthalten häufig **Rauschen**, Header-Informationen und Sonderzeichen, die das Modell negativ beeinflussen können.
- Durch diese Vorverarbeitung schaffen wir die Grundlage für **verlässliches und reproduzierbares Modelltraining**.



In [None]:
import os
import pandas as pd
import re

def clean_email(text):
    import string
    import re

    # Entferne Betreffzeilen
    text = re.sub(r'^Subject:.*\n?', '', text, flags=re.IGNORECASE | re.MULTILINE)

    # Entferne Header
    parts = text.split('\n\n', 1)
    text = parts[1] if len(parts) > 1 else parts[0]

    # Entferne Steuerzeichen (nicht druckbare ASCII-Zeichen)
    text = ''.join(ch for ch in text if ch in string.printable)

    # Entferne mehrfaches Leerzeichen
    text = re.sub(r'\s+', ' ', text).strip()

    return text


def read_and_clean_emails(folder_path, label):
    data = []
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)
        if os.path.isfile(file_path) and filename.endswith('.txt'):
            with open(file_path, 'r', encoding='latin-1') as file:
                raw_text = file.read()
                clean_text = clean_email(raw_text)
                if clean_text:
                    data.append({'text': clean_text, 'label': label})
    return data

# Windows-Pfade mit raw strings!
ham_folder = r'yourpath'
spam_folder = r'yourpath'

# Einlesen & bereinigen
ham_emails = read_and_clean_emails(ham_folder, 'ham')
spam_emails = read_and_clean_emails(spam_folder, 'spam')

# Kombinieren in DataFrame
df = pd.DataFrame(ham_emails + spam_emails)

# Numerisches Label hinzufügen
df['label_num'] = df['label'].map({'ham': 0, 'spam': 1})

# Ausgabe prüfen
print(df.head())

# Als Excel speichern
excel_path = r'yoursavepath'
df.to_excel(excel_path, index=False)

print(f"✅ Excel-Datei erfolgreich gespeichert unter: {excel_path}")


                                                text label  label_num
0  over the next few weeks , project apollo and b...   ham          0
1  please be informed , a mini - bus has been res...   ham          0
2  as enron continues to address the human capita...   ham          0
3  " a man with a new idea is a crank until he su...   ham          0
4  please see the attached file and let me know i...   ham          0
✅ Excel-Datei erfolgreich gespeichert unter: C:\Users\W4DCULZ\Desktop\AWA\enron6_bereinigt.xlsx
