## Klassifikation von E-Mails als Spam oder Ham

In dieser Übung entwickelst du ein einfaches Klassifikationsmodell, das **Spam-E-Mails** von normalen E-Mails (sogenanntem „Ham“) unterscheidet. Dabei analysieren wir den Inhalt der E-Mails anhand **einfacher Schlüsselwörter** (wie dollar, offer etc.)  und prüfen, ob eine E-Mail Spam ist oder nicht. Die Übung besteht aus mehreren Schritten, damit du dein Ergebnis schrittweise überprüfen kannst. Verwende dabei grundlegende Python-Techniken wie Dateioperationen, Kontrollstrukturen, Schleifen etc. ohne externe Bibliotheken.

### Task 1: E-Mail-Inhalte einlesen

Zuerst lesen wir die E-Mails aus den Verzeichnissen für Spam- und Ham-Mails ein. Die E-Mails liegen in Textdateien in den Ordnern `./spam` (für Spam) und `./easy_ham` (für Ham). Deine erste Aufgabe besteht darin, die Inhalte der E-Mails aus diesen Dateien zu extrahieren. Dazu musst du die Funktion `get_email_content` implementieren, die in der Funktion `read_emails` verwendet wird. Die Aufgabe gilt als erfolgreich gelöst, wenn die zwei *Asserts* fehlerfrei durchlaufen.

Der Datensatz verfügt über 
- 500 Spam Mails und 
- 2500 Ham Mails.

#### Beschreibung der zu implementierenden Funktion `get_email_content`:

1. **Öffnen der Datei**: 
   - Die Funktion erhält den Pfad zu einer E-Mail-Datei und öffnet diese im Lesemodus mit der Kodierung "iso-8859-1".

2. **Lesen des Inhalts**: 
   - Der gesamte Inhalt der Datei wird mit `read()` in die Variable `email` eingelesen.

3. **Aufteilen des Inhalts**: 
   - Der Inhalt wird anhand des ersten Auftretens von zwei aufeinanderfolgenden Zeilenumbrüchen (`"\n\n"`) in zwei Teile (Header und Text) aufgeteilt. `split("\n\n", 1)` is your friend! Wir sind am Text interessiert!

4. **Prüfen der Aufteilung**: 
   - Wenn die E-Mail in genau zwei Teile aufgeteilt werden kann, wird der Text zurückgegeben.
   - Andernfalls gibt die Funktion `None` zurück, was anzeigt, dass die E-Mail-Struktur ungültig ist.

Zusammengefasst: Die Funktion extrahiert den Text einer E-Mail und gibt ihn zurück, oder `None`, wenn die Struktur nicht korrekt ist.

In [1]:
import os

def get_email_content(path):
    # out code
    pass
        
def read_emails(folder):
    contents = []
    for f in os.listdir(folder):
        complete_path = folder + "/" + f
        # print(complete_path)
        if os.path.isdir(complete_path):
            continue
        email_content = get_email_content(complete_path)
        if email_content != None:
            contents.append(email_content)
    return contents

#### Funktion testen
**Hinweis**: Die Variablen `spam_mails` und `ham_mails` nicht in einer Zelle initialisieren. Das würde eine IO-Warning verursachen und die Ausführung abbrechen!

In [19]:
spam_mails = read_emails("./spam")

In [25]:
ham_mails = read_emails("./easy_ham")

In [26]:
# Wenn die asserts keinen Fehler ausgeben, ist alles gut!
assert len(spam_mails) == 500
assert len(ham_mails) == 2500

### Task 2
Im zweiten Schritt gilt es nun mit `email_is_spam` jene Funktion zu implementieren, die entscheidet, ob eine E-Mail Spam ist. Das soll basierend auf bestimmten Schlüsselwörtern im Inhalt der E-Mail erfolgen. 

#### Schritt-für-Schritt-Anleitung für die Implementierung der Funktion `email_is_spam`
1. **Definiere die Funktion**
- Erstelle eine Funktion namens email_is_spam, die einen Parameter content erwartet. Dieser Parameter repräsentiert den Text einer E-Mail.
2. **Schlüsselwörter festlegen**
- Die folgenden Wörter sollen verwendet werden, um zu bestimmen, ob die E-Mail Spam ist: "million", "please", "offer", "dollar" und "service".
3. **Logik zur Spam-Erkennung**
- Die Funktion sollte die folgenden Bedingungen mittels `if-elif-else` überprüfen:
    - Wenn das Wort "million" mindestens einmal im E-Mail-Inhalt vorkommt, gib `True` zurück.
    - Wenn das Wort "please" mindestens zweimal vorkommt, gib ebenfalls `True` zurück.
    - Wenn eines der anderen Wörter ("offer", "dollar", "service") mindestens einmal vorkommt, gib `True` zurück.
    - Andernfalls gib `False` zurück.
- Die Überprüfung soll unabhängig von Groß- und Kleinschreibung erfolgen! 
#### Verwendung der Funktion `email_is_spam`
Jetzt wollen wir herausfinden, wie gut unser Modell in der Funktion `email_is_spam` funktioniert. Im ersten Schritt betrachten wir alle Spam-Mails und prüfen, wie viele von unserem Modell tatsächlich als Spam erkannt werden. Im zweiten Schritt untersuchen wir, ob das Modell fälschlicherweise Ham-Mails als Spam identifiziert. Im Detail:

1. **Erstelle zwei leere Listen**
    - `spam_detected`: Diese Liste wird die Ergebnisse der Spam-Erkennung für die E-Mails in `spam_mails` speichern.
    - `ham_as_spam_detected`: Diese Liste wird die Ergebnisse der Spam-Erkennung für die E-Mails in `ham_mails` speichern.
2. **Durchlaufe die Liste der Spam Mails**
    - Für jede E-Mail rufst du die Funktion `email_is_spam(mail)` auf, um zu bestimmen, ob die Mail als Spam klassifiziert wird.
    - Tipp: Konvertiere das Ergebnis (True/False) in eine Ganzzahl (1 für True, 0 für False) und füge das Ergebnis zur Liste `spam_detected` hinzu.
3. **Durchlaufe die Liste der Nicht-Spam Mails**
    - Wiederhole den gleichen Prozess für die Liste `ham_mails`, um zu überprüfen, ob E-Mails fälschlicherweise als Spam erkannt werden.
    - Sicher das Ergebnis in der Liste `ham_as_spam_detected`
4. **Berechne den Anteil der erkannten Spam-E-Mails**
    - Du kannst den Anteil der korrekt erkannten Spam-E-Mails berechnen, indem du die Summe der Liste `spam_detected` durch die Anzahl der E-Mails in `spam_mails` teilst. Das geht, weil in der Liste `spam_detected` entweder '1' oder '0' enthalten ist. Und wie wir wissen, steht die '1' für eine durch das Modell klassifizierte Spam-Mail. Gib den Wert in Prozent aus.
5. **Berechne den Anteil der fälschlicherweise als Spam erkannten Nicht-Spam-E-Mails**
    - Berechne den Anteil, indem du die Summe der Liste `ham_as_spam_detected` durch die Anzahl der E-Mails in `ham_mails` teilst. Gib den Wert in Prozent aus.


In [2]:
# Your code