# Einleitung

Jede Person mit einem Emailaccount wird bereits Erfahrungen mit Spam gemacht haben. Entweder man soll einen hilfslosen Prinzen aus der finanziellen Krise helfen oder ist nur einen Klick davon entfernt ein neues IPhone zu gewinnen.
Die Ideen hinter Spamnachrichten sind endlos und können nach und nach richtig nervig werden, wenn sie öfters erscheinen.

Eine Abhilfe ist dabei der Spamfilter, welcher hinterlistigen Nachrichten entdeckt und diese anschließend in den Spamordner verbannt. Doch wie genau entscheidet der Filter eigentlich welche Nachrichten Spam sind und welche nicht?
Genau diese Antwort soll dieses Notebook liefern, in der ein Klassifierungsalgorithmus, genauer gesagt ein multinominal Naive Bayes Klassifizierer, eingesetzt wird, um Spam emails zu detektierten.

Der Naive Bayes beruht auf dem Bayes Theorem, welcher Wahrscheinlichkeiten bezogen auf Ereignisse berechnet.
Für unsere konkretes Beispiel des Filters, wird für jede Email die Anzahl an Wörtern gezählt, um anschließend bestimmen zu können, ob es sich tatsächlich um Spam handelt, oder doch nur um eine ganz normale Email. Dabei geht der Klassifizier davon aus, dass die einzelnen Variablen unabhängig sind.

Für die Berechnung der Wahrscheinlichkeiten werden durch folgende Gleichung berechnet:

$P(Spam|Suchwort) = \frac{P(Suchwort|Spam) \cdot P(Spam)}{P(Suchwort)} = \frac{P(Suchwort|Spam) \cdot P(Spam)}{P(Suchwort|Spam) \cdot P(Spam) + P(Suchwort|kein Spam) \cdot P(kein Spam)}$


Die Wahrscheinlichkeit, dass eine Email Spam ist unter der Bedingung des Wortes P(Spam|Suchwort) ist gesucht. Über das Bayes Theorem kann dies wie auf der rechten Seite der Gleichung dargestellt berechnet werden und zwar über die Wahrscheinlichkeit, dass ein Wort in einer Spamemail vorkommt P(Suchwort|Spam), multipliziert mit der Wahrscheinlichkeit dass es sich um eine Spamemail handelt P(Spam). Diese Wahrscheinlichkeit muss noch durch die Wahrscheinlichkeit P(Suchwort) dividiert werden, welche eine Addition der Wahrscheinlichkeit des Wortes in Spamemails und normalen Emails sind.

Eine mögliche Implementierung des Klassifizieres kann wie folgt umgesetzt werden. Dabei wurde der Datensatz "spam_ham_dataset" verwendet, welcher eine große Anzahl an englischen Emails und Spamemails beinhaltet. Von den ingesamt 5170 Email sind 1500 mit Spam klassifiziert.


In [1]:
import sys
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

from CSV_Converter import csvReader
from NB_Classifier import NB_Class

In [10]:
inputData = "spam_ham_dataset.csv"

count_vector = CountVectorizer()      
tfidf_transformer = TfidfTransformer()

#Einlesen des Datensatzes
reader = csvReader(inputData)
X, y = reader.readCSV()

#Verarbeitung der Texte
X_train_counts = count_vector.fit_transform(X)
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

#Aufsplitten des Datensatzes in Test und Training
x_train, x_test , y_train, y_test = train_test_split(X_train_tfidf,y, test_size = 0.1, shuffle = True)

#Bestimmung des Klassifizieres
clf = MultinomialNB().fit(x_train, y_train)

#Vorhersage
predicted = clf.predict(x_test)

print("Klassifikation Ergebnis:\n",classification_report(predicted, y_test))
print("Confusion matrix:\n",confusion_matrix(predicted, y_test))
print("Genauigkeit:",accuracy_score(predicted, y_test)*100,"%")


Klassifikation Ergebnis:
               precision    recall  f1-score   support

           0       1.00      0.86      0.92       418
           1       0.62      1.00      0.77       100

    accuracy                           0.88       518
   macro avg       0.81      0.93      0.85       518
weighted avg       0.93      0.88      0.89       518

Confusion matrix:
 [[358  60]
 [  0 100]]
Genauigkeit: 88.41698841698842 %


Die Ergebnisse zeigen, dass mit einem Naive Bayes einfach ein Spamfilter für den Emailverkehr generiert werden kann. Die Genauigkeit, welche damit ereicht werden konnte ist für einen solchen Fall durchaus verwendbar. Jedoch sollte jeder seinen Spamordner immer wieder kontrollieren, ob der Filter sich nicht doch geirrt haben könnte. 