In [2]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix
from sklearn.pipeline import make_pipeline

# Angenommen, 'data' ist Ihr DataFrame mit 'Message' als Textspalte und 'Category' als Zielvariable.
data = pd.read_csv("../Data/Preprocessing/data_cooked.csv", delimiter=",")

print(data.head())
# Aufteilung der Daten in Trainings- und Testsets
X_train, X_test, y_train, y_test = train_test_split(data['Message'], data['Category'], test_size=0.3, random_state=42)

# Erstellen eines Pipelines, die den CountVectorizer und den Naive Bayes-Klassifizierer enthält
pipeline = make_pipeline(
    CountVectorizer(),  # Konvertiert die Textdaten in eine Matrix von Token-Zählungen
    MultinomialNB()     # Naive Bayes-Klassifizierer
)

# Trainieren des Modells mit den Trainingsdaten
pipeline.fit(X_train, y_train)

# Vorhersagen auf den Testdaten
y_pred = pipeline.predict(X_test)
y_proba = pipeline.predict_proba(X_test)[:,1]  # Wahrscheinlichkeiten für die ROC-AUC-Berechnung

# Bewertung des Modells mit verschiedenen Metriken
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_proba)

print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-Score: {f1:.4f}")
print(f"ROC-AUC-Score: {roc_auc:.4f}")





# Erstellen der Confusion Matrix
cm = confusion_matrix(y_test, y_pred)

# Visualisierung der Confusion Matrix mit Seaborn
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=['No Spam', 'Spam'], yticklabels=['No Spam', 'Spam'])
plt.title('Confusion Matrix')
plt.ylabel('Tatsächliche Klasse')
plt.xlabel('Vorhergesagte Klasse')
plt.show()


                                             Message  Category
0  natur irresist corpor ident lt realli hard rec...         1
1  stock trade gunsling fanni merril muzo colza a...         1
2  unbeliev new home make easi im want show homeo...         1
3  color print special request addit inform click...         1
4  money get softwar cd softwar compat great grow...         1


ValueError: np.nan is an invalid document, expected byte or unicode string.