TF-IDF mit Confusionmatrix



In [16]:
############################# TF-IDF mit Confusionmatrix
import pandas as pd

# Importieren der notwendigen Module aus scikit-learn
from sklearn.model_selection import train_test_split  # Zum Aufteilen der Daten in Trainings- und Testdatensätze
from sklearn.naive_bayes import MultinomialNB  # Naive Bayes Klassifikator für Multinomialdaten
from sklearn.metrics import accuracy_score, classification_report  # Evaluierungsmethoden wie Genauigkeit und Bericht
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF Vektorisierung für Textdaten

# Zugriff auf Google Drive herstellen (benötigt Google Colab)
from google.colab import drive

drive.mount('/content/drive')  # Mountet Google Drive, um Zugriff auf Dateien zu ermöglichen

# Laden der BBC-Daten aus einer CSV-Datei
# Die CSV-Datei enthält zwei Spalten: 'text' (Artikeltexte) und 'class' (Kategorien der Artikel)
df = pd.read_csv('/content/drive/My Drive/emotions.csv')

# Definition der Eingabedaten (X) und Zielklassen (y)
# X: Artikeltexte; y: zugehörige Kategorien.
X = df['Comment']
y = df['Emotion']

# Aufteilen der Daten in Trainings- und Testdatensätze
# Trainingsdaten: 70%, Testdaten: 30% der gesamten Daten
# random_state sorgt für Reproduzierbarkeit der Aufteilung
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# TF-IDF Vektorisierung der Textdaten
# TF-IDF (Term Frequency-Inverse Document Frequency) misst die Relevanz eines Wortes innerhalb eines Dokuments relativ zu anderen Dokumenten
vec = TfidfVectorizer()

# Anpassen und Transformieren der Trainingsdaten
# fit_transform: Lernt die Gewichtungen der Wörter und wandelt die Texte in numerische Merkmale um
X_train_vectorized = vec.fit_transform(X_train)

# Transformieren der Testdaten basierend auf den Trainingsdaten
# transform: Wandelt die Texte in numerische Merkmale um, ohne neue Gewichtungen zu lernen
X_test_vectorized = vec.transform(X_test)

# Initialisierung und Training des Naive Bayes Modells
# MultinomialNB: Probabilistisches Modell für diskrete Daten wie Wortzählungen
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)  # Anpassen des Modells an die Trainingsdaten

# Vorhersagen auf den Testdaten
y_pred = classifier.predict(X_test_vectorized)  # Vorhersagen der Kategorien für die Testdaten

# Berechnung der Genauigkeit des Modells
# accuracy_score: Misst den Anteil korrekt klassifizierter Datenpunkte
print("Accuracy:", accuracy_score(y_test, y_pred)) # Accuracy: 0.9431137724550899

# Berechnung der Konfusionsmatrix
# Die Konfusionsmatrix zeigt die Verteilung der vorhergesagten Klassen im Vergleich zu den tatsächlichen Klassen
from sklearn.metrics import confusion_matrix
cm1 = confusion_matrix(y_test, y_pred)

# Visualisierung der Konfusionsmatrix
# Plotly Express wird verwendet, um die Konfusionsmatrix als Heatmap darzustellen
import plotly.express as px
# Get unique emotion labels from y_test
emotion_labels = y_test.unique()
fig = px.imshow(
    cm1,  # Numerische Werte der Konfusionsmatrix
    labels=dict(
        x="Vorhergesagte Werte, vor grid search",  # Beschriftung der x-Achse (Vorhersagen)
        y="Tatsächliche Werte, vor grid search",  # Beschriftung der y-Achse (Tatsächliche Klassen)
        color="Häufigkeit, vor grid search"  # Farbskala repräsentiert die Häufigkeit der Werte
    ),
     x=emotion_labels,  # Use emotion labels for the x-axis
    y=emotion_labels   # Use emotion labels for the y-axis
)

# Anpassung der x-Achse: Labels werden unten angezeigt
fig.update_xaxes(side="bottom")

# Hinzufügen der numerischen Werte direkt in die Heatmap
fig.update_traces(text=cm1, texttemplate="%{text}")

# Anzeige der Heatmap
fig.show()

# Ausgabe des Klassifikationsberichts
# Der Bericht enthält:
# - Precision: Anteil der korrekt vorhergesagten Instanzen einer Klasse
# - Recall: Anteil der tatsächlichen Instanzen einer Klasse, die korrekt erkannt wurden
# - F1-Score: Harmonisches Mittel aus Precision und Recall
# - Support: Anzahl der tatsächlichen Instanzen pro Klasse
print("Classification Report:\n", classification_report(y_test, y_pred))


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Accuracy: 0.8939393939393939


Classification Report:
               precision    recall  f1-score   support

       anger       0.87      0.93      0.90       600
        fear       0.93      0.86      0.89       614
         joy       0.88      0.90      0.89       568

    accuracy                           0.89      1782
   macro avg       0.89      0.89      0.89      1782
weighted avg       0.90      0.89      0.89      1782



In [17]:
######################## beste Hyperparameter, aber TF-IDF verwenden und random forest

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score


from google.colab import drive

drive.mount('/content/drive')


import pandas as pd # import the pandas library as pd
df = pd.read_csv('/content/drive/My Drive/emotions.csv')


X = df['Comment']
y = df['Emotion']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# from sklearn.feature_extraction.text import CountVectorizer
# cv = CountVectorizer()
# TF-IDF (Term Frequency-Inverse Document Frequency) misst die Relevanz eines Wortes innerhalb eines Dokuments relativ zu anderen Dokumenten
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF Vektorisierung für Textdaten
vec = TfidfVectorizer()

X_train_vectorized = vec.fit_transform(X_train)
X_test_vectorized = vec.transform(X_test)

# Best hyperparameters are {'max_features': 30, 'min_samples_leaf': 4, 'min_samples_split': 6, 'n_estimators': 200}
classifier =RandomForestClassifier(max_features = 30, min_samples_leaf = 4, min_samples_split = 6, n_estimators = 200)
# classifier =RandomForestClassifier(max_features = 30, min_samples_leaf = 4, min_samples_split = 8, n_estimators = 300)
classifier.fit(X_train_vectorized, y_train)

y_pred = classifier.predict(X_test_vectorized)

print("Test accuracy with best hyperparameters (after grid search):", accuracy_score(y_test, y_pred))


y_pred = classifier.predict(X_train_vectorized)

print("Train accuracy with best hyperparameters (after grid search):", accuracy_score(y_train, y_pred))


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Test accuracy with best hyperparameters (after grid search): 0.9079685746352413
Train accuracy with best hyperparameters (after grid search): 0.9561973525872443


In [18]:
################################## grid search



from sklearn.model_selection import GridSearchCV

params = {
   'n_estimators': [100, 200, 300],
   'max_features': [10, 20, 30],
   'min_samples_split': [4, 6, 8],
   'min_samples_leaf': [4, 6, 8]
}

grid = GridSearchCV(classifier, params, cv = 5, verbose = 3) # cv = cross validation, Fitting 5 folds for each of 81 candidates, totalling 405 fits
model = grid.fit(X_train_vectorized, y_train)

print('Best hyperparameters are '+str(model.best_params_))
print('Best score is: ' + str(model.best_score_))

# Best hyperparameters are {'max_features': 30, 'min_samples_leaf': 4, 'min_samples_split': 6, 'n_estimators': 200}
# Best score is: 0.8943441636582431

Fitting 5 folds for each of 81 candidates, totalling 405 fits
[CV 1/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=100;, score=0.420 total time=   0.5s
[CV 2/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=100;, score=0.433 total time=   0.5s
[CV 3/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=100;, score=0.478 total time=   0.5s
[CV 4/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=100;, score=0.412 total time=   0.5s
[CV 5/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=100;, score=0.471 total time=   0.5s
[CV 1/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=200;, score=0.457 total time=   0.6s
[CV 2/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=200;, score=0.412 total time=   0.6s
[CV 3/5] END max_features=10, min_samples_leaf=4, min_samples_split=4, n_estimators=200;, s

In [23]:
######################## beste Hyperparameter from grip inserted here, aber TF-IDF verwenden



# Best hyperparameters are {'max_features': 30, 'min_samples_leaf': 4, 'min_samples_split': 6, 'n_estimators': 200}
classifier =RandomForestClassifier(max_features = 30, min_samples_leaf = 4, min_samples_split = 6, n_estimators = 200)
# classifier =RandomForestClassifier(max_features = 30, min_samples_leaf = 4, min_samples_split = 8, n_estimators = 300)
classifier.fit(X_train_vectorized, y_train)

y_pred_test = classifier.predict(X_test_vectorized)  # Predict on the test data (X_test_vectorized)

print("Test accuracy with best hyperparameters (after grid search):", accuracy_score(y_test, y_pred_test))
# Test accuracy: 0.9085297418630752

y_pred_train = classifier.predict(X_train_vectorized)

print("Train accuracy with best hyperparameters (after grid search):", accuracy_score(y_train, y_pred_train))
# Train accuracy: 0.9569193742478941

# Berechnung der Konfusionsmatrix
# Die Konfusionsmatrix zeigt die Verteilung der vorhergesagten Klassen im Vergleich zu den tatsächlichen Klassen
from sklearn.metrics import confusion_matrix
cm2 = confusion_matrix(y_test, y_pred_test)

# Visualisierung der Konfusionsmatrix
# Plotly Express wird verwendet, um die Konfusionsmatrix als Heatmap darzustellen
import plotly.express as px
# Get unique emotion labels from y_test
emotion_labels = y_test.unique()
fig = px.imshow(
    cm2,  # Numerische Werte der Konfusionsmatrix
    labels=dict(
        x="Vorhergesagte Werte, nach grid search",  # Beschriftung der x-Achse (Vorhersagen)
        y="Tatsächliche Werte, nach grid search",  # Beschriftung der y-Achse (Tatsächliche Klassen)
        color="Häufigkeit, nach grid search"  # Farbskala repräsentiert die Häufigkeit der Werte
    ),
     x=emotion_labels,  # Use emotion labels for the x-axis
    y=emotion_labels   # Use emotion labels for the y-axis
)

# Anpassung der x-Achse: Labels werden unten angezeigt
fig.update_xaxes(side="bottom")

# Hinzufügen der numerischen Werte direkt in die Heatmap
fig.update_traces(text=cm2, texttemplate="%{text}")

# Anzeige der Heatmap
fig.show()

# Ausgabe des Klassifikationsberichts
# Der Bericht enthält:
# - Precision: Anteil der korrekt vorhergesagten Instanzen einer Klasse
# - Recall: Anteil der tatsächlichen Instanzen einer Klasse, die korrekt erkannt wurden
# - F1-Score: Harmonisches Mittel aus Precision und Recall
# - Support: Anzahl der tatsächlichen Instanzen pro Klasse
print("Classification Report:\n", classification_report(y_test, y_pred_test))



Test accuracy with best hyperparameters (after grid search): 0.9085297418630752
Train accuracy with best hyperparameters (after grid search): 0.9578820697954272


Classification Report:
               precision    recall  f1-score   support

       anger       0.91      0.91      0.91       600
        fear       0.96      0.87      0.91       614
         joy       0.86      0.95      0.90       568

    accuracy                           0.91      1782
   macro avg       0.91      0.91      0.91      1782
weighted avg       0.91      0.91      0.91      1782



In [24]:
####################### extra
###################### naive Bayes with grid
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import GridSearchCV


from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
df = pd.read_csv('/content/drive/My Drive/emotions.csv')

X = df['Comment']
y = df['Emotion']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=42)
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF Vektorisierung für Textdaten
vec = TfidfVectorizer()
# cv = CountVectorizer()# create an instance of the class CountVectorizer
X_train_vectorized = vec.fit_transform(X_train)
X_test_vectorized = vec.transform(X_test)

classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)
params= {
 'alpha': [0.1, 0.5, 1.0, 2.0],
 'fit_prior': [True, False]
}
grid = GridSearchCV(classifier, params, cv = 5, verbose = 3)
model = grid.fit(X_train_vectorized, y_train)

# Ausgabe der besten Hyperparameterkombination
# best_params_ gibt die Parameterkombination mit der höchsten Leistung zurück.
print('Best hyperparameters are '+str(model.best_params_))
# Best hyperparameters are {'alpha': 1.0, 'fit_prior': False}


# Ausgabe des besten Scores der Kreuzvalidierung
# best_score_ gibt die höchste Genauigkeit über die Kreuzvalidierungsfalten hinweg an.
print('Best score is: ' + str(model.best_score_))
# Best score is: 0.882791817087846

y_pred = classifier.predict(X_test_vectorized)

print("Test accuracy with best hyperparameters (after grid search):", accuracy_score(y_test, y_pred))
# Test accuracy: 0.8939393939393939

y_pred = classifier.predict(X_train_vectorized)

print("Train accuracy with best hyperparameters (after grid search):", accuracy_score(y_train, y_pred))
# Train accuracy: 0.9833935018050541

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Fitting 5 folds for each of 8 candidates, totalling 40 fits
[CV 1/5] END .........alpha=0.1, fit_prior=True;, score=0.827 total time=   0.0s
[CV 2/5] END .........alpha=0.1, fit_prior=True;, score=0.850 total time=   0.0s
[CV 3/5] END .........alpha=0.1, fit_prior=True;, score=0.845 total time=   0.0s
[CV 4/5] END .........alpha=0.1, fit_prior=True;, score=0.842 total time=   0.0s
[CV 5/5] END .........alpha=0.1, fit_prior=True;, score=0.845 total time=   0.0s
[CV 1/5] END ........alpha=0.1, fit_prior=False;, score=0.817 total time=   0.0s
[CV 2/5] END ........alpha=0.1, fit_prior=False;, score=0.847 total time=   0.0s
[CV 3/5] END ........alpha=0.1, fit_prior=False;, score=0.842 total time=   0.0s
[CV 4/5] END ........alpha=0.1, fit_prior=False;, score=0.842 total time=   0.0s
[CV 5/5] END ........alpha=0.1, fit_prior=False;, score=0.842 total time=   0.0s
[