In [1]:
##Laden aller möglichen Bibliotheken##
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification, RobertaTokenizer, RobertaForSequenceClassification
from datasets import load_dataset, Dataset
from sklearn.feature_extraction.text import HashingVectorizer, TfidfVectorizer, CountVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import torch
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import kagglehub
from textblob import TextBlob
import gensim.downloader as api
from transformers import TrainingArguments, Trainer


2025-01-09 13:11:12.288385: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1736428272.309159   14707 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1736428272.315591   14707 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-01-09 13:11:12.341511: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
# Datenset aus Kagglehub laden
path = kagglehub.dataset_download("ilhamfp31/yelp-review-dataset")
#Test- und Trainingdatenset getrennt speichern
print("Path to dataset files:", path)
train_file_path = "/home/jovyan/.cache/kagglehub/datasets/ilhamfp31/yelp-review-dataset/versions/2/yelp_review_polarity_csv/train.csv"
test_file_path = "/home/jovyan/.cache/kagglehub/datasets/ilhamfp31/yelp-review-dataset/versions/2/yelp_review_polarity_csv/test.csv"

# Test- und Trainingsdaten in ein Pandadataframe laden
train_df = pd.read_csv(train_file_path, header=None, names=["Label", "Text"])  # Add column names
test_df = pd.read_csv(test_file_path, header=None, names=["Label", "Text"])    # Add column names

# Damit die Daten schneller laden, werden nur 30% der Training und Testdaten gespeichert
train_df = train_df.sample(frac=0.3, random_state=42)  # 30% Trainingdaten
test_df = test_df.sample(frac=0.3, random_state=42)    # 30% Testdaten

# Label für einen besseren gebrauch von 1|2 zu 0|1
train_df['Label'] = train_df['Label'].map({2: 0, 1: 1})
test_df['Label'] = test_df['Label'].map({2: 0, 1: 1})

# Trainingsdaten und Testdaten anzeigen lassen
print("Training Data:")
print(train_df.head())
print("Testing Data:")
print(test_df.head())
# DataFrames in Hugging Face Datasetformat unwandel für allfällige Huggingface modelle 
train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)


Path to dataset files: /home/jovyan/.cache/kagglehub/datasets/ilhamfp31/yelp-review-dataset/versions/2
Training Data:
        Label                                               Text
34566       0  This place is one of my favorite comic shops. ...
223092      1  The wait time for an appointment is ridiculous...
110270      1  I did not like this hotel at all. It's very ol...
365013      0  Mill Avenue has a serious issue with parking. ...
311625      0  Favorite sushi place in NV!  Price is reasonab...
Testing Data:
       Label                                               Text
28631      1  I expected the prices of the entrees to be a l...
9134       1  Review of Buffet:\n\nUGH!  It was very very un...
26464      1  If you value your life, don't go to Banner Bos...
9477       0  Before getting started, I'd like to point out ...
5954       1  Very disappointed in this salon. Set an appt 4...


In [3]:
# Klassifizierung von Text mit der TextBlob-Sentimentanalyse
def textblob_sentiment(text):
    # Bestimme den Polaritätswert: Positiv > 0, Negativ < 0
    # Der Polaritätswert kann nicht-neutralen Text (Polarity=0) ignorieren. 
    polarity = TextBlob(text).sentiment.polarity
    return 1 if polarity > 0 else 0  # Positiv wird mit 1 markiert, Negativ mit 0
    # Es können auch drei Klassen (positiv, negativ, neutral) definiert werden.

# Anwenden der TextBlob-Sentimentklassifizierung auf die Train- und Testdaten
train_df['predicted_label'] = train_df['Text'].apply(textblob_sentiment)
test_df['predicted_label'] = test_df['Text'].apply(textblob_sentiment)
# TextBlob unterstützt keine Kontexte. 

# Bewertung der Genauigkeit 
train_accuracy_textblob = accuracy_score(train_df['Label'], train_df['predicted_label'])
test_accuracy_textblob = accuracy_score(test_df['Label'], test_df['predicted_label'])
#Ausgabe der Genauigkeit
print(f"Trainingsgenauigkeit: {train_accuracy_textblob:.4f}")
print(f"Testgenauigkeit: {test_accuracy_textblob:.4f}")

# Klassifikationsbericht für den Testdatensatz ausgeben
print("Klassifikationsbericht für den Testdatensatz:")
print(classification_report(test_df['Label'], test_df['predicted_label']))
# Verbesserungsvorschlag: Bei niedriger Präzision/Recall, überprüfe Label-Konsistenz oder Feature-Ingenieurleistung.


Trainingsgenauigkeit: 0.3155
Testgenauigkeit: 0.3175
Klassifikationsbericht für den Testdatensatz:
              precision    recall  f1-score   support

           0       0.08      0.03      0.05      5685
           1       0.38      0.60      0.47      5715

    accuracy                           0.32     11400
   macro avg       0.23      0.32      0.26     11400
weighted avg       0.23      0.32      0.26     11400



In [4]:
# vortrainierte Wortvektoren 
word_vectors = api.load("glove-wiki-gigaword-300") 

# Funktion, um den durchschnittlichen Wortvektor für ein Dokument zu berechnen
def get_average_word_vector(text, word_vectors):
    words = text.split()  # Text in einzelne Wörter aufteilen
    word_vectors_list = []
    for word in words:
        if word in word_vectors:  # Überprüfe, ob das Wort im Vektormodell existiert
            word_vectors_list.append(word_vectors[word])  # Füge den Wortvektor zur Liste hinzu
    if word_vectors_list:
        return np.mean(word_vectors_list, axis=0)  # Berechne den Durchschnitt der Vektoren
    else:
        return np.zeros(word_vectors.vector_size)  # Wenn kein Wort im Vokabular ist, gebe einen Nullvektor zurück

# Optionale Verbesserung: Stoppwörter entfernen (z. B. "und", "der", "die")
# from nltk.corpus import stopwords
# stop_words = set(stopwords.words('german'))
# words = [word for word in words if word not in stop_words]

# Optionale Verbesserung: Lemmatisierung anwenden
# from nltk.stem import WordNetLemmatizer
# lemmatizer = WordNetLemmatizer()
# words = [lemmatizer.lemmatize(word) for word in words]

# Texte in ihre durchschnittlichen Wortvektoren konventieren
train_df['text_vector'] = train_df['Text'].apply(lambda x: get_average_word_vector(x, word_vectors))
test_df['text_vector'] = test_df['Text'].apply(lambda x: get_average_word_vector(x, word_vectors))

# Verbesserung: Anstelle von Durchschnitt kannst du TF-IDF-Gewichtung der Vektoren ausprobieren
# from sklearn.feature_extraction.text import TfidfVectorizer
# tfidf = TfidfVectorizer()
# tfidf_matrix = tfidf.fit_transform(train_df['Text'])

# Daten für das Training vorbereiten
X_train = np.vstack(train_df['text_vector'])  # die Vektoren in ein 2D-Array stapeln
y_train = train_df['Label']  # Zielvariable (Labels) für das Training
X_test = np.vstack(test_df['text_vector'])  # die Vektoren für die Testdaten stapeln
y_test = test_df['Label']  # Zielvariable (Labels) für die Testdaten

# Verbesserung: Cross-Validation verwenden, um die Generalisierung zu überprüfen
# from sklearn.model_selection import cross_val_score
# cv_scores = cross_val_score(model, X_train, y_train, cv=5)
# print(f"Cross-Validation Accuracy: {cv_scores.mean():.4f}")

# Trainiere eine logistische Regression auf den durchschnittlichen Wortvektoren
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Verbesserung: Hyperparameteroptimierung für die logistische Regression
# from sklearn.model_selection import GridSearchCV
# param_grid = {'C': [0.1, 1, 10], 'solver': ['liblinear']}
# grid_search = GridSearchCV(LogisticRegression(max_iter=1000), param_grid, cv=5)
# grid_search.fit(X_train, y_train)
# best_model = grid_search.best_estimator_

# Vorhersagen machen und auswerten
y_train_pred = model.predict(X_train)  # Vorhersagen für die Trainingsdaten machen
y_test_pred = model.predict(X_test)    # Vorhersagen für die Testdaten machen

train_accuracy_logreg = accuracy_score(y_train, y_train_pred)  # Berechne die Genauigkeit für die Trainingsdaten
test_accuracy_logreg = accuracy_score(y_test, y_test_pred)     # Berechne die Genauigkeit für die Testdaten
#Ausgabe Genauigkeit
print(f"Trainingsgenauigkeit: {train_accuracy_logreg:.4f}")    # Ausgabe der Trainingsgenauigkeit
print(f"Testgenauigkeit: {test_accuracy_logreg:.4f}")          # Ausgabe der Testgenauigkeit

# Klassifikationsbericht für den Testdatensatz ausgeben
print("Klassifikationsbericht für den Testdatensatz:")
print(classification_report(y_test, y_test_pred))       # Zeige den Bericht mit Präzision, Recall und F1-Score an


Trainingsgenauigkeit: 0.8325
Testgenauigkeit: 0.8318
Klassifikationsbericht für den Testdatensatz:
              precision    recall  f1-score   support

           0       0.84      0.81      0.83      5685
           1       0.82      0.85      0.84      5715

    accuracy                           0.83     11400
   macro avg       0.83      0.83      0.83     11400
weighted avg       0.83      0.83      0.83     11400



In [5]:
# Prüft den Datentyp der Werte in der Spalte 'text_vector' des DataFrames train_df
print(train_df['text_vector'].apply(lambda x: type(x)))

# Konvertiert die Werte in der Spalte 'text_vector' des DataFrames train_df in den Datentyp float32
train_df['text_vector'] = train_df['text_vector'].apply(lambda x: x.astype(np.float32))

# Konvertiert die Werte in der Spalte 'text_vector' des DataFrames test_df in den Datentyp float32
test_df['text_vector'] = test_df['text_vector'].apply(lambda x: x.astype(np.float32))

34566     <class 'numpy.ndarray'>
223092    <class 'numpy.ndarray'>
110270    <class 'numpy.ndarray'>
365013    <class 'numpy.ndarray'>
311625    <class 'numpy.ndarray'>
                   ...           
243978    <class 'numpy.ndarray'>
99503     <class 'numpy.ndarray'>
184853    <class 'numpy.ndarray'>
368110    <class 'numpy.ndarray'>
225881    <class 'numpy.ndarray'>
Name: text_vector, Length: 168000, dtype: object


In [6]:
# Benenne die Spalte 'Label' in 'labels' um, um dem erwarteten Format für Hugging Face Modelle zu entsprechen
train_dataset = train_dataset.rename_column("Label", "labels")
test_dataset = test_dataset.rename_column("Label", "labels")

# Lade den Tokenizer für RoBERTa
tokenizer = RobertaTokenizer.from_pretrained('distilroberta-base')

# Funktion zum Tokenisieren der Datasets
def tokenize_function(examples):
    # Tokenisiert den Text mit Padding und Trunkierung, maximaler Länge von 256 Tokens
    return tokenizer(examples['Text'], padding="max_length", truncation=True, max_length=256)

# Optionale könnte die maximale Länge angepasst werden oder eine dynamische Länge ohne Padding verwenden werden
# return tokenizer(examples['Text'], padding=True, truncation=True)

# Tokenisiere das Trainings- und Test-Dataset
train_dataset = train_dataset.map(tokenize_function, batched=True)
test_dataset = test_dataset.map(tokenize_function, batched=True)

# Die 'Text' Spalte entfernen, da sie nun nicht mehr benötigt wird
train_dataset = train_dataset.remove_columns(["Text"])
test_dataset = test_dataset.remove_columns(["Text"])

# Stelle sicher, dass die Datasets im richtigen Format vorliegen
train_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])
test_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])

# Lade das RoBERTa Modell für Klassifikationsaufgaben
model = RobertaForSequenceClassification.from_pretrained('distilroberta-base', num_labels=2)

# Verbesserung: Modell mit finetuning vorbereiten, zusätzliche Schichten hinzufügen 
# z.B. "roberta-base" oder "roberta-large"
# model = RobertaForSequenceClassification.from_pretrained('roberta-base', num_labels=2)

# Training-Argumente einrichten
training_args = TrainingArguments(
    output_dir='./results',  # Verzeichnis für die Ergebnisse des Trainings
    evaluation_strategy="epoch",  # Evaluierung nach jeder Epoche
    learning_rate=2e-5,  # Lernrate (man könnte mit anderen Werten wie 3e-5, 5e-5 experimentieren)
    per_device_train_batch_size=4,  # Kleinere Batch-Größe für das Training
    per_device_eval_batch_size=4,   # Kleinere Batch-Größe für die Evaluation
    num_train_epochs=1,  # Anzahl der Epochen für das Training (kann auch erhöht werden, um die Leistung zu verbessern)
    weight_decay=0.01,   # Gewichtungsverfall (Regularisierung)
    logging_dir='./logs',  # Verzeichnis für die Log-Dateien
    fp16=True,  # Mixed Precision Training für schnellere Berechnungen
    gradient_accumulation_steps=2   # Gradient Accumulation, um eine größere Batch-Größe zu simulieren
)

# Verbesserung: Experimentieren mit größeren Batch-Größen und längeren Trainingsphasen
# z.B. per_device_train_batch_size=8, num_train_epochs=3

# Trainer definieren
trainer = Trainer(
    model=model,  # Das Modell, das trainiert werden soll
    args=training_args,  # Die Trainingsargumente
    train_dataset=train_dataset,  # Das Trainings-Dataset
    eval_dataset=test_dataset,  # Das Evaluierungs-Dataset
    compute_metrics=lambda p: {'accuracy': accuracy_score(p.predictions.argmax(axis=-1), p.label_ids)},  # Berechnung der Genauigkeit
)

# Bereinige den CUDA-Speicher, bevor das Training startet
torch.cuda.empty_cache()
# Model trainieren
trainer.train()

# Speichere das Model
trainer.save_model("./roberta_sentiment_model")

# Modell auf die Testdaten anwenden
predictions = trainer.predict(test_dataset)
y_test_pred = predictions.predictions.argmax(axis=-1)

# Berechne die Genauigkeit des Modells auf dem Test-Set
test_accuracy_roberta = accuracy_score(test_df['Label'], y_test_pred)
print(f"Test Genauigkeit: {test_accuracy_roberta:.4f}")

# Drucke den Klassifikationsbericht für das Test-Set
print("Klassifikationsbericht für das Test-Set:")
print(classification_report(test_df['Label'], y_test_pred))

# Vorhersagen auf dem Trainings-Set durchführen, um die Trainingsgenauigkeit zu berechnen
train_predictions = trainer.predict(train_dataset)
y_train_pred = train_predictions.predictions.argmax(axis=-1)

# Berechne die Genauigkeit des Modells auf dem Trainings-Set
train_accuracy_roberta = accuracy_score(train_df['Label'], y_train_pred)
print(f"Training Genauigkeit: {train_accuracy_roberta:.4f}")


Map:   0%|          | 0/168000 [00:00<?, ? examples/s]

Map:   0%|          | 0/11400 [00:00<?, ? examples/s]

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at distilroberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch,Training Loss,Validation Loss,Accuracy
1,0.3404,0.165651,0.965702


Test Genauigkeit: 0.9657
Klassifikationsbericht für das Test-Set:
              precision    recall  f1-score   support

           0       0.96      0.97      0.97      5685
           1       0.97      0.96      0.97      5715

    accuracy                           0.97     11400
   macro avg       0.97      0.97      0.97     11400
weighted avg       0.97      0.97      0.97     11400



Training Genauigkeit: 0.9764


In [8]:
results = [
    {"Model": "TextBlob Sentiment", "Training Accuracy": train_accuracy_textblob, "Test Accuracy": test_accuracy_textblob},
    {"Model": "Logistic Regression (Word Vectors)", "Training Accuracy": train_accuracy_logreg, "Test Accuracy": test_accuracy_logreg},
    {"Model": "DistilRoBERTa", "Training Accuracy": train_accuracy_roberta, "Test Accuracy": test_accuracy_roberta}
]

# In DataFrame umwandeln
results_df = pd.DataFrame(results)

# Tabelle ausgeben
print(results_df)

                                Model  Training Accuracy  Test Accuracy
0                  TextBlob Sentiment           0.315536       0.317456
1  Logistic Regression (Word Vectors)           0.832452       0.831842
2                       DistilRoBERTa           0.976363       0.965702
