<a href="https://colab.research.google.com/github/Jaki-01/Bachelorarbeit-Ablagebereich-/blob/main/Modell_Wagnis_Erkennung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install accelerate -U
!pip install transformers --upgrade
!pip install datasets~=2.14.0
!pip install optuna~=3.3.0

In [None]:
### Beschreibung
# Beachte, dass große Teile dieses Code aus der Schlüsselquelle stammen
# Schlüsselquelle: https://github.com/MoritzLaurer/summer-school-transformers-2023/blob/main/3_tune_bert.ipynb
# Trainiertes Modell: https://huggingface.co/Jaki01/vagueness-detection-large -> Zum heru
# Verwendeter Datensatz: HIIIIIER DATENSAAATTZZZ ANGEBEN (siehe. https://github.com/Jaki-01/Bachelorarbeit-Ablagebereich-)

from google.colab import files

# Oeffnet einen Dialog zur Auswahl der Datei(en) von deinem lokalen Desktop
print("Hier die Datei GITHUB-VERLINKUNG einfügen")
uploaded = files.upload()


import pandas as pd
import numpy as np
import torch
import datasets
from sklearn.model_selection import train_test_split
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    AutoConfig,
    TrainingArguments,
    Trainer,
    logging,
    pipeline
)
from sklearn.metrics import (
    balanced_accuracy_score,
    precision_recall_fscore_support,
    accuracy_score,
    classification_report
)
import warnings

# Ramdom Seed setzen, damit das Ergebnis reproduzierbar ist - Zahl ist beliebig
SEED_GLOBAL = 42
np.random.seed(SEED_GLOBAL)

# Import der Datein
data = pd.read_csv(r"test_file.csv", sep=";", encoding='unicode_escape')

# Bereinigen der Spaltennamenvon Leerzeichen - behebt ein technisches Problem in Bezug auf die CSV-Datei
data.columns = data.columns.str.strip()

print(data.columns)

# ueberschriften werden definiert
data = data[["label", "label_text", "text"]]

# train-test Split
df_train, df_test = train_test_split(data, test_size=0.2, random_state=SEED_GLOBAL)

# Modell laden
model_name = "bert-large-uncased"  # weitere Moegliche Modelle microsoft/deberta-v3-large, FacebookAI/roberta-large, nghuyong/ernie-2.0-large-en uncased = alles wird in Kleinsbuchstaben transformiert

# tokenizer laden
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True, model_max_length=512)

# Zahlenwerte (1 und 0) in Verbindung mit den Labeln (vague, not vague) bringen
label_text = np.sort(df_test.label_text.unique()).tolist() # print -> ['not vague', 'vague']
label2id = dict(zip(np.sort(label_text), np.sort(pd.factorize(label_text, sort=True)[0]).tolist())) # print -> {'not vague': 0, 'vague': 1}
id2label = dict(zip(np.sort(pd.factorize(label_text, sort=True)[0]).tolist(), np.sort(label_text))) # print ->  {0: 'not vague', 1: 'vague'}

# Konfigurator stellt das Bert Modell ein, damit es für entsprechende Aufgaben verwendet werden kann
config = AutoConfig.from_pretrained(model_name, label2id=label2id, id2label=id2label, num_labels=len(label2id)); # print BertConfig {... usw

# Modell laden mit config
model = AutoModelForSequenceClassification.from_pretrained(model_name, config=config, ignore_mismatched_sizes=True);

# Pandas DataFrames wird in ein Hugging Face Dataset-Objekt umwandeln, um die Vorverarbeitung zu erleichtern.
dataset = datasets.DatasetDict({
    "train": datasets.Dataset.from_pandas(df_train),
    "test": datasets.Dataset.from_pandas(df_test)
})

# tokenizer
def tokenize(examples):
  return tokenizer(examples["text"], truncation=True, max_length=512)  # laenge kann auf 256 reduziert werden, aber dann wird langer Text abgeschnitten

dataset = dataset.map(tokenize, batched=True)

# entfert uerberfluessige Spalten
dataset = dataset.remove_columns(['label_text'])

# Erstelle ein directoy um ein fine-tunde Modell und trainings logs abzuspeichern.

training_directory = "Vagueness_detection" # Name des abgespeicherten Modells

# Uebersicht zu den verschiedenen Traingsparametern: https://huggingface.co/transformers/main_classes/trainer.html#transformers.TrainingArguments
train_args = TrainingArguments(
    num_train_epochs=4,  # ein guter Wert liegt zwischen 3 und 20, erhöht aber die Trainingszeit
    learning_rate=8e-5,
    per_device_train_batch_size=16,  # Höhere Werte senken die Trainingszeit, aber erhöhen die Speicheranforderungen. Optimale Werte sind 2^x Werte
    per_device_eval_batch_size=64,  # reduzieren wenn ein "out of memory" Fehler kommt
    logging_steps=20, # logging wird alle 20 Schritte durchgeführt (defaut sind 500)
    warmup_ratio=0.03,  # Gibt an wie viel vergessen werden soll bei jedem Durchgang (praevention gegen Ueberanpassung), 0,06 ist ein guter Wert für das BERT-base-model. Wenn vorheriges Wissen wiederverwendet werden soll, Wert höher setzen
    weight_decay=0.1, # verringert das Gewicht von großen Gewichten und ist eine Praeventionsmaßnahme gegen Ueberanpassung
    seed=SEED_GLOBAL, # Damit bei durchlauf des identischen Modells das gleiche Modell reproduziert wird
    load_best_model_at_end=True, # Das beste Modell wird ausgewaehlt
    metric_for_best_model="f1_macro", # Dieser Wert bestimmt, welches Modell als "das Beste" definiert ist # "f1_macro" ist die Zentrale groeße
    evaluation_strategy="epoch", # steltlt sicher, dass regelmaeßig die Qualitaet des Modells ueberprüft wird
    save_strategy = "epoch",
    report_to="all",
    output_dir=f'./results/{training_directory}',
    logging_dir=f'./logs/{training_directory}',
)

# Funktion um die Metrics zu berechnen
# Quelle: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics

def compute_metrics_standard(eval_pred):
    with warnings.catch_warnings():
        warnings.filterwarnings("ignore")

        labels = eval_pred.label_ids
        pred_logits = eval_pred.predictions
        preds_max = np.argmax(pred_logits, axis=1)  # argmax in jeder Zeile (Achse=1) in dem Tensor

        # metrics
        roc_auc = roc_auc_score(labels, preds_max) # https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html
        precision_macro, recall_macro, f1_macro, _ = precision_recall_fscore_support(labels, preds_max, average='macro')  # https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html
        acc_balanced = balanced_accuracy_score(labels, preds_max)
        acc_not_balanced = accuracy_score(labels, preds_max)

        metrics = {
            'accuracy': acc_not_balanced,
            'f1_macro': f1_macro,
            'accuracy_balanced': acc_balanced,
            'precision_macro': precision_macro,
            'recall_macro': recall_macro,
        }

        return metrics

# training
trainer = Trainer(
    model=model,
    tokenizer=tokenizer,
    args=train_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    compute_metrics=compute_metrics_standard
)

trainer.train()

# Evaluierung des Modells auf den Testdatensatz
results = trainer.evaluate()
print(results)
