# Tiny few shot classifer

Im folgenden wird ein *few shot classifier* f√ºr *multilabels* im [SetFit-Frame](https://huggingface.co/blog/setfit) Format erzeugt. Die *multilabels*-Option ist deshalb von N√∂ten, weil durchaus mehrere Future Skills in einem Kurs vermittelt werden k√∂nnen.

Gearbeitet wird mit `Python 3.12.3`, in einem eigens daf√ºr erzeugten Poetry Enviorment (`Poetry Future Skills Enviorment`). Das Enviorment wird als Kernel h√§ndisch in Jupyter Notebook geladen. 

Weitere Pakete k√∂nnen dem Enviorment mit `poetry add <paketname>` hinzugef√ºgt werden:

In [3]:
# !poetry add platformdirs
# !poetry add pyreadr
# Abh√§nggkeiten anzeigen:
# !poetry show --tree


## Pakete laden

In einem ersten Schritt werden die n√∂tigen Pakete geladen. 

In [1]:
from datasets import load_dataset  # Zum Laden von Datens√§tzen aus der Hugging Face `datasets` Bibliothek
from sentence_transformers.losses import CosineSimilarityLoss  # Verlustfunktion basierend auf der Kosinus√§hnlichkeit, f√ºr Aufgaben wie Text√§hnlichkeit

from setfit import SetFitModel, SetFitTrainer  # Zum Laden des SetFit-Modells und Trainers, speziell f√ºr Few-Shot Learning mit Satztransformern
import pandas as pd  # Pandas f√ºr Datenmanipulation und -analyse
from sklearn.preprocessing import LabelEncoder  # Zum Encoden von Labels in numerische Werte f√ºr maschinelles Lernen
import os  # F√ºr den Umgang mit Betriebssystemfunktionen (z.B. Dateipfade)
from datasets import Dataset, DatasetDict  # Zum Erstellen und Verwalten von Datens√§tzen in Hugging Face `datasets`-Format
from sklearn.model_selection import train_test_split  # Zum Aufteilen der Daten in Trainings- und Testsets

from transformers import TrainingArguments  # Zum Festlegen von Trainingsparametern f√ºr Modelle in der Transformers-Bibliothek

import torch  # Erm√∂glicht die GPU-Nutzung und effiziente Verarbeitung von Tensoren
import numpy as np  # F√ºr numerische Berechnungen und Arbeiten mit Arrays

import re  # Paket f√ºr regul√§re Ausdr√ºcke (Regular Expressions), zum Suchen, Ersetzen oder Validieren von Textmustern.
import html  # Modul zum Umgang mit HTML, wie z.B. Entschl√ºsseln von HTML-Entities.
from unidecode import unidecode  # Bibliothek zum Entfernen von diakritischen Zeichen (z.B. Akzente) und zum Normalisieren von Unicode-Zeichen.

## Arbeitsverzeichnis bestimmen

Es wird weiterhin das Rootverzeichnis bestimmt um es sp√§ter √ºber relative Pfade Daten und Modelle laden zu k√∂nnen.

In [2]:
# checke home-verzeichnis
print(os.getcwd())
# setze korrektes Home-Verzeichnis, falls das derzeitige nicht das korrekte ist.
os.chdir('c:/Users/Hueck/OneDrive/Dokumente/GitHub/future_skill_classification/')

c:\Users\Hueck\OneDrive\Dokumente\GitHub\future_skill_classification\Py


## Trainings- und Testdaten

Von Yannic Hinrichs wurden per String-Match Trainingsdaten erzeugt, die um weitere Daten erg√§nzt wurden, die keine Future Skills enthalten. Die Daten wurden weiterhin durch Yannic Hinrichs h√§ndisch kontrolliert. Alternativ bestehen weiterhin die Daten, die Franziska Weber f√ºr das Training ihres Classifiers verwendet hat. Dieses werden derzeit (Stand 21.10.24) ebenfalls f√ºr das Training des folgenden Classfiers verwendet.

### Daten laden

Testdaten liegen zu jetzigen Zeitpunkt nicht vor.

In [3]:

# Laden der Trainingsdaten
df = pd.read_excel('data/train_data_franziska.xlsx')

df = (df
      .assign(sentence=lambda x: x['sentence'].astype(str))  # sentence-Spalte als String deklarieren
      .fillna(0)  # NAs durch 0 ersetzen
      .replace([np.inf, -np.inf], 0)  # infs durch 0 ersetzen
      .pipe(lambda x: x.assign(**{col: x[col].astype('int64') for col in x.select_dtypes(include='number').columns}))  # Numerische Variablen runden
     )

# F√ºr die weitere Verarbeitung werden die Daten ins Hugging Face Dataset-Format transformiert. 

# # /////////////////////////////////////////////////
# # Hinweis: Das Dataset-Format der Hugging Face datasets-Bibliothek basiert auf Apache Arrow und ist speichereffizient, was schnelles Laden und Verarbeiten gro√üer Datens√§tze erm√∂glicht. Es integriert sich nahtlos in Machine-Learning-Workflows und unterst√ºtzt einfache Transformationen und Vorverarbeitung durch Methoden wie .map(). Zudem ist es flexibel und kompatibel mit Pandas DataFrames sowie g√§ngigen Frameworks wie PyTorch und TensorFlow.
# #//////////////////////////////////////////////////

dataset = Dataset.from_pandas(df)
print(dataset)
 

Dataset({
    features: ['sentence', 'Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing', 'Digital Literacy', 'Digital Ethics', 'Digitale Kollaboration', 'Digital Learning', 'Agiles Arbeiten', 'L√∂sungsf√§higkeit', 'Kreativit√§t', 'Unternehmerisches Handeln & Eigeninitiative', 'Interkulturelle Kommunikation', 'Resilienz', 'Urteilsf√§higkeit', 'Innovationskompetenz', 'Missionsorientierung', 'Ver√§nderungskompetenz', 'Dialog- und Konfliktf√§higkeit'],
    num_rows: 1577
})


### Daten verarbeiten

#### Feature Auswahl

Nun werden die Features des Classifiers ausgew√§hlt. Diese werden von den Kurstitel und -beschreibungen (`sentence`) separiert. 

In [4]:
# Ziehe Column-Names als Liste
features = dataset.column_names

# Definiere Columns, die nicht vom classifier ber√ºcksichtigt werden
to_remove = ['sentence','Digital Literacy', 'Digital Ethics', 'Digitale Kollaboration', 'Digital Learning', 'Agiles Arbeiten', 'L√∂sungsf√§higkeit', 'Kreativit√§t', 'Unternehmerisches Handeln & Eigeninitiative', 'Interkulturelle Kommunikation', 'Resilienz', 'Urteilsf√§higkeit', 'Innovationskompetenz', 'Missionsorientierung', 'Ver√§nderungskompetenz', 'Dialog- und Konfliktf√§higkeit'] 

# Schlie√üe die oben definierten Variablen aus der Feature-Liste aus
filtered_features = [feature for feature in features if feature not in to_remove]

features = filtered_features

print(features)

['Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing']


### One-Hot-Encoding

F√ºr das Trainieren des Classifiers wird im folgenden ein *One-Hot-Encoding*-Array der Features erzeugt. Dies ist deshalb n√∂tig, da im folgenden ein Modell f√ºr ein Multi-Label-Szenario trainiert werden soll: Ein Kursangebot kann den erwerb mehrerer Future Skills versprechen, etwa Softwareentwicklung **&** IT-Architektur. Das One-Hot-Encoding wird ben√∂tigt, um die Labels der Features in eine Form zu bringen, die das Classifier Modell von SetFit korrekt verarbeiten kann. Es stellt sicher, dass alle Klassen gleichwertig behandelt werden, und erm√∂glicht die Berechnung von √Ñhnlichkeiten verschiedener Kursinhalte.

Um den *One-Hot-Encoding*-Array zu erzeugen definieren wir `encode_labels(record)`: Diese Funktion geht durch jede Zeile eines Data Frames und erstellt eine neue Spalte namens `labels`. In dieser Spalte werden die Werte aus den oben definierten "features" gesammelt und in eine Liste gepackt. Diese Liste enth√§lt Werte der Features.

Beispiel: Mit Blick auf die Features 'Data Analytics & KI', 'Softwareentwicklung' und 'Nutzerzentriertes Design', k√∂nnte ein Zeilenvektor des Arrays eines Kurses der sich mit Data Analytics & KI / Softwareentwicklung besch√§ftigt so aussehen: `[1, 1, 0]`

In [5]:
# Generiere Funktion f√ºr One-Hot-Encoding f√ºr jede Zeile (record)
def encode_labels(record):
    return {"labels": [record[feature] for feature in features]}

# Wende Funktion auf train_data an
dataset = dataset.map(encode_labels)

# Um die Daten √ºbersichtlich im Viewer zu betrachten: Umwandlung und Pandas Data Frame
pd_dataset = dataset.to_pandas()

  obj.co_lnotab,  # for < python 3.10 [not counted in args]


Map:   0%|          | 0/1577 [00:00<?, ? examples/s]

Wir kopieren als n√§chstes das `dataset`-Objekt in ein neues Objekt namens `train_data` und ziehen davon nochmals eine Kopie mit Pandas, um die Daten ein letztes Mal im Viewer zu pr√ºfen.

In [6]:
train_dataset = dataset

# check data with pandas
pd_train_dataset = train_dataset.to_pandas() 

## Modelltraining

### Vorbereitung des Modells

Es wird das vortrainierte sentence-transformers-Modell `paraphrase-multilingual-MiniLM-L12-v2` aus der Hugging Face Bibliothek geladen. Durch die Angabe der Strategie `one-vs-rest` wird das Modell f√ºr eine Multi-Label-Klassifikation konfiguriert, bei der jede Klasse eines Kurses einzeln vorhergesagt wird. Auf diese Weise wird es m√∂glich, mehrere Skills pro Kurs zu identifizieren.

Das Modell `paraphrase-multilingual-MiniLM-L12-v2` eignet sich gut zur Klassifikation von Future Skills, da es auf semantische √Ñhnlichkeit und Paraphrasierung trainiert wurde. Dadurch kann es unterschiedliche Formulierungen eines Skills als denselben Future Skill erkennen, was bei der Erfassung von Konzepten hilfreich ist, die oft unterschiedlich beschrieben werden. Seine Multilingualit√§t macht es zudem flexibel f√ºr Kursdaten in verschiedenen Sprachen. Dank der MiniLM-Architektur ist das Modell effizient und erm√∂glicht schnelle Vorhersagen, ohne dabei an Leistungsf√§higkeit zu verlieren. Diese Eigenschaften machen es besonders n√ºtzlich, um abstrakte oder neu formulierte Skills zuverl√§ssig zu klassifizieren.

Der Parameter `multi_target_strategy="multi-output"` ist eine spezifische Strategie, die f√ºr Multilabel-Klassifikationen verwendet wird, bei denen jedes Label als unabh√§ngiger Klassifikationsausgang behandelt wird. Das bedeutet, dass das Modell f√ºr jeden Future Skill eine eigene, separate Vorhersage trifft, anstatt alle Labels als zusammenh√§ngend zu betrachten. Diese Strategie ist besonders n√ºtzlich, wenn es keine Abh√§ngigkeit zwischen den Labels gibt und jeder Future Skill unabh√§ngig von den anderen erlernt oder vorhergesagt werden kann. Dadurch kann das Modell pr√§ziser und flexibler f√ºr komplexe Klassifikationsaufgaben mit mehreren Zielen arbeiten.

In [7]:
# Laden des Modells
model = SetFitModel.from_pretrained(
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", 
    multi_target_strategy="multi-output",
    labels=['Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing'],
)

model_head.pkl not found on HuggingFace Hub, initialising classification head with random weights. You should TRAIN this model on a downstream task to use it for predictions and inference.


### Auswahl GPU/CPU

Es wird zun√§chst gepr√ºft, ob CUDA (und damit eine GPU) verf√ºgbar ist, indem `torch.cuda.is_available()` aufgerufen wird. Wenn CUDA verf√ºgbar ist, wird die GPU als Rechenger√§t (`device`) ausgew√§hlt, und der Name der GPU mit `torch.cuda.get_device_name(0)` ausgegeben. Falls CUDA nicht verf√ºgbar ist, wird stattdessen die CPU als Rechenger√§t festgelegt. Anschlie√üend wird das Modell mit `model.to(device)` entweder auf die GPU oder die CPU verschoben, abh√§ngig von der zuvor getroffenen Ger√§teauswahl, um die Berechnungen entsprechend durchzuf√ºhren.

In [8]:
# Pr√ºfen, ob CUDA (GPU) verf√ºgbar ist
print("CUDA verf√ºgbar:", torch.cuda.is_available())

# Wenn CUDA verf√ºgbar ist, die GPU verwenden
if torch.cuda.is_available():
    device = torch.device("cuda")
    print("GPU:", torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print("Verwende CPU")

# model auf GPU verschieben

    # Sicherstellen, dass das Modell auf der GPU ist, wenn verf√ºgbar
model = model.to(device)


CUDA verf√ºgbar: True
GPU: NVIDIA GeForce RTX 4060 Ti


F√ºr den Fall dass eine GPU vorhanden ist: `PyTorch` wird verwendet, um die GPU f√ºr das Training von Modellen zu verwenden. `PyTorch` nutzt einen Speicher-Caching-Mechanismus, um GPU-Speicher effizient zu verwalten. Wenn Tensoren gel√∂scht oder nicht mehr ben√∂tigt werden, bleibt der Speicher oft noch im Cache, damit zuk√ºnftige Speicheranforderungen schneller bedient werden k√∂nnen. Der Befehl `torch.cuda.empty_cache()` leert im folgenden den Cache und gibt den belegten Speicher an das GPU-System zur√ºck, ohne jedoch den aktuell in Verwendung befindlichen Speicher zu beeinflussen. Wird der Cache nicht regelm√§√üiig geleert, kann das einen ernormen Einfluss auf die Bearbeitungszeit des Trainings eines Classifiers haben.

In [9]:
import torch
torch.cuda.empty_cache()

Der `SetFitTrainer` wird instanziiert, um das Modell auf den Trainings- und Evaluierungsdatens√§tzen zu trainieren. Eine Bewertung des Modells wird erst zu einem sp√§teren Zeitpunkt m√∂glich, wenn Testdaten vorliegen.

1. Das vortrainierte `model` (siehe oben) wird als Grundlage f√ºr das Training verwendet, das auf dem Few-Shot Learning-Ansatz basiert.
2. Der `train_dataset` enth√§lt die Trainingsdaten, ein `eval_dataset` liegt derzeit nicht vor.
3. Die Verlustfunktion (`loss_class`) wird als *Cosine Similarity Loss* festgelegt. Die *Cosine Similarity Loss* ist eine Verlustfunktion, die darauf basiert, wie √§hnlich sich zwei Vektoren sind. In diesem Fall werden die Ausgabevektoren des Modells und die Zielvektoren (also die "Labels") mithilfe der Kosinus-√Ñhnlichkeit verglichen. Je h√∂her die √Ñhnlichkeit also, desto besser das Modell. 
4. Die `column_mapping` gibt an, welche Spalten in den Datens√§tzen die Texte (`sentence` ‚Üí `text`) und die zugeh√∂rigen Labels (`labels` ‚Üí `label`) enthalten, sodass das Modell die Daten korrekt interpretieren kann.


In [10]:
trainer = SetFitTrainer(
    model=model,
    train_dataset=dataset, 
    #eval_dataset=eval_dataset,
    loss_class=CosineSimilarityLoss,
    num_iterations=40, 
    num_epochs=2,
    column_mapping={"sentence": "text", "labels": "label"}
)

  trainer = SetFitTrainer(
Applying column mapping to the training dataset


Map:   0%|          | 0/1577 [00:00<?, ? examples/s]

Nun kann das Training beginnen: 

In [11]:
trainer.train()

***** Running training *****
  Num unique pairs = 126160
  Batch size = 16
  Num epochs = 2


  0%|          | 0/15770 [00:00<?, ?it/s]

{'embedding_loss': 0.1571, 'grad_norm': 1.779844045639038, 'learning_rate': 1.2682308180088778e-08, 'epoch': 0.0}
{'embedding_loss': 0.1986, 'grad_norm': 2.48179292678833, 'learning_rate': 6.341154090044388e-07, 'epoch': 0.01}
{'embedding_loss': 0.1774, 'grad_norm': 1.4752390384674072, 'learning_rate': 1.2682308180088775e-06, 'epoch': 0.01}
{'embedding_loss': 0.136, 'grad_norm': 1.5738091468811035, 'learning_rate': 1.9023462270133167e-06, 'epoch': 0.02}


KeyboardInterrupt: 

Das nach-trainierte Modell wird in einem ersten Schritt lokal gespeichert:

In [14]:
# Speichern des Modells auf deinem PC
model.save_pretrained("models")  # Ersetze den Pfad durch deinen gew√ºnschten Speicherort

In einem weiteren Schritt wird das Modeel auf das Hugging-Face-Hub geladen:

In [None]:
trainer.push_to_hub("Chernoffface/fs-setfit-multilable-model")

Done. Das Training ist beendet ü§ó.