# Anwendung des Classifers

## Laden von Paketen

 Die Anwendung des Classifiers ist so einfach wie m√∂glich gestaltet. In einem ersten Schritt w√§hlen wir unser Enviorment `future-skill-classification` und laden die f√ºr die Vorhersage der Labels n√∂tigen Pakete:

In [2]:
import pyreadr  # Zum Lesen von R-Daten in Python
import os       # Funktionen zum Interagieren mit dem Betriebssystem
import pandas as pd  # Datenanalyse und -manipulation mit DataFrames
import re # Regrex-Paket f√ºr die Bereinigung von Strings
from tqdm import tqdm # Paket f√ºrs Anzeigen von Fortschritt beim Ausf√ºhren von Funktionen
from setfit import SetFitModel  # Zum Laden des SetFit-Modells von Hugging Face bzw. aus dem lokalen Ordner heraus

ModuleNotFoundError: No module named 'pyreadr'

## Laden der HEX-Daten

Wir checken das Root-Verzeichnis. Stimmt dieses nicht, bestimmen wir das Korrekte und lesen `db_hex.rds` ein. 

In [13]:
# checke home-verzeichnis
print(os.getcwd())
# setze home-verzeichnis
os.chdir('c:/Users/Hueck/OneDrive/Dokumente/GitHub/future_skill_classification/')
# lade HEX-Daten. Hinweise: Zur√ºckgegben eine Liste mit einem Element (dem Data Frame).
# Dieses lassen wir uns mit `.values())[0]` zur√ºckgeben.
#df_hex = list(pyreadr.read_r('data/db_hex.rds').values())[0]

c:\Users\Hueck\OneDrive\Dokumente\GitHub\future_skill_classification


Um die Classifier zu testen, wenden wir ihn vorerst nur auf 1% zuf√§llig gezogener Zeilen an. Daf√ºr *ziehen* wir die entsprechende Stichprobe und speichern sie in dem Objekt `df_hex_sample`.

In [5]:
df_hex_sample = df_hex.sample(frac=1)  # Nimmt 10 % der Zeilen

In einem weiteren Schritt werden die Daten f√ºr die Klassifikation vorbereitet: 

- `NAs` werden durch leere Strings ersetzt
- Die Variablen `titel` und `kursbeschreibung` zusammengef√ºgt und ‚Äì falls eine Kursbeschreibung vorhanden ist ‚Äì ein Doppelpunkt zwischen `titel` und `kursbeschreibung` gesetzt.

In [7]:
# Ersetze NaN-Werte in den Spalten 'titel' und 'kursbeschreibung' durch leere Strings
df_hex_sample['titel'] = df_hex_sample['titel'].fillna('')
df_hex_sample['kursbeschreibung'] = df_hex_sample['kursbeschreibung'].fillna('')
df_hex_sample['lernziele'] = df_hex_sample['lernziele'].fillna('')


# Kombiniere die Spalten und f√ºge den Doppelpunkt nur hinzu, wenn eine Kursbeschreibung vorhanden ist
df_hex_sample['sentence'] = df_hex_sample.apply(
    lambda row: row['titel'] 
                + (": " + row['kursbeschreibung'] if row['kursbeschreibung'] else "")
                + (". Lernziele: " + row['lernziele'] if row['lernziele'] else ""),
    axis=1
)

## Definition von Funktionen f√ºr die Vorhersage von Future Skills

Um die Future Skills der Kurse der Datenbank mit unserem Modell vorhersagen zu k√∂nnen, erstellen wir eine Funktion, die durch die Zeilen der `db_hex.rds` iteriert und die entsprechenden Sch√§tzungen anhand der oben pr√§parierten `sentence`-Variable vornimmt.

In [9]:
# Fortschrittsbalken f√ºr Pandas aktivieren, um die Fortschritt der Pr√§diktion besser nachvollziehen zu k√∂nnen.
tqdm.pandas()

# Definiere eine Funktion, die das Modell auf eine Kursbeschreibung anwendet
def predict_course_description(description):
    # √úberpr√ºfen, ob die Beschreibung ein String ist
    if isinstance(description, str):
        preds = model(description)
        return preds
    # Falls `sentence` ein nicht-String-Objekt, gib eine leere Liste
    return []

Die Funktion `predict_course_description` gibt uns einen sechsdimensionalen Tensoren zur√ºck, der die Existenz der Future Skills pro Kurs anzeigt:

```
[1, 0, 0, 1, 0, 0]
```
F√ºr die Interpretation des Tensors ber√ºcksichtigen wir die Reihenfolge der Variablen unserer Eingangsdaten. Siehe dazu in  `notebooks/Tiny_Few_Shot_Multi_Label_Classifier.ipynb` Sektion `Daten laden`. Im derzeitigen Fall w√§re dies die folgende:

```
['Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing']
```

Dementsprechend w√ºrden in dem obigen Beispiel die Skills 'Data Analytics & KI' sowie 'IT-Architektur' klassifiziert.

Um die Tensoren zeilenweise wieder in g√ºltige Labels zu √ºberf√ºhren spezifizieren wir eine weitere Funktion: 

In [10]:
fs_labels = ['Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing']

import pandas as pd
import numpy as np

def convert_tensor_to_labels(tensor):
    # Falls der Tensor NaN ist, gib None zur√ºck
    if isinstance(tensor, float) and pd.isna(tensor):  # √úberpr√ºft, ob der gesamte Tensor NaN ist
        return None  # Oder verwende np.nan
    
    # Sicherstellen, dass die L√§nge des Tensors der L√§nge der fs_labels-Liste entspricht
    if len(tensor) != len(fs_labels):
        print(f"Warnung: Unerwartete Tensorgr√∂√üe {len(tensor)}, erwartet: {len(fs_labels)}")
        return 'Fehlerhafte Vorhersage'
    
    # Identifiziere die Positionen, wo der Wert 1 ist
    selected_labels = [fs_labels[i] for i, val in enumerate(tensor) if val == 1]
    
    # Falls keine Labels ausgew√§hlt wurden, gib None zur√ºck
    return ', '.join(selected_labels) if selected_labels else None  # Oder np.nan


## Modell laden, Pr√§diktion durchf√ºhren

Das trainierte Modell kann nun entweder lokal oder aus dem Hugging Face-Hub geladen werden. Anschlie√üend wird mit `predict_course_description` die Pr√§diktion pro Kurs durchgef√ºhrt und die resultierenden Tensoren in eine leicht interpretierbare String-Variable √ºberf√ºhrt.

In [11]:
# Laden des vortrainierten Modells

# Aus dem HF-HUB:
#model = SetFitModel.from_pretrained("Chernoffface/fs-setfit-multilable-model")

# Lokal:
model = SetFitModel.from_pretrained("models")  # √Ñndere den Pfad zu deinem Modell

# Prediction anhand von predict_course_description
df_hex_sample["Pred_Tensor"] = df_hex_sample["sentence"].progress_apply(predict_course_description)

# Umwandlung des Tensors in String-Variable
df_hex_sample["FS_Skill"] = df_hex_sample["Pred_Tensor"].progress_apply(lambda x: convert_tensor_to_labels(x))

# Tabelle der Resultate:
label_counts = df_hex_sample['FS_Skill'].value_counts()

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1968993/1968993 [5:31:50<00:00, 98.89it/s]   
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1968993/1968993 [00:56<00:00, 35037.69it/s]


## Datenexport

Doneü§ó. Insbesondere bei der Klassifizierung der ganzen HEX Datenbank exportieren wir aufgrund der √ºberaus hohen Menge an Zeilen nach `.csv`.

In [14]:
# Exportiere den DataFrame in eine Excel-Datei
df_hex_sample.to_csv('data/hex_classified_fs_with_lernziele.csv', index=False)