## Die Sprache der maschinellen Lernens

### 1 Instanzen, Eigenschaften, Ergebnis und Modell

Für das MLn werden Daten herangezogen und analysiert. Die Daten bestehen aus $N$ **Instanzen** (*instances*).
Die Instanzen werden machmal auch kurz Beispiele (*sampes*,*examples*) oder in der Physik Beobachtungen (*observables*) genannt. 
Diese Instanzen bestehen aus $n$ bekannten **Eigenschaften** (*features*) auch die *Input*-Daten genannt. 
Diese Eigenschaften können numerische Werte sein, müssen es jedoch nicht. 
Für die weitere Verarbeitung ist es jedoch notwendig, wenn alle Daten numerisch sind. 
Hierzu kann eine einfache Abbildung von nicht-numerischen Werten auf numerische Werte durchgeführt werden. 
Darüber hinaus gibt es eine Eigenschaften, die aus den *Input*-Daten abgeleitet werden soll. 
Diese Daten heißen **Ergebnis** (*target*), die auch *Output*-Daten genannt werden.

Damit sind die Input-Daten $X$ eine reelle $N \times n$-Matrix, $X = (x_{i,j}) \in \mathbb{R}^{N \times n}$.
In jeder der $N$ Zeilen stehen die *features* der Instanzen. In jeder einzelnen der $n$ Spalten stehen die
Daten für ein *feature*.
Die Output-Daten bilden einen reellen Vektor der Länge $N$: $\textbf{y} = (y_i)^T \in \mathbb{R}^{N}$. 
In ihm stehen die *target*s der einzelnen Instanzen.

Bei klassischen Programmen wird eine Funktion geschrieben, welche die Eingabedaten in die Ausgabedaten transformiert. 
Hierzu muss die Funktion jedoch bekannt sein. Beim ML hingegebn ist die Funktion oder die Parameter der Funktion nicht bekannt. 
Es soll ein möglichst gutes **Maschinelles Lernen-Modell** (*maschine learning model*) erstellt - gelernt - werden, 
welches die *Output*-Daten aus den *Input*-Daten ermittelt. Dann kann auch für unbekannte Datensätze 
aus gegebenen Input-Daten die Output-Daten vorhergesagt werden.

### 2 Lerndaten, Trainingsdaten, Testdaten

Beim überwachten Lernen wird die Sammlung von Daten, die für das Lernen zur Verfügung stehen als **Lerndaten** (*learning set*) bezeichnet.
Für diese Lerndaten sind die Input-Daten und die dazugehörigen Output-Daten bekannt.
Diese Lerndaten werden in zwei Teile zerlegt:
- Mit den **Trainingsdaten** (*training set*) wird ein Modell und die dazugehörigen Parameter berechnet, welche die
Beziehung zwischen den Input-Daten und den Output-Daten beschreibt.
- Mit den **Testdaten** (*test set*) wird das Modell und die bestimmten Parameter überprüft. Es wird somit geprüft,
ob das Modell, das aus den Trainingsdaten bestimmt wird, die Testdaten gut beschreiben.

Die $N$ Instanzen werden aufgeteilt in $N_{train}$ Trainingsdaten ($X_{train}$, $\textbf{y}_{train}$) 
und $N_{test}$ Testdaten ($X_{test}$, $\textbf{y}_{test}$).
Dies ist ein zufälliger Prozess. Eine gebräuchliche Aufteilung ist 70% Trainingsdaten und 30% Testdaten.
Diese Werte können jedoch variieren.

Wichtig dabei ist die zufällige Auswahl der Trainingsdaten, damit die Trainingsdaten ein
repräsentatives Bild der gesamten Daten abgeben!
Nach Viviana Acquaviva [Acq2023] ist das überwachte Lernen nur so gut, wie die Daten, die in den Lerndaten enthalten sind
(*a supervised learning method is only as good as its learning set*):
- gibt es zu wenig Daten, dann kann das Modell den Zusammenhang zwischen Input und Output nicht richtig erlernen,
- ist die Auswahl der Daten in den Lerndaten nicht repräsentativ für alle Daten, dann lernt das Modell einen falschen Zusammenhang.

Daher ist es wichtig, die Daten zu verstehen. Dazu wird das Fachwissen benötigt, um die Daten richtig zu interpretieren. 
Viviana Acquaviva schreibt dazu: 

*Because [machine learning techniques] are driven by the data as opposed to relying on physical intuition,
we are bound to make a fool of ourselves if we don't understand the data well.*

### 3 Fehlerrate, Erfolgsrate
Für die Überprüfung, ob das gewählte Modell eine gute Beschreibung der Beziehung zwischen Input-Daten und Output-Daten ist,
wird die **Fehlerrate** (*rate of failure (error)*) beziehungsweise 
die **Erfolgsrate** (*rate of success (score)*) bestimmt. Dies wird sowohl bei den
Trainingsdaten als auch bei den Testdaten durchgeführt. Damit werden
- **Trainingsfehlerrate** (*training error*), **Trainingserfolgsrate** (*training score*) und
- **Testsfehlerrate** (*test error*), **Testerfolgsrate** (*test score*)

ermittelt. Wenn das Modell auf Daten angewendet werden, die nicht in den Lerndaten enthalten sind, 
dann werden ebenso Fehler und Erfolg gemessen. Dies wird dann **Generalisierungsfehler** (*gerneralization error*) 
beziehungsweise **Generalisierungerfolg** (*generalization score*) genannt.

Durch den Vergleich von diesen Kennzahlen (später werden noch weitere Kennzahlen eingeführt) werden die Ergebnisse
verschiedener Modelle und auch unterschiedlicher Parametrisierungen von Modellen verglichen, um damit abzuwägen,
welche Modelle und welche Parameter für die Modelle geeignet sind.


### 4 Der generelle Ablauf

Wie sieht der Ablauf beim Maschinellen Lernen aus. Viviana Acquviva beschreibt den Ablauf folgendermaßen (siehe [Acq2023]):

#### Schritt 1: Aufbereitung der Daten

**Datenaufbereitung** Die Daten, die verwendet werden müssen oftmals aufbereitet werden.
Auch der Umgang mit fehlenden Daten muss geklärt werden. 
Die Daten werden dabei oftmals als ein *panda-Datenframe* bereitsgestellt.
Hier wird jedoch das Werkzeug *panda* nicht genauer betrachtet. 
Die Daten werden als ein $numpy-array$ aufgebaut,
wobei die Daten bereinigt sind.
(Wenn die Daten als *panda-datenframe* kommen, 
dann werden sie für die weitere Bearbeitung meistens in ein *numpy-array* umgewandelt.)

**Splitten** Die Daten werden aufgeteilt in Trainingsdaten und Testdaten.
Damit stehen am Ende dieses Schritten die Trainingsdaten $X_{train}$, $\textbf{y}_{train}$ 
und die Testdaten $X_{test}$, $\textbf{y}_{test}$ zur Verfügung.

#### Schritt 2: ML Algorithmus auswählen
In diesem Schritt wird der Algorithmus gewählt, der für das Training angewendet werden soll. 
Dabei werden auch die Parameter für den Algorithmus festgelegt.

Beispiel: Soll ein Polynom bestimmt werden, dann ist festzulegen, welchen Grad das Polynom haben soll.
Der Grad des Polynoms ist dann ein *Hyperparameter*, die noch unbekannten Koeffizienten des Polynoms
die *Parameter*, die bestimmt werden sollen.

Es gibt sehr viele ML Algorithmen, die gewählt werden können. Es können hier nur einige wenige vorgestellt werden. 
Grundlegende Begriffe, wie Trainingsdaten, Testdaten, Fehlerrate, Erfolgsrate und weitere Begriffe,
die im folgenden noch besprochen werden sind jedoch für alle gleich.

#### Schritt 3: Modell mit Hilfe der Trainingsdaten bilden (*fit*)
Der ausgewählte Algorithmus wird auf die Trainingsdtaen angewendet. Dies generiert dann ein vorläufige
Beziehung zwischen den Input- und Outputdaten. Damit wird also der Zusammenhang, gemäß dem gewählten
Algorithmus beschrieben. Dies ist in der Regeln ein sehr rechenintensiver Vorgang.

#### Schritt 4: Modell auf die Testdaten anwenden (*predict*)
Das vorhandene Modell, wird auf die Testdaten angewendet. Aus den Inputdaten der Testdaten werden Vorhersagen 
für die Output-Daten erstellt $\hat{\textbf{y}}_{test}$. Das sind die Vorhersagewerte auf Basis des ermittelten Modells.

#### Schritt 5: Perfomance bestimmen
Auf Basis eine vorab bestimmten Bewertungsmaßstabes (*evaluation metric*) wird die Perfomance des Modells
auf die Daten ermittelt. Hierzu findet ein Vergleich der Vorhersagewerte $\hat{\textbf{y}}_{test}$ 
mit den echten Werten $\textbf{y}_{test}$ statt.

#### Schritt 6: Ergebnis analysieren
Es kann sein, dass das erzielte Ergebnis gut ist - das ist jedoch in der Regel unwahrscheinlich.
Oftmals muss man überlegen, was verbessert werden kann oder muss. 
Sollen die Hyperparameter für den Algorithmus anders gewählt werden, 
werden mehr Daten benötigt, 
was funktioniert nicht so gut, was muss besser gestaltet werden.

Daraufhin kann der ML Algorithmus geändert oder verändert werden und das Ablauf wiederholt sich


### Literatur
- [Acq2023] Viviana Acquaviva; Machine Learning for Physisics and Astronomy; Princeton University Press; 2023