# Maschinelles Lernen - eine kurze Einführung

## Was ist maschinelles Lernen?
In den letzten Jahren gab es zwei wichtige Entwicklungen:
- die Masse von strukturiert vorliegenden Daten ist enorm angewachsen und
- die Rechenleistung ist angestiegen.

Das Maschinelle Lernen (ML) ist nach Viviana Acquiaviva [Acq23] *der Prozess eine Maschine beizubringen, 
fundierte, datengestütze Entscheidungen zu treffen* 
(*the process of teaching a machine to make informed, data-driven decisions*).
Gemäß Jake VanderPlas [Van24] basiert ML auf *mathematisch-statistische Kenntnisse*, 
um riesigen Datenmengen zu modellieren und *Fähigkeiten als Programmierer*, um mit risigen Datenmengen 
in der Speicherung, der Verarbeitung und der Visualisierung umzugehen. Dies alleine reicht jedoch nicht.
Er führt weiter aus, dass auch *fundiertes Fachwissen* benötigt wird, damit die richtigen Fragen
gestellt werden können und damit die Antworten klar interpretiert werden können.


## Welche Aufgaben können mit ML durchgeführt werden?
Viviana Acquaviva [Acq23] beschreibt die Aufgaben des ML folgendermaßem:
- **erkennen** (*recognize*): korrektes Erkennen von Mustern oder Bildern,
- **vorhersagen** (*predict*): zukünftiges Verhalten vorhersagen; vervollständigen fehlender Daten;
- **gruppieren**  (*group together*): Objekte vergleichen und zu Gruppen anordnen,
- **vereinfachen** (*simplify*): Daten zusammenfassen und kondensieren, so dass sie besser verständlich sind.

## Grundlegende Begriffe beim ML

Für das MLn werden Daten herangezogen und analysiert. Die Daten bestehen aus $N$ **Instanzen** (*instances*).
Die Instanzen werden machmal auch kurz Beispiele (*sampes*,*examples*) oder in der Physik Beobachtungen (*observables*) genannt. 
Diese Instanzen bestehen aus $n$ bekannten **Eigenschaften** (*features*) auch die *Input*-Daten genannt. 
Diese Eigenschaften können numerische Werte sein, müssen es jedoch nicht. 
Für die weitere Verarbeitung ist es jedoch notwendig, wenn alle Daten numerisch sind. 
Hierzu kann eine einfache Abbildung von nicht-numerischen Werten auf numerische Werte durchgeführt werden. 
Darüber hinaus gibt es eine Eigenschaften, die aus den *Input*-Daten abgeleitet werden soll. 
Diese Daten heißen **Ergebnis** (*target*), die auch *Output*-Daten genannt werden.

Damit sind die Input-Daten $X$ eine reelle $N \times n$-Matrix, $X = (x_{i,j}) \in \mathbb{R}^{N \times n}$.
Die Output-Daten bilden einen reellen Vektor der Länge $N$: $y = (y_i) \in \mathbb{R}^{N}$.

Bei klassischen Programmen wird eine Funktion geschrieben, welche die Eingabedaten in die Ausgabedaten transformiert. 
Hierzu muss die Funktion jedoch bekannt sein. Beim ML hingegebn ist die Funktion oder die Parameter der Funktion nicht bekannt. 
Es soll ein möglichst gutes **Maschinelles Lernen-Model** (*maschine learning modell*) erstellt - gelernt - werden, 
welches die *Output*-Daten aus den *Input*-Daten ermittelt. Dann kann auch für unbekannte Datensätze 
aus gegebenen Input-Daten die Output-Daten vorhergesagt.

Für das ML gibt es zwei grundlegende Verfahren:
- beim **überwachten Lernen** (*supervised learning*) gibt es eine Sammlung von Instanzen, für die der Output-Daten bekannt sind.
Beim Lernprozess können daher Vorhersagen mit den bekannten Ergebnissen abgeglichen werden.
- beim **unüberwachten Lernen** (*unsupervised learning*) sind Output-Daten für die Instanzen nicht bekannt.


## Überwachtes Lernen
Beim überwachten Lernen wird die Sammlung von Daten, die für das Lernen zur Verfügung stehen als **Lerndaten** (*learning set*) bezeichnet.
Für diese Lerndaten sind die Input-Daten und die dazugehörigen Output-Daten bekannt.
Diese Lerndaten wird in zwei Teile zerlegt:
- Mit der **Trainingsdaten** (*training set*) wird ein Modell und die dazugehörigen Parameter berechnet, welche die
Beziehung zwischen den Input-Daten und den Output-Daten beschreibt.
- Mit den **Testdaten** (*test set*) wird das Modell und die bestimmten Parameter überprüft. Es wird somit geprüft,
ob das Modell, das aus den Trainingsdaten bestimmt wird, die Testdaten gut beschreiben.

Die $N$ Instanzen werden aufgeteilt in $N_{train}$ Trainingsdaten und $N_{test}$ Testdaten

FÜr die Überprüfung, ob das gewählte Modell eine gute Beschreibung der Beziehung zwischen Input-Daten und Output-Daten ist,
wird die **Fehlerrate** (*rate of failure (error)*) beziehungsweise 
die **Erfolgsrate** (*rate of success (score)*) bestimmt. Dies wird sowohl bei den
Trainingsdaten als auch bei den Testdaten durchgeführt. Damit werden
- **Trainingsfehlerrate** (*training error*), **Trainingserfolgsrate** (*training score*) und
- **Testsfehlerrate** (*test error*), **Testerfolgsrate** (*test score*)

ermittelt. Wenn das Modell auf Daten angewendet werden, die nicht in den Lerndaten enthalten sind, 
dann werden ebenso Fehler und Erfolg gemessen. Dies wird dann **Generalisierungsfehler** (*gerneralization error*) 
beziehungsweise **Generalisierungerfolg** (*generalization score*) genannt.

Nach Viviana Acquaviva [Acq23] ist das überwachte Lernen nur so gut, wie die Daten, die in den Lerndaten enthalten sind
(*a supervised learning method is only as good as its learning set*):
- gibt es zu wenig Daten, dann kann das Modell den Zusammenhang zwischen Input und Output nicht richtig erlernen,
- ist die Auswahl der Daten in den Lerndaten nicht repräsentativ für alle Daten, dann lernt das Modell einen falschen Zusammenhang.

Daher ist es wichtig, die Daten zu verstehen. Dazu wird das Fachwissen benötigt, um die Daten richtig zu interpretieren. 
Viviana Acquaviva schreibt dazu: 

*Because [machine learning techniques] are driven by the data as opposed to relying on physical intuition,
we are bound to make a fool of ourselves if we don't understand the data well.*

Das überwachte Lernen unstützt zwei wichtige Aufgaben:
- **Klassifizierung**  (*classification*): Die Output-Daten gehören zu zwei und mehrern diskreten Möglichkeiten (Klassen). 

Beispiele dazu, die auch im weiteren Verlauf behandelt werden sind:
1. Bei den Daten über die Iris-Blüten, soll anhand von vier Merkmalen erkannt werden, welche der drei möglichen Arten von Iris-Büten vorliegt.
2. Bei dem MNIST-Mustererkennungsbeispiel werden Bilder, welche die Ziffern von 0 bis 9 darstellen, analysiert, um zu erkennen, welche Ziffer abgebildet ist. Somit gibt es zehn verschiedene *Output*-Daten.
3. Bei Beispiel über bewohnbare Planten, welches in Acquaviva [Acq23, Kap 2] vorgestellt ist, gibt es zwei möglich Antorten "bewohnbar" oder "nicht bewohnbar" .

- **Regression** (*regression*): Es werden reelle Parameter für ein Modell bestimmt. DIe Parameter werden ausgehend von den Daten besteimmt.
Eine Formel, welche den Zusammenhang beschreibt ist nicht bekannt.

Ein Beispiel ist hierfür, die Fallzeit eines Gegenstandes allein aus der Fallhöhe zu bestimmen, ohne dass das Newton'sche Fallgesetz bekannt ist.

## Unüberwachtes Lernen
Beim unüberwachten Lernen sind keine Output-Daten für die Datensätze bekannt. 

Beim **Clustern** (*clustering*) soll anhand der Daten Ähnlichkeiten und Zusammenhänge erkannt werden, so dass die Daten gruppiert werden können.
Beispiele hierfür die die Erkennung von Hunden oder Katzen, oder die Bestimmung des Typs von Galaxien auf Bildern.

Eine weitere Aufgabe kann es sein, die Problemgröße zu reduzieren, also die Daten zu vereinfachen. 
Dies ist unter dem Stichwort **Dimensionsreduktion** (*dimensionality reduction*, DR) bekannt.
Hierzu ist zu überprüfen, welche Daten wichtig sind, welche nicht wichtig sind.

## Literatur
- [Acq23] Viviana Acquaviva; Machine Learning for Physics and Astronomy; Princeton University Press; 2023
- [Van24] Jake VanderPlas; Handbuch Data Science mit Python; O'Reilly; 2024; (Übersetzung der 2. Auflage von *Python Data Science Handbook*)