## Maschinelles Lernen - Einführung

### 1 Was ist Maschinelles Lernen
Das Maschinelle Lernen (ML) ist nach Viviana Acquiaviva [Acq2023] 
*der Prozess einer Maschine beizubringen, fundierte, datengestütze Entscheidungen zu treffen* 
(*the process of teaching a machine to make informed, data-driven decisions*).

Die Entwicklung ist in den letzten Jahren durch zwei wichtige Entwicklungen vorangetrieben worden:
- die Masse von strukturiert vorliegenden Daten ist enorm angewachsen und
- die Rechenleistung der Computer ist angestiegen.

Gemäß Jake VanderPlas [Van2024] basiert ML auf *mathematisch-statistische Kenntnisse*, 
um riesigen Datenmengen zu modellieren und *Fähigkeiten als Programmierer*, 
um mit riesigen Datenmengen in der Speicherung, der Verarbeitung und der Visualisierung umzugehen. 
Dies alleine reicht jedoch nicht.
Er führt weiter aus, dass auch *fundiertes Fachwissen* benötigt wird, damit die richtigen Fragen
gestellt werden können und damit die Antworten klar interpretiert werden können.

### 2 Wieso ist der Einsatz von Maschinellem Lernen sinnvoll

TODO: Hier Beispiele aufführen, wo die Grenzen der klassischen Bearbeitung ist, also Beispiele finden,
bei denen die Arbeit mit ML geeignet ist.

### 3 Welche Aufgaben können mit Maschinellem Lernen durchgeführt werden?

Viviana Acquaviva [Acq2023] beschreibt die Aufgaben des ML folgendermaßem:
1. **erkennen** (*recognize*): korrektes Erkennen von Mustern oder Bildern,
2. **vorhersagen** (*predict*): zukünftiges Verhalten vorhersagen; vervollständigen fehlender Daten,
3. **gruppieren**  (*group together*): Objekte vergleichen und zu Gruppen anordnen und
4. **vereinfachen** (*simplify*): Daten zusammenfassen und kondensieren, so dass sie besser verständlich sind.

Die Verfahren des ML werden eine dieser Aufgabe erfüllen. 

Die Verfahren des ML lassen sich gemäß Frochte [Fro2019] oder Nguyen und Zeigermann [Ngu2021] in drei Kategorien eingeteilt werden:
- **überwachtes Lernen** (*supervised learning*),
- **bestärktes Lernen** (*reinforcement learning*) und
- **unüberwachtes Lernen** (*unsupervised learning*).

In allen Verfahren geht es darum, eine Funktion $f : X \rightarrow Y$ zu finden, 
welche Elemente aus einer Eingabemenge $X$ auf Elemente einer Ergebnis- oder Zielmenge abbildet.
Auf Grund von Messfehlern, statistischen Fehlern und ähnlichen Sachverhalten ist es möglich,
dass für gleiche Wert in der Eingabemenge unterschiedliche Ergebnisse zugeordnet werden können.
Die Funktion muss dann so konstruiert sein, dass möglichst gute Ergebnisse bestimmt werden,
so dass die Daten gut wiedergegeben werden.

#### 3.1 Überwachtes Lernen
Beim überwachten Lernen gibt es (ausreichend viele) Datensätze von Eingabewerten, 
bei denen die dazu gehörigen Ergebniswerte  bekannt sind. 
Aufbauend auf diesen Daten wird ein Algorithmus trainiert.
Der trainierte Algorithmus kann dann auf unbestimmte Eingabewerte angewendet werden,
also ein Ergebnis bestimmt werden.

Bei der **Klassifikation** (*classification*) ist die Ergebnismenge eine diskrete Menge.
Die Elemente werden Klassen genannt. Der Algortihmus soll auf Basis der Eingabedaten eines
Datensatzes **erkennen**, zu welcher Klasse die Daten gehören.

Dazu zählen beispielsweise:
- Das Erkennen von Katzen oder Hunden auf Bildern.
- Das Erkennen von Iris-Blüten in dem berühmten Irisdatensatz des Botanikers *Edgar Anderson*.
Hier soll anhand von vier Merkmalen entschieden werden, zu welchen von drei Arten eine Blüte gehört. 
- Das Erkennen von Ziffern aus handschriftlichen Notizen. Hier gibt es zehn verschiedene Zeichen, die erkannt werden sollen.
- Das Erkennen von möglicherweisen habitablen Planten. 
Hier gibt es zwei verschiedene Möglichkeiten: bewohnbar oder nicht bewohnbar.
- Das Erkennen von bestimmten Zerfallsprodukten oder -prozessen im LHC (Large Hadron Collider)
bei einen Proton-Proton-Kollision bei hoher Energie.

Gibt es nur zwei Klassen, dann ist dies eine **binäre Klassifizierung** (*binary classification*).
Jedes Klassifizierungsproblem mit $n$ Klassen ($\{c_1, \ldots, c_n\}$) kann 
in $n$ binäre Klassifizierungsprobleme ($\{c_i, nicht-c_i\}$) umgewandelt werden.

Bei der **Regression** (*regression*) ist die Zielmenge keine diskrete Menge sondern eine kontinuierliche Menge. 
Hier wird eine Funktion gesucht, welche von neuen Daten in der Eingabemenge ein Ergebnis **vorhersagt**.

Dazu zählen beispielsweise:
- Steigung und Achsenabschnitt für eine lineare Regression bestimmen
- Optimalen Drehwinkel bestimmen.
- Rekonstruktion fehlender Teile in einem Bild.
- Auf Basis von einigen Daten Werte für andere Daten vorhersagen.

### Einschub: eifriges und faules Lernen
Beim ML ist der Lernprozess wichtig, um das Erlernte auf neue Situationen anzuwenden. Dabei gibt es zwei verschiedene Arten.

- Beim **eifrigen Lernen** (*eager learning*) ist der Trainingsprozess aufwändig.
Die Trainingsphase kann Stunden und Tage dauern, um eine optimale Funktion,
ein globales Modell, zu bestimmen.
Das Ziel ist, dass die Anwendung des Gelernten schnell geht. Beim Protonen-Protonen-Stoß im LHC entstehen viele
Zerfallsprodukte. In den Detektoren muss sehr schnell entschieden werden, ob der Zerfall ein interessantes
Ereignis (*signal*) oder ein nicht interessantes Ereignis (*background*, *noise*) ist.
- Beim **faulen Lernen** (*lazy Learning*) ist die Trainingsphase sehr kurz oder nicht vorhanden.
Die Bearbeitung erfolgt erst, wenn die neuen Eingabedaten kommen. Es wird ein lokales Modell erstellt.
Der Trainingsaufwand ist gering, der Aufwand für die Anwendung dagegen groß.

Faules Lernen hat den Vorteil, dass es lokale Gegebenheiten der Daten passgenauer bearbeitet werden können.
Beim eifrigen Lernen werden globale Modelle erstellt, die lokal zu Qualitätsverlusten führen können

### 3.2 Bestärkendes Lernen
Beim verstärkenden Lernen werden beim Lernprozess durch positive oder negative Rückmeldungen nach einer Aktion
die Optimierung eines Verhaltens gefördert.

Dazu gehören beispielsweise:
- Das Erlernen eines optimalen Verhaltens durch positive und negative Rückmeldungen an den Lernprozess.

### 3.3 Unüberwachtes Lernen
Beim unüberwachten Lernen sind keine Ergebnisse zu den Eingabedaten bekannt.

Beim **Clustering** (*clustering*) werden Daten verglichen und versucht, 
Daten zu **gruppieren**  (*group together*). 
Es ergibt sich also die Frage, welche Eigenschaften dazu führen, dass verschiedene Objekte 
als Objekte einer Gruppe angesehen werden. 
Es gilt also Gemeinsamkeiten und Trennendes von Daten zu erkennen.

Dazu gehören beispielsweise:
- Verschiedene Typen von Galaxien an Hand von Bildern erkennen.

Im nachfolgenden Bild sind vier Objekte enthalten, die gruppiert werden sollen.

<img src="ExampleGroupTogether.png" width="500" height="150" style="zoom:80%;" />

Es können ohne Probleme zwei verschiedene Gruppierungen erstellt werden:
- Die Gruppe der Quadrate und die Gruppe der Kreise.
- Die Gruppe der gefüllten Objekte und die Gruppe der nicht gefüllten Objekte.

Beide Gruppierungen sind korrekt. Welche Gruppierung ist jedoch die "Gewünschte"?
Dies zeigt, dass das Clustering nicht so einfach ist.

Bei der **Reduktion von Dimensionen** (*dimensionality reduction*) geht es darum, Daten zu **vereinfachen** (*simplify*). 
Dazu kann die Reduktion der Dimensionen der Daten gehören, um die Daten handhabbarer, anschaulicher zu machen
oder einfacher verarbeitbar zu machen. Beispielsweise können Datenpunkte eines Kreises im 2-dimensionalen Raum mittels zweier Parameter 
($x$- und $y$-Koordinaten) oder mittels eines Parameters (Winkel) dargestellt werden.

### Zusammenfassung
Der Schwerpunkt der nachfolgenden Ausarbeitungen wird das überwachte Lernen sein.
Dafür werden verschiedene Algorithmen für die (binäre) Klassifizierung 
und die Regression erläutert und an Beispielen ausprobiert.


## Literatur
- [Acq2023] Viviana Acquaviva; Machine Learning for Physics and Astronomy; Princeton University Press; 2023
- [Fro2021] Jörg Frochte; Maschinelles Lernen - Grundlagen und Algorithmen in Python; Hanser; 2021
- [Ngu2021] Chi Nhan Nguyen, Oliver Zeigermann; Machine Learning kurz & gut; O'Reilly; 2021
- [Ras2019] Sebastian Raschka, Vahid Mirjalili; Python Machine Learning; Packt; 2019
- [Van2024] Jake VanderPlas; Handbuch Data Science mit Python; O'Reilly; 2024; (Übersetzung der 2. Auflage von *Python Data Science Handbook*)