## Maschinelles Lernen - Einführung
Dieses Dokument enthält eine Übersicht über die Bausteine,
die ich für die Einführung in das Maschinelle Lernen (ML) erstellen möchte.
Es soll Bachelor-Studierende im 5. (?) Semester in das Themenfeld des Maschinellen Lernens einführen.

TODO: Genauere Einordnung in den Studienablauf zwischen Bachelorstudium und Masterstudium

Im Weiteren sind einzelnen thematische Bausteine aufgeführt und beschrieben.
Diese werden dann als Jupyter Notebooks realisiert.
Es wird beschrieben, welche Inhalte in dem jeweiligen Baustein vermittelt werden sollen.
In den Beschreibungen sind auch offene Punkte notiert, die noch in die Bausteine eingebaut werden.

Der Aufbau und die Inhalte orientieren sich an dem Buch von Viviana Acquaviva [Acq2023].

**Generelle Offene Punkte**
- Welche Übungsaufgaben können bei den einzelnen Bausteinen bearbeitet werden.
- Untersuchung der Bearbeitungszeiten 

---
### Baustein 01a - Was ist Maschinelles Lernen 
Es wird zuerst kurz definiert, was Maschinelles Lernen (ML) ist.
Dann wird aufgezeigt, wo Grenzen der klasischen Berechnung sind,
an welchen Stellen also ML sinnvoll eingesetzt werden kann.
Es werden die Aufgaben beschrieben, die mit ML erledigt werden können
(recognize, predict, group together, simplify -  
classification, regression, clustering, dimensionality reduction)
Es werden die grundlegenden Verfahren 
(supervized learning, unsupervized learning, reinforcement learning)
dargestellt. Der Schwerpunkt bei dieser Einführung ist beim Überwachten Lernen. 

**Quellen** [Acq2023], Abschnitte 1.1, 1.2, (1.4), 1.5, [Ngu2021]    

**Offene Punkte**  
- Aufzeigen von Grenzen der klassischen Berechnung. 
Da müssen noch aussagefähige Beispiele gefunden werden

---
### Baustein 01b - Die Sprache des ML
Es werden wichtige Begriffe des ML definiert und erläutert:
- Instanzen, Eigenschaften, Ergebnis und Modell (instances, features, labels, machine learning model)
- Lerndaten, Trainingsdaten, Testdaten (learning set, training set, test set, representative laerning set
- Fehlerrate, Erfolgsrate (error (rate of failure), score (rate of success),
training error / score, test error / score, generalization error / score,

Es wird auch der generelle / grundlegende Ablauf beschrieben:
Daten aufbereiten; Daten aufteilen in Trainings- und Testdaten;
ML-Methode und seine Parameter auswählen; Fit durchführen (ML-Methode auf die Trainingsdaten anwenden);
Vorhersagen (das trainierte Modell auf die Testdaten anwenden);
Berechnung der Performace durch Anwendung einer geeigneten Bewertungsmethode;
Ergebnis betrachten, Schwachstellen erkennen, Verbesserungen durchführen

**Quellen** [Acq2023], Abschnitte 1.3, 1.4 und 2.1

**Offene Punkte**

---
### Baustein 01c - Überwachtes Lernen - Lineare Regression
An dem bekannten Beispiel einer linearen Regression soll der Ablauf durchgespielt werden.
Da die lineare Regression bekannt ist, kann auch stets mit dem "richtigen" Ergebnis verglichen werden.
Daten werden generiert und in Trainings- und Testdtaen aufgeteilt.
Der Algorithmus (Lineare Regression) wird sowohl per Hand bearbeitet, als auch mit Hilfe von sklearn. 
Dann wird das Training durchgeführt, Werte vorhergesagt und bewertet (mse (Mean Square Error))
Die Aufteilung zwischen Trainingsmenge und Testmenge wird verändert und die Ergebnisse vergleichen

Zum Schluss wird eine Gegenüberstellung erläutert zwischen ML und Modell fitten. Was ist wann sinnvoll

**Quellen** [Acq2023], Abschnitt 1.6

**Offene Punkte**

---
### Baustein 02a - Grundlegender Ablauf
Ist in Beustein 01b integriert ([Acq2023], Abschnitt 2.1)

---
### Baustein 02b - Binäre Klassifikation - Entscheidungsbaum
Hier wird anhand eines von Viviana Acquaviva ausgewählten Beispiels das Modell Entscheidungsbaum (Decision Tree, DT)
durchgespielt. Es wird erläutert, wie die Trennung mit Hilfe der Gini Umreinheit (*Gini impurity*) durchgeführt wird.
Die konkrete Durchführung wird dann mit sklearn umgesetzt.
Es werden verschiedene ENtscheidungsbäume aufgebaut, um zu zeigen (a) wie die Trainingsmenge das Ergebnis beeinflusst
und (b) welche Auswirkungen eine Veränderung des Parameters Tiefe hat.
Die trainierten Modelle werden am Ende des Bausteins gespeichert, um sie später (Baustein 03b) zu verwenden.

**Quellen** [Acq2023], Abschnitt 2.2

**Offene Punkte**
- grafische Darstellung der Splits, siehe dazu VanderPlas ([Van2024])
- Ergebnisse des Ttrainierten Models speichern

---
### Baustein 02c - Binäre Klassifikation - k-Nächste Nachbarn
Hier wird anhand der selben Daten wie bei Baustein 2b das Modell k-Nächste Nachbarn (k-Nearest Neighbours, kNN) durchgespielt
und erläutert. Dabei wird auf die Problematik der Normalisierung / Zenralisierung der Daten eingegangen und die Daten
transformiert. Hierbei wird zu Mittelwert = 0 und Standardabweichung = 1 normiert. Das ist wegen Ausreißern nicht robust.
Es wird ein robusten Verfahren (Median = 0, Interquartilsabstand = 1) verwendet.

**Quellen** [Acq2023], Abschnitt 2.3

**Offene Punkte**

---
### Baustein 03a - Daten aufbereiten
Es werden die aktuelen Forschungsdaten für habitable Planeten herangezogen und mit Hilfe von `pandas` bearbeitet.
Die Bearbeitung mit `pandas`soll nur kurz angedeutet werden, ohne tiefer darauf einzugehen.
Es sollen einige kritische Punkte beleuchtet / erwänt werden (ersetzen fehlender Daten *imputing*;
Untersuchung von Ausreißers mit Hilfe von Histogrammen).
Ziel ist es jedoch, einen Auszug der Daten zu erstellen, die in einer CSV-Datei gespeichert werden,
die mit Hilfe von `numpy` in späteren Bausteinen direkt eingelesen werden kann.

**Quellen** [Acq2023], Abschnitt 3.1

**Offene Punkte**

---
### Baustein 03b Binäre Klassifikation - Bewertungen
Anhand der Komplettmenge der habitablen Planeten und den verschiedenen gelernten Modelle Decision Tree
(aus Baustein 02b) sollen Bewertungen verglichen werden. Dazu werden wichtige Begriffe für die Bewertung
bei einer binären Klassifiaktion definiert und erläutert:

-	true positive (TP), true negative (TN), false positive (FP), false negative (FN)
-	accuracy, precision, recall, confusion matrix, F1-score
-	Receiver Operating Curve (ROC), Area Under the Curve (AUC))

Die Bewertungen werden auf die Modelle DT angewendet. Als Übungsaufgabe kann dies auf kNN angewendet werden, 
wobei die Anzahl der Nachbarn variieren kann (k = 3, 5 oder 7). 
Dabei wird auch der Zeitbedarf betrachten.

**Quellen** [Acq2023], Abschnitt 3.2, 3.3

**Offene Punkte**
- JN erstellen / überarbeiten (in der Umsetzungs- / Implementierungsphase)

---
### Baustein 03c Cross Validation
Cross Validation beschreiben und anwenden.
Die Frage ist, wo es hier sinnvoll eingesetzt werden kann?

**Quelle** [Acq2023], Abschnitt 3.4

**Offene Punkte**
- JN konzipieren und erstellen

---
### Baustein 03d Binäre Klassifiaktion - Analyse und Verbesserungen
Wie können die Ergebnisse ausgewertet werden und welche Möglichkeiten gibt es,
das Ergebnis zu verbessern
-	Overfiting und Underfitting
-	high bias, high variance
-	learning curve
-	hyperparameter Tuning
-	feature Engineering

**Quellen** [Acq2023], Abschnitt 3.5, 3.6

**Offene Punkte**
- JN konzipieren und erstellen

---
### Baustein 03e Multiple Klassifiaktion - Ausblick
Ausblick auf Veränderungen in der Bewertung, wenn eine multiple Klassifiaktion durchgeführt wird

**Quellen** [Acq2023], Abschnitt 3.7

**Offene Punkte**
- JN konzipieren und erstellen

---
### Bausteine 04 - Überwachtes Lernen: Optimierungen  
Detaillierung einiger Punkte, die in Baustein 03d angesprochen sind.
Ebenso der Algorithmus Support Vector Machines   vorstellen

**Quelle** [Acq2023], Kapitel 4

**Offene Punkte**
- Kapitel bearbeiten, detaillieren und einzelne Bausteine definieren, konzipieren und erstellen

---
### Bausteine 05 - Regression
Wichtige Begriffe und Vorgehensweisen für eine Regression beschreiben und durchführen.
- Lineare Modelle und Loss Function  
- Gradient Descent  
- Regularization  
- Generalized Linear Models  

**Quellen** [Acq2023], Kapitel 5

**Offene Punkte**
- Kapitel bearbeiten, detaillieren und einzelnen Bausteine definieren, konzipieren und erstellen  

---
### Bausteine 06 - Ensemble Methods  
Muss ich mir noch genauer ansehen, was hiervon aufgenommen werden soll   

**Quellen** [Acq2023], Kapitel 6

**Offene Punkte**
- Kapitel bearbeiten, detaillieren und einzelnen Bausteine definieren, konzipieren und erstellen

---
### Bausteine 08 - Einführung in Neuronale Netze
Muss ich mir noch genauer ansehen, was hiervon aufgenommen werden soll   

**Quellen** [Acq2023], Kapitel 8

**Offene Punkte**
- Kapitel bearbeiten, detaillieren und einzelnen Bausteine definieren, konzipieren und erstellen

---
### Literatur
- [Acq2023] Viviana Acquaviva; Machine Learning for Physics and Astronomy; Princeton University Press; 2023
- [Ngu2021] Chi Nhan Nguyen, Oliver Zeigermann; Machine Learning kurz & gut; O'Reilly; 2021
- [Van2024] Jake VanderPlas; Handbuch Data Science mit Python; O'Reilly; 2024; (Übersetzung der 2. Auflage von *Python Data Science Handbook*)