# Machine Learning 
**🙋🏻‍♂️Q:** Was ist Machine Learning (ML)?

**💡A:** ML ist die algorithmische Erstellung eines statistischen Models auf der Grundlage eines Datensatzes.


## Mathe 📖
 Bevor wir beginnen, ein bisschen mathemathische Notation:
- **x**: (Feature) Vector

- $y$: Label

- $N$: Größe des Datasets 

- $X$: Dataset 
> 📝 Gibt es zu jedem Feature Vector ein Label, so setzt sich das Dataset aus $X$ = {**x**<sub>$i$</sub>$, y$<sub>$i$</sub>)}$_{i=1}^N$ zusammen. Sind die Daten unlabeled, gilt $X$ = {**x**<sub>$i$</sub>)}$_{i=1}^N$


## Unterscheidung von ML-Algorithmen 🔎
ML-Algorithmen werden allgmein nach ihren "Lerntypen" klassifiziert. 

### Supervised Learning
Das Ziel eines Supervised Learning Algorithmus ist es, aus einem Dataset ein Model zu erstellen, das einen Feature Vectors **x** als Eingabe nimmt und Informationen ausgibt, die es erlauben, das Label für diesen Vektor abzuleiten/zu bestimmen. Die Anwendung von Supervised Learning Algorithmen ist vielfältig, von Klassifikationsproblemen (z.B. automatische Spam Erkennung o. Bildklassifizierung) bis hin zu Prognoseproblemen (z.B. Kusentwicklungen o. Krankheitsprognosen).

### Semi-Supervised Learning
Beim Semi-Supervised Learning enthält das Dataset sowohl labeld als auch unlabeld Feature Vectors. Dabei ist das Ziel, das gleiche wie bei einem Supervised Learning Algorithmus. Die Hoffnung ist hier, dass die Verwendung vieler unlabeld Feature Vectors
dem Lernalgorithmus dabei helfen, ein generischeres Model zu finden.

### Unsupervised Learning
Beim Unsupervised Learning ist das Dataset eine Sammlung von unlabeld Feature Vectors. Das Ziel eines Unsupervised Learning Algorithmus ist
ein Model zu erstellen, dass einen Vektor **x** als Eingabe nimmt und ihn entweder in einen anderen Vektor oder in einen Wert umwandelt, der zur Lösung eines praktischen Problems verwendet werden kann. Mögliche Anwendungsgebiete sind clustering, Dimensionsreduktion oder Ausreißer-Erkennung.

### Reinforcement Learning
Ein weiterer "Lerntyp" ist das Reinforcement Learning. Ähnlich zum Unsupervised Learning werden keine Label im Datasets benötigt. Vielmehr geht es darum, auf Basis von Belohnungen eine optimale Strategie in seinem aktuellen Umweld zu entwickeln. Das Reinforcement Learning behandelt meistens  Probleme, bei welchen sequenzielle Entscheidungen getroffen werden müssen (z.B. Schach spielen). 

**📹Video-Link📹**:
[MIT - Introduction to Machine Learning](https://www.youtube.com/watch?v=h0e2HAPTGF4)


## Wie funktioniert Machine Learning? 🤖
### Dataset
Ein Machine Learning Problem startet immer mit dem Dataset selbst. Zwei wichtige Eigenschaften eines Datasets sind dabei die **Qualität** und die **Größe**.

#### Größe
> 📝 👊Faustregel👊: Ein Dataset sollte immer ein Vielfaches der lernbaren Labels/Paramenter als Größe haben. Zu groß gibt es eigentlich nicht.

Hier ein paar Beispiele von bekannten Datasets:

| Dataset | Labels | Größe |
| :-- | --: | --: |
| [Iris Data Set](https://archive.ics.uci.edu/ml/datasets/iris) | 3 | 150 |
| [Chest X-Ray Images](https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia) | 2 | 5.863 |
| [CIFAR-10](https://www.tensorflow.org/datasets/catalog/cifar10) | 10 | 6.000 |
| [MNIST](https://www.tensorflow.org/datasets/catalog/mnist) | 10 | 70.000 |
| [ImageNet](https://image-net.org/)| 21.800 | 14.200.00 |

#### Qualität
**🙋🏻‍♂️Q:** Was versteht man unter der Qualität eines Datasets?

**💡A:** Die Qualität eines Datasets misst, wie gut die Daten die beabsichtigte Aufgabe erfüllen.

Um die Qualität eines Datasets herrauszufinden, können diese Fragen helfen:
* Sind die Daten repräsentativ?
* Wie häufig sind Fehler? (z.B. fehlende Features o. falsche Label)
* Wie genau sind die Daten? 
* Sollten/können Werte transformiert werden?

### ML-Algorithmus
Damit aus dem Dataset ein Model generiert werden kann, wird ein ML-Algorithmus genutzt. Ein kleiner Überblick über die weitverbreitetsten ML-Algorithmen:
* Decision Tree
* Random Forest
* Support Vector Machine (SVM)
* K- Nearest Neighbors (KNN)
* Self-Organizing Map (SOM)
* K-Means
* Gradient Boosting
* Convolutional Neural Network (CNN)
* Recurrent Neural Networks (RNNs)

Je nach Problemstellung und Dataset wird können ein oder mehrere ML-Algorithmen genutzt werden um ein Model zu trainieren.

### Model
**🙋🏻‍♂️Q:** Was ist ein Model?

**💡A:** Ein Model ist eine aus Daten abgeleitete mathematische Beziehung, die ein ML-System verwendet, um Vorhersagen zu treffen.

> 📝 Dataset + ML-Algorithmus = Model

## Beispiel 1 🌳Decision Tree🌳
### Dataset
Als erstes Beispiel gucken wir uns das [Iris Data Set](https://archive.ics.uci.edu/ml/datasets/iris) an. Das Dataset enthält Informationen zu drei Klassen der Iris-Pflanze, nämlich Setosa, Versicolour und Virginica, mit den folgenden Attributen: Blattlänge, Battbreite, Blütenblattlänge und Blütenblattbreite.

> 📝 Für Data Analysis ➔ [pandas](https://pandas.pydata.org/)

In [None]:
import pandas as pd
from sklearn.datasets import load_iris


#Laden des Iris Dataset
iris_data = load_iris(as_frame=True)

# Konvertierung der CSV in Pandas Dataframe
df = pd.DataFrame(data=iris_data.frame)

# Zusammenfassung des Datasets
df.describe()

In [None]:
import matplotlib
import matplotlib.pyplot as plt

# Visualisierung 
fig, ax = plt.subplots()
# Scatterplot
colors = ['tab:red','tab:blue','tab:orange']
scatter = ax.scatter(df['petal length (cm)'], df['petal width (cm)'], c=df['target'], cmap=matplotlib.colors.ListedColormap(colors))
# Legende
legend1 = ax.legend(scatter.legend_elements()[0], iris_data.target_names, title='Typ')
ax.add_artist(legend1)

plt.show()

### ML-Algorithmus
Ein **Decision Tree** ist ein azyklischer Graph, der zur Entscheidungsfindung verwendet werden kann. In jeder Node des Graphen wird ein bestimmtes Feature $j$ des Feature Vectors **x** untersucht. Wenn der Wert von **x**$^j$ unter einem bestimmten Schwellenwert liegt, wird dem linken Branch gefolgt, andernfalls wird dem rechte Branch gefolgt.

**Decision Trees** können auf Basis unterschiedlicher Lernalgorithmen trainiert werden. In diesem Beispiel nutzen wir die [Scikit-learn Libary](https://scikit-learn.org/stable/modules/tree.html), welche **CART** verwendet.

Der Parameter `criterion` ist ein sogenannter **Hyperparameter**.
> 📝 Hyperparameter sind Parameter, deren Werte *nicht* durch Training erlernt werden. Sie dienen zur Kontrolle des Lernverhaltens. 

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# Unterteilen des Dataset in Trainings- & Testdaten (70:30)
X, y = iris_data.data, iris_data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=4)

# Berechnen des Models
clf = DecisionTreeClassifier(criterion='gini')
clf.fit(X_train, y_train)

### Model
Mit `tree.plot()` kann der resultierende Decision Tree vizualisiert werden. 

In [None]:
import graphviz
from sklearn import tree

# Visualisierung des Models
tree.plot_tree(clf, feature_names=X.columns)

In [None]:
from sklearn.metrics import accuracy_score

# Prediction der Label von ungesehenen Testdaten
y_pred = clf.predict(X_test)
print('Genauigkeit der Testdaten-Klassifikation:', round(accuracy_score(y_test, y_pred),3))

## 🧠CNN🧠
### Dataset
Als nächstes Beispiel gucken wir uns das [MNIST](https://www.tensorflow.org/datasets/catalog/mnist) an. Das Dataset enthält Bilder (28x28 Pixel) mit handgeschriebenen Ziffern (0-9).

Bevor das NN trainiert wird, werden die Daten in einem Vorverarbeitungsschritt bearbeitet.

In [None]:
from keras.datasets import mnist
from keras.utils import to_categorical

# Laden des MNIST Dataset
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# Beschreibung des Test-Dataset
print('Größe & Dimensionen des Test-Dataset:', X_train.shape)


'''Trainings Dataset'''
#Reshape (60000 28, 28) -> (60000, 28 * 28) & Skalierung von [0,255] -> [0,1]
X_train = X_train.reshape((60000, 28 * 28))
X_train = X_train.astype('float32') / 255

'''Test Dataset'''
#Reshape & Skalierung
X_test = X_test.reshape((10000, 28 * 28))
X_test = X_test.astype('float32') / 255

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

####  MNIST-Beispiel Ziffern
<img src="https://i.imgur.com/OGQ1Ybc.png" width=500 height=500 />

### ML-Algorithmus
Ein **Neural Network** (NN) basiert auf einer Sammlung von miteinander verbundenen Nodes, die als Neuronen/Neurons bezeichnet werden. Jede Verbindung kann ein Signal an andere Neurons übertragen. Um das Output-Signal eines Neurons zu berechnen wird die **gewichtete** Summe aller Input-Signal genommen und ein **Bias** addiert. Diese gewichtete Summe wird dann durch eine (in der Regel nichtlineare) Aktivierungsfunktion geleitet, um das Output-Signal zu berrechnen.

Die Neurons des NNs befinden sich in den jeweiligen Layern des Netzwerkes. In diesem Beispiel besteht das Netzwerk aus einem `Flatten` Layer und zwei `Dense` (auch *fully connected* genannt) Layern. Im letzten Layer (auch *Output Layer*) befinden sich 10 Nerons. Durch die `softmax`-Aktivierungsfunktion gibt dieses Layer 10 Wahrscheinlichkeiten, korrespondierend zu den 10 möglichen Ziffern, zurück.

In [None]:
from keras import models
from keras import layers
import tensorflow as tf

# Erstellen der Netzwerkstruktur
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))

# Kompilieren des Netzwerkes
network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])

Nach dem Kompilieren des NNs kann dieses mit `fit()` trainiert werden.

In [None]:
# Trainieren des NNs
network.fit(X_train, y_train, epochs=8, batch_size=128)

# Evaluieren des NNs
test_loss, test_acc = network.evaluate(X_test, y_test)
print('test_acc:', test_acc)

Vergleicht man die beiden `accuracy`s, so stellt man fest, dass die des Training höher ist als die des Tests. Dies ist ein Beispeil von **Overfitting**.

> 📝 Overfitting ist das Überoptimieren des Models anhand der Trainingsdaten. Es werden Repräsentationen gelernt, die spezifisch für die Trainingsdaten sind und keine generalisierten Representationen für Daten außerhalb des Trainings Datasets.

### Model


In [None]:
print(network.summary())

## Quellen / Literatur

- François Chollet (2017): Deep Learning with Python - Manning Publications
- Andriy Burkov (2019): The Hundred-Page Machine Learning Book 
- [Google Machine Learning Education](https://developers.google.com/machine-learning)
- [scikit-learn](https://scikit-learn.org/stable/index.html)