# Machine Learning
Für Machine Learning gibt es eine Vielzahl von Bibliotheken. In diesem Kurs wollen wir uns auf die folgenden zwei beschränken:
* scikit-learn
* PyTorch


## scikit-learn
Scikit-learn ist eine Bibliothek für Machine Learning in Python. Sie ist einfach zu benutzen und baut auf NumPy, SciPy und matplotlib auf. Sie bietet eine Vielzahl von Algorithmen für Klassifikation, Regression, Clustering und Dimensionalitätsreduktion.

Scikit-learn kann über den Paketmanager `pip` installiert werden:
```bash 
pip install scikit-learn
```
Anschließend kann es in Python importiert werden:
```python
import sklearn
```


### Datensätze
Ein weiterer Vorteil von scikit-learn ist, dass auch ein Vielzahl von Datensätzen mitgeliefert werden. Eine Übersicht über die Datensätze findet sich [hier](https://scikit-learn.org/stable/datasets).

#### Iris-Datensatz
Der Iris-Datensatz ist ein Datensatz mit 150 Beobachtungen von drei verschiedenen Arten von Iris-Blumen (Setosa, Versicolour, und Virginica). Es gibt vier Eigenschaften (Features) für jede Beobachtung: Länge und Breite der Sepal und Länge und Breite der Petal. Der Datensatz ist in scikit-learn enthalten und kann wie folgt geladen werden:
```python
from sklearn.datasets import load_iris
iris = load_iris()
```
Der Datensatz ist ein Dictionary mit den folgenden Einträgen:
* `data`: Die Daten als NumPy-Array
* `target`: Die Zielvariablen als NumPy-Array
* `target_names`: Die Namen der Zielvariablen als NumPy-Array
* `feature_names`: Die Namen der Features als Liste
* `DESCR`: Eine Beschreibung des Datensatzes
* `filename`: Der Pfad zur Datei, in der der Datensatz gespeichert ist

Die Daten können wie folgt in ein Pandas DataFrame geladen werden:
```python
import pandas as pd
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
```
Die Daten können dann wie gewohnt mit Pandas weiterverarbeitet werden.


#### Handwritten Digits-Datensatz
Der Handwritten Digits-Datensatz ist ein Datensatz mit 1797 Beobachtungen von handgeschriebenen Ziffern (0 bis 9). Jede Beobachtung ist ein Bild mit 8x8 Pixeln. Der Datensatz ist in scikit-learn enthalten und kann wie folgt geladen werden:
```python
from sklearn.datasets import load_digits
digits = load_digits()
```
Der Datensatz ist ein Dictionary mit den folgenden Einträgen:
* `data`: Die Daten als NumPy-Array
* `target`: Die Zielvariablen als NumPy-Array
* `target_names`: Die Namen der Zielvariablen als NumPy-Array
* `feature_names`: Die Namen der Features als Liste
* `DESCR`: Eine Beschreibung des Datensatzes
* `filename`: Der Pfad zur Datei, in der der Datensatz gespeichert ist

Die Daten können wie folgt in ein Pandas DataFrame geladen werden:
```python
import pandas as pd
df = pd.DataFrame(digits.data, columns=digits.feature_names)
df['target'] = digits.target
```
Die Daten können dann wie gewohnt mit Pandas weiterverarbeitet werden.


#### Breast Cancer-Datensatz
Der Breast Cancer-Datensatz ist ein Datensatz mit 569 Beobachtungen von Brustkrebs-Tumoren. Es gibt 30 Eigenschaften (Features) für jede Beobachtung: Radius, Textur, Umfang, Fläche, Glätte, Kompaktheit, Konkavität, Konkavitätspunkte, Symmetrie, Fraktale Dimension. Der Datensatz ist in scikit-learn enthalten und kann wie folgt geladen werden:

```python
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
```




#### Titanic-Datensatz
Der Titanic-Datensatz ist ein Datensatz mit 891 Beobachtungen von Passagieren der Titanic. Es gibt 12 Eigenschaften (Features) für jede Beobachtung: Klasse, Name, Geschlecht, Alter, Anzahl der Geschwister/Ehepartner an Bord, Anzahl der Eltern/Kinder an Bord, Ticketnummer, Ticketpreis, Kabine, Hafen, ob der Passagier überlebt hat. Der Datensatz ist in scikit-learn enthalten und kann wie folgt geladen werden:
```python
from sklearn.datasets import fetch_openml

titanic = fetch_openml(
    "titanic", version=1, as_frame=True, return_X_y=False, parser="pandas"
)
```


### Klassifikation

Zur besseren Veranschaulichung wollen wir die Klassifikation zunächst an niedrigdimensionalen dummy Daten demonstrieren. Dazu wurden bereits drei verschiedene Datensätze mit jeweils zwei Features (x1, x2) erstellt. Zwei der Datensätze weisen zwei und einer drei Klassen auf (siehe Abb.). 

<img src="images/sklearn/dummy_2_class_dataset.png" width="350">
<img src="images/sklearn/dummy_3_class_dataset.png" width="350">
<img src="images/sklearn/dummy_2_class_dataset_non-linear.png" width="350">


Es sind deutlich die einzelnen Cluster der Klassen zu erkennen, die sich jedoch an den Grenzen überschneiden. 
In den folgenden Aufgaben sollen Sie verschiedene Klassifikationsalgorithmen auf diese Datensätze anwenden. 


In [None]:
# Aufgabe:
# Lesen Sie den Datensatz 'dummy_2_class_dataset.csv' ein. Verwenden Sie dafür zB Pandas.
# Wie viele Instanzen hat der Datensatz von jeder Klasse?
# Plotten Sie die Datenpunkte in einem Scatterplot.

import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

# read csv


# count instances per class


# plot data



#### k-Nearest Neighbors

k-Nearest Neighbors (kNN) ist eine Methode des maschinellen Lernens, die für Klassifikations- und Regressionsprobleme verwendet wird. Sie hat keine Parameter, die aus den Daten gelernt werden, sondern speichert die Trainingsdaten und verwendet diese für die Vorhersage. Wie aus der Theroie bekannt, wird für eine neue Beobachtung die Distanz zu allen Trainingsdaten berechnet. Die `k` nächsten Nachbarn werden dann verwendet, um die Klasse der neuen Beobachtung vorherzusagen. Die Anzahl der Nachbarn `k` ist neben der Distanz Metrik ein Hyperparameter, der festgelegt werden muss.

Im folgenden Beispiel wollen wir die Klassifikation mit k-Nearest Neighbors (kNN) anhand des Iris-Datensatzes demonstrieren. Dazu laden wir zunächst den Datensatz und erstellen ein Pandas DataFrame:
```python
from sklearn.datasets import load_iris

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
```

Wir wollen nun die Daten in Trainings- und Testdaten aufteilen. Dazu verwenden wir die Funktion `train_test_split` aus dem Modul `model_selection`:
```python
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df[iris.feature_names].values, df['target'].values, random_state=0)
```

Wir können nun ein kNN-Modell erstellen und trainieren:
```python
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
```




Anschließend können wir das Modell auf den Testdaten evaluieren:

```python
knn.score(X_test, y_test)
```

Wir erhalten eine Genauigkeit von 97.4%. Um die Vorhersagen des Modells für die Testdaten auszugeben, verwenden wir die Funktion `predict`:
```python
knn.predict(X_test)
```

Die Wahrscheinlichkeiten für die einzelnen Klassen erhalten wir mit der Funktion `predict_proba`:
```python
knn.predict_proba(X_test)
```



In [None]:
# Aufgabe:
# Laden Sie den Datensatz 'dummy_2_class_dataset.csv' erneut.
# Teilen Sie den Datensatz in einen Trainings- und Test-Teil auf. Verwenden Sie dafür die Funktion train_test_split aus sklearn.
# Beachten Sie, dass diese Aufteilung zufällig passiert und Sie daher für reproduzierbare Ergebnisse einen festen seed definieren sollten (random_state=0).
# Trainieren Sie einen kNN-Klassifikator mit k=3 auf dem Trainings-Teil des Datensatzes.
# Testen Sie den Klassifikator auf dem Test-Teil des Datensatzes.
# Variieren Sie den Parameter k und beobachten Sie die Auswirkungen auf die Klassifikationsleistung.
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# read csv


# split data into train and test set


# train kNN classifier


# test kNN classifier



In [None]:
# Aufgabe 2:
# Vor dem Anwenden der Klassifikatoren sollten Sie den Datensatz zunächst Normalisieren. 
# Berechnen Sie dafür den Mittelwert und die Standardabweichung für jedes Feature des Datensatzes.
# Normalisieren Sie den Datensatz dann mit der Formel (x - mean) / std.
# Trainieren Sie einen kNN-Klassifikator mit k=3 auf dem normalisierten Trainings-Teil des Datensatzes.
# Testen Sie den Klassifikator auf dem normalisierten Test-Teil des Datensatzes.
# Hat die Normalisierung einen Einfluss auf die Klassifikationsleistung?
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# read csv


# normalize data


# split data into train and test set


# train kNN classifier


# test kNN classifier





Der Vorteil der dummy Datensätze ist, dass diese nur zwei Features haben und wir die Vorhersagen in einem zweidimensionalen Koordinatensystem visualisieren können. In der folgenden Zelle ist eine Funktion gegeben, die Sie für die Visalisierung der Vorhersagen verwenden können. Die Funktion nimmt als Argumente das trainierte Modell (clf), die Features (X) und die Zielvariablen (y) entgegen. Um die Funktion zu verwenden, müssen Sie die Zelle zunächst ausführen. Anschließend können Sie die Funktion wie folgt aufrufen:

```python

# visualize decision boundary
plot_decision_bnoundary(knn, X_test, y_test, title='Test Data kNN')
```

<img src="images/sklearn/decision_boundary_knn.png" width="550">


In [57]:
  
import numpy as np
import matplotlib.pyplot as plt

%matplotlib widget

def plot_decision_bnoundary(clf, X, y, title=None):
    fig, ax = plt.subplots()

    if title is not None:
        ax.set_title(title)

    f1,f2 = X[:,0],X[:,1]

    x_min, x_max = f1.min() - 1, f1.max() + 1
    y_min, y_max = f2.min() - 1, f2.max() + 1

    resolution=0.02

    xx, yy = np.meshgrid(np.arange(x_min, x_max, resolution), np.arange(y_min, y_max, resolution))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    ax.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.6)

    # plot the given data
    scatter = ax.scatter(f1, f2, c=y, cmap=plt.cm.coolwarm, s=30)

    # mark false predictions with a cross
    y_pred = clf.predict(X)
    false_pred = y_pred != y
    ax.scatter(f1[false_pred], f2[false_pred], marker='x', c='r', s=40)


    # plot legend
    ax.set_xlabel('x1')
    ax.set_ylabel('x2')
    ax.legend(*scatter.legend_elements(), loc="best", title="Classes", fontsize='small')
    


In [None]:
# Lassen Sie die Decision Boundary für verschiedene `k` ausgeben. 
# Was fällt Ihnen auf? Wie verändert sich die Decision Boundary? Welche Vor- und Nachteile hat kNN?



#### Decision Trees
Soll anstelle des kNN-Modells ein anderer Klassifikator verwendet werden, so muss nur die entsprechende Klasse importiert werden. Im folgenden Beispiel verwenden wir einen Decision Tree. Dazu importieren wir die Klasse `DecisionTreeClassifier` aus dem Modul `tree`:
```python
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(max_depth=2, random_state=0)
tree.fit(X_train, y_train)
```



#### Random Forests
Auch für Random Forests muss nur die entsprechende Klasse importiert werden. Im folgenden Beispiel verwenden wir einen Random Forest. Dazu importieren wir die Klasse `RandomForestClassifier` aus dem Modul `ensemble`:
```python
from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier(n_estimators=5, random_state=0)
forest.fit(X_train, y_train)
```



In [None]:
# Aufgabe:
# Wiederholen Sie die Aufgaben vom kNN-Beispiel mit einem Decision Tree bzw. Random Forest.
# Wie verändert sich die Klassifikationsleistung?
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier



# Zusatzaufgabe
Verwenden Sie nicht die Dummy Datensätze sondern den aus dem vorherigen Übungsblatt kennnengelernten Titanic-Datensatz. 
Beachten Sie, dass dieser Datensatz zunächst noch aufbereitet werden muss. So müssen beispielsweise die fehlenden Werte ersetzt werden oder die Samples mit fehlenden Werten entfernt werden. Auch müssen die kategorischen Variablen in numerische Variablen umgewandelt werden (zB Embarked, Sex). 
Normalisieren Sie anschließend alle nicht kategorischen Variablen. 
Teilen Sie den Datensatz in Trainings- und Testdaten auf.
Nachdem der Datensatz aufbereitet wurde, können Sie die Klassifikation mit kNN, Decision Trees und Random Forests durchführen.
Vergleichen Sie die Ergebnisse der einzelnen Klassifikatoren. Varrieren Sie die Hyperparameter der einzelnen Klassifikatoren und vergleichen Sie die Ergebnisse erneut. Variieren Sie auch die Anzahl der Features, die Sie für die Klassifikation verwenden. Wenn Sie nur zwei Merkmale verwenden, können Sie sich wieder die Decision Boundary ausgeben lassen.
