# Praktikum 4: Machine Learning

## Aufgabe: Vergleich von Machine Learning Algorithmen für die Bildklassifizierung

**Ziel**: 

Ziel dieses Praktikums ist es, verschiedene Machine Learning Methoden zur Klassifikation von handgeschriebenen Ziffern (MNIST-Datensatz) zu erkunden und zu vergleichen. Durch diese Aufgabe sollt ihr ein tieferes Verständnis für die Stärken, Schwächen und Anwendungsgebiete verschiedener Machine Learning Algorithmen erlangen.

**Einführung**:

Der MNIST-Datensatz ist eine Sammlung von handgeschriebenen Ziffern, der häufig zum Einstieg in die Bilderkennung und Machine Learning genutzt wird. Er besteht aus 70.000 Bildern, wobei jedes Bild eine der Ziffern von 0 bis 9 darstellt. Diese Aufgabe bietet eine praktische Gelegenheit, grundlegende Techniken des Machine Learnings anzuwenden und zu vergleichen.
 
<img src="digits_output.png" alt="image" width="300" height="auto">

**Aufgabenübersicht**:

1. **Datenvorverarbeitung**:
    - Ladet die erste Version des MNIST-Datensatzes über scikit-learn.
    - Teilt den Datensatz in Trainings- und Testsets auf. Das Testset soll 20 % der Daten beinhalten.
    - Da es sich bei den Bildern um 28 x 28 Matrizen handelt, die ML Algorithmen jedoch Vektoren als Input erwarten, müsst ihr die Daten entsprechend umformen. Nutzt dafür die Funktion `reshape()`.
    - Skaliert die Daten auf den Wertebereich [0, 1]. Nutzt dafür den `MinMaxScaler` von scikit-learn.

2. **Klassifikation mit verschiedenen Algorithmen**:
    - Trainiert die folgenden Algorithmen:
        - Logistic Regression (mit `sklearn`)
        - Decision Tree (mit`sklearn`)
        - Random Forest (mit `sklearn`)
        - Support Vector Machine (mit `sklearn`)
        - Neural Network (mit `tensorflow.keras` und dem `Sequential`-Package):
            - Verwendet mindestens 2 Hidden Layers (Dense).
            - Nutzt die Loss Function `Crossentropy` (Achtung: Es gibt verschiedene Arten! Informiert euch darüber).
            - Verwendet die Aktivierungsfunktionen `relu` und `softmax` (Achtet darauf, welche für welche Layer geeignet sind).
            - Trainiert das Netz für 10 Epochen.
            - Nutzt die Funktion `summary()` um euch die Netzarchitektur ausgeben zu lassen.
    - Achtet auf eine sinnvolle Wahl der Hyperparameter. Informiert euch bei Bedarf auf den jeweiligen Dokumentationsseiten der Bibliotheken.
    - Evaluiert jedes Modell mit der Metrik `accuracy_score` auf dem Testset (Achtung: Das Vorgehen zur Evaluierung des Neural Networks ist etwas anders!).
    - Messt die Trainings- und Inferenzzeiten für die verschiedenen Algorithmen mit der Funktion `time()`.

3. **Evaluierung und Vergleich**:
    - Vergleicht die Leistung der Modelle in einer Pandas-Tabelle hinsichtlich Trainingszeit und Genauigkeit.
    - Beschreibt die Ergebnisse kurz in etwa 5 Sätzen.

## Datenvorverarbeitung

### Daten laden

Ladet die erste Version des MNIST-Datensatzes über scikit-learn.

In [1]:
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

In [2]:
# MNIST DataSet laden
mnist = fetch_openml('mnist_784', version=1)

In [9]:
# Extrahieren der Daten und Labels
X, y = mnist.data, mnist.target

# Konvertieren der Labels zu integer (sie sind als Strings geladen)
y = y.astype(np.int8)

### Train-Test-Split

Teilt den Datensatz in Trainings- und Testsets auf. Nutzt die Funktion `train_test_split()` von scikit-learn. Das Testset soll 20 % der Daten beinhalten.

### Umwandlung in Vektoren

Da es sich bei den Bildern um 28 x 28 Matrizen handelt, die ML Algorithmen jedoch Vektoren als Input erwarten, müsst ihr die Daten entsprechend umformen. Nutzt dafür die Funktion `reshape()`.


In [3]:
# TODO: Hier soll euer Code stehen.

### Skalierung

Skaliert die Daten auf den Wertebereich [0, 1]. Nutzt dafür den `MinMaxScaler` von scikit-learn.

In [4]:
# TODO: Hier soll euer Code stehen.

## Klassifikation mit verschiedenen Algorithmen
   - Trainiert die folgenden Algorithmen:
        - Logistic Regression (mit `sklearn`)
        - Decision Tree (mit`sklearn`)
        - Random Forest (mit `sklearn`)
        - Support Vector Machine (mit `sklearn`)
        - Neural Network (mit `tensorflow.keras` und dem `Sequential`-Package):
            - Verwendet mindestens 2 Hidden Layers (Dense).
            - Nutzt die Loss Function `Crossentropy` (Achtung: Es gibt verschiedene Arten! Informiert euch darüber).
            - Verwendet die Aktivierungsfunktionen `relu` und `softmax` (Achtet darauf, welche für welche Layer geeignet sind).
            - Trainiert das Netz für 10 Epochen.
            - Nutzt die Funktion `summary()` um euch die Netzarchitektur ausgeben zu lassen.
   - Achtet auf eine sinnvolle Wahl der Hyperparameter. Informiert euch bei Bedarf auf den jeweiligen Dokumentationsseiten der Bibliotheken.
   - Messt die Trainings- und Inferenzzeiten für die verschiedenen Algorithmen mit der Funktion `time()`.
   - Evaluiert jedes Modell mit der Metrik `accuracy_score` auf dem Testset (Achtung: Das Vorgehen zur Evaluierung des Neural Networks ist etwas anders!).

### Logistic Regression

In [5]:
# TODO: Hier soll euer Code stehen.

### Decision Tree

In [6]:
# TODO: Hier soll euer Code stehen.

### Random Forest

In [7]:
# TODO: Hier soll euer Code stehen.

### Support Vector Machine

In [8]:
# TODO: Hier soll euer Code stehen.

### Neural Network

In [9]:
# TODO: Hier soll euer Code stehen.

## Evaluierung und Vergleich
   - Vergleicht die Leistung der Modelle in einer Pandas-Tabelle hinsichtlich Trainingszeit, Inferenzzeit und Test Accuracy.
   - Beschreibt die Ergebnisse kurz in etwa 5 Sätzen.

In [10]:
# TODO: Hier soll euer Code stehen.