# Praktikum 4: Machine Learning

## Aufgabe: Vergleich von Machine Learning Algorithmen für die Bildklassifizierung

**Ziel**: 

Ziel dieses Praktikums ist es, verschiedene Machine Learning Methoden zur Klassifikation von handgeschriebenen Ziffern (MNIST-Datensatz) zu erkunden und zu vergleichen. Durch diese Aufgabe sollt ihr ein tieferes Verständnis für die Stärken, Schwächen und Anwendungsgebiete verschiedener Machine Learning Algorithmen erlangen.

**Einführung**:

Der MNIST-Datensatz ist eine Sammlung von handgeschriebenen Ziffern, der häufig zum Einstieg in die Bilderkennung und Machine Learning genutzt wird. Er besteht aus 70.000 Bildern, wobei jedes Bild eine der Ziffern von 0 bis 9 darstellt. Diese Aufgabe bietet eine praktische Gelegenheit, grundlegende Techniken des Machine Learnings anzuwenden und zu vergleichen.
 
<img src="digits_output.png" alt="image" width="300" height="auto">

**Aufgabenübersicht**:

1. **Datenvorverarbeitung**:
    - Ladet die erste Version des MNIST-Datensatzes über scikit-learn.
    - Teilt den Datensatz in Trainings- und Testsets auf. Das Testset soll 20 % der Daten beinhalten.
    - Da es sich bei den Bildern um 28 x 28 Matrizen handelt, die ML Algorithmen jedoch Vektoren als Input erwarten, müsst ihr die Daten entsprechend umformen. Nutzt dafür die Funktion `reshape()`.
    - Skaliert die Daten auf den Wertebereich [0, 1]. Nutzt dafür den `MinMaxScaler` von scikit-learn.

2. **Klassifikation mit verschiedenen Algorithmen**:
    - Trainiert die folgenden Algorithmen:
        - Logistic Regression (mit `sklearn`)
        - Decision Tree (mit`sklearn`)
        - Random Forest (mit `sklearn`)
        - Support Vector Machine (mit `sklearn`)
        - Neural Network (mit `tensorflow.keras` und dem `Sequential`-Package):
            - Verwendet mindestens 2 Hidden Layers (Dense).
            - Nutzt die Loss Function `Crossentropy` (Achtung: Es gibt verschiedene Arten! Informiert euch darüber).
            - Verwendet die Aktivierungsfunktionen `relu` und `softmax` (Achtet darauf, welche für welche Layer geeignet sind).
            - Trainiert das Netz für 10 Epochen.
            - Nutzt die Funktion `summary()` um euch die Netzarchitektur ausgeben zu lassen.
    - Achtet auf eine sinnvolle Wahl der Hyperparameter. Informiert euch bei Bedarf auf den jeweiligen Dokumentationsseiten der Bibliotheken.
    - Evaluiert jedes Modell mit der Metrik `accuracy_score` auf dem Testset (Achtung: Das Vorgehen zur Evaluierung des Neural Networks ist etwas anders!).
    - Messt die Trainings- und Inferenzzeiten für die verschiedenen Algorithmen mit der Funktion `time()`.

3. **Evaluierung und Vergleich**:
    - Vergleicht die Leistung der Modelle in einer Pandas-Tabelle hinsichtlich Trainingszeit und Genauigkeit.
    - Beschreibt die Ergebnisse kurz in etwa 5 Sätzen.

## Datenvorverarbeitung

### Daten laden

Ladet die erste Version des MNIST-Datensatzes über scikit-learn.

In [2]:
# TODO: Hier soll euer Code stehen. 
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X, y = mnist.data, mnist.target

### Train-Test-Split

Teilt den Datensatz in Trainings- und Testsets auf. Nutzt die Funktion `train_test_split()` von scikit-learn. Das Testset soll 20 % der Daten beinhalten.

In [3]:
from sklearn.model_selection import train_test_split
    
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# x_train = 80 % des Datensatzes, auf den das Modell trainiert wird
# y_train = Die Labels für die Daten aus x_train, beim Modelltraining wird durch den Vergleich beider der Fehler berechnet
#           und dementsprechend die Parameter so angepasst, dass dieser Fehler minimiert wird (Fehlerminimierung durch u.a. Gradientenabstieg)
# x_test = 20 % der restlichen Daten. Am Ende, wenn das Modell meint einen geringen Fehler zu haben, wird der Datensatz (welchen das Modell noch nicht gesehen hat)
#           dem Modell übergeben
# y_test = Das sind dann die Labels zu x_test. Beim Vergleich wird dann der Fehler berechnet und geguckt, wie gut das Modell wirklich neue Daten klassifizieren kann.
#           Dadurch wird overfitting (Überanpassung) verhindert, denn das Modell könnte sonst auch die Daten nur auswendig lernen. Daher gibt es die x_test und y_test
#           Datensätze, denn für das Modell sind das sozusagen völlig neue Daten. War der Fehler beim TrainingsSet gering und beim TestSet hoch, dann gab es vermutlich ein
#           Overfitting (auswendiglernen)

### Umwandlung in Vektoren

Da es sich bei den Bildern um 28 x 28 Matrizen handelt, die ML Algorithmen jedoch Vektoren als Input erwarten, müsst ihr die Daten entsprechend umformen. Nutzt dafür die Funktion `reshape()`.


In [4]:
# TODO: Hier soll euer Code stehen.
#Durch as_frame=False fällt die Aufgabe "Umwandlung in Vektoren" weg.

### Skalierung

Skaliert die Daten auf den Wertebereich [0, 1]. Nutzt dafür den `MinMaxScaler` von scikit-learn.

In [5]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

# Fitte den Scaler auf das Trainingsset und transformiere das Trainingsset
X_train_scaled = scaler.fit_transform(X_train)

# Transformiere das Testset mit dem gefitteten Scaler
X_test_scaled = scaler.transform(X_test)

## Klassifikation mit verschiedenen Algorithmen
   - Trainiert die folgenden Algorithmen:
        - Logistic Regression (mit `sklearn`)
        - Decision Tree (mit`sklearn`)
        - Random Forest (mit `sklearn`)
        - Support Vector Machine (mit `sklearn`)
        - Neural Network (mit `tensorflow.keras` und dem `Sequential`-Package):
            - Verwendet mindestens 2 Hidden Layers (Dense).
            - Nutzt die Loss Function `Crossentropy` (Achtung: Es gibt verschiedene Arten! Informiert euch darüber).
            - Verwendet die Aktivierungsfunktionen `relu` und `softmax` (Achtet darauf, welche für welche Layer geeignet sind).
            - Trainiert das Netz für 10 Epochen.
            - Nutzt die Funktion `summary()` um euch die Netzarchitektur ausgeben zu lassen.
   - Achtet auf eine sinnvolle Wahl der Hyperparameter. Informiert euch bei Bedarf auf den jeweiligen Dokumentationsseiten der Bibliotheken.
   - Messt die Trainings- und Inferenzzeiten für die verschiedenen Algorithmen mit der Funktion `time()`.
   - Evaluiert jedes Modell mit der Metrik `accuracy_score` auf dem Testset (Achtung: Das Vorgehen zur Evaluierung des Neural Networks ist etwas anders!).

### Logistic Regression

In [10]:
import time
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression

start_time = time.time()
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train_scaled, y_train)
log_reg_train_time = time.time() - start_time

start_time = time.time()
predicted_x = log_reg.predict(X_test_scaled)
log_reg_inference_time = time.time() - start_time

log_reg_accuracy = accuracy_score(y_test, predicted_x)
print(f"Logistic Regression:\nTrainTime: {log_reg_train_time}, InferenzTime: {log_reg_inference_time}, Accuracy: {log_reg_accuracy}")


Logistic Regression:
TrainTime: 44.24384522438049, InferenzTime: 0.14053893089294434, Accuracy: 0.9245714285714286


### Decision Tree

In [11]:
import time
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

start_time = time.time()
dec_tree = DecisionTreeClassifier()
dec_tree.fit(X_train_scaled, y_train)
dec_tree_train_time = time.time() - start_time

start_time = time.time()
y_pred_dec_tree = dec_tree.predict(X_test_scaled)
dec_tree_inference_time = time.time() - start_time

dec_tree_accuracy = accuracy_score(y_test, y_pred_dec_tree)
print(f"Decision Tree:\nAccuracy: {dec_tree_accuracy}, Training Time: {dec_tree_train_time}, Inference Time: {dec_tree_inference_time}")

Decision Tree:
Accuracy: 0.8780714285714286, Training Time: 52.359572410583496, Inference Time: 0.06300163269042969


### Random Forest

In [12]:
import time
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier

start_time = time.time()
rand_forest = RandomForestClassifier()
rand_forest.fit(X_train_scaled, y_train)
rand_forest_train_time = time.time() - start_time

start_time = time.time()
y_pred_rand_forest = rand_forest.predict(X_test_scaled)
rand_forest_inference_time = time.time() - start_time

rand_forest_accuracy = accuracy_score(y_test, y_pred_rand_forest)
print(f"Random Forest;\nAccuracy: {rand_forest_accuracy}, Training Time: {dec_tree_train_time}, Inference Time: {dec_tree_inference_time}")

Random Forest;
Accuracy: 0.9697142857142858, Training Time: 52.359572410583496, Inference Time: 0.06300163269042969


### Support Vector Machine

In [13]:
import time
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC

start_time = time.time()
svm = SVC()
svm.fit(X_train_scaled, y_train)
svm_train_time = time.time() - start_time

start_time = time.time()
y_pred_svm = svm.predict(X_test_scaled)
svm_inference_time = time.time() - start_time

svm_accuracy = accuracy_score(y_test, y_pred_svm)
print(f"SVM:\nAccuracy: {svm_accuracy}, Training Time: {svm_train_time}, Inference Time: {svm_inference_time}")


SVM:
Accuracy: 0.9786428571428571, Training Time: 680.3569056987762, Inference Time: 512.4025611877441


### Neural Network

In [20]:
from tensorflow.python.keras.models import Sequential
import time
from tensorflow.keras.layers import Dense, Input

model = Sequential()
model.add(Input(shape=(784,)))
model.add(Dense(64, activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(10, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.summary()

start_time = time.time()
model.fit(X_train_scaled, y_train, epochs=10, batch_size=128)
model_train_time = time.time() - start_time

start_time = time.time()
model_accuracy = model.evaluate(X_test_scaled, y_test)
model_inference_time = time.time() - start_time

print(f"Neural Network:\nAccuracy: {model_accuracy}, Training Time: {model_train_time}, Inference Time: {model_inference_time}")


ImportError: Could not find the DLL(s) 'msvcp140_1.dll'. TensorFlow requires that these DLLs be installed in a directory that is named in your %PATH% environment variable. You may install these DLLs by downloading "Microsoft C++ Redistributable for Visual Studio 2015, 2017 and 2019" for your platform from this URL: https://support.microsoft.com/help/2977003/the-latest-supported-visual-c-downloads

## Evaluierung und Vergleich
   - Vergleicht die Leistung der Modelle in einer Pandas-Tabelle hinsichtlich Trainingszeit, Inferenzzeit und Test Accuracy.
   - Beschreibt die Ergebnisse kurz in etwa 5 Sätzen.

In [22]:
import pandas as pd

# Problem mit Neural Network
model_accuracy = 0
model_train_time = 0
model_inference_time = 0

data = {
    'Model': ['Logistic Regression', 'Decision Tree', 'Random Forest', 'Support Vector Machine', 'Neural Network'],
    'Training Time (s)': [log_reg_train_time, dec_tree_train_time, rand_forest_train_time, svm_train_time, model_train_time],
    'Inference Time (ms)': [log_reg_inference_time, dec_tree_inference_time, rand_forest_inference_time, svm_inference_time, model_inference_time],
    'Test Accuracy (%)': [log_reg_accuracy, dec_tree_accuracy, rand_forest_accuracy, svm_accuracy, model_accuracy]
}

df = pd.DataFrame(data)
df.head()


Unnamed: 0,Model,Training Time (s),Inference Time (ms),Test Accuracy (%)
0,Logistic Regression,44.243845,0.140539,0.924571
1,Decision Tree,52.359572,0.063002,0.878071
2,Random Forest,83.025008,0.928477,0.969714
3,Support Vector Machine,680.356906,512.402561,0.978643
4,Neural Network,0.0,0.0,0.0


Als beste Lösung eignet sich Random Forest, da das Trainieren zwar länger läuft als bei den anderen Modellen (außer SVM), jedoch die Accuracy vie genauer ist und die Inferenzzeit nur knapp eine Sekunde beträgt. SVM hat zwar die höchste Accuracy, dafür aber deutlich merkbare längere Laufzeiten sowohl beim Trainieren, als auch beim Testen. Decision Tree hat mit abstammt die niedrigste Inferenzzeit, dafür aber auch eine eher relativ schwache Accuracy und ist daher nicht wirklich gut für den Datensatz.