**Einführung in Neuronale Netzwerke mit MNIST-Datensatz**

**1	Einführung**

Neuronale Netzwerke sind ein zentraler Bestandteil des maschinellen Lernens, insbesondere bei der Bildverarbeitung. Ziel dieses Skripts ist es, ein Modell zur Erkennung handgeschriebener Ziffern auf Basis des MNIST-Datensatzes zu entwickeln. Wir starten mit einem Minimalmodell und erweitern die Komplexität schrittweise.

**2 Installation und Import der Bibliotheken**

Zweck der Bibliotheken:
NumPy: Für mathematische Operationen.

Keras: Zur Erstellung und zum Training neuronaler Netzwerke.

Matplotlib: Zur Visualisierung der Daten.

In [None]:
# Neuronale Netze mit TensorFlow - Hands-on Script für Google Colab

# Installieren von TensorFlow (falls erforderlich)
!pip install tensorflow

# Importieren der notwendigen Bibliotheken
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt


**MNIST-Daten**

Die MNIST-Daten bestehen aus handgeschriebenen Ziffern (0 bis 9). Die Daten sind wie folgt organisiert:

    Trainingsdaten:
        Anzahl: 60.000 Bilder.
        Format: 28x28 Pixel pro Bild, dargestellt in Graustufen (Pixelwerte zwischen 0 und 255).
        Labels: Integer-Werte (0–9), die die Ziffer repräsentieren.

    Testdaten:
        Anzahl: 10.000 Bilder.
        Format: Gleich wie die Trainingsdaten.

Das Splitten von Trainingsdaten in Testdaten ist wichtig, um die Modellleistung objektiv zu bewerten und sicherzustellen, dass es auf unbekannte Daten verallgemeinern kann. Testdaten helfen die tatsächliche Leistung des Modells zu messen. Ohne Testdaten könnte ein Modell auf Trainingsdaten gut abschneiden, aber bei neuen Daten versagen. Typischerweise teilt man die Daten im Verhältnis 80/20 oder 90/10 auf, wobei Testdaten ausschließlich zur abschließenden Bewertung genutzt werden.

In [None]:
# Laden und Vorverarbeiten des MNIST-Datensatzes
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Normalisierung der Pixelwerte auf den Bereich [0, 1]
x_train = x_train / 255.0
x_test = x_test / 255.0

In [None]:
# Zeigen einiger Beispielbilder aus dem Datensatz
plt.figure(figsize=(10, 5))
for i in range(10):
    plt.subplot(2, 5, i + 1)
    plt.imshow(x_train[i], cmap="gray")
    plt.title(f"Label: {y_train[i]}")
    plt.axis("off")
plt.show()

**1. Versuch: Einfaches Modell**

Einfaches neuronales Netz, das für die Klassifikation des MNIST-Datensatzes konzipiert ist. Es enthält nur eine versteckte Schicht.

- Flatten(input_shape=(28, 28)): wandelt die Eingabe von einem 2D-Bild (28x28 Pixel) in einen flachen 1D-Vektor mit 784 Features um.
- Dense(64, activation='relu'): eine versteckte Schicht mit 64 Neuronen.
- ReLU (Rectified Linear Unit): nichtlineare Aktivierungsfunktion: ReLU(x)=max⁡(0,x). Bringt Nichtlinearität ins Modell, wodurch es komplexere Muster lernen kann.
- 64 Neuronen bedeuten, dass diese Schicht 64 gewichtete Summen berechnet, jede basierend auf den 784 Eingabewerten.
- Dense(10, activation='softmax'): die Ausgabeschicht hat 10 Neuronen, da MNIST 10 Klassen (Ziffern 0–9) hat.
- Softmax-Aktivierung: wandelt die Ausgaben der Schicht in Wahrscheinlichkeiten um, die die Zugehörigkeit zu jeder Klasse beschreiben. Der Wert jedes Neurons liegt zwischen 0 und 1, und die Summe aller Neuronen ist 1.

Die Modellzusammenfassung zeigt die Anzahl der Parameter in jeder Schicht:

- Flatten-Schicht: Hat keine Parameter, da sie nur die Form der Eingabe ändert.
- Dichte Schicht (64 Neuronen). Parameter: 784×64+64=50,240. 784×64: Gewichte für jede Verbindung. +64: Bias-Werte (einer pro Neuron).
- Ausgabeschicht (10 Neuronen): Parameter: 64×10+10=650 64×10: Gewichte. +10: Bias-Werte.
- Gesamte Parameteranzahl: 50,240+650=50,890


In [None]:
# Vereinfachtes neuronales Netz für MNIST

# Modellarchitektur: Nur eine versteckte Schicht
model1 = Sequential([
    Flatten(input_shape=(28, 28)),  # Wandelt 2D-Bild in 1D-Vektor um
    Dense(64, activation='relu'),  # Eine versteckte Schicht mit 64 Neuronen
    Dense(10, activation='softmax') # Ausgabeschicht für 10 Klassen
])

# Kompilieren des Modells
model1.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# Modellübersicht anzeigen
model1.summary()


In [None]:

# Trainieren des Modells
history1 = model1.fit(x_train, y_train, epochs=5, validation_split=0.2)

# Evaluierung auf den Testdaten
test_loss, test_acc = model1.evaluate(x_test, y_test)
print(f"Testgenauigkeit: {test_acc * 100:.2f}%")

**2. Versuch**

Neuronales Netz mit zwei versteckten Schichten, das für Klassifikationsaufgaben wie MNIST optimiert ist

Modellarchitektur
- Flatten(input_shape=(28, 28)): diese Schicht wandelt die 2D-Bilddaten (28x28 Pixel) in einen flachen 1D-Vektor mit 784 Werten um. Bereitet die Eingabedaten für die vollständig verbundenen Schichten (Dense Layers) vor.
- Dense(128, activation='relu'): versteckte Schicht mit 128 Neuronen.
- ReLU-Aktivierung: ReLU(x)=max⁡(0,x). ReLU führt Nichtlinearität ein und hilft dem Modell, komplexe Muster zu lernen.
- Dense(64, activation='relu'): zweite versteckte Schicht mit 64 Neuronen.   Auch hier wird die ReLU-Aktivierung verwendet, um tiefergehende Merkmale aus den Daten zu extrahieren.
- Dense(10, activation='softmax'): Ausgabeschicht mit 10 Neuronen, da das Modell 10 Klassen (Ziffern 0–9) vorhersagen soll.
- Softmax-Aktivierung: Gibt Wahrscheinlichkeiten für jede Klasse zurück.       Die Wahrscheinlichkeiten summieren sich zu 1, was für Klassifikationsaufgaben erforderlich ist.


In [None]:
# Modellarchitektur definieren
model2 = Sequential([
    Flatten(input_shape=(28, 28)),  # Wandelt 2D-Bild in 1D-Vektor um
    Dense(128, activation='relu'),  # Versteckte Schicht mit 128 Neuronen
    Dense(64, activation='relu'),   # Versteckte Schicht mit 64 Neuronen
    Dense(10, activation='softmax') # Ausgabeschicht mit 10 Klassen
])


# Modellübersicht anzeigen
model2.summary()

In [None]:
# Kompilieren des Modells
model2.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

In [None]:
# Trainieren des Modells
history2 = model2.fit(x_train, y_train, epochs=5, validation_split=0.2)

In [None]:
# Evaluierung des Modells auf Testdaten
test_loss, test_acc = model2.evaluate(x_test, y_test)
print(f"Testgenauigkeit: {test_acc * 100:.2f}%")


Visualisierung von Trainings- und Validierungsmetriken

Die Visualisierung von Trainings- und Validierungsmetriken ist ein entscheidender Schritt, um das Verhalten eines Modells während des Trainings zu analysieren und potenzielle Probleme wie Overfitting oder Unterfitting zu identifizieren.

Ideale Kurven:
- Der Trainingsverlust sinkt stetig.
- Der Validierungsverlust sinkt ebenfalls und bleibt nahe am Trainingsverlust.
    
Overfitting:
- Der Trainingsverlust sinkt weiter, während der Validierungsverlust nach einer bestimmten Epoche wieder ansteigt.
- Die Trainingsgenauigkeit steigt weiter, während die Validierungsgenauigkeit stagniert oder sinkt.
- Interpretation: Das Modell passt sich zu stark an die Trainingsdaten an und verliert die Fähigkeit zu generalisieren.

Underfitting:
- Beide Verluste bleiben hoch, und die Genauigkeit stagniert auf niedrigem Niveau.
- Interpretation: Das Modell ist nicht komplex genug oder wurde nicht ausreichend trainiert.

Schwankende Validierungskurven:
- Deuten darauf hin, dass das Modell nicht stabil ist, was oft durch zu große Lernraten oder unzureichendes Training verursacht wird.

In [None]:
# Visualisierung von Trainings- und Validierungsmetriken
plt.figure(figsize=(12, 5))

# Verlustfunktion
plt.subplot(1, 2, 1)
plt.plot(history2.history['loss'], label='Training Loss')
plt.plot(history2.history['val_loss'], label='Validation Loss')
plt.title('Verlustfunktion')
plt.xlabel('Epoche')
plt.ylabel('Verlust')
plt.legend()

# Genauigkeit
plt.subplot(1, 2, 2)
plt.plot(history2.history['accuracy'], label='Training Accuracy')
plt.plot(history2.history['val_accuracy'], label='Validation Accuracy')
plt.title('Genauigkeit')
plt.xlabel('Epoche')
plt.ylabel('Genauigkeit')
plt.legend()

plt.show()

In [None]:
# Vorhersage auf neuen Daten
predictions = model2.predict(x_test[:5])

# Anzeigen der Vorhersagen
plt.figure(figsize=(10, 5))
for i in range(5):
    plt.subplot(1, 5, i + 1)
    plt.imshow(x_test[i], cmap="gray")
    plt.title(f"Pred: {predictions[i].argmax()}")
    plt.axis("off")
plt.show()

**Falsche Vorhersagen**

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Vorhersagen für die Testdaten
predictions = model2.predict(x_test)
predicted_labels = np.argmax(predictions, axis=1)

# Finden der fehlerhaften Vorhersagen
incorrect_indices = np.where(predicted_labels != y_test)[0]

# Anzahl fehlerhafter Vorhersagen anzeigen
print(f"Anzahl fehlerhafter Vorhersagen: {len(incorrect_indices)}")

# Visualisierung der ersten 10 fehlerhaften Vorhersagen
plt.figure(figsize=(15, 8))
for i, index in enumerate(incorrect_indices[0:10]):  # Zeigt maximal 10 fehlerhafte Vorhersagen
    plt.subplot(2, 5, i + 1)
    plt.imshow(x_test[index], cmap='gray')
    plt.title(f"True: {y_test[index]}, Pred: {predicted_labels[index]}")
    plt.axis('off')

plt.tight_layout()
plt.show()

**Einfaches CNN für MNIST**

Convolutional Neural Network (CNN), wurden speziell für Bildverarbeitungsaufgaben entwickelt, z.B. für die Klassifikation des MNIST-Datensatzes.

Funktion des Modells
- Convolutional Layer: Extrahiert lokale Merkmale (z. B. Kanten, Muster).
- Pooling Layer: Reduziert die Größe der Daten und macht die Merkmale translational invariant (robust gegenüber Positionsänderungen).
- Dense Layer: Verarbeitet die extrahierten Merkmale und klassifiziert das Bild in eine von 10 Klassen.

Typische Parameteranzahl
- Conv2D: (3×3×1+1)×32=320 Parameter.
- MaxPooling2D: Keine Parameter (da es nur Maximalwerte nimmt).
- Flatten: Keine Parameter (ändert nur die Form der Daten).
- Dense (128 Neuronen): 6.272×128+128=802.944 Parameter.
- Dense (10 Neuronen): 128×10+10=1.290Parameter.

Gesamtanzahl der Parameter: 804.554.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# Definition des Modells
model3 = Sequential([
    Conv2D(filters=32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D(pool_size=(2, 2)),
    Flatten(),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
])


# Modellübersicht anzeigen
model3.summary()

In [None]:
model3.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
history3 = model3.fit(x_train, y_train, epochs=5, validation_split=0.2)

In [None]:
test_loss, test_accuracy = model3.evaluate(x_test, y_test)
print(f"Test accuracy (CNN): {test_accuracy}")

**Fashion MNIST**

In [None]:
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.utils import to_categorical

# Klassenbezeichnungen für Fashion MNIST
class_names = ['T-Shirt/Top', 'Trouser', 'Pullover', 'Dress', 'Coat',
               'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle Boot']

