**Übung Mustererkennung** *WS 2022/23* -- *K. Brandenbusch,  Gernot A. Fink* -- *Technische Universität Dortmund, Lehrstuhl XII, Mustererkennung in eingebetteten Systemen*

___
# Aufgabe 5b: Hauptachsen-Transformation auf MNIST
Nachdem bisher mit artifiziellen Datensätzen gearbeitet wurde, wenden wir uns jetzt realen Daten zu.
Dazu verwenden wir den [MNIST-Datensatz](https://de.wikipedia.org/wiki/MNIST-Datenbank) der Grauwert-Bilder handgeschriebener Ziffern enthält.
Der MNIST-Datensatz besteht im Original aus 60000 Trainingsbildern und 10000 Testbildern.
Um den Trainingsaufwand gering zu halten, werden im Rahmen dieser Übung lediglich 1000 zufällig ausgewählte aus den ingesamt zur Verfügung stehenden 6000 Trainingsbeispielen pro Klasse verwendet.
Somit ergibt sich ein Trainingsdatensatz von 10000 sowie ein ebenfalls verkleinerter Testdatensatz von 1000 Bildern.
Die 28 × 28 Pixel großen Bilder können als 784-dimensionale Merkmalsvektoren aufgefasst werden.

Zuerst muss das Notebook konfiguriert werden.

In [0]:
%load_ext autoreload
%autoreload 2
%matplotlib widget

# Uebergeordneten Ordner zum Pfad hinzufuegen, damit das common Package importiert werden kann
import sys
if '..' not in sys.path:
    sys.path.append('..')

import matplotlib.pyplot as plt  
import matplotlib.cm as cm
    
def show_data(data, width=1):
    """
    Stellt die Bilder in data zeilenweise dar. Nebeneinander werden width-viele
    Bilder angezeigt. Die Gesamtanzahl der Bilder muss so gewaehlt sein, dass in jeder
    Zeile width-viele Bilder dargestellt werden koennen.
    Params:
        data: Darzustellende Bilder als 2D-ndarray. Eine Zeile entspricht einem Bild.
        width: Anzahl der Bilder einer Zeile in der Visualisierung. (default = 1)
    """
    if len(data.shape) == 1:
        data = data.reshape(1, data.shape[0])
        image_count = 1
    else:
        image_count = data.shape[0]

    image = []
    for i in np.arange(width):
        index = np.arange(i, image_count, width)
        column = data[index, :]
        image.append(column.reshape((28 * column.shape[0], 28)))
    image = np.hstack(tuple(image))

    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.imshow(image, cmap=cm.get_cmap('Greys_r'))
    ax.set_xticks([])
    ax.set_yticks([])
    return ax

Laden Sie die Trainingsdaten des MNIST-Datensatz.
Das Laden des Datensatzes kann einige Sekunden in Anspruch nehmen.
Mit der oben definierten Funktion `show_data(data, width)` können Sie Bilder des Datensatzes anzeigen lassen.
Die Anzahl der Bilder muss ein Vielfaches des Parameters `width` sein.

In [0]:
from common.data_provider import DataProvider
import numpy as np
train_data_provider = DataProvider(DataProvider.MNIST_TRAIN)


Schätzen Sie nun eine Hauptachsen-Tranformations für die 784-dimensionalen Daten des MNIST-Datensatzes.
Plotten Sie anschließend eine Kurve die den Rekonstruktionsfehler in Abhängigkeit zur gewälten Dimension zeigt.
Wählen Sie aufgrund ihrer Beobachtung geeignete Größen für Ihre Dimensionsreduktion.

Visualisieren sie den Mittelwert des Datensatzes (siehe Konstruktor der Klasse `PCA`) und die ersten 20 Eigenvektoren.
Verwenden Sie dazu die Methode `show_data`.

Transformieren Sie nun die Daten in die von Ihnen gewälten Dimensionen.
Führen sie außerdem anschließend eine Rücktransformation durch.
Legen Sie dafür eine Methode `retransform_samples` in der Klasse `PCA` an.

Visualisieren Sie für jede rücktransformierte Variante jede Ziffer (ähnlich wie zu Beginn der Aufgabe).
Nutzen Sie dafür die Methode `show_data`.

Es ist empfehlenswert, die dimensionsreduzierten Daten für die spätere Nutzung zu speichern.  
Dazu bietet sich die Python Bibliothek [`pickle`](https://docs.python.org/3.9/library/pickle.html) an. 
Eine kurze Einführung in die Verwendung von `pickle` finden sie [hier](https://wiki.python.org/moin/UsingPickle).

_Hinweis_: Hinterlegen Sie die Dimension der dimensionsreduzierten Daten im Dateinamen des gespeicherten Objekts um in späteren Aufgaben mehrere Varianten zu Verfügung zu haben.