# Übungsblatt 6: Hauptachsentransformation & Klassifikation
Ziel dieser Übungsserie ist es, mit Hilfe von Python ein Objekterkennungssystem zu entwickeln und mit dem Leave-One-Out Verfahren zu bewerten. Das Vorgehen ist dabei in einzelne Schritte unterteilt, sodass die folgenden Aufgaben aufeinander aufbauen. __Lesen Sie die Aufgabenbeschreibungen aufmerksam!__

# Aufgabe 1: Laden des Datensatzes

Im Moodle finden Sie den Datensatz `toy-dataset`, welcher vier Ordner mit $16\times 16$ Pixel großen Beispielbildern der Klassen *apple*, *car*, *cow* und *dog* enthält.
Im Folgenden soll ein Klassifikator angelernt werden, welcher diese vier Klassen erfolgreich unterscheiden kann.
Laden Sie dazu zunächst den Datensatz.
Der nachfolgend zu realisierende Klassifikator soll jeweils 9 von 10 Bildern je Klasse während der Lernphase erhalten.
Das jeweils verbleibende Bild soll als *unbekanntes* Testbild verwendet werden.
Erstellen Sie eine Routine, welches für einen übergebenen Datensatz eine zufällige Einteilung in Trainings- und Testdaten realisiert.
Achten Sie insbesondere darauf, das Verhältnis zwischen Trainings- und Testdaten variabel zu gestalten.

## 0. Pfade, Pakete etc.

In [1]:
import glob
import os

%matplotlib notebook
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

import sklearn.decomposition

import imageio
import numpy as np
import math

In [2]:
dataset_path = './toy-dataset/'

## 1. Laden des Datensatzes
Definieren Sie eine Funktion `ex6_load_dataset`, die den Datesatz einliest. Laden Sie den Datensatz so, dass Sie jedem Bild eine Klasse zuordnen können! Denkbar ist z.B. ein Array von Tupeln `(Bild, Klasse)`. Achten Sie jeweils auf eine geeignete Repräsentation von Bildern und Klassen. Tipp: Verwenden Sie zunächst die Funktion `os.walk`, um die Verzeichnisstruktur abzubilden.

In [3]:
def read_pgm(f):
    header = f.readline()
    size = [int(i) for i in f.readline().split()]
    depth = int(f.readline())
    image = []
    for i in range(size[0]):
        row = []
        for j in range(size[1]):
            row.append(ord(f.read(1)))
        image.append(row)
    return image

In [4]:
def ex6_load_dataset(path):
    data = {}
    for root, dirs, files in os.walk(dataset_path):
        for d in dirs:
            data.update({d: []})
        for name in files:            
            f = open(os.path.join(root, name), 'rb')
            image = read_pgm(f)
            for d in data.keys():
                if d in name:
                    data[d].append(np.array(image) / np.max(image))
    for key, values in data.items():
        data[key] = np.array(data[key])
    return data

In [5]:
data = ex6_load_dataset(dataset_path)

## 2. Aufteilen des Datensatzes
Definieren Sie nun eine Funktion `ex6_split_dataset`. Teilen Sie darin den Datensatz in Trainings- und Testbeispiele anhand des Verhältnisses `test_fraction` auf! Achten Sie dabei auf die identische Verteilung der Klassen in beiden Teilmengen. Erzwingen Sie mindestens ein Testbeispiel pro Klasse und geben Sie Trainings- und Testdaten getrennt zurück.

In [6]:
def ex6_split_dataset(data, test_fraction):
    training_data = []
    test_data = []
    
    for key, values in data.items():
        test_size = int(values.shape[0] * test_fraction)
        train_size = values.shape[0] - test_size
        
        for i in range(0, train_size):
            np.random.shuffle(data[key])
            idx = np.random.randint(0, data[key].shape[0], 1)
            training_data.append((data[key][idx], key))
            data[key] = np.delete(data[key], idx, axis=0)
            
        for i in range(0, test_size):
            np.random.shuffle(data[key])
            idx = np.random.randint(0, data[key].shape[0], 1)
            test_data.append((data[key][idx], key))
            data[key] = np.delete(data[key], idx, axis=0)
    
    
    return np.array(training_data), np.array(test_data)

In [7]:
train, test = ex6_split_dataset(data, 0.5)

# Aufgabe 2: Merkmalsextraktion
Bevor ein Klassifikator trainiert werden kann, müssen Bilder geeignet durch Merkmale repräsentiert werden.

1. Eine sehr einfache Möglichkeit, Merkmale aus den Bildern zu gewinnen besteht darin, die Pixelwerte der Bilder direkt als Merkmal zu wenden. In Fall einfacher Grauwertbilder wird dazu jedes Bild vektorisiert, indem die Pixelwerte zeilen- oder spaltenweise in einem Spalten-Vektor abgelegt (z.B. mit der `reshape`-Funktion aus dem Paket `numpy`). Für die Bilder aus obigem Datensatz ergibt dies eine Merkmalsdimension $d=256 \times 1$.

2. Häufig muss die Dimension der Merkmale reduziert werden, um eine schnellere Klassifikation mit geringerem Speicherbedarf zu ermöglichen. Dazu kann zum Beispiel eine Hauptachsentransformation durchgeführt werden (*principal component analysis*, PCA). In `scikit-learn` steht dafür die Funktion `sklearn.decomposition.PCA` zur Verfügung, die hier jedoch **nicht** verwendet werden soll. Stattdessen kann eine entsprechende Transformation auch wie folgt umgesetzt werden:

    1. Erstellen Sie eine Datenmatrix $\mathbf{X}\in \mathbb{R}^{d\times n}$ in der spaltenweise die $n$ Merkmalsvektoren gelagert sind.
    2. Machen sie jede Merkmalsdimension **mittelwertfrei**, d.h., subtrahieren Sie je Dimension den entsprechenden Mittelwert aller Trainingsdaten.
    3. Berechnen Sie anschließend die Kovarianzmatrix $\mathbf{\Sigma} = \mathbf{X}\mathbf{X}^T $, mit $\mathbf{\Sigma}\in \mathbb{R}^{d\times d}$
    4. Berechnen Sie schließlich die Eigenwerte und -vektoren von $\mathbf{\Sigma}$ mittels geeigneter `numpy`-Funktionen (z.B. `np.linalg.eig`, `np.linalg.svd`, $\dots$)

Für eine Dimensionsreduktion auf die $k,~1\le k\le d,~$ *wichtigsten* Dimensionen werden die Eigenvektoren zu den $k$ größten Eigenwerten verwendet.
Wir fassen diese Eigenvektoren in einer Matrix $\mathbf{P} = [\mathbf{v}_1,\ldots,\mathbf{v}_k]$ zusammen.
Auf diese $k$ Eigenvektoren können nun alle ursprünglichen Merkmalsvektoren $\mathbf{x_i}$ mittels $\mathbf{\hat{x_i}} = \mathbf{P}^T\mathbf{x_i}$ projiziert werden.


Implementieren Sie beide Verfahren zur Beschreibung von Bildern.
Achten Sie insbesondere darauf, die Pixelwerte für die Merkmalsvektoren auf den Wertebereich $[0,1]$ zu **skalieren**!
Vergleichen Sie im Zweifelsfall Ihre Ergebnisse mit denen der entsprechenden Python-Routinen.

## 1. Pixelwerte als Merkmale
Definieren Sie zunächst eine Funktion `ex6_feature_extraction_simple`, die Bilder in eine Merkmalsrepräsentation umwandelt. Die Funktion bekommt Trainings- und Testdaten als Liste von `(Bild, Klasse)`-Tupeln übergeben und gibt sie jeweils als Liste von `(Merkmalsvektor, Klasse)`-Tupeln zurück. Obwohl die Trennung zwischen Trainings- und Testdaten für diese Variante der Merkmalsextraktion nicht relevant ist, wollen wir eine einheitliche Schnittstelle schaffen, die in Aufgabe 4 wichtig wird.

In [8]:
def ex6_feature_extraction_simple(training_data, test_data):
    training_features = []
    test_features = []
    
    for sample in training_data:
        training_features.append((np.array(sample[0]).flatten(), sample[1]))
                                
    for sample in test_data:
        test_features.append((np.array(sample[0]).flatten(), sample[1]))
    
    return np.array(training_features), np.array(test_features)

In [9]:
simple_train, simple_test = ex6_feature_extraction_simple(train, test)

Implementieren Sie jetzt die alternative Funktion `ex6_feature_extraction_pca`, die eine Hauptachsentransformation durchführt und analog zur vorherigen Funktion als Merkmale zurückgibt. Achten Sie darauf, nicht die Testdaten zur Ermittlung der Kovarianzmatrix zu verwenden.

In [20]:
def ex6_feature_extraction_pca(training_data, test_data, k=5):
    training_data_matrix = []
    train_labels = []
    # matrix of shape n x p
    for i in range(0, training_data.shape[0]):
        feature_vec = np.array(training_data[i][0].flatten())
        train_labels.append(training_data[i][1])
        training_data_matrix.append(feature_vec)
    training_data_matrix = np.array(training_data_matrix)
    training_data_matrix = np.transpose(training_data_matrix)
    
    # mean of shape p x 1
    mean = np.mean(training_data_matrix, axis=0)
    training_data_matrix -= mean
    
    # cov matrix of shape p x p
    cov_matrix = np.cov(training_data_matrix)
    
    # diagonal matrix eig_vec of shape p x p
    eig_val, eig_vec = np.linalg.eig(cov_matrix)
    
    eig = list(zip(eig_val, eig_vec))
    eig = sorted(eig,  key=lambda x: x[0])

    # create matrix of shape p x k
    a = []
    for i in range(0, k):
        a.append(eig[i][1])
    a = np.transpose(np.array(a))
        
    # project training data
    proj_train_features = np.transpose(np.dot(np.transpose(a), training_data_matrix))
    train_features = []
    for i in range(0, proj_train_features.shape[0]):
        train_features.append((proj_train_features[i], train_labels[i]))
    
    test_data_matrix = []
    test_labels = []
    for i in range(0, test_data.shape[0]):
        test_feature_vec = np.array(test_data[i][0].flatten())
        test_data_matrix.append(test_feature_vec)
        test_labels.append(test_data[i][1])
    test_data_matrix = np.array(test_data_matrix)
    test_data_matrix = np.transpose(test_data_matrix)
    
    test_features = []
    proj_test_features = np.transpose(np.dot(np.transpose(a), test_data_matrix))
    for i in range(0, proj_test_features.shape[0]):
        test_features.append((proj_test_features[i], test_labels[i]))

    return np.array(train_features), np.array(test_features)

In [21]:
pca_train, pca_test = ex6_feature_extraction_pca(train, test)

# Aufgabe 3: Nächster-Nachbar-Klassifikator
Der vermutlich einfachste Klassifikator ist der Nächste-Nachbar-Klassifikator.
Dieses Verfahren vergleicht den zu klassifizierenden Merkmalsvektor $\mathbf{x}_*$ mit allen Merkmalsvektoren $\mathbf{x}_i$ der Trainingsdaten.
Die Klasse desjenigen Merkmalsvektors der Trainingsdaten, welches den geringsten Abstand zu $\mathbf{x}_*$ aufweist, wird als Ergebnis der Klassifikation zurückgeliefert.

Implementieren Sie diesen sogenannten Nächsten-Nachbar-Klassifikator.
Achten Sie dabei darauf, dass er mit beliebigen Stichproben trainiert werden kann.

Gestalten Sie die Distanzberechnung variabel. Welche Abstandsmaße sind Ihrer Meinung nach möglich bzw. sinnvoll?

## 1. Distanzberechnung
Definieren Sie eine oder mehrere Distanzen als Funktion bzw. Lambda-Ausdruck, der einem Paar von Merkmalsvektoren `x` und `x_` eine skalare Distanz zuordnet.

In [93]:
d_euclid = lambda x, x_:np.sqrt(np.sum(np.power((x-x_), 2)))

## 2. Klassifikation
Implementieren Sie nun eine Funktion `ex6_classify`, die als Eingabe ein Beispiel `x_star`, den Trainingsdatensatz sowie eine geeignete Distanzfunktion `d` bekommt. Der Rückgabewert soll die Klasse des nächstgelegenen Beispiels im Trainingsdatensatz sein.

In [94]:
def ex6_classify(x_star, training_features, d):
    min_distance = 1000000.0
    class_ = None
    for i in range(0, training_features.shape[0]):
        distance = d(training_features[i][0], x_star)
        if distance < min_distance:
            class_ = training_features[i][1]
    
    return class_

# Aufgabe 4: Leave-one-out Estimation
Stellen Sie die vorherigen Teilaufgaben zu einem Gesamtsystem zusammen.
Dabei soll aus den Eingabedaten aus jeder Klasse ein Bild ausgewählt werden, welches *nicht* für das „Lernen“ der Hauptachsentransformation und das Trainieren des Nächsten-Nachbar-Klassifikators verwendet wird (s. erste Aufgabe).
Anschließend werden diese Bilder als Testdaten verwendet, transformiert und schließlich klassifiziert.
Ermitteln Sie die Erkennungsleistung des Klassifikators.
Variieren Sie nun das Verhältnis zwischen Anzahl der Trainings- und Testbeispiele.
Was ist zu beobachten?

Zunächst definieren wir einige Voreinstellungen für das Verfahren:

In [95]:
test_fraction = 0.5
d = d_euclid
feature_extraction = ex6_feature_extraction_pca

Anschließend werden alle Schritte des Verfahrens nacheinander ausgeführt:

In [96]:
training_data, test_data = ex6_split_dataset(ex6_load_dataset(dataset_path), test_fraction)
training_features, test_features = feature_extraction(training_data, test_data)
test_predictions = [(ex6_classify(test_feature[0], training_features, d_euclid), test_feature[1]) for test_feature in test_features]

In [98]:
print(test_predictions)

[('cow', 'apple'), ('cow', 'apple'), ('cow', 'apple'), ('cow', 'apple'), ('cow', 'apple'), ('cow', 'car'), ('cow', 'car'), ('cow', 'car'), ('cow', 'car'), ('cow', 'car'), ('cow', 'dog'), ('cow', 'dog'), ('cow', 'dog'), ('cow', 'dog'), ('cow', 'dog'), ('cow', 'cow'), ('cow', 'cow'), ('cow', 'cow'), ('cow', 'cow'), ('cow', 'cow')]


Nun liegen in `test_predictions` Paare von vorhergesagten und tatsächlichen Klassen aller Testbeispiele. Überlegen Sie, welches Maß für die Genauigkeit der Vorhersage sinnvoll erscheint und implementieren Sie es:

In [103]:
def evaluate_learner(test_predictions):
    n = len(test_predictions)
    correct = 0
    for i in range(0, n):
        if (test_predictions[i][0] == test_predictions[i][1]):
            correct += 1
    return correct/n

In [104]:
print(evaluate_learner(test_predictions))

0.25
