# *Number prediction* auf Basis von k-nearest neighbors
> FD II - Introduction to Machine Learning (5. Sem., 3. Woche | ZHAW)

In dieser Lektion möchten wir:
* Die Schritte im Modellierungsprozess durchspielen und verstehen 
* Ziffern (0-9) anhand von Bildern erkennen mit der Hilfe von...
* ...k-NN, das wir als Modell kennen lernen

*Hinweis:* kaggle Notebook zum Nachlesen im Anschluss / Lektions-Unterlagen zur Verfügung.

### Tool
--> Jupyter Notebook / kaggle Notebook

<table>
  <tr>
    <th><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/38/Jupyter_logo.svg/1200px-Jupyter_logo.svg.png" width=160 /></th>
    <th><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</p></th>
    <th><img src="https://miro.medium.com/max/668/1*GZrTyTz0OKMbxnO5Trhcew.png" width=160 /></th>
  </tr>
</table>

### Use Case: Post Briefzentrum
Maschinelle Erkennung von Anschriften - wie geschieht das? 
<table>
  <tr>
    <th><center>Ausnahmefälle von Briefen, die manuell sortiert werden</center><img src="https://www.post.ch/-/media/portal-opp/corona/corona-story-eclepens.jpg?mw=1200&vs=2&hash=DBBD6DB3CA2837A07C4A1391F7191FB4" width=600 /></th>
    <th><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</p></th>
    <th><center>Eine Adresse die es zu interpretieren gilt</center><img src="https://handgeschrieben.ch/wp-content/uploads/2020/05/Bilder_Sophie_Carl-e1589809613377.jpg" width=450 /></th>
  </tr>
</table>

## Step 1 - Daten | MNIST

Der MNIST-Datensatz ist ein bekannter Datensatz, der aus **28x28 Graustufenbildern mit je einer Zahl** besteht. Es enthält eine Trainingsmenge von 60.000 samples und eine Testmenge von 10.000 samples.
Für jedes Bild kennen wir die entsprechenden Ziffern, d.h. Labels (von 0 bis 9).

MNIST in all seiner Schönheit:
![MNIST in all seiner Schönheit](https://miro.medium.com/max/800/1*LyRlX__08q40UJohhJG9Ow.png)
> MNIST (Modified National Institute of Standards and Technology database) ist hier verfügbar: http://yann.lecun.com/exdb/mnist/index.html

## Step 2 - Modellwahl | k-Nearest Neighbor

k-NN ist ein **Classifier**, der auf Basis "gelernter" Daten neue Daten klassifiziert. Dies ist ein sehr grundlegendes, einfaches Modell, das oft als "baseline" zum Vergleich genutzt wird.

Zum Zeitpunkt der Prediction wird das **Label (d.h. die Klasse, also das Resultat der Klassifizierung)** auf Basis der "k nearest neighbors" zum Testpunkt ausgewählt. Die Zahl `k` wird dabei zu Beginn definiert.

Hier ein Beispiel für `k = 3`:[](http://)
![Example k-nn with k=3](https://lazyprogrammer.me/wp-content/uploads/2015/03/main-qimg-9574c0ddd16bd6eb1ff291f0c0f3be5d-300x185.png)

**--> Frage:** wie würde der Punkt klassifiziert werden?

Wir zählen für `k = 3` die drei "geometrisch" nächsten Nachbarn und zählen ihre *Votes* zusammen um auf das Resultat (hier: weiss) zu kommen.

Hier ein weiteres Beispiel, in dem es abhängt was wir für `k` auswählen:
![k-nn example with k=3/5](https://lazyprogrammer.me/wp-content/uploads/2015/03/0_zbaCKocplWAbM1m5-238x300.png)

**Die Idee ist, dass die Daten im "Raum" geclustert sein sollten. Punkte aus der gleichen Klasse sollten nahe beieinander liegen.** Tatsächlich ist dies eine Idee, die für nahezu alle Algorithmen in Machine Learning gilt!

Wenn Datenpunkte, die nahe beieinander liegen, der gleichen Klasse angehören, dann folgt daraus, dass ein Testpunkt klassifiziert werden kann, indem man sich die Klassen seiner Nachbarn ansieht.

k-NN baut im Vergleich zu anderen Ansätzen **nicht per se ein probabilistisches Modell** auf, sondern speichert nur die Trainings-Daten `X_train` und `y_train` ab. Es wird also nicht "gelernt".

## Step 3 - Umgebung vorbereiten | Daten laden und vorbereiten

### Umgebung vorbereiten
Wir beginnen, wie immer, mit dem **Import der wichtigsten Module** / Packages, die uns die Funktionalitäten bieten, die wir benötigen.

In [1]:
import os # manipulate files
import cv2 # opencv image processing
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # plotting library
from random import randint # getting random integers

# ML models and metrics
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# the MNIST dataset
from keras.datasets import mnist

print('Modules loaded.')

Modules loaded.


Und wir definieren noch ein paar Funktionen die uns später etwas Arbeit abnehmen.

In [2]:
def get_data_subset(array : np.ndarray, quantifier : float) -> np.ndarray:
    """Splits an array based on a quantifier, e.g. 0.1 for 10% of the data."""
    array = (np.split(array, 1 / data_quant))[0]
    return array


def plot_samples(samples : np.ndarray, titles : list, figsize=(3,3)):
    """Helper function for plotting samples."""
    sample_count = samples.shape[0] % (28 * 28 - 1) # corrected for single sample
    if len(titles) != sample_count: # check arguments
        raise ValueError('Count of {} samples and {} labels do not match.'. format(sample_count, len(titles)))
    if sample_count <= 15: # find right subplot layout
        plot_layout = [1, sample_count]
    elif sample_count % 15 == 0:
        plot_layout = [int(sample_count/15), 15]
    else:
        plot_layout = [1 + int(sample_count/15), int((sample_count + 1)/2)]

    # set up subplots
    fig, axs = plt.subplots(*plot_layout, figsize=figsize)
    fig.tight_layout()
    
    # plot
    if sample_count == 1:
        axs.axis('off')
        axs.set_title(titles[0])
        axs.imshow(samples.reshape(28,28), cmap='Greys')
        return
    
    for idx, ax in enumerate(axs.flatten()):
        ax.axis('off')
        if idx == sample_count:
            break #stop when we plotted everything
        ax.set_title(titles[idx])
        ax.imshow(samples[idx].reshape(28,28), cmap='Greys')


print('Functions {} defined.'.format(', '.join([get_data_subset.__name__, plot_samples.__name__])))

Functions get_data_subset, plot_samples defined.


### Daten laden
Wie bereits erwähnt, ist der Hauptaufwand bei der Aufbereitung der Daten sodass das ausgewählte Modell sie richtig verwerten kann. Wir machen dazu die kommenden Schritte:
* Daten laden
* Einen Teil der Daten ignorieren (nur für dieses Beispiel, für Geschwindigkeit)
* Daten umformen auf 2D, da die Modelle keine 3D Daten akzeptieren

In [3]:
# load data
(X_train, y_train), (X_test, y_test) = mnist.load_data()
print('\nLoaded data - there are \33[34m{}\033[0m data points for training and \33[34m{}\033[0m for testing.'.format(X_train.shape[0], X_test.shape[0]))

data_quant = 0.1 # only take a certain amount of data (speed)
print('\nLet''s only keep \33[34m{}%\033[0m of that data. As we don\'t want to wait...'.format(data_quant * 100))

X_train = get_data_subset(X_train, data_quant)
y_train = get_data_subset(y_train, data_quant)
X_test = get_data_subset(X_test, data_quant)
y_test = get_data_subset(y_test, data_quant)
print('Ok, now we have \33[34m{}\033[0m data points for training and \33[34m{}\033[0m for testing.'.format(X_train.shape[0], X_test.shape[0]))

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz


Exception: URL fetch failure on https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz: None -- [Errno -3] Temporary failure in name resolution

**Wiederholung: Aufteilung der Daten**

Wie bereits besprochen, werden im Machine Learning die zur Verfügung stehenden Daten immer aufgeteilt:
<table>
  <tr>
    <th><center>High-Level Nutzung der Daten</center><br/><img src="https://miro.medium.com/max/656/0*FKrWuLRbB_MiEIKh" width=400 /></th>
    <th><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</p></th>
    <th><center>Aufteilung der Datensätze</center><br/><img src="https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1543836883/image_6_cfpjpr.png" width=600 /></th>
  </tr>
</table>

### Daten vorbereiten

In [None]:
# reshape data
print('We have a shape that looks like \33[34m{}\033[0m for training and \33[34m{}\033[0m for testing.'.format(X_train.shape, X_test.shape))
X_train = X_train.reshape(X_train.shape[0], X_train.shape[1] * X_train.shape[2])
X_test = X_test.reshape(X_test.shape[0], X_test.shape[1] * X_test.shape[2])
print('Now it\'s \33[34m{}\033[0m for training and \33[34m{}\033[0m for testing.'.format(X_train.shape, X_test.shape))

Jetzt können wir einen Blick auf solch ein Sample (d.h. ein Daten-Punkt) werfen.

In [None]:
# plot an image of a random sample
show = randint(0, X_train.shape[0]) # get a random item to show
plt.imshow(X_train[show].reshape(28, 28), cmap='Greys')
plt.title(f'label: {y_train[show]}')
plt.show()

## Step 4 - Modell erstellen und trainieren | k-NN model
Jetzt wo die Daten bereitstehen, können wir das k-NN Modell erstellen und trainieren.

In [None]:
# create the k-NN model
k = 5 # the model will decide based on the 5 nearest neighbors
knn = KNeighborsClassifier(n_neighbors=k) # create model
knn.fit(X_train, y_train) # train model
print('Trained the model for \33[34m{}\033[0m neighbors, based on training data.'.format(k))

In diesem Beispiel (k-NN) ist das erstellen und trainieren sehr einfach. Bei komplexeren Modellen wird viel Aufwand benötigt um die richtigen Parameter zu finden.

## Step 5 - Modell testen und auswerten | k-NN accuracy test
Nun, wo wir das Modell erstellt und trainiert haben, können wir es testen und auswerten.

In [None]:
print('Predicting on \33[34m{}\033[0m testing samples...'.format(X_test.shape[0]))
predicted = knn.predict(X_test)
expected = y_test.tolist()
print('Achieved an accuracy of \33[34m{}\033[0m.'.format(accuracy_score(expected, predicted)))

An dieser Stelle ein paar Fragen:
* Was genau heisst dies für das Modell?
* Wären mehr Daten besser gewesen?
* Wäre ein grösseres `k` besser gewesen?

Antworten:
* Relativ gutes Modell - es kommt ca. bei 9 von 10 Bildern auf das richtige Resultat - liesse sich aber noch verbessern.
* Mit 60k/10k Samples wurde 0.9688 (statt 0.916) accuracy erreicht.
* Mit `k = 9` wurde 0.906 accuracy erreicht. Für `k = 3` war es 0.913. Für `k = 5` (default) 0.916. Bei der Wahl des richtigen `k` kommt es auf die Daten an.

## Step 6 - Modell analysieren und verbessern | analyze and improve
Als nächstes können wir uns Beispiele der Fehler anschauen.

In [None]:
plot_smpl = X_test[0:15*15] # select the samples we want to plot
titles = [] # generate the plot titles for these samples
for idx in range(0, 15*15):
    if predicted[idx] != y_test[idx]:
        titles.append('## {} ({}) ##\nat {}'.format(predicted[idx], y_test[idx], idx))
    else:
        titles.append(y_test[idx])

# plot the samples
plot_samples(plot_smpl, titles, figsize=(25,25))

Fragen:
* Warum geschehen solche Fehler?
* Warum erkennen wir als Menschen diese Fehler sozusagen "sofort"?

### Analyse
Beispiel der nearest neighbors für ein Element.

In [None]:
# choose a sample as error
error_idx = 115 # index of the sample we'll look into
# plot the erroneous sample
plot_samples(X_test[error_idx], ['## ' + str(predicted[error_idx]) + ' ('  + str(y_test[error_idx]) + ') ##'])

# get nearest neighbors
X_error = X_test[error_idx].reshape(1, -1)
neigh = knn.kneighbors(X_error, n_neighbors=k)

# plot neighbors
titles = [] # generate the plot titles for the neighbors
for idx in range(0, k):
    titles.append('label: {}\ndist: {:.1f}'.format(y_train[neigh[1][0][idx]], neigh[0][0][idx]))
plot_samples(X_train[neigh[1][0]], titles, figsize=(10,10))

**Weiteres Vorgehen:**

Auf Basis dieser Analyse könnte mit einer iterativen Verbesserung des Modells (oder der Daten) weitergefahren werden. Was wäre dabei möglich?

Mögliche Antworten:
* Bessere Aufbereitung der Daten (z.B. höhere Auflösung)
* Wahl eines anderen `k` als Modellparameter
* Wahl eines anderen Modells (falls es ungeeignet scheint)
* ...

### --- Appendix: analyse von manuell erstellten Daten-Punkten ---

In [None]:
# import and prepare manual samples
samples = []
for dirname, _, filenames in os.walk('/kaggle/input/mnist-manual-test-data/'):
    for filename in filenames:
        print('Found sample: {}'.format(dirname + filename))
        im = cv2.imread(dirname + filename, cv2.IMREAD_GRAYSCALE)
        try:
            samples = np.vstack([samples, cv2.bitwise_not(im.reshape(1, -1))])
        except:
            samples = cv2.bitwise_not(im.reshape(1, -1))

print('Found {} manual samples.'.format(samples.shape))

In [None]:
# predict the manual samples
predicted = knn.predict(samples)

# plot the manual samples
titles = [] # generate the plot titles for the samples
for idx in range(0, len(predicted)):
    titles.append('manual sample\npredicted: {}'.format(predicted[idx]))
plot_samples(samples, titles, figsize=(7,7))