# Dokumentation

1. Problemstellung<br>
2. Datenset<br>
3. Datenaufbereitung<br>
4. Algorithmen & Neuronale Netze<br>
5. Vorstellung der Ergebnisse

## Problemstellung:

Maschinelles Lernen kann in verschiedenen Bereichen eingesetzt werden. Beispiele dafür sind die Vorhersage zukünftiger Ereignisse auf Basis von vorherigen Ereignissen oder auch die Mustererkennung.
Mit der voranschreitenden Digitalisierung übernimmt Software immer mehr alltägliche Aufgaben. Ein sehr aktuelles Thema ist dabei das autonome Fahren, indem maschinelles Lernen eingesetzt wird.
Ein weiteres Beispiel für den Einsatz von Erkennungssoftware ist die Gesichtserkennung, wie es viele Apple Nutzer in ihren aktuellen Smartphone wieder finden.
Wie diese beiden Beispiele zeigen, wird der Bilderkunngen im Zusammenhang mit maschinellem Lernens eine hohe Bedeutung beigemessen.
Deshalb haben wir uns dafür entschieden den Bereich von Bild- und Mustererkennung im Rahmen der Vorlesung genauer zu beleuchten.

Um ein geeignetes Projekt für die Bilderkennung durchzuführen, mussten wir einige Probleme lösen und uns geeignetes Wissen in den Bereichen aneignen.

Die zu klärenden Fragen sind unter anderem:
- Welches Datenset eignet sich, um das Projekt erfolgreich abschließen zu können?
- Wie müssen die Daten aufbereitet werden?
- Wie "sehen" Maschinen?
- Wie werden Muster erkannt?
- Welche Algorithmen gibt es?
- Worauf muss beim Lernen geachtet werden?
- welche Parameter können variiert werden?
- Wie wirkt sich die Variation einzelner Parameter auf die Ergebnisse aus?

In dieser Dokumentation geben wir Antworten auf die Fragen, die wir uns gestellt haben und zeigen, wie unser Projekt durchgeführt wurde.

## Datenset

Für die Auswahl eines geeigneten Datensets haben wir uns auf Datensets mit einer geringen visuellen Komplexität beschränkt. 
Konkret haben wir sämtliche Fotoaufnahmen ausgeschlossen, da wir zunächst mit simplen Daten erste Erfahrungen und Ergebnisse sammelen wollten.
Des Weiteren wollten wir keine plakative Texterkennung erstellen, sondern an handgemalten Zeichnungen versuchen.

Bei unsere Suche nach einem geeigneten Datenset haben wir diverse Datenquellen gefunden: 

1) [https://archive.ics.uci.edu/ml/datasets.php](https://archive.ics.uci.edu/ml/datasets.php)<br>
2) [https://www.cs.toronto.edu/~kriz/cifar.html](https://www.cs.toronto.edu/~kriz/cifar.html)<br>
3) [https://quickdraw.withgoogle.com/#](https://quickdraw.withgoogle.com/#)<br>

Die ersten beiden Quellen schließen wir aufgrund der oben gegebenen Begründung für unser Projekt aus, weswegen die Entscheidung auf das von Google bereitgestellte Datenset fiel.

Das ausgewählte Datenset hat zudem den Vorteil, dass die Zeichnungen lediglich in schwarz weiß vorliegen, was wiederum die Komplexität der Daten minimiert, da die Farbquantizierung den Rahmen der Arbeit und unseren Erfahrungen sprengen würde.

## Datenaufbereitung
## Datenverarbeitung
Die Daten, die in diesem Projekt verwendet werden, kommen ausschließlich aus dem [Google Quickdraw Dataset](https://console.cloud.google.com/storage/browser/quickdraw_dataset/full/raw;tab=objects?prefix=&forceOnObjectsSortingFiltering=false).
Um die ersten Schritte der Verarbeitung zu vereinfachen, stellt Google [in einem Repository](https://github.com/googlecreativelab/quickdraw-dataset) einige Informationen zur Beschaffenheit der Daten bereit.
Zur Veranschaulichung soll hier beispielhaft das Datenset der `pizza.ndjson` betrachtet werden.

### Die rohen Daten
Die Datei mit den Rohdaten enthält zeilenweise Informationen über einzelne, von Menschen gezeichneten, Doodles.


Eine Zeile enthält dabei Folgende Informationen:

| Key          | Type                   | Description                                  |
| ------------ | -----------------------| -------------------------------------------- |
| key_id       | 64-bit unsigned integer| A unique identifier across all drawings.     |
| word         | string                 | Category the player was prompted to draw.    |
| recognized   | boolean                | Whether the word was recognized by the game. |
| timestamp    | datetime               | When the drawing was created.                |
| countrycode  | string                 | A two letter country code ([ISO 3166-1 alpha-2](https://en.wikipedia.org/wiki/ISO_3166-1_alpha-2)) of where the player was located. |
| drawing      | string                 | A JSON array representing the vector drawing | 

Ein Beispiel aus `pizza.ndjson`:
```json
{"word":"pizza","countrycode":"SA","timestamp":"2017-03-22 16:54:21.3692 UTC","recognized":true,"key_id":"6595531419680768","drawing":[[[203,193,177,143,104,66,34,17,12,14,30,53,75,100,125,152,177,204,228,245,255,258,259,258,251,239,228,211,199,190,180,171,163,163],[51,45,45,52,74,106,148,192,233,264,288,305,313,315,315,303,278,244,207,174,143,117,92,75,61,48,40,35,33,33,33,34,42,42],[0,27,45,58,78,94,111,127,143,161,177,194,210,228,244,261,277,294,310,328,344,361,380,397,413,429,449,463,481,496,512,529,546,566]],[[139,137,137,134,126,116,109,109,111,118,121,123,124,123],[56,61,73,97,133,179,226,266,292,312,325,334,340,338],[965,994,1011,1027,1043,1061,1081,1098,1115,1130,1148,1166,1194,1232]],[[21,23,31,45,67,95,128,161,191,220,252,273,294,306,306],[199,206,210,212,212,204,190,179,173,167,157,151,146,144,144],[1399,1443,1462,1477,1494,1510,1527,1543,1561,1580,1599,1614,1628,1642,1663]],[[216,205,188,158,125,96,75,63,58,56,55,55,55,56],[60,71,93,128,175,222,266,299,320,337,348,357,364,363],[2049,2093,2110,2126,2143,2162,2177,2195,2220,2230,2247,2261,2277,2362]],[[53,60,69,85,108,134,162,188,207,223,234,243,243],[136,143,151,163,179,195,212,227,238,250,259,268,268],[2535,2561,2577,2594,2611,2630,2644,2660,2676,2699,2715,2731,2749]]]}
```
An dieser Stelle können bereits die Informationen gefilter werden, die für unser Projekt relevant sind.
Zum einen ist das `"word": "pizza"` relevant, da es bei einer Klassifizierung die Ground Truth und somit das gewollte Ergebnis darstellt.
Weiterhin ist das Feld `"recognized": true` für uns wichtig, da wird zuerst nur mit Zeichnungen arbeiten wollen, die auch von Google korrekt identifiziert worden sind.
Ist `"recognized": false`, verwerfen wir das Datum.
Zum wichtigsten Feld des Datensatz zählt das `"drawing"`, also die Zeichnung selbst.
Eine Zeichnung ist in Form von einzelnen Strokes, also "Pinselstrichen", dargestellt.
Ein Stroke wird durch `x, y` Koordinaten und einer Zeit `t` dargestellt und hat die From
```json
"drawing": [ 
  [  // First stroke 
    [x0, x1, x2, x3, ...],
    [y0, y1, y2, y3, ...],
    [t0, t1, t2, t3, ...]
  ],
  [  // Second stroke
    [x0, x1, x2, x3, ...],
    [y0, y1, y2, y3, ...],
    [t0, t1, t2, t3, ...]
  ],
  ... // Additional strokes
]
```
Final wollen wir als Resultat unserer Datenverabreitung ein `256x256` Bild erhalten.
Dafür müssen aus den einzelnen Strokes die Pixel extrahiert werden, die von einem Stroke eingefärbt werden.
Da wir nur mit schwarz-weiß Bildern hantieren, können wir das Bild in einer `256x256` Matrix bestehend aus `0` und `1` darstellen.
Zunächst müssen aber die Strokes naher betrachtet werden.
Zunächst kann die zeitliche Dimension verworfen werden, da wir uns nicht dafür interessieren wann und wie schnell ein Stroke gezeichnet wurde.
Nun betrachten wir die `x, y` Koordinaten der Strokes.
Zunächst gehen wir das Plotting naiv an.
Betrachten wir die Strokes eines Bilds.
Von den Strokes axtrahieren wir die maximale `x`- bzw. `y`- Koordinate mit
```python
import numnpy as np
max_val = 0
for stroke in img:
  print(stroke)
  for i in range(len(stroke[0])):
    print(stroke[0][i], stroke[1][i])
    if stroke[0][i] > max_val:
      max_val = stroke[0][i]
    if stroke[1][i] > max_val:
      max_val = stroke[1][i]

print(max_val)
```
wobei `img` das Array des `"drawing"`-Felds der Rohdaten enthält.
Mit dieser Information erstellen wur nun eine `np.full((max_val, max_val), 1)` Matrix.
Für jeden Punkt, der von einem Stroke bemalt wird, setzen wir den enstrepchenden Wert der Matrix auf `0`.
```python
for stroke in img:
  for i in range(len(stroke[0])):
    mat[stroke[0][i] - 1, stroke[1][i] - 1] = 0
```
Um die Matrix graphisch darzustellen, können wir [`PyPng`](https://pypng.readthedocs.io/en/latest/ex.html#a-palette) verwenden:

```python
import png
mat = [[int(c) for c in row] for row in mat]
w = png.Writer(len(mat[0]), len(mat), greyscale=True, bitdepth=1)
f = open('image.png', 'wb')
w.write(f, mat)
f.close()
```
Das resultierende Bild sieht dann so aus:

![pizza](../img/pizza_example_bad.png)

Hier sehen bereits eines der Probleme: Die Strokes markieren nicht alle Punkte die tatsächlich eingefärbt werden müssen, sondern nur eine Teilmenge davon.
Um die Bilder also richtig anzeigen und die Daten richtig verarbeiten zu können, müssen wir also die Pixel zwischen den einzelnen Punkten füllen.
Dafür können wir die [Python Imaging Library](https://pillow.readthedocs.io/en/stable/) verwenden.
```python
from PIL import Image, ImageDraw

image = Image.new("RGB", (max, max), color=(255,255,255))
image_draw = ImageDraw.Draw(image)

for stroke in img:
  stroke_tup = [(stroke[0][i], stroke[1][i]) for i in range(len(stroke[0]))]
  image_draw.line(stroke_tup, fill=(0,0,0), width=2)

img_data = np.reshape(list(image.getdata()), (max_val, max_val, 3))


mat = np.full((max_val, max_val), 1)

for i, row in enumerate(img_data):
  for j, val in enumerate(row):
    if not np.array([v == 255 for v in val]).all():
      mat[i,j] = 0

mat = [[int(c) for c in row] for row in mat]
w = png.Writer(len(mat[0]), len(mat), greyscale=True, bitdepth=1)
f = open('better_pizza.png', 'wb')
w.write(f, mat)
f.close()
```

![pizza_better](../img/pizza_example_better.png)

Jetzt sieht das schon viel besser aus

Das letzte Problem, welches uns jetzt noch im Wege steht, ist die Auflösung der Bilder.
Für unsere Verarbeitung wollen wir, dass alle Bilder eine Auflösung von `256x256` Pixeln haben.
Dafür skalieren wir die Bilder in den meisten Fällen runter.
Im Rahmen unserer Verarbeitung setzen wir direkt bei den Strokes an und berechnen diese neu, sodass alle `x, y` Werte zwischen 0 und 255 liegen:

```python
max_x, _, max_y, _, a = get_rescale_factors(strokes)

for stroke in strokes:
  stroke[0] = [x for x in np.rint(np.interp(stroke[0], (max_x - a, max_x), (0, 255))).tolist()]
  stroke[1] = [y for y in np.rint(np.interp(stroke[1], (max_y - a, max_y), (0, 255))).tolist()]
```

`get_rescale_factors` ist dabei eine Funktion, die uns die maximale `x, y` Koordinaten zurürckgibt, die für die Skalierung benötigt werden.
Um die Bilder auf das Nötigste zu begrenzen geben wir auch `a` zurück, welches die Seitenlänge eines Quadrats ist, die den relevanten Teil der Zeichnung perfekt eingrenzt.

![pizza_done](../img/pizza_example_done.png)

Die dargestellten Schritte führen wir für alle von Google erkannten Bilder aus und speichern die neu skalierten und gefüllte Strokes in einer neuen Datei in der Form:
```json
{
    "word": "pizza", 
    "drawing": [[19, 19, 20, ...], [40, 41, 42, ...], ...]
}
```
wobei das Feld `"drawing"` auch hier wieder die Strokes in (fast) gleicher Form wie die Rohdaten darstellt:
```json
"drawing": [ 
  [  // First stroke 
    [x0, x1, x2, x3, ...],
    [y0, y1, y2, y3, ...]
  ],
  [  // Second stroke
    [x0, x1, x2, x3, ...],
    [y0, y1, y2, y3, ...]
  ],
  ... // Additional strokes
]
```
Beachte, dass die zeitliche Dimension entfallen ist.
Nach diesem letzten Schritt haben wir die Daten soweit aufgearbeitet, dass wir sie an unser CNN füttern können.

## Algorithmen & Neuronale Netze
Um einen Überblick zu bekommen, wie die Erkennung von Bildern funktioniert, haben wir Informationen zu "Image Classification" gesucht.
Dabei tauchen immer wieder die Begriffe "Deep learning" und "Neuronalenetzwerke" auf.
Damit die Klassifizierung von Bildern mit Deep Learning erfolgreich ist, wird empfohlen neuronale Netze zu verwenden, die die Eingabe filtern und durch verschiedenen Datenlayer schicken. (Vgl. [Thinkautomation](https://www.thinkautomation.com/eli5/eli5-what-is-image-classification-in-deep-learning/))

Es gibt eine Vielzahl unterschiedlicher Neuronaler Netze wie die folgende Liste zeigt (Vgl. [towards datascience](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464), [towards datascience 2](https://towardsdatascience.com/types-of-neural-network-and-what-each-one-does-explained-d9b4c0ed63a1)):

- Perceptron (P)
- Feed Forward (FF)
- Radial Basis Network (RBF)
- Deep Feed Forward (DFF)
- Recurrent Neural Networks (RNN)
- Long / Short Term Memory (LSTM)
- Gated Recurrent Unit (GRU)
- Auto Encoder (AE)
- Variational AE (VAE)
- Denoising AE (DAE)
- Sparse AE (SAE)
- Markov Chain (MC)
- Hopfield Network (HN)
- Boltzmann Machine (BM)
- Restricted BM (RBM)
- Deep Beliefe Network (DBN)
- Deep Convolutional Network (DCN)
- Deconvolutional Network (DN)
- Deep Convolutional Inverse Graphics Network (DCIGN)
- Generative Adversarial Network (GAN)
- Liquid State Machine (LSM)
- Extreme Learning Machine (ELM)
- Echo State Network (ESN)
- Deep Residual Network (DRN)
- Kohonen Network (KN)
- Support Vector Machine (SVM)
- Neural Turing Machine (NTM)
- Convolutional Neural Network (CNN)


Um die Grundlagen zu verstehen, haben wir uns die einzelnen Netzwerke angeschaut und und Netze gesucht, die unsere Anforderungen erfüllen.

Ein Perceptron nimmt einige Eingabeparameter und addiert diese zusammen. Die Daten werden durch eine Aktivierungsfunktion geschickt und ausgegeben.
Ein Perceptron ist ein einzelnes Neuron, somit bildet es die Grundlage für größere Netze.

Bei Feed Forward Netzen sind alle Knoten vernetzt, die Daten werden von einer Schicht in die nächste Schicht übergeben. Es findet keine Wiedereinspeisung der Ergebnisse hinterer Schichten in fordere Schichten statt. Zwischen der Eingabe und der Ausgabe befindet sich ein "hidden Layer". Netze dieser Art werden durch "Backpropagation" oder auch "Rückpropagierung" trainiert. Dies ist ein überwachtes Lernverfahren bei dem ein externer Lehrer zu jedem Zeitpunkt einer Eingabe die gewünschte Ausgabe kennt (Vgl. [Wikipedia](https://de.wikipedia.org/wiki/Backpropagation)).
RBFs sind FF-Netze, die statt einer logistischen Funktion eine radiale Basisfunktion verwenden (Vgl. [Wikipedia 1](https://de.wikipedia.org/wiki/Logistische_Funktion), [Wikipedia 2](https://de.wikipedia.org/wiki/Radiale_Basisfunktion)). Logistische Funktionen eignen sich vor allem bei der Beantwortung von Ja und Nein Fragen, radiale Basisfunktionen eignen sich dagegen um die Frage zu beantworten, wie weit man von seinem Ziel entfernt ist. Logistische Funktionen eignen sich daher besser für Klassifizierungen und das Treffen von Entscheidungen, als radiale Basisfunktionen.
Deep Feed Forward Netze sind FF-Netze mit mehreren hidden Layern. Das einfache Aneinanderreihen von weiteren Schichten führt jedoch zu einem exponentiellen Wachstum von Fehlern, da mit jeder Schicht eine bestimmte Fehlerrate weitergeben wird. Es gibt jedoch Möglichkeiten diese Fehlerraten zu minimieren und DFFs effektiv nutzen zu können.
Neben den genannten Neuronalen Netzen eignen sich Autoencoder für die Klassifizierung. Sie können zudem ohne Beaufsichtigung trainiert werden. FFs dagegen werden mit Beispieldaten verschiedener Kategorien trainiert, sodass FFs unter die Kategorie beaufsichtigtes Lernen fallen (Vgl. [towards datascience](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464)).

Aktuell werden Deep Convolutional Networks als die "Stars" der künstlichen Neuronalen Netze betrachtet.
Sie besitzen verschiedene Schichten. Am anfang werden die Eingabedaten soweit komprimiert und vereinfacht, dass das Neuronale Netz die Daten verarbeiten kann.
Das geschieht in der "Pooling Layer". DCNs werden typischerweise für die Erkennung verwendet.
Bilder werden beispielsweise in kleinere Bildteile aufgeteilt. Die weiteren Schichten sind auf die Erkennung bestimmter Muster optimiert.
Zum Beispiel kann die erste Schicht Farbverläufe erkennen, die zweite Linien, die dritte Formen, etc. bis hin zu ganzen Objekten (Vgl. [towards datascience](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464)).

CNNs sind eine Sonderform von mehrlagigen Perceptrons. Damit muss wie bei Feed Porward Netzen daraufgeachtet werden, dass die Fehlerraten nicht zu stark zunehmen.
Zudem sind CNNs in der Lage Matrizen als Input zu verwenden. Dies können nicht alle Neuronalen Netzwerke. Häufig benötigen sie einen Vektor als Eingabeparameter (Vgl. [JAAI](https://jaai.de/convolutional-neural-networks-cnn-aufbau-funktion-und-anwendungsgebiete-1691/)).

Convolutional Neural Networks sind gleichzusetzen mit Deep Convolutional Networks. 
CNNs bzw. DCNs werden zumeist verwendet um Bilder zu klassifizieren so kann ihnen ein Label gegeben werden, oder sie können in verschiedene Kategorien eingeteilt werden.
Sie können auch verwendet werden um Objekte wie Straßenschilder oder Gesichter zu erkennen (Vgl.[Pathmind](https://wiki.pathmind.com/convolutional-network)). In der Automobilindustrie kann die Erkennung von Straßenschilder unter anderem verwendet werden, um die Geschindigkeit automatisch anzupassen, oder autonomes Fahren zu ermöglichen.

Wie unsere Suche zeigt, eigenen sich für unseren Anwendungsfall der Bildklassifizierung vor allem Convolutional Neural Networks (CNNs) eignen. 
Daher setzen wir in unserem Projekt CNNs ein um unsere Bilddaten zu klassifizieren.

## Umsetzung
Für die praktische Umsetzung, siehe `training.ipynb`.
Für das Erkunden eines generierten Models siehe `exploration.ipynb`.
Im Weiteren geben wir einen kleinen Überblick, wie wir unser Projekt umgesetzt haben.

```python
import numpy as np
import pandas as pd
from sklearn.neural_network import MLPClassifier
from src.data_loader import DataLoader as DL

# Load an instance of our DataLoader
dl = DL()
clf_batches = MLPClassifier(hidden_layer_sizes=(128,))

# Setup for batch-wise processing
no_steps = 10000
batch_size = 10

# Store learning progress
results = []

for i in range(no_steps):
    # Load batch of data
    data, labels = dl.get_next_training_set(batch_size=batch_size)
    
    # Use partial fit to train on current batch
    clf_batches.partial_fit(data, labels, dl.classes)
    
    # Test progress on random test data 
    test_x, test_y = dl.load_random_test_data(sample_size=60, return_1d=True)
    
    # Append result to list
    r = clf_batches.score(test_x, test_y) +
    results.append(1-r)
```

## Klassifizieren eigener Bilder
Unserem Algorithmus ist es auch möglich eigens gemalte Bilder zu klassifizieren.
In dem Notebook `exploration.ipynb` zeigen wir wir, dass mit einem vorher trainiertem Model, zufällig ausgewhlte Bilder aus dem Datensatz klassifiziert werden.
Auch ist es möglich einen Datenpunkt aus dem Datensatz als Bild zu exportieren (siehe hierfür die Bilder in `img/test_set`.
Als letzte Demonstration zeigen wir, wie auch handgemalte Bilder klassifiziert werden können.
Dazu laden wir Bilder aus `img/test_hand`, welche wir selbst gemalt haben.
Auch hier zeigen wir, dass das Model meistens in der Lage ist BIlder korrekt zu klassifiziern, auch wenn ein Helikopter gerne mal eine Pizza ist.

Falls eigene Bilder klassifiziert werden sollen, können in einem geeigneten Grafikprogramm (z.B. GIMP) 256x256 Bilder gemalt werden, die dann mit der Farbtiefe `Greyscale` gespeichert werden müssen.
Diese Bilder sind im Ordner `img/test_hand` abzulegen, aus welchen sie damm im Notebook `exploration.ipynb` geladen und klassifiziert werden.