# Dokumentation

1. Problemstellung<br>
2. Datenset<br>
3. Datenaufbereitung<br>
4. Algorithmen<br>
5. Erklärung: CNN<br>
6. CNN Parameter<br>
a) Überblick der Paramter<br>
b) Variation der Paramter<br>
7. Vorstellung der Ergebnisse

## Problemstellung:

Maschinelles Lernen kann in verschiedenen Bereichen eingesetzt werden. Beispiele dafür sind die Vorhersage zukünftiger Ereignisse auf Basis von vorherigen Ereignissen oder auch die Mustererkennung.
Mit der voranschreitenden Digitalisierung übernimmt Software immer mehr alltägliche Aufgaben. Ein sehr aktuelles Thema ist dabei das autonome Fahren, indem maschinelles Lernen eingesetzt wird.
Ein weiteres Beispiel für den Einsatz von Erkennungssoftware ist die Gesichtserkennung, wie es viele Apple Nutzer in ihren aktuellen Smartphone wieder finden.
Wie diese beiden Beispiele zeigen, wird der Bilderkunngen im Zusammenhang mit maschinellem Lernens eine hohe Bedeutung beigemessen.
Deshalb haben wir uns dafür entschieden den Bereich von Bild- und Mustererkennung im Rahmen der Vorlesung genauer zu beleuchten.

Um ein geeignetes Projekt für die Bilderkennung durchzuführen, mussten wir einige Probleme lösen und uns geeignetes Wissen in den Bereichen aneignen.

Die zu klärenden Fragen sind unter anderem:
- Welches Datenset eignet sich, um das Projekt erfolgreich abschließen zu können?
- Wie müssen die Daten aufbereitet werden?
- Wie "sehen" Maschinen?
- Wie werden Muster erkannt?
- Welche Algorithmen gibt es?
- Worauf muss beim Lernen geachtet werden?
- welche Parameter können variiert werden?
- Wie wirkt sich die Variation einzelner Parameter auf die Ergebnisse aus?

In dieser Dokumentation geben wir Antworten auf die Fragen, die wir uns gestellt haben und zeigen, wie unser Projekt durchgeführt wurde.

## Datenset

Für die Auswahl eines geeigneten Datensets haben wir uns auf Datensets mit einer geringen visuellen Komplexität beschränkt. 
Konkret haben wir sämtliche Fotoaufnahmen ausgeschlossen, da wir zunächst mit simplen Daten erste Erfahrungen und Ergebnisse sammelen wollten.
Des Weiteren wollten wir keine plakative Texterkennung erstellen, sondern an handgemalten Zeichnungen versuchen.

Bei unsere Suche nach einem geeigneten Datenset haben wir diverse Datenquellen gefunden: 

1) [https://archive.ics.uci.edu/ml/datasets.php](https://archive.ics.uci.edu/ml/datasets.php)<br>
2) [https://www.cs.toronto.edu/~kriz/cifar.html](https://www.cs.toronto.edu/~kriz/cifar.html)<br>
3) [https://quickdraw.withgoogle.com/#](https://quickdraw.withgoogle.com/#)<br>

Die ersten beiden Quellen schließen wir aufgrund der oben gegebenen Begründung für unser Projekt aus, weswegen die Entscheidung auf das von Google bereitgestellte Datenset fiel.

Das ausgewählte Datenset hat zudem den Vorteil, dass die Zeichnungen lediglich in schwarz weiß vorliegen, was wiederum die Komplexität der Daten minimiert, da die Farbquantizierung den Rahmen der Arbeit und unseren Erfahrungen sprengen würde.

## Datenaufbereitung 

## Algorithmen & Neuronale Netze
Um einen Überblick zu bekommen, wie die Erkennung von Bildern funktioniert, haben wir Informationen zu "Image Classification" gesucht.
Dabei tauchen immer wieder die Begriffe "Deep learning" und "Neuronalenetzwerke" auf.
Damit die Klassifizierung von Bildern mit Deep Learning erfolgreich ist, wird empfohlen neuronale Netze zu verwenden, die die Eingabe filtern und durch verschiedenen Datenlayer schicken. (Vgl. [Thinkautomation](https://www.thinkautomation.com/eli5/eli5-what-is-image-classification-in-deep-learning/))

Es gibt eine Vielzahl unterschiedlicher Neuronaler Netze wie die folgende Liste zeigt (Vgl. [towards datascience](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464), [towards datascience 2](https://towardsdatascience.com/types-of-neural-network-and-what-each-one-does-explained-d9b4c0ed63a1)):

- Perceptron (P)
- Feed Forward (FF)
- Radial Basis Network (RBF)
- Deep Feed Forward (DFF)
- Recurrent Neural Networks (RNN)
- Long / Short Term Memory (LSTM)
- Gated Recurrent Unit (GRU)
- Auto Encoder (AE)
- Variational AE (VAE)
- Denoising AE (DAE)
- Sparse AE (SAE)
- Markov Chain (MC)
- Hopfield Network (HN)
- Boltzmann Machine (BM)
- Restricted BM (RBM)
- Deep Beliefe Network (DBN)
- Deep Convolutional Network (DCN)
- Deconvolutional Network (DN)
- Deep Convolutional Inverse Graphics Network (DCIGN)
- Generative Adversarial Network (GAN)
- Liquid State Machine (LSM)
- Extreme Learning Machine (ELM)
- Echo State Network (ESN)
- Deep Residual Network (DRN)
- Kohonen Network (KN)
- Support Vector Machine (SVM)
- Neural Turing Machine (NTM)
- Convolutional Neural Network (CNN)


Um die Grundlagen zu verstehen, haben wir uns die einzelnen Netzwerke angeschaut und und Netze gesucht, die unsere Anforderungen erfüllen.

Ein Perceptron nimmt einige Eingabeparameter und addiert diese zusammen. Die Daten werden durch eine Aktivierungsfunktion geschickt und ausgegeben.
Ein Perceptron ist ein einzelnes Neuron, somit bildet es die Grundlage für größere Netze.

Bei Feed Forward Netzen sind alle Knoten vernetzt, die Daten werden von einer Schicht in die nächste Schicht übergeben. Es findet keine Wiedereinspeisung der Ergebnisse hinterer Schichten in fordere Schichten statt. Zwischen der Eingabe und der Ausgabe befindet sich ein "hidden Layer". Netze dieser Art werden durch "Backpropagation" oder auch "Rückpropagierung" trainiert. Dies ist ein überwachtes Lernverfahren bei dem ein externer Lehrer zu jedem Zeitpunkt einer Eingabe die gewünschte Ausgabe kennt (Vgl. [Wikipedia](https://de.wikipedia.org/wiki/Backpropagation)).
RBFs sind FF-Netze, die statt einer logistischen Funktion eine radiale Basisfunktion verwenden (Vgl. [Wikipedia 1](https://de.wikipedia.org/wiki/Logistische_Funktion), [Wikipedia 2](https://de.wikipedia.org/wiki/Radiale_Basisfunktion)). Logistische Funktionen eignen sich vor allem bei der Beantwortung von Ja und Nein Fragen, radiale Basisfunktionen eignen sich dagegen um die Frage zu beantworten, wie weit man von seinem Ziel entfernt ist. Logistische Funktionen eignen sich daher besser für Klassifizierungen und das Treffen von Entscheidungen, als radiale Basisfunktionen.
Deep Feed Forward Netze sind FF-Netze mit mehreren hidden Layern. Das einfache Aneinanderreihen von weiteren Schichten führt jedoch zu einem exponentiellen Wachstum von Fehlern, da mit jeder Schicht eine bestimmte Fehlerrate weitergeben wird. Es gibt jedoch Möglichkeiten diese Fehlerraten zu minimieren und DFFs effektiv nutzen zu können.
Neben den genannten Neuronalen Netzen eignen sich Autoencoder für die Klassifizierung. Sie können zudem ohne Beaufsichtigung trainiert werden. FFs dagegen werden mit Beispieldaten verschiedener Kategorien trainiert, sodass FFs unter die Kategorie beaufsichtigtes Lernen fallen (Vgl. [towards datascience](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464)).

Aktuell werden Deep Convolutional Networks als die "Stars" der künstlichen Neuronalen Netze betrachtet.
Sie besitzen verschiedene Schichten. Am anfang werden die Eingabedaten soweit komprimiert und vereinfacht, dass das Neuronale Netz die Daten verarbeiten kann.
Das geschieht in der "Pooling Layer". DCNs werden typischerweise für die Erkennung verwendet.
Bilder werden beispielsweise in kleinere Bildteile aufgeteilt. Die weiteren Schichten sind auf die Erkennung bestimmter Muster optimiert.
Zum Beispiel kann die erste Schicht Farbverläufe erkennen, die zweite Linien, die dritte Formen, etc. bis hin zu ganzen Objekten (Vgl. [towards datascience](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464)).

CNNs sind eine Sonderform von mehrlagigen Perceptrons. Damit muss wie bei Feed Porward Netzen daraufgeachtet werden, dass die Fehlerraten nicht zu stark zunehmen.
Zudem sind CNNs in der Lage Matrizen als Input zu verwenden. Dies können nicht alle Neuronalen Netzwerke. Häufig benötigen sie einen Vektor als Eingabeparameter (Vgl. [JAAI](https://jaai.de/convolutional-neural-networks-cnn-aufbau-funktion-und-anwendungsgebiete-1691/)).

Convolutional Neural Networks sind gleichzusetzen mit Deep Convolutional Networks. 
CNNs bzw. DCNs werden zumeist verwendet um Bilder zu klassifizieren so kann ihnen ein Label gegeben werden, oder sie können in verschiedene Kategorien eingeteilt werden.
Sie können auch verwendet werden um Objekte wie Straßenschilder oder Gesichter zu erkennen (Vgl.[Pathmind](https://wiki.pathmind.com/convolutional-network)). In der Automobilindustrie kann die Erkennung von Straßenschilder unter anderem verwendet werden, um die Geschindigkeit automatisch anzupassen, oder autonomes Fahren zu ermöglichen.

Wie unsere Suche zeigt, eigenen sich für unseren Anwendungsfall der Bildklassifizierung vor allem Convolutional Neural Networks (CNNs) eignen. 
Daher setzen wir in unserem Projekt CNNs ein um unsere Bilddaten zu klassifizieren.

## Erklärung: CNN

## CNN Paramter
### Überblick der Paramter
### Variation der Paramter

## Vorstellung der Ergebnisse