# Neuronale Netze (Neural Networks)

Als erstes müssen wir die notwendingen Pakete in Google Colab installieren. Das machen wir im ersten Codeblock.

Achtung! Der erste Codeblock dauert etwa 5-7 Minuten, um ausgeführt zu werden. Leider müssen wir den Code **jedes Mal neu** ausführen, da die Colab-Laufzeiten temporärer Natur sind (für eine permanente Lösung müssten wir Geld bezahlen). Daher führt den ersten Code-Block für die Installation der notwendigen Pakete gerne am Anfang der Übung einmal aus, und lest dann schon mal weiter!

Wir brauchen die Deep Learning Architekturen `keras` und `tensorflow`. Außerdem wichtig ist das Paket `magick`, mit welchem wir am Ende der Übung eigene Bilder in R hochladen und verarbeiten können. `magick` braucht einige Systembefehle, um installiert werden zu können.

> Systembefehle können in R mithilfe von `system()` direkt an die Konsole übergeben werden.

Keine Sorge, ihr müsst bei dem folgenden Code nicht genau verstehen, was dort passiert. Hauptsache, alle notwendigen Pakete werden installiert.

In [None]:
# update system dependencies to install magick
system('add-apt-repository -y ppa:cran/imagemagick')
system('apt-get update')
system("apt-get install libmagick++-dev")

# install magick and pacman
install.packages("magick")
install.packages("pacman")

# load additional packages
pacman::p_load(tidyverse, keras, tensorflow, magick)

## Einführung

Neuronale Netzwerke bezeichnet eine Familie von Modellen künstlicher Intelligenz. Diese sind dem menschlichen Gehirn nachempfunden, um Informationen zu verarbeiten, Entscheidungen zu treffen oder Daten zu generieren.

Wie der Name schon sagt, bestehen neuronale Netze aus sehr vielen kleinen Einheiten (nodes oder units, auch artificial neurons genannt), die über eine Vielzahl von Verbindungen miteinander verknüpft sind (angelehnt an die biologischen Neuronen im menschlichen Gehirn).

Diese Netzwerke sind dadurch in der Lage, große Datenmengen zu verarbeiten und aus ihnen zu lernen. Durch ausgeklügelte Architektur und mit nicht linearen mathematischen Funktionen können künstliche neuronale Netze auf bestimmte Aufgaben trainiert werden.

### Funktionsweise

Neuronale Netze werden analog zu anderen **Supervised Learning** Algorithmen mit Trainingsdaten gefüttert und lernen so, bestimmte Muster und Entscheidungen nachzuahmen bzw. nachzumachen. Das Netzwerk wird durch sogenannte **backpropagation** trainiert - es macht eine Vorhersage, vergleich diese mit dem tatsächlichen Ergebnis aus den Trainingsdaten, und passt dann die Parameter des Modells an, um den Fehler zu minimieren. Mathematisch gesehen entspricht dieser Vorgang einem Optimierungsproblem, und in der Praxis wird dieser Schritt extrem oft wiederholt, bis der Fehler für den gesamten Trainingsdatensatz minimiert ist.

Die **Struktur** neuronaler Netze ist vom menschlichen Gehirn inspiriert - sie bestehen aus einer Vielzahl an Einheiten, die miteinander verbunden sind. Die Einheiten sind in sogenannten **Layern** gruppiert. Die Verbindungen zwischen den einzelnen Einheiten (Neuronen) werden durch eine mathematische Funktion modelliert (**activation function**). Klassischerweise hat jede Verbindung eine **weight** und einen **bias**.

Mittlerweile gibt es eine Vielzahl an verschiedenen Layerarten und Techniken, wie beispielsweise **Convolutional Neural Networks** (CNN: Bildverarbeitung, Computer Vision), **Recurrent Neural Networks** (RNN: sequenzielle Datenverarbeitung, wie z.B. Text oder Sprache), **Long Short-Termin Memory** (LSTM: Textgenerierung), **Transformer Networks** (Übersetzungen), **Generative Adversarial Networks** (GAN: Bildgenerierung), und viele weitere.

In dieser Übung werden wir ein einfaches **Feedforward Neural Network** (FNN) trainieren.

### Geschichte

Erste Konzepte neuronaler Netze gehen zurück in die 1940er und 1950er Jahre, in denen das Verständnis des menschlichen Gehirns erste Konzepte mathematischer neuronaler Netze ermöglichte. Das erste tatsächliche neuronale Netz wurden in den späten 1950ern von Frank Rosenblatt als sogenanntes **perceptron** entwickelt, ein einfaches *two-layer learning network*. Die Entwicklung dieser Art von künstlicher Intelligenz ging durch Limitierung bzgl. Technologie und im Verständnis in den 70ern zurück (der sogenannte AI Winter). In den 80ern wurde dann das Konzept der **backpropagation** entwickelt, welches das "Lernen" der künstlichen neuronalen Netze ermöglichte. Doch erst in Kombination mit der Entwicklung immer leistungsstärkerer Computerchips und mit der zunehmenden Verfügbarkeit von Trainingsdaten setzten sich die künstlichen neuronalen Netze endgültig durch.

## Tensorflow Playground

Als Einstieg in die Technik neuronaler Netze können wir eine Lernumgebung von Tensorflow benutzen, die unter dem folgenden Link zu finden ist.

https://playground.tensorflow.org/

Hier könnt ihr an einem neuronalen Netzwerk in Echtzeit in eurem Browser herumspielen.

Probiert doch mal ein paar verschiedene Knöpfe und Einstellungen aus, und findet heraus, was passiert. Don't worry, you can't break it! Falls etwas doch nicht mehr funktionieren sollte, könnt ihr die Seite einfach aktualisieren und neu aufrufen.

Wir schauen uns das Modell dann auch nochmal gemeinsam an.

Mögliche Fragen:
* Was passiert, wenn zusätzliche Layer eingebaut werden?
* Was passiert, wenn wir zusätzliche Neuronen hinzufügen?
* Wie unterscheiden sich die Aktivierungsfunktionen der Neuronen (Activation) voneinander?
* Wie sollte ein Modell optimalerweise eingestellt sein, um schnell zu lernen?

Schafft ihr es, ein Modell zu trainieren, welches die Spirale abbilden kann?

## Deep Learning mit MNIST

Ein weitverbreitetes und einfaches Beispiel für die Anwendung von neuronalen Netzen ist die [MNIST database of handwritten digits](http://yann.lecun.com/exdb/mnist/). Diese besteht aus tausenden von handgeschriebenen Ziffern, welche fotografiert und vereinheitlicht wurden. Mit der MNIST-Datenbank ist es möglich, ein neuronales Netz auf die Erkennung von weiteren handgeschriebenen Ziffern zu trainieren. Eine praktische Anwendung hat so ein neuronales Netz beispielsweise bei der Post, wenn es darum geht, die handgeschriebenen Postleitzahlen auf Briefen zu erkennen und computerlesbar zu machen.

In dieser Übung werden wir ein einfaches neuronales Netz programmieren, welches genau diese Aufgabe (die Erkennung von handgeschriebenen Ziffern) übernehmen kann. Ein Großteil des Codes ist orientiert an:

> Chollet, F., & Allaire, J. J. (2018). *Deep learning with R*. Shelter island. Manning Publications Co. Biometrics, 76, 361-362.

Der Einfachheit halber werden wir in dieser Übung viele `base` Funktionen nutzen, weil die Implementation mit `tidyverse` teilweise etwas komplizierter wäre. Wir benutzen das Backend `tensorflow`, welches ursprünglich von Google in C++ und Python entwickelt wurde, und die Schnittstelle `keras` (in Python entwickelt). Beide Frameworks sind Open Source und gehören zu den weitverbreitesten Deep Learning Architekturen.

> Weitere verbreitete Deep Learning Architekturen in R sind beispielsweise [Torch](https://torch.mlverse.org/), [Apache MXNet](https://mxnet.apache.org/versions/1.8.0/api/r) oder [h2o](https://cran.r-project.org/web/packages/h2o/index.html).


### MNIST laden und vorbereiten

Der MNIST-Datensatz ist bereits in `keras` vorhanden. Wir können ihn komfortabel mit der Funktion `keras::dataset_mnist()` laden und in dem Objekt `mnist` speichern. Der Datensatz besteht aus 60.000 Trainings- und 10.000 Testbildern sowie deren zugehörigen Labels.

> Der Datensatz ist bereits normalisiert sowie in Trainings- und Testdaten aufgeteilt - dadurch sparen wir uns hier etwas Arbeit.

Da wir unser neuronales Netzwerk mit Supervised Learning trainieren wollen, haben wir wieder Trainings- und Testdaten. In diesem Beispiel speichern wir die Bilder der handgeschriebenen Ziffern sowie die dazugehörigen Labels in unabhängigen Objekten (also nicht wie bisher in einem einzigen Dataframe).

Außerdem speichern wir die Trainings- und Testdaten direkt in zwei Objekten. Wir müssen die Daten später noch weiterverarbeiten, so sind wir aber immer in der Lage, auf die ursprünglichen Daten zuzugreifen, und uns beispielsweise die ursprünglichen Bilder anzuschauen.

* `train_images`, `train_labels`, `test_images` und `test_labels` werden wir nachher weiterverarbeiten und unserem neuronalen Netz übergeben.
* `tri`, `trl`, `tei` und `tel` können wir uns jederzeit anschauen, wenn wir das ursprüngliche Datenformat abrufen wollen.

In [None]:
# Load and prepare mnist
mnist <- dataset_mnist()

# Trainingsdaten zuweisen
tri <- train_images <- mnist$train$x
trl <- train_labels <- mnist$train$y

# Testdaten zuweisen
tei <- test_images <- mnist$test$x
tel <- test_labels <- mnist$test$y

#### Wie sehen die MNIST-Daten aus?

Jedes Bild aus MNIST ist eine *28x28 pixel grayscale representation* von handgeschriebenen Ziffern. Dieses ist in einem zweidimensionalen Array gespeichert, und je nach Schwärze des Bildes kann jeder Pixel einen Wert zwischen 0 und 255 annehmen.

In [None]:
dim(tei)

Mithilfe von `dim()` sehen wir direkt, dass es 10.000 Testbilder gibt, welche jeweils die Dimensions 28x28 haben.

Das Datenformat, in dem die Bilder vorliegen, wird eindeutiger, wenn wir uns einen einzelnen Bild-Datensatz beispielhaft ausgeben lassen:

In [None]:
options(max.print = 784, width = 784)  # Set a high value so everything gets printed (784 = 28*28 pixel)

# this is how the image looks as a matrix representation
tei[10,,] %>% print() # print test image number 10

Na, könnt ihr schon grob erkennen, welche Ziffer angezeigt wird?

Alternativ können wir das Bild auch grafisch ausgeben. Dafür konvertieren wir das zweidimensionale Array in ein *raster object*, welches die Bitmap des Bildes repräsentiert. Jeder Pixel der Bitmap kann Werte zwischen 0 und 255 pro Channel annehmen, ein typisches Byte-Format. In diesem Fall haben wir nur einen Channel (*grayscale representation*, es gibt also nur Schwarz als Channel).

Im letzten Schritt geben wir das *raster object* mithilfe von `plot()` aus.

Welche Ziffer erkennt ihr?

In [None]:
# this is how the image looks like as a raster representation
tei[10,,] %>% as.raster(max = 255) %>% plot()

Das können wir schon besser erkennen.

* Wie können wir jetzt das zugehörige Label ausgeben?

In [None]:
# and this is it's corresponding label
tel[10]

* Lasst euch einige weitere Beispiele ausgeben. Stimmen die Labels immer mit den Bilder überein?
* Gebt die Dimensionen des Trainingsdatensatzes aus, um zu überprüfen, wieviele Datenpunkte vorhanden sind.

In [None]:
# Dimensionen der Trainingsdaten
tri %>%
   dim()

# Beispielhaft die Trainingslabels ausgeben
trl %>%
   glimpse()

#### Daten vorbereiten

Jedes Bild besteht aus einem 28 \* 28 Array. Daher sollte die Input-Größe des neuronalen Netzes aus $28*28=784$ Einheiten bestehen. Das Netz bekommt dann alle Pixel als eindimensionalen Vektor übergeben. Daher müssen wir die Trainings- und Testdaten mithilfe von `array_reshape()` umwandeln.

Außerdem wollen wir die Pixelwerte von der Skala zwischen 0 und 255 zu einer standardisierten Skala, die nur noch zwischen von 0 bis 1 variieiert herunterskalieren. Dafür können wir einfach jeden Wert durch 255 teilen.

> In diesem Beispiel (ein Feedforward Netzwerk für Klassifizierungsaufgaben) können wir der Einfachheit halber nur eine Dimension für die Datenverarbeitung nutzen. Theoretisch wäre es auch denkbar, das Netzwerk zweidimensional anzulegen - das wird dann komplizierter, würde in einem "echten" Anwendungsfall aber vermutlich gemacht werden. Komplexere Netzwerkstrukturen wie z.B. sequenzielle Netzwerke für Textgenerierung oder Sprachverarbeitung nutzen meist sogar dreidimensionale Daten.

In [None]:
# reshape the images to one dimensional vectors and scale to a range of [0, 1]
train_images <- train_images %>%
  array_reshape(c(60000, 28*28)) / 255

test_images <- test_images %>%
  array_reshape(c(10000, 28*28)) / 255

Als neue Dimension für die Bilder haben wir `c(60000, 28*28)` angegeben. Die einzelnen Bilder bleiben also separiert, jedes Bild besteht jetzt aber aus einem eindimensionalen Array von der Größe $28*28=784$. Das können wir einmal beispielhaft überprüfen:

In [None]:
# print the new one-dimensional vector
test_images[10,]

> `array_reshape()` sortiert standardmäßig das neue Objekt in einer **column-major order**. Der neue Vektor wird also Spalte nach Spalte aufgefüllt.

Außerdem können wir mithilfe von `to_categorical()` unsere Labelobjekte in einen kategorialen Datentyp verwandeln. Sonst weiß das Netzwerk nicht, das es auf Kategorien (und nicht auf kontinuierliche Werte von 0 bis 9) trainiert werden soll!

> Diesen Schritt kennen wir bereits aus den anderen ML-Algorithmen - da haben wir für Klassifizierungsprobleme den Datentyp `factor` verwendet.

In [None]:
# convert to categorical labels
train_labels <- train_labels %>% to_categorical()
test_labels <- test_labels %>% to_categorical()

### Das Neuronale Netzwerk

Die Daten sind jetzt für das neuronale Netz vorbereitet!

Als nächster Schritt folgt die Definition des Netzwerkes. Für unsere Zwecke wollen wir ein einfaches sequenzielles Netzwerk definieren.

Dieses besteht aus einem sogenannten Input-Layer von der Größe $28*28=784$, zwei sogenannten *hidden layers* und einem Output-Layer von der Größe 10. Der Output-Layer hat die Größe 10, weil wir insgesamt 10 verschiedene Ziffern vorhersagen wollen (0 bis 9). Jede Einheit im Output-Layer repräsentiert also einer der Ziffern von 0 bis 9. Das Netzwerk soll uns für jeden dieser Output-Knoten eine Wahrscheinlichkeit vorhersagen, ob es sich bei einem Input um diesen Output handelt oder nicht. Also bspw. "auf diesem Bild ist mit 93% WAhrscheinlichkeit eine 9 zu sehen".

In unserem Netzwerk ist jedes Neuron in jedem Layer ist mit allen Neuronen in den benachbarten Layern verbunden - es ist also ein "Fully-Connected Network". Als Aktivierungsfunktionen für die inneren Layer benutzen die wir ReLU (Rectifier Linear Unit). Das ist eine recht einfache mathematische Funktion, die wenig rechenpower erfordert und mit der wir trotzdem eine gewisse  Nicht-Linearität in das Netzwerk einbauen können. Unser Output-Layer nutzt die sogenannte `softmax`-Funtkion. Diese erzeugt eine Wahrscheinlichkeitsverteilung zwischen allen möglichen Werten, sodass die Summe über alle 10 Outputs hinweg 1 ergibt.

Als Maß für die Performance des Netzwerkes benutzen wir den *root mean square error* (angegeben unter `optimizer`). Optimiert wird die `accuracy` des Netzwerkes, also im Prinzip die Genauigkeit, mit der das Netzwerk die Ziffern kategorisiert. Wir kennen diese Maßzahl schon aus früheren Sitzungen. `categorical_crossentropy` nutzen wir als Loss-Function – einfach gesagt ist dies ein Maß, mit dem wir bestimmen können, wie weit unsere Vorhersage vom tatsächlichen Ergebnis entfernt ist.

> Vielleicht kommen euch einige Begriffe bereits aus der Vorlesung bekannt vor. Keine Sorge, es geht an dieser Stelle mal wieder nicht darum, alles bis ins kleinste Detail zu verstehen. Wichtiger ist, dass ihr einen Überblick über das Thema erhaltet!

In [None]:
# Define the model
network <- keras_model_sequential() %>%
    layer_dense(units = 1000, activation = "relu", input_shape = c(28*28)) %>% # input & first hidden layer with 1000 units
    layer_dense(units = 1000, activation = "relu") %>% # second hidden layer with 1000 units
    layer_dense(units = 10, activation = "softmax") # output layer with 10 units

network %>% compile(
  optimizer = "rmsprop", # adaptive learning optimizer rmsprop
  loss = "categorical_crossentropy", # for the loss function we use categorical crossentropy
  metrics = c("accuracy") # accuracy is chosen as the performance metric
  )

#### Das Netzwerk trainieren

Nachdem wir den Datensatz vorbereitet und unser Netzwerk definiert haben, können wir es trainieren.

> Achtung: das Training dauert in einer kostenlosen Colab-Laufzeit ca. 2-3 Minuten.

In [None]:
# Train the model
network %>% fit(
  train_images, # Trainingsdaten sowie
  train_labels, # die dazugehörigen Labels
  epochs = 10, # Anzahl der Trainingsdurchläufe
  batch_size = 1000 # die Anzahl der Bilder, die gleichzeitig in das Netzwerk geschickt wird
  )

### Evaluation

Abschließend wollen wir das Netzwerk wieder evaluieren. Dafür nutzen wir die Funktion `evaluate()` aus `keras` und übergeben dem Netzwerk unsere Testdaten und die dazugehörigen Labels.

In [None]:
# Evaluate the model
network %>% evaluate(
  test_images,
  test_labels
)

Als Output erhalten wir zwei verschiedene Measures:

* Hohe Genauigkeit (Accuracy) von $>98\%$: unser Netzwerk erreicht eine hohe Genauigkeit in der Klassifizierung der MNIST-Daten. In über 98% der Fälle erkennt es die richtige Ziffer. Das ist ein sehr gutes Ergebnis!
* Geringer Loss ($< 0.1$): das Measure Loss passt gut zu unserer hohen Genauigkeit. Es ist etwas schwieriger zu erklären, aber im Prinzip sagt uns dieser Wert, wie nahe die vom Modell vorhergesagte Wahrscheinlichkeitsverteilung im Output-Layer an das tatsächliche Ergebnis der Trainingsdaten herankommt.

> Achtung: wir haben in unserem spezifischen Fall eine sehr hohe Genauigkeit erreicht. Wie bei jedem ML-Problem ist es aber wichtig, sich klar zu machen, dass es immer die Gefahr des Overfittings gibt. Vielleicht hat unser Netzwerk jetzt sehr gut gelernt, die Trainingsdaten vorherzusagen – ob es in der "echten Welt" dann noch gut bestehen würde, ist dadurch nicht automatisch gegeben! In der Realität gibt es weitere Techniken, um Overfitting zu vermeiden, wie beispielsweise *cross-validation*, *regularisation*, *diverse trainings sets*, etc. Auf diese werden wir hier allerdings nicht genauer eingehen.

Wie können wir uns die Evaluation noch etwas genauer anschauen?

Wir können mithilfe von `predict()` die Testbilder vorhersagen und mit den ursprünglichen `test_labels` vergleichen. Dann können wir uns anschauen, bei welchen Bildern das Modell eine falsche Vorhersage getroffen hat.

Dafür klassifizieren wir die Testbilder einmal mithilfe von `predict()` und vergleichen diese anschließend mit den tatsächlichen Labels.

Wenn wir die Testbilder von `predict()` vorhersagen, erhalten wir pro Bild das Ergebnis des Output-Layers (also ein Ergebnis für jede der 10 Ziffern). Der jeweils größte Wert ist der, den das Netzwerk für am wahrschenilichsten hält und den man in einer automatisierten Entschiedungsfindung wählen würde. Den  Index der wahrschneilchten Ziffer finden wir mithilfe von `k_argmax(axis = -1)`.

Dieses Ergebnis wird uns als Tensor zurückgegeben, welchen wir mit `k_eval()` dann wieder in ein bekanntes R-Array ausgeben können.

> Falls das gerade zu kompliziert ist, führt den Code einfach gerne aus und freut euch daran, dass es funktioniert :-)

In [None]:
predicted_labels <- network %>% predict(test_images) %>% # make predictions
  k_argmax(axis = -1) %>% k_eval() # convert predictions to class labels

processed_test_labels <- test_labels %>%
  k_argmax(axis = -1) %>% k_eval() # convert test labels to class labels

Ansschließend können wir die vorhergesagten und die tatsächlichen Labels mithilfe von `which()` vergleichen und uns die Indizes ausgeben lassen, die nicht korrekt vorhergesagt wurden:

In [None]:
incorrect_indices <- which(predicted_labels != processed_test_labels) # Find the indices of incorrect predictions

incorrect_indices %>% print()

Beispielhaft können wir einmal für den ersten inkorrekt vorhergesagten Index das Testbild und den vorhergesagten Index ausgeben lassen.

In [None]:
# Print details about the first incorrect example
cat("First incorrect example at index:", incorrect_indices[1], "\n")
cat("Predicted label:", predicted_labels[incorrect_indices[1]], "\n")
cat("Actual label:", processed_test_labels[incorrect_indices[1]], "\n")

tei[incorrect_indices[1],,] %>% as.raster(max = 255) %>% plot() # Print the image

Wir können uns für diesen Index nochmal den Output des Netzwerkes anzeigen lassen:

In [None]:
wrong_prediction <- network %>% predict(test_images)
wrong_prediction[incorrect_indices[1],]

Wie wir sehen können, ist die Wahrscheinlichkeit für die Ziffer 2 (der 3. Index Liste) ähnlich hoch wie die Wahrscheinlichkeit für die Ziffer 4 (der 5. Index der Liste). Das Netzwerk liegt also nur knapp daneben!

* Könnt ihr nachvollziehen, dass das Netzwerk in diesem Fall Schwierigkeiten hatte, die korrekte Ziffer zu identifizieren?
* Gebt 2-3 weitere falsch vorhergesagte Bilder aus.

#### Eigene handschriftliche Bilder erkennen

Jetzt wollen wir unser neuronales Netzwerk mal mit einem Bild testen, welches wir selber hochgeladen haben.

Wenn ihr auf das Ordnersymbol in der linken Symbolleiste in Colab klickt, öffnet sich das aktuelle Arbeitsverzeichnis.

> Achtung: dieses Verzeichnis ist temporärer Natur und wird jedes Mal gelöscht, wenn ihr das Colab-Notebook in einer neuen Laufzeit öffnet (also z.B. wenn ihr euren Computer zwischendurch ausgeschaltet oder euch ausgeloggt habt).

Per Drag & Drop oder über das Hochladen-Symbol könnt ihr eine Datei hochladen.

Wenn ihr wollt, könnt ihr ein eigenes Bild mit eurem Handy machen und dieses hochladen. Das Bild sollte in einem quadratischen Format in einem gängigen Dateityp (z.B. jpg, png) vorliegen. Am besten schraubt ihr die Belichtung und den Kontrast vorher hoch, damit das Bild bereits möglichst schwarz-weiß vorliegt!

Wenn ihr kein eigenes Bild benutzen wollt oder könnt, könnt ihr auch die Dateien aus dem Ordner `dw1/data/images/` benutzen.

Als erstes wollen wir das Bild laden und einmal ausgeben lassen. Dafür können wir uns eine eigene kleine Funktion `load_image()` schreiben, die das Preprocessing übernimmt (also die vorbereitung des Bildes für die Datenanalyse). Unsere Funktion benutzt dazu verschiedene Funktionen aus dem Paket `magick`.

* Das Bild lesen mit `image_read(image_path)`
* Das Bild in *gray scale* konvertieren mit `image_convert(colorspace = 'gray')`
* Das Bild auf 28*28 Pixel skalieren mit `image_resize('28x28!')`
* Das Bild invertieren mit `image_negate()`, damit es zu den bisherigen MNIST-Bildern passt und weiß auf schwarz angezeigt wird.

Wir laden das Bild und können es anschließend wie weite oben mit `as.raster()` plotten.

In [None]:
load_image <- function(image_path) {
  image <- image_read(image_path) %>%
    image_convert(colorspace = 'gray') %>%
    image_resize('28x28!') %>%
    image_negate()

  return(image)
}

# Example usage
image_path <- "one.jpg"
loaded_image <- load_image(image_path) # load the image
loaded_image %>%
    as.raster() %>%
    plot() # plot the image as raster

Jetzt wo wir das Bild geladen haben, müssen wir es weiterverarbeiten:

Analog zu den Trainings- und Testbildern muss das Bild als eindimensionaler Vektor der Länge $28*28=784$ und einzelnen Datenpunkten zwischen 0 und 1 vorliegen, damit es von unserem neuronalen Netz verarbeitet werden kann.

Wir konvertieren also als nächstes unser Bild in ein eindimensionales Array.

In [None]:
image_to_array <- function(loaded_image) {
  image_data <- image_data(loaded_image) # Extract image data

  image_vector <- image_data[1,,] %>% # Select the first layer of the bitmap
    as.integer() / 255 # Convert from raw hexadecimal to integer and normalise to values between 0 and 1

  return(image_vector)
}

image_array <- image_to_array(loaded_image)

Wir können uns das geladene `image_array` einmal ausgeben lassen.

In [None]:
image_array %>% print()

Anschließend müssen wir das neue Bild ganauso wie unsere Trainings-/Testdaten mithilfe von `array_reshape()` an den Input-Layer des Netzwerkes anpassen.
Dann können wir es mit `predict()` vorhersagen:

In [None]:
# Reshape Array
image_array_reshaped <- array_reshape(image_array, c(1, 784))

# Predict with the previously trained model
prediction <- network %>% predict(image_array_reshaped)
prediction %>% print()

Hoppla, da bekommen wir ja wieder 10 Werte heraus! Das liegt daran, dass wir mit `predict()` wieder einfach den Output-Layer des Netzwerkes ausgegeben haben.

Wir nehmen also den Index, der am größten ist, und ziehen nochmal 1 davon ab, da die Indizes 1-10 ja den Ziffern 0-9 entsprechen:

In [None]:
# Print which output unit has the highest output (subtract 1 to scale it to the numbers 0 to 9)
print(paste("Predicted label:", which.max(prediction) - 1))

Hoffentlich hat das jetzt gerade funktioniert! Wenn ihr Dateien aus dem Ordner `dw1/data/images/` genommen habt, sollte es auf jeden Fall geklappt haben.

Wenn wir die ausgeführten Schritte jetzt noch an weiteren Beispielen testen wollen, lohnt es sich eventuell, eine neue Funktion zu schreiben, die die Schritte kombiniert:

In [None]:
# function to recognize a handwritten number
predict_number <- function(image_path) {
  loaded_image <- load_image(image_path) # load the image
  loaded_image %>% as.raster() %>% plot() # plot the image as raster

  image_array <- image_to_array(loaded_image)
  image_array_reshaped <- array_reshape(image_array, c(1, 784))

  prediction <- network %>% predict(image_array_reshaped)
  print(paste("Predicted label:", which.max(prediction) - 1))
}

* Testet die Funktion an einem weiteren eigenen Beispiel oder einem Beispielbild aus dem DW1-Ordner:

In [None]:
predict_number("seven.jpg")

## Optional: Network weights

Wenn ihr jetzt noch Zeit habt, könnt ihr einmal die Parameter des Netzwerkes ausgeben lassen. Das macht man in `keras` mithilfe von `get_weights()`:

In [None]:
parameters = network %>% get_weights()
parameters %>% glimpse()

Leider sind diese nicht direkt beschriftet, sie werden aber in der Reihenfolge der vorher definiert Layers ausgegeben! In unserem Beispiel haben wir zwei Parameter pro Layer, einmal die **Weights** und die **Biases**. An erster Stelle werden immer die Weights ausgegeben, danach die Biases. Das könnt ihr auch anhand der Dimensionen jeder einzelnen Zeilen nachvollziehen (es gibt pro Layer nur so viele Biases, wie es Einheiten gibt; und pro Layer so viele Weights, wie es Verbindungen zu den benachbarten Layers gibt).

Wir können an dieser Stelle auch die Anzahl der Parameter unseres Netzwerkes berechnen:

In [None]:
total_parameters = sum(sapply(parameters, function(x) prod(dim(x))))
cat("The number of total parameters of our network is:", total_parameters, "\n")

Das ergibt Sinn. Wir können diese Zahl auch selber nochmal nachrechnen:

Alle Einheiten pro Layer sind immer mit allen Einheiten im benachbarten Layer verbunden.

* Vom 1. Layer (784 Inputs) zum 2. Layer (1000 Einheiten) gibt es $784*1000=784.000$ Verbindungen
* Vom 2. Layer (1000 Einheiten) zum 3. Layer (1000 Einheiten) gibt es $1000*1000=1.000.000$ Verbindungen
* Vom 3. Layer (1000 Einheiten) zum 4. Layer (10 Einheiten) gibt es $1000*10=10.000$ Verbindungen
* Außerdem hat jede Einheit noch einen Bias, wodurch nochmal $1000+1000+10=2.010$ Parameter hinzukommen.

Insgesamt macht das 1.796.010 Parameter!

Auf dieser Basis lässt sich leicht nachvollziehen, dass beim Training von neuronalen Netzen eine hohe Rechenleistung benötigt wird. Das Netzwerk trainiert, in dem es diese Parameter für jedes Trainings-Bild in mehreren Epochen (in unserem Beispiel waren es 10) forwärts und rückwärts immer weiter optimiert.

## Zusammenfassung

In dieser Sitzung haben wir ein einfaches neuronales Netzwerk in `keras` und `tensorflow` zur Klassifizierung von handschriftlichen Ziffern programmiert und an eigenen Beispielen getestet! Auch wenn es an mancher Stelle etwas kompliziert wurde, habt ihr jetzt hoffentlich ein besseres Verständnis von der grundlegenden Struktur neuronaler Netzwerke.

Ein gutes Buch zum Thema Deep Learning ist beispielsweise

> Chollet, F., Kalinowski, T. & Allaire, J. J. (2022). Deep learning with R. Manning.

### Vergleich zu GPT4

Um die Komplexität aktueller neuronaler Netzwerkarchitekturen zu verstehen, können wir unser Modell noch mit dem aktuellen GPT-4 von OpenAI vergleichen.

unser MNIST-Netzwerk:
- 4 layers
- ~1.8 million parameters
- 60.000 training tokens


GPT-4 ([Quelle](https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/)):
- 120 layers
- ~1.8 trillion (10^12) parameters
- ~13 trillion tokens
- Training cost of 63 million USD

Nach Schätzungen spricht ein Mensch bis zu eine halbe Milliarde Wörter in seinem gesamten Leben [Quelle](https://sz-magazin.sueddeutsche.de/gesellschaft-leben/wir-muessen-reden-77405). GPT-4 ist auf der 26-fachen Menge trainiert. Und die Tendenz ist steigend - die GPT-Modelle wurden in den letzten Jahren fast jährlich aktualisiert, und jedes Mal stieg die Anzahl der Trainingstoken um einen Faktor von 2 bis 3 Stellen [Quelle](https://en.wikipedia.org/wiki/GPT-2).

|                 | Unser MNIST-Modell   | GPT-4        | Faktor GPT-4 vs. unser Modell |
|----------       |----------   |----------    |----------|
| Layers          | 4           | 120          | $30$ |
| Parameters      | 1.8 million | ~1.8 trillion | $10^6$ |
| Training tokens | 60.000      | ~13 trillion | $2.1 \times 10^8$ |


