# Neuronale Netze

Durch neuronale Netze, die tief verschachtelt sind (= tiefe neuronale Netze = deep neural network), gab es im Bereich des maschinellen Lernens einen Durchbruch. Neuronale Netze sind eine Technik aus der Statistik, die bereits in den 1940er Jahren entwickelt wurde. Seit ca. 10 Jahren erleben diese Techniken verbunden mit Fortschritten in der Computertechnologie eine Renaissance.

Neuronale Netze bzw. Deep Learning kommt vor allem da zum Einsatz, wo es kaum systematisches Wissen gibt. Damit neuronale Netze erfolgreich trainiert werden können, brauchen sie sehr große Datenmengen. Nachdem in den letzten 15 Jahren mit dem Aufkommen von Smartphones die Daten im Bereich Videos und Fotos massiv zugenommen haben, lohnt sich der Einsatz der neuronalen Netze fúr Spracherkennung, Gesichtserkennung oder Texterkennung besonders.

Beispielsweise hat ein junges deutsches Start-Up-Unternehmen 2017 aus einem neuronalen Netz zum Übersetzen Englisch <-> Deutsch eine Webanwendung entwickelt und ins Internet gestellt, die meinen Alltag massiv beeinflusst: DeepL.com, siehe
> https://www.deepl.com/en/blog/how-does-deepl-work

Mittlerweile beherrscht DeepL 23 Sprachen, siehe auch den Wikipedia-Artikel zu DeepL:
> https://de.wikipedia.org/wiki/DeepL




## Ein einzelnes künstliches Neuron - das Perzeptron 

1943 haben die Forscher Warren McCulloch und Walter Pitts das erste Modell einer vereinfachten Hirnzelle präsentiert. Zu Ehren der beiden Forscher heißt dieses Modell MPC-Neuron. Darauf aufbauend publizierte Frank Rosenblatt 1957 seine Idee einer Lernregel für das künstliche Neuron. Das sogenannte Perzeptron bildet bis heute die Grundlage der künstlichen neuronalen Netze. Inspiriert wurden die Forscher dabei durch den Aufbau des Gehirns und der Verknüpfung der Nervenzellen.

![Neuron](pics/neuron_wikipedia.png "Neuron")

Schematische Darstellung einer Nervenzelle - CC BY-SA 3.0 
(Quelle: [Wikipedia](https://de.wikipedia.org/wiki/Künstliches_Neuron#/media/Datei:Neuron_(deutsch)-1.svg))

Elektrische und chemische Eingabesignale kommen bei den Dendriten an und laufen im Zellkörper zusammen. Sobald ein bestimmter Schwellwert überschritten wird, wird ein Ausgabesignal erzeugt und über das Axon weitergeleitet. Mehr Details zu Nervenzellen finden Sie bei Wikipedia: https://de.wikipedia.org/wiki/Nervenzelle.

### Definition eines künstlichen Neurons

Das einfachste künstliche Neuron besteht aus zwei Inputs und einem Output. Dabei sind für die beiden Inputs nur zwei Zustände zugelassen und auch der Output besteht nur aus zwei verschiedenen Zuständen. In der Sprache des maschinellen Lernens liegt also eine binäre Klassifikationsaufgabe innerhalb des Supervised Learnings vor.

Beispiel:
* Input 1: Es regnet oder es regnet nicht.
* Input 2: Der Rasensprenger ist an oder nicht.
* Output: Der Rasen wird nass oder nicht.

Den Zusammenhang zwischen Regen, Rasensprenger und nassem Rasen können wir in einer Tabelle abbilden:

Regnet es? | Ist Sprenger an? | Wird Rasen nass?
-----------|------------------|-----------------
nein       | nein             | nein
ja         | nein             | ja
nein       | ja               | ja
ja         | ja               | ja



**Mini-Übung**

Führen Sie zwei Variablen x1 und x2 ein und lassen Sie je nach Wert der Variablen ausgeben, ob der Rasen nass wird oder nicht.

In [None]:
# Hier Ihr Code


Für das maschinelle Lernen müssen die Daten als Zahlen aufbereitet werde, damit die maschinellen Lernverfahren in der Lage sind, Muster in den Daten zu erlernen. "Anstatt Regnet es? Nein." oder Variablen mit True/False setzen wir jetzt Zahlen ein. Die Inputklassen kürzen wir mit X1 für Regen und X2 für Sprenger ab. Die 1 steht für ja, die 0 für nein. Den Output bezeichnen wir mit y.

X1 | X2 | y
---|----|---
0  | 0  | 0
1  | 0  | 1
0  | 1  | 1
1  | 1  | 1



Als nächstes ersetzen wir das logische ODER durch ein mathematisches Konstrukt:
Wenn die Ungleichung

$$\omega_1 X_1 + \omega_2 X_2 \geq \theta$$

erfüllt ist, dann ist $y = 1$, der Rasen wird nass. Und ansonsten ist $y = 0$, der Rasen wird nicht nass. Allerdings müssen wir noch die Gewichte $\omega_1$ und $\omega_2$ (in Englisch: weights) geschickt wählten. Die Zahl $\theta$ ist der griechische Buchstabe Theta und steht als Abkürzung für den sogenannten Schwellen wert (in Englisch: threshold).

Beispielsweise $\omega_1 = 0.3$, $\omega_2=0.3$ und $\theta = 0.2$ passen:
* $0.3\cdot 0 + 0.3\cdot 0 = 0.0 \geq 0.2$ nicht erfüllt
* $0.3\cdot 1 + 0.3\cdot 0 = 0.3 \geq 0.2$ erfüllt
* $0.3\cdot 0 + 0.3\cdot 1 = 0.3 \geq 0.2$ erfüllt
* $0.3\cdot 1 + 0.3\cdot 1 = 0.6 \geq 0.2$ erfüllt




Noch sind wir aber nicht fertig, denn auch die Frage "Ist die Ungleichung erfüllt oder nicht" muss noch in eine mathematische Funktion umgeschrieben werden. Dazu subtrahieren wir auf beiden Seiten der Ungleichung den Schwellenwert $\theta$:

$$-\theta + \omega_1 X_1 + \omega_2 X_2 \geq 0.$$

Damit haben wir jetzt nicht mehr einen Verglich mit dem Schwellenwert, sondern müssen nur noch entscheiden, ob der Ausdruck $-\theta + \omega_1 X_1 + \omega_2 X_2$ negativ oder positiv ist. Bei negativen Werten, soll $y=0$ sein und bei positiven Werten (inklusive der Null) soll $y = 1$ sein. Dafür gibt es in der Mathematik eine passende Funktion, die sogenannte Heaviside-Funktion (manchmal auch Theta-, Stufen- oder Treppenfunktion genannt), siehe https://de.wikipedia.org/wiki/Heaviside-Funktion.

![Heavisidefunktion](pics/heaviside_wikipedia.png "Neuron")

Schaubild der Heaviside-Funktion von Lennart Kudling (Quelle: [Wikipedia](https://de.wikipedia.org/wiki/Heaviside-Funktion#/media/Datei:Heaviside.svg))

Definiert ist die Heaviside-Funktion folgendermaßen:

$$\Phi(x) = \begin{cases}0:&x<0\\1:&x\geq 0\end{cases}$$
    
Jetzt haben wir alles zusammen. Für gegebene Inputs $X_1$ und $X_2$ kann über

$$\Phi(-\theta + \omega_1X_1 + \omega_2 X_2 )$$

direkt ausgerechnet und damit klassifiziert werden, ob der Rasen nass wird oder nicht. Das Perzeptron besteht also aus einer gewichteten Summe und der Heaviside-Funktion. Das lässt sich auch für mehr Inputs verallgemeinern. Dann benutzten wir als gewichtete Summe $-\theta + \omega_1 X_1 + \omega_2 X_2 + \omega_3 X_3 + \ldots + \omega_N X_N = -\theta + \sum_{i=1}^{N} \omega_i X_i$.

Das Prinzip der gewichteten Summe ist bei allen neuronalen Netzen gleich, jedoch wird meist nicht die Heaviside-Funktion verwendet. Daher nennen wir die Funktion, die nach der gewichteten Summe angewandt wird, Aktivierungsfunktion. Also...

**Ein Perzeptron ist eine gewichtete Summe von Inputs, auf die eine Aktivierungsfunktion angewandt wird. Der negative Schwellwert wird als Bias bezeichnet.**

Symbolisch kann man ein Perzeptron für zwei Inputs so darstellen:

![Perzeptron](pics/perzeptron.png "Perzeptron")


### Wie lernt ein Perzeptron?

Wir lassen einen Zufallszahlengenerator zufällig zwei Zahlen für $\omega_1$ und $\omega_2$ erzeugen. Betrachten wir eine Trainingsmenge mit Inputs $(X_{i,1}, X_{i,2})$ und zugehörigem $y_{i}$, so können wir sukzessive die X-Werte einsetzen und schauen, ob das zugehörige y korrekt prognostiziert wird. Wenn wir 0 herausbekommen, obwohl wir hätten 1 erwartet, so sind unsere Gewichte zu klein. Wir erhöhen die Gewichte ein wenig. Stimmt die Prognose, so lassen wir die Gewichte unverändert. Ist jedoch der prognostizierte Wert 1 anstatt 0, so verkleinern wir die Gewichte.   

Klingt erst einmal nach einer guten Strategie, aber um wieviel verkleinern oder vergrößern wir die Gewichte? Eine Idee ist, die Differenz von prognostiziertem Output und richtigem Output zu nehmen, und um auf der sicheren Seite zu sein, davon beispielsweise nur 10 % oder vielleicht nur 5 %. Der Prozentsatz wird dann mit dem Buchstaben $\alpha$ bezeichnet und **Lernrate** genannt.

### Perzeptron mit Scikit-Learn

Das Perzeptron in Scikit-Learn befindet sich im Untermodul ``sklearn.linear_model``, die Dokumentation finden Sie hier: 

> https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

Das Perzeptron ist nur für recht simple Klassifizierungsaufgaben geeignet. Wofür es aber gut geeignet ist, ist der Ziffern-Datensatz aus dem Untermodul ``sklearn.datasets``: 

> https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html

Wir laden den Datsatz und schauen erst mal hinein. Wie bei allen in Scikit-Lern hinterlegten Datensätzen erhält man über ``.data`` die Input-Daten und ``.target`` den Output.

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()

X = digits.data
y = digits.target

print('Input X:\n', X)
print('Output y:\n', y)

Insgesamt sind 1797 Daten (= Anzahl Zeilen) in ``digits`` enthalten. Die Bedeutung dessen, was im Input X enthalten ist, wird besser klar, wenn wir die 64 Spalten dazugehörigen 8x8-Pixel-Bilder darstellen.

In [None]:
import matplotlib.pyplot as plt

i = 288
print(X[i,:])
print(y[i])
bild = digits.images[i]

fig, ax = plt.subplots()
ax.matshow(bild);

In jeder Zeile von X steckt also ein Vektor mit 64 Zahlen, die die Grauwerte eines 8x8-Bildes repräsentieren. Im entsprechenden y ist die Ziffer enthalten, die dieses Bild darstellen soll. Schauen wir mal, ob das Perzeptron aus den Grauwerten die korrekte Ziffer erlernen kann. 

In [None]:
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split

# Datenimport
digits = load_digits()
X = digits.data
y = digits.target

# Auswahl des Perzeptron-Modells
model = Perceptron()

# Split in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X,y)

# Training
model.fit(X_train,y_train);

# Validierung
score_train = model.score(X_train, y_train)
score_test = model.score(X_test, y_test)
print('Score für Trainingsdaten: {:.2f}'.format(score_train))
print('Score für Testdaten: {:.2f}'.format(score_test))

Funktioniert gar nicht mal schlecht :-)

## Neuronale Netze

Nachdem anfangs die Perzeptren großen Anklang in der Forschungsgemeinde gefunden haben, wurde es ab den 1970ern still um sie. Man nennt diese Phase auch den KI-Winter (siehe https://de.wikipedia.org/wiki/KI-Winter). Einen regelrechten Durchbruch und Hype erleben Sie aber seit ca. 2010, weil

1. neue Methoden entwickelt wurden, um sie zu trainieren --> Deep Learning
2. größere Mengen von Trainingsdaten zur Verfügung stehen --> Google läßt grüßen!
3. die Rechenpower gestiegen ist --> unglaublich, was in meinem Smartphone steckt...

Neuronale Netze sind Mulit-Layer-Perzeptren (MLP), also mehrschichtige Perzeptren, wie in der folgenden Darstellung abgebildt. Damit es nicht so unübersichtlich wird, sind Kreise mit dem Symbol $\Sigma | |Phi$ so zu verstehen, dass zuerst die gewichtete Summe gebildet wird und dann die Aktivierungsfunktion angewendet wird.

![MLP](pics/mlp.png "MLP")



Diese MLP können beliebig zusammengestzt werden. In dem oben gezeigten Beispiel haben hat das neuronale Netz eine **Eingabeschicht**, eine sogenannte **verdeckte Schicht**, die Zwischenergebnisse speichert, und eine **Ausgabeschicht**. Fügt man mehere verdeckte Zwischenschichten hinzu, spricht man von tiefen neuronalen Netzen, also von einem **Deep Neural Network**. Das Lernen der Gewichte geht mit steigender Anzahl von Schichten und vor allem auch mit einer größeren Anzahl von Neuronen pro Schicht nicht mehr einfach.   

Schauen wir uns an, wie das Training eines tiefen neuronalen Netzes in Scikit-Learn funktioniert. Dazu benutzen wir aus dem Untermodul ``sklearn.neural_network`` den ``MLPClassifier``, also ein Multi-Layer-Perzeptron für Klassifikationsaufgaben:

> https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier

Wir benutzen künstliche Daten, um die Anwendung des MLPClassifiers zu demonstrieren.

In [None]:
from sklearn.datasets import make_circles

# erzeuge künstliche Daten
X,y = make_circles(noise=0.2, factor=0.5, random_state=1)

fig, ax = plt.subplots()
ax.scatter(X[:,0], X[:,1], s=20, c=y, cmap='autumn');

In [None]:
from sklearn.neural_network import MLPClassifier

# Auswahl des Models
# solver = 'lbfgs' für kleine Datenmengen, solver = 'adam' für große Datenmengen, eher ab 10000
# alpha = Lernrate, siehe Erklärungen oben
# hidden_layer: Anzahl der Neuronen pro verdeckte Schicht und Anzahl der verdeckten Schichten
model = MLPClassifier(solver='lbfgs', alpha=0.1, hidden_layer_sizes=[5, 5])

# Split Trainings- / Testdaten
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=0)

# Training
model.fit(X_train, y_train)

# Validierung 
score_train = model.score(X_train, y_train)
score_test = model.score(X_test, y_test)
print('Score für Trainingsdaten: {:.2f}'.format(score_train))
print('Score für Testdaten: {:.2f}'.format(score_test))

Wir zeichen die Entscheidungsgrenzen ein, um zu sehen, wo das neuronale Netzt die Trennlinien zieht.

In [None]:
gridX, gridY = np.meshgrid(np.linspace(-1.5, 1.5), np.linspace(-1.5, 1.5))
gridZ = model.predict_proba(np.column_stack([gridX.ravel(), gridY.ravel()]))[:, 1]
Z = gridZ.reshape(gridX.shape)

fig, ax = plt.subplots()
ax.scatter(X[:,0], X[:,1], s=20, c=y, cmap='autumn');
ax.contourf(gridX, gridY, Z, cmap='autumn', alpha=0.1);



Im Folgenden wollen wir uns ansehen, welche Bedeutung die optionalen Parameter haben. Dazu zunächst noch einmal der komplette Code, aber ohne einen Split in Trainings- und Testdaten:

In [None]:
# setze verschiedene Werte für alpha und Architektur der verdeckten Schicht
my_alpha = 0.1
my_hidden_layers = [10,10]

# erzeuge künstliche Daten
X,y = make_circles(noise=0.2, factor=0.5, random_state=1)

# Auswahl des Model
model = MLPClassifier(solver='lbfgs', alpha=my_alpha, hidden_layer_sizes=my_hidden_layers)

# Training und Validierung
model.fit(X, y)
print('Score: {:.2f}'.format(model.score(X, y)))

# Visualisierung
gridX, gridY = np.meshgrid(np.linspace(-1.5, 1.5), np.linspace(-1.5, 1.5))
gridZ = model.predict_proba(np.column_stack([gridX.ravel(), gridY.ravel()]))[:, 1]
Z = gridZ.reshape(gridX.shape)

fig, ax = plt.subplots()
ax.scatter(X[:,0], X[:,1], s=20, c=y, cmap='autumn');
ax.contourf(gridX, gridY, Z, cmap='autumn', alpha=0.1);

Wie Sie sehen, ist es schwieirg, ein gutes Verhältnis von Lernrate $\alpha$ und der Architektur des neuronalen Netzes (= Anzahl der Neuronen pro verdeckter Schicht und Anzahl verdeckter Schichten) zu finden. Auch fällt das Ergebnis jedesmal ein wenig anders aus, weil stochastische Verfahren im Hintergrund für das Trainieren der Gewichte benutzt werden. Aus diesem Grund sollten neuronale Netze nur eingesetzt werden, wenn sehr große Datenmengen vorliegen und dann noch ist das Finden der besten Architektur eine große Herausforderung.