## Neuronale Netze

Problemstellung Klassifikation: [Cat vs. Dog](https://www.kaggle.com/c/dogs-vs-cats/overview). Es stehen 25000 Beispielbilder zur Verfügung. 

Problemstellung Klassifikation: Ein Punkt soll in eine von zwei Klassen eingeteilt werden. Es stehen Beispielpunkte zur Verfügung.

[ConvNetJS](https://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d.html) - 
[Tensorflow Playground](https://playground.tensorflow.org/)

### Perceptron

Ein Perceptron erhält Inputwerte x1, x2 und berechnet daraus eine gewichtete Summe. Wenn diese Summe
größer als ein Schwellwert ist, bedeutet es, dass das Perceptron aktiviert wird und "feuert", d.h. eine 1 ausgibt. 

<img src="./img/nn_01.png" width="800"/>   

In der Gleichung bringen wir den Schwellwert auf die andere Seite. Den negativen Schwellwert nennen wir den **Bias b**. Je größer der Bias, desto einfacher ist es, das Perceptron zu aktivieren. Der Ausgabewert des Perceptrons hängt von den Inputwerten x1, x2 und den drei Parametern w1, w2 und b ab.

<img src="./img/nna_01.png" width="800"/>  

In [1]:
X = [(3,2),(3,-2)]
w1, w2, b = 1, -2, -4   # Parameter des Perceptrons

for x1, x2 in X:
    z = w1 * x1 + w2 * x2 + b
    a = 1 if z > 0 else 0
    print(a)

0
1


Wir möchten ein Perceptron, das sich bei 0-1 Inputs wie ein logisches **OR** verhält. 

<img src="./img/nn_02.png" width="300"/>   

In [2]:
X = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
w1, w2, b = 1, 1, -0.5   # Parameter des Perceptrons

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1 if z > 0 else 0
    print(x1,x2,' ',a,y)

0 0   0 0
0 1   1 1
1 0   1 1
1 1   1 1


In [3]:
X = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
for (x1,x2),y in zip(X,Y):
    print(x1,x2,y)

0 0 0
0 1 1
1 0 1
1 1 1


#### Übung

Bestimme die Parameter eines Perceptrons, das für die Punkte (2/4) und (6/3) feuert, aber nicht für (6/4). Überprüfe das Ergebnis in Python. Nutze dazu die Perceptron-Klasse von oben.


Wir suchen einen Algorithmus, der geeignete Werte für die Parameter des Perceptrons findet. Wir starten mit zufälligen Anfangswerten und messen den Fehler.

In [4]:
X = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
w1, w2, b = -1, 1, -1.5   # zufällige Anfangsparameter

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1 if z > 0 else 0
    print(x1,x2,' ',a,y)

0 0   0 0
0 1   0 1
1 0   0 1
1 1   0 1


Mit diesen Parametern machen wir viele Fehler. Wenn wir ein bisschen an den Parametern drehen, können wir leider nicht sehen, ob wir uns in die richtige Richtung bewegen. 

In [5]:
w1, w2, b = -1.1, 1, -1.5   # w1 kleiner gemacht

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1 if z > 0 else 0
    print(x1,x2,' ',a,y)


0 0   0 0
0 1   0 1
1 0   0 1
1 1   0 1


In [6]:
w1, w2, b = -0.9, 1, -1.5   # w1 größer gemacht

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1 if z > 0 else 0
    print(x1,x2,' ',a,y)

0 0   0 0
0 1   0 1
1 0   0 1
1 1   0 1


### Neuron

Das Neuron nutzt eine Aktivierungfunktion, die es erlaubt, bei Parameteränderungen zu erkennen, ob der Fehler größer oder kleiner wird.  Zunächst nutzen wir die **sigmoid**-Funktion als Aktivierungsfunktion.

<img src="./img/nna_02.png" width="700"/>  

<img src="./img/nn_03.png" width="500"/>  

In [7]:
import math
w1, w2, b = -1, 1, -1.5   # zufällige Anfangswerte

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))

    print("{} {} {: 1.4f}  {}".format(x1,x2,a,y))

0 0  0.1824  0
0 1  0.3775  1
1 0  0.0759  1
1 1  0.1824  1


In [8]:
w1, w2, b = -1.1, 1, -1.5   # w1 kleiner gemacht

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))

    print("{} {} {: 1.4f}  {}".format(x1,x2,a,y))

0 0  0.1824  0
0 1  0.3775  1
1 0  0.0691  1
1 1  0.1680  1


In [9]:
w1, w2, b = -0.9, 1, -1.5   # w1 größer gemacht

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))

    print("{} {} {: 1.4f}  {}".format(x1,x2,a,y))

0 0  0.1824  0
0 1  0.3775  1
1 0  0.0832  1
1 1  0.1978  1


Wir können erkennen, die Vergrößerung von w1 das Ergebnis ein klein wenig verbessert.

### Berechnung des Fehlers (loss)

Wir messen den Fehler, den das Neuron macht, als den halben quadratischen Abstand zum
gewünschten Ergebnis.

<img src="./img/nna_03.png" width="900"/>  

In [10]:
w1, w2, b = -1, 1, -1.5   # w1 größer gemacht

for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))
    loss = 0.5 * (y - a)**2

    print("{} {} {: 1.4f}  {} loss: {: 1.4f} ".format(x1,x2,a,y,loss))

0 0  0.1824  0 loss:  0.0166 
0 1  0.3775  1 loss:  0.1937 
1 0  0.0759  1 loss:  0.4270 
1 1  0.1824  1 loss:  0.3342 


Als Gesamtfehler berechnen wir den Mittelwert der einzelnen Fehler

In [11]:
w1, w2, b = -1, 1, -1.5     # zufällige Anfangswerte
loss = 0
for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))
    loss += 0.5 * (y - a)**2
    print("{} {} {: 1.4f}  {} ".format(x1,x2,a,y))
    
print("loss: {: 1.4f}".format(loss/4))

0 0  0.1824  0 
0 1  0.3775  1 
1 0  0.0759  1 
1 1  0.1824  1 
loss:  0.2429


In [12]:
w1, w2, b = -0.9, 1, -1.5   # w1 größer gemacht
loss = 0
for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))
    loss += 0.5 * (y - a)**2
    print("{} {} {: 1.4f}  {} ".format(x1,x2,a,y))
    
print("loss: {: 1.4f}".format(loss/4))

0 0  0.1824  0 
0 1  0.3775  1 
1 0  0.0832  1 
1 1  0.1978  1 
loss:  0.2381


Der gesuchte Algorithmus wird versuchen, die Anfangsparameter so zu verändern, dass der *loss* möglichst klein wird.

### Lokale Ableitungen

Wir möchte wissen, wie sich bei Änderung des Parameters der *loss* ändert. Diese Frage wird durch die Ableitung beantwortet. Wenn wir mehrere Funktionen hintereinanderschalten, benötigen wir die Kettenregel. Bei einfachen Verkettungen lässt sich die Ableitungsfunktion berechnen, bei komplizierteren Verkettungen können wir die Ableitung an den Stellen, die uns interessieren, schrittweise berechnen, indem wir die lokalen Ableitungen der Teilfunktionen berechnen.

<img src="./img/nn-kettenregel.png" width="900"/>   

Wenn man w and der Stelle 1 ein klein wenig schubst, ändert sich a um das 36-fache.

In [13]:
def f(w):
    z = 2*w + 1
    a = 3*z**2
    return a

w = 1
a = f(1)

w1 = 1.001  # Änderung von a um 0.001
a1 = f(w1)
print(a, a1)

27 27.036012


### Der Computationgraph des Neurons mit den lokalen Ableitungen

Wir berechnen die lokalen Ableitungen für die Teilfunktionen in dem Computationgraph des Neurons.

Übung: Zeige $\sigma^{\prime}(z) = \sigma(z) \cdot (1-\sigma(z))$


<img src="./img/nn-lokaleAbleitungen.png" width="900"/>   

Der Wert der lokalen Ableitung bei w1 für den Input (1/0). 

In [14]:
w1, w2, b = -1, 1, -1.5    
x1, x2, y = 1, 0, 1

z = w1 * x1 + w2 * x2 + b
a = 1/(1+math.exp(-z))

dw1 = (a - y) * a * (1 - a) * x1
print("{:1.4f}".format(dw1))


-0.0648


Die Ableitung gibt uns einen Hinweis darauf, in welche Richtung wir uns bewegen sollen, um den Fehler zu minimieren. Sie gibt keine Hinweis darauf, wie groß dieser Schritt sein soll. Das legen wir mit der *learning rate* fest.

### Gradient

Der Fehler ist abhängig von den 3 Parametern w1, w2 und b.

Um herauszufinden, in welchem Verhältnis wir die Parameter ändern müssen, damit der Fehler geringer wird, nutzen wir den **Gradienten**.

Der Gradient gibt die Richtung des steilsten Anstiegs an. Um den *loss* zu minimieren, gehen wir mit unseren Parametern in Richtung des negativen Gradienten (**gradient descent**).

<img src="./img/gradient.png" width="920"/>   



Beispiel: 


In [15]:
w1, w2, b = -1, 1, -1.5    
x1, x2, y = 1, 0, 1

z = w1 * x1 + w2 * x2 + b
a = 1/(1+math.exp(-z))

dw1 = (a - y) * a * (1 - a) * x1
dw2 = (a - y) * a * (1 - a) * x2
db = (a - y) * a * (1 - a)
print("Gradient: {:1.4f} {:1.4f} {:1.4f}".format(dw1, dw2, db))

Gradient: -0.0648 -0.0000 -0.0648


Die Summe der Änderungswünsche aller Eingaben ergeben die Richtung für die Änderung der Parameter. Die Größe des Schritts legen wir
mit der learningrate fest.

In [16]:
w1, w2, b = -1, 1, -1.5     # zufällige Anfangswerte
dw1 = dw2 = db = 0
for (x1, x2), y in zip(X,Y):
    z = w1 * x1 + w2 * x2 + b
    a = 1/(1+math.exp(-z))
    
    dw1 += (a - y) * a * (1 - a) * x1
    dw2 += (a - y) * a * (1 - a) * x2
    db  += (a - y) * a * (1 - a)
    
print("Änderungen der Parameter: {: 1.4f} {: 1.4f} {: 1.4f}".format(dw1, dw2, db))

Änderungen der Parameter: -0.1867 -0.2682 -0.3058


#### Forward / Backward 

Wir können uns die Berechnung als eine Vorwärts-Rückwärts-Bewegung vorstellen. In der Vorwärtsbewegung berechnen wir z und a und die lokalen Gradienten. Den letzten Gradienten (a - y) nennen wir *upstream gradient*. In der Rückwärtsbewegung multiplizieren wir den *upstream gradienten* mit den lokalen Gradienten auf dem Weg zu den Parametern. Dann werden die Parameter upgedated und das Spiel beginnt von vorne. 
Einen Durchgang nennt man *Epoche*.

In [17]:
X = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
lr = 0.1
w1, w2, b = -1, 1, -1.5
for i in range(1000):
    dw1, dw2, db, loss = 0, 0, 0, 0   # hier sammeln wir die Änderungswünsche und den loss
    for (x1,x2),y in zip(X,Y):
        z = x1*w1 + x2*w2 + b          
        a = 1/(1+math.exp(-z))
        loss+= 0.5*(y-a)**2
        db  += a*(1-a) * (a-y)        
        dw1 += a*(1-a) * (a-y) * x1
        dw2 += a*(1-a) * (a-y) * x2
    w1 -= lr*dw1                      # update der Parameter
    w2 -= lr*dw2
    b  -= lr*db
    
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("w1, w2, b:",w1, w2, b))
print("{:14s} {: 1.4f} ".format("loss:",loss/4))
print()

for (x1,x2),y in zip(X,Y):
    z = x1*w1 + x2*w2 + b          
    a = 1/(1+math.exp(-z))
    print("{} {} {: 1.4f}  {} ".format(x1,x2,a,y))
    

w1, w2, b:      3.3934  3.4657 -1.4102
loss:           0.0083 

0 0  0.1962  0 
0 1  0.8865  1 
1 0  0.8790  1 
1 1  0.9957  1 


### Übung

Gegeben ist das Neuron mit den Parametern $w1=-1, w2=2, b=-4$. Berechne für $x = (3,2)$, einer learning-rage $lr=0.1$ und einem gewünschten Output $y = 1$ die Parameter des Neurons nach 2 Durchgängen (= nach dem 2. Update der Parameter).

In [18]:
import math
x1, x2, y, lr = 3, 2, 1, 0.1
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f} {: 1.4f}".format("x1, x2, y, lr:",x1, x2, y, lr))
print("-------------------------")

w1, w2, b = -1, 2, -4
z = x1*w1 + x2*w2 + b
a = 1/(1+math.exp(-z))
db = a*(1-a) * (a-y)
dw1 = db * x1
dw2 = db * x2
w1 -= lr*dw1
w2 -= lr*dw2
b  -= lr*db
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("w1, w2, b:",w1, w2, b))
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("z, a, loss:",z, a, 0.5*(y-a)**2))
print("{:14s} {: 1.4f} {: 1.4f}".format("a*(1-a), a-y:",a*(1-a), a-y))
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("dw1, dw2, db:",dw1, dw2, db))
print("-------------------------")

z = x1*w1 + x2*w2 + b
a = 1/(1+math.exp(-z))
db = a*(1-a) * (a-y)
dw1 = db * x1
dw2 = db * x2
w1 -= lr*dw1
w2 -= lr*dw2
b  -= lr*db
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("w1, w2, b:",w1, w2, b))
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("z, a, loss:",z, a, 0.5*(y-a)**2))
print("{:14s} {: 1.4f} {: 1.4f}".format("a*(1-a), a-y:",a*(1-a), a-y))
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("dw1, dw2, db:",dw1, dw2, db))
print("-------------------------")
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("w1, w2, b:",w1, w2, b))



x1, x2, y, lr:  3.0000  2.0000  1.0000  0.1000
-------------------------
w1, w2, b:     -0.9871  2.0086 -3.9957
z, a, loss:    -3.0000  0.0474  0.4537
a*(1-a), a-y:   0.0452 -0.9526
dw1, dw2, db:  -0.1291 -0.0861 -0.0430
-------------------------
w1, w2, b:     -0.9735  2.0177 -3.9912
z, a, loss:    -2.9398  0.0502  0.4510
a*(1-a), a-y:   0.0477 -0.9498
dw1, dw2, db:  -0.1359 -0.0906 -0.0453
-------------------------
w1, w2, b:     -0.9735  2.0177 -3.9912


### Die XOR-Funktion

Wir suchen nach demselben Verfahren ein Neuron für die XOR-Funktion

In [19]:
X = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,0]
lr = 0.1
w1, w2, b = -1, 1, -1.5
for i in range(10000):
    dw1, dw2, db, loss = 0, 0, 0, 0   # hier sammeln wir die Änderungswünsche und den loss
    for (x1,x2),y in zip(X,Y):
        z = x1*w1 + x2*w2 + b
        a = 1/(1+math.exp(-z))
        loss+= 0.5*(y-a)**2
        db  += a*(1-a) * (a-y)
        dw1 += a*(1-a) * (a-y) * x1
        dw2 += a*(1-a) * (a-y) * x2
    w1 -= lr*dw1
    w2 -= lr*dw2
    b  -= lr*db
print("{:14s} {: 1.4f} {: 1.4f} {: 1.4f}".format("w1, w2, b:",w1, w2, b))
print("{:14s} {: 1.4f} ".format("loss:", loss/4))

for (x1,x2),y in zip(X,Y):
    z = x1*w1 + x2*w2 + b          
    a = 1/(1+math.exp(-z))
    print("{} {} {: 1.4f}  {} ".format(x1,x2,a,y))

w1, w2, b:      0.0000  0.0000 -0.0000
loss:           0.1250 
0 0  0.5000  0 
0 1  0.5000  1 
1 0  0.5000  1 
1 1  0.5000  0 


### Ein Netz von Neuronen für eine XOR-Erkennung

Mit einem Neuron können wir kein **XOR** modellieren. Wie vernetzen 3 Neuronen und lassen das Netz die 9 Parameter lernen.


<img src="./img/nn_16.png" width="400"/>  

Da nur die Layer mit Parametern gezählt werden, ist das Netz ein 2-Layer Netz. Für die hidden Layer eignet sich die 
**Relu** Aktivierungsfunktion besser.



### Relu 

Relu = rectified linear unit, $f(x) = max(0,x)$

<img src="./img/nn_17.png" width="400"/>  

Der lokale Gradient der Relu-Funktion

<img src="./img/nn_18.png" width="401"/>  

Ein Netz mit 3 Neuronen

<img src="./img/nn-netz3.png" width="921"/>   

Hier nutzen wir für den berechneten Output die übliche Bezeichnung $\hat{y}$. 

In [20]:
import math
X = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,0]

lr = 0.1
w11, w12, b1 = -3, 2, 5
w21, w22, b2 =  3, -1, -1
w31, w32, b3 = -1, 5, -1

 
for i in range(10000):     # bei 1000 noch schlecht
    dw11 = dw12 = db1 = dw21 = dw22 = db2 = dw31 = dw32 = db3 = loss = 0  
    
    for (x1,x2),y in zip(X,Y):

        z1 = w11 * x1 + w12 * x2 + b1   
        a1 = max(z1,0)
  
        z2 = w21 * x1 + w22 * x2 + b2   
        a2 = max(z2,0)
        
        z3 = w31 * a1 + w32 * a2 + b3   
        a3 = 1/(1+math.exp(-1.0*z3))
    
        loss += 0.5*(y-a3)**2
        
        db3  += (a3-y) * a3 * (1-a3)
        dw31 += (a3-y) * a3 * (1-a3) * a1
        dw32 += (a3-y) * a3 * (1-a3) * a2
        
        db1  += (a3-y) * a3 * (1-a3) * w31 if z1 > 0 else 0
        dw11 += (a3-y) * a3 * (1-a3) * w31 * x1 if z1 > 0 else 0
        dw12 += (a3-y) * a3 * (1-a3) * w31 * x2 if z1 > 0 else 0
        
        db2  += (a3-y) * a3 * (1-a3) * w32 if z2 > 0 else 0
        dw21 += (a3-y) * a3 * (1-a3) * w32 * x1 if z2 > 0 else 0
        dw22 += (a3-y) * a3 * (1-a3) * w32 * x2 if z2 > 0 else 0
    
    w11 -= lr * dw11
    w12 -= lr * dw12
    b1  -= lr * db1
    w21 -= lr * dw21
    w22 -= lr * dw22
    b2  -= lr * db2
    w31 -= lr * dw31
    w32 -= lr * dw32
    b3  -= lr * db3

print("{:14s} {: 1.4f}".format("loss:", loss/4))        
 
for (x1,x2),y in zip(X,Y):
    
    z1 = w11 * x1 + w12 * x2 + b1   
    a1 = max(z1,0)

    z2 = w21 * x1 + w22 * x2 + b2   
    a2 = max(z2,0)
    
    z3= w31 * a1 + w32 * a2 + b3   
    a3 = 1/(1+math.exp(-z3))

    print("{} {}  {:1.4f}  {}".format(x1,x2,a3,y))

print("\nDie Parameter für die Neuronen: ")
print("n1: {: 1.4f} {: 1.4f} {: 1.4f}".format(w11,w12,b1))
print("n2: {: 1.4f} {: 1.4f} {: 1.4f}".format(w21,w22,b2))
print("n3: {: 1.4f} {: 1.4f} {: 1.4f}".format(w31,w32,b3))
 

loss:           0.0001
0 0  0.0233  0
0 1  0.9854  1
1 0  0.9924  1
1 1  0.0084  0

Die Parameter für die Neuronen: 
n1: -4.7030  4.1614  1.0960
n2:  3.0091 -2.0182 -0.9909
n3:  1.9102  5.2999 -5.8286


### Vektorisierung der Berechnung

Für kleine Netze kann man die Berechnung wie oben mit for-Schleifen machen. Für größere Netze versucht man die inneren for-Schleifen durch Vektorisierung zu eliminieren. Die Berechnungen der einzelnen Durchgänge sind voneinander unabhängig und können parallel durchgeführt werden. 

Beispiel: Vektorisierung der Berechnung der gewichteten Summe

<img src="./img/nn-vektorisierung.png" width="721"/>   

In [21]:
import numpy as np
X = np.array([[0,0,1,1], [0,1,0,1]]) 
W = np.array([[-1],[1]]) 
b = -1.5
np.dot(W.T,X)+b

array([[-1.5, -0.5, -2.5, -1.5]])

Die GPUs (graphics processing units) sind auf solche Rechenoperationen spezialisiert, da ähnliche Berechnungen in der Computergraphik durchgeführt werden. Hier die Berechnung einer Rotation um 30 Grad.

<img src="./img/nn-rotation1.png" width="420"/> 


In [22]:
M = np.array([[np.sqrt(3)/2, -0.5], [0.5, np.sqrt(3)/2]])
v = np.array([[2],[1]])
np.dot(M,v)

array([[1.23205081],
       [1.8660254 ]])

<img src="./img/rotationsmatrix.png" width="521"/>   