### Neuronale Netze 

#### Logistische Regression mit *Gradient Descent*

Logistische Regression mit Gradient Descent ist ein Algorithmus mit dem Beobachtungsdaten diskreten Klassen 
zugeordnet werden können. Im einfachsten Fall sind es zwei Klassen. 

**Beispiel 1:**
Für Studenten werden folgende Daten gemessen: 
* Anzahl Stunden/Tag fürs Studium  
* Anzahl Stunden/Tag Schlaf  
 
Die Studenten sollen in zwei Klassen eingeteilt werden: Prüfung bestanden / nicht bestanden.

**Beispiel 2:**
Für Hunde werden folgende Daten gemessen:

* Alter
* Geschlecht
* Würmer (0 = keine, 1 = Typ I, 2 = Typ II, 3 = Typ I + II)
* Ruhender Blutdruck
* Cholesterinspiegel (in mg/dl)
* Nüchtern-Blutzuckerspiegel > 120 mg/dl (1 = hoch; 0 = niedrig)
* Ruhende elektrokardiographische Ergebnisse (0 = normal, 1 = ST-T Abnormalität, 2 = linke ventrikuläre Hypertrophie)
* Maximale Herzrate
* Durch Bewegung verursachte Angina pectoris (1 = Ja; 0 = Nein) 
* ST-Depression, die durch Bewegung in Bezug auf die Ruhephase hervorgerufen wird (ein Marker im EKG).
* Die maximale Steigung des ST-Segments bei Bewegung
* Anzahl der großen Gefäße (0-3), aufgenommen durch Ultraschall
* Blutfluss im Herz (3 = normal; 6 = fixer defekt; 7 = reversibler defekt )

Die Hunde sollen in zwei Klassen eingeteilt werden: krank / nicht krank

**Beispiel 3:**
Für Bilder von Hunden und Katzen werden folgende Daten aufgenommen:
* die RGB-Werte der einzelnen Bildpixel 

Die Bilder sollen in zwei Klassen eingeteilt werden: Bild von Hund / Bild von Katze

#### Training und Vorhersage
Für alle Fälle gilt: wenn es hinreichend viele Daten gibt, für die die Klasseneinteilung bekannt ist, dann
passt der Algorithmus die Parameter einer Vorhersagefunktion so an (Training), dass gute Vorhersagen für neue
Daten möglich sind.

#### OR-Verknüpfung

An einem einfachen Beispiel soll der Ablauf des Trainings deutlich gemacht werden.


In [2]:
import numpy as np

In [4]:
X  = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]

Die verschiedenen Eingaben werden als eine Matrix geschrieben, wobei jede Eingabe eine Spalte ist

In [11]:
X = np.array(X).T            # umwandeln in eine np-Matrix und transponieren (= Reihen werden zu Spalten)
X

array([[0, 0, 1, 1],
       [0, 1, 0, 1]])

X ist jetzt eine 2x4 Matrix, d.h. sie hat 2 Zeilen und 4 Spalten. Jede Spalte ist einer der 4 Punkte.

In [12]:
X.shape                     # eine 2 x 4 Matrix, d.h. 2 Zeilen und 4 Spalten, 

(2, 4)

Einige numpy-Befehle:

In [15]:
X[0,0], X[1,3]             #  Element oben links = Zeile 0, Spalte 1 und unten rechts = Zeile 1, Spalte 3

(0, 1)

In [18]:
x1 = X[:,0]                # Spalte 0 
x2 = X[:,1]                # Spalte 1
x1, x2

(array([0, 0]), array([0, 1]))

In [24]:
x1.shape 

(2,)

x1 ist ein eindimensionales Gebilde. Zum Rechnen mit Spalten ist es häufig einfacher,
diese wieder in eine Matrix der Dimension 2x1 umzuwandeln.

In [27]:
x1 = x1.reshape(2,1)
x1

array([[0],
       [0]])

In [21]:
X1 = X[:,:-1]              # alles ausser der letzten Spalte
X1

array([[0, 0, 1],
       [0, 1, 0]])

In [28]:
X1.shape

(2, 3)

In [31]:
Y = np.array(Y)
Y, Y.shape

(array([0, 1, 1, 1]), (4,))

Die gewünschten Ergebnisse (= **labels**) speichern wir in einer Zeile, genauer: in einer Matrix der Dimension 1x4

In [32]:
Y = Y.reshape(4,1)

In [33]:
Y

array([[0],
       [1],
       [1],
       [1]])

Die beiden Anfangsgewichte speichern wir in einem Spaltenvektor, genauer: in einer Matrix der Dimension 2x1.
Den Bias speichern wir in einer normalen Variablen.

In [42]:
b = -1.5
w = [-1, 2]
w = np.array(w)
w = w.reshape(2,1)
w

array([[-1],
       [ 2]])

Wir können für alle 4 Eingaben die gewichteten Summen berechnen. 

In [45]:
Z = np.dot(w.T,X)
Z, Z.shape

(array([[ 0,  2, -1,  1]]), (1, 4))

Der Wert von b wird auf jedes Element der Matrix addiert. 
Dieses Zusammenspiel von Matrix und Zahl nennt sich **broadcasting**.

In [47]:
Z + b                

array([[-1.5,  0.5, -2.5, -0.5]])

Insgesamt können wir also codieren:

In [52]:
Z = np.dot(w.T,X) + b
Z, Z.shape

(array([[-1.5,  0.5, -2.5, -0.5]]), (1, 4))

Die Exponentialfunktion von numpy kann auch mit einer Matrix als Argument umgehen. Es wird dann der Wert für jedes Element in 
der Matrix berechnet.


In [57]:
k = [[1,0],[-1,2]]
k = np.array(k)
k, np.exp(k)

(array([[ 1,  0],
        [-1,  2]]), array([[2.71828183, 1.        ],
        [0.36787944, 7.3890561 ]]))

In [58]:
def sigmoid(z):
    return  1.0/(1+np.exp(-z))


Damit können wir die forward-Rechnung sehr kompakt durchführen:

In [85]:
X  = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
w = [-1, 2]
b = -1.5

X = np.array(X).T                   # 2 x 4 Jede Eingabe eine Spalte
Y = np.array(Y).reshape(1,4)        # 1 x 4 Zeile
w = np.array(w).reshape(2,1)        # 2 x 1 Spalte

m = X.shape[1]                      # Anzahl der 

Z = np.dot(w.T,X) + b
A = sigmoid(Z)

X.shape, Y.shape, w.shape, Z.shape, A.shape, m

((2, 4), (1, 4), (2, 1), (1, 4), (1, 4), 4)

Diese vektorisierte Version kommt ohne for-Schleife aus. Hier die alte Version:

In [113]:
import math

class Neuron:
    def __init__(self,param):
        self.w1, self.w2, self.b = param
    
    def forward(self, x1, x2):
        z = self.w1 * x1 + self.w2 * x2 + self.b
        a = 1/(1+math.exp(-1.0*z))
        return a
        
X  = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
w = [-1, 2]
b = -1.5


n = Neuron(w + [b])
for (x1,x2),y in zip(X,Y):
    a = n.forward(x1,x2)
    print(a)

0.18242552380635635
0.6224593312018546
0.07585818002124355
0.3775406687981454


In [86]:
dZ = Y-A
dw = np.dot(X,dZ.T)/m
db = np.sum(dZ)/m

In [88]:
dZ.shape, dw.shape, db


((1, 4), (2, 1), -0.43542907404310005)

In [69]:
A.shape

(1, 4)

In [70]:
Y.shape

(4, 1)

In [133]:
X  = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
w = [-1, 2]
b = -1.5
lr = 0.01   # learning rate

X = np.array(X).T                   # 2 x 4 Jede Eingabe eine Spalte
Y = np.array(Y).reshape(1,4)        # 1 x 4 Zeile
w = np.array(w).reshape(2,1)        # 2 x 1 Spalte

m = X.shape[1]                      # Anzahl der Daten

for i in range(1):
    # forward  
    A = sigmoid(np.dot(w.T,X) + b)
    #print(A)
    # backward
    dZ = A-Y
    #print(dZ)
    dw = np.dot(X,dZ.T)/m
    db = np.sum(dZ)/m
    print(dw,db)
    #update
    w = w - lr*dw
    b = b - lr*db

#sigmoid(np.dot(w.T,X) + b)

[[-0.38665029]
 [-0.25      ]] -0.43542907404310005


In [131]:
import math
import random

class Neuron:
    def __init__(self,param):
        self.w1, self.w2, self.b = param
        self.sumdb = 0
        self.sumdw1 = 0
        self.sumdw2 = 0
    
    def forward(self, x1, x2):
        z = self.w1 * x1 + self.w2 * x2 + self.b
        a = 1/(1+math.exp(-1.0*z))
        
        # wir berechnen die lokalen Gradienten
        self.db = a *(1-a)    
        self.dw1 = x1 * self.db   
        self.dw2 = x2 * self.db
        return a
    
    def backward(self, g):
        
        # wir multiplizieren den lokalen Gradienten mit
        # dem upstream Gradienten g
        self.db *= g
        self.dw1 *= g
        self.dw2 *= g
        
        # wir addieren die Änderungswünsche
        self.sumdb += self.db 
        self.sumdw1 += self.dw1
        self.sumdw2 += self.dw2 
        
    def update(self,lr):
        self.w1 = self.w1 - lr * self.sumdw1 
        self.w2 = self.w2 - lr * self.sumdw2
        self.b = self.b - lr * self.sumdb
        
        # reset Änderungswünsche für neuen Durchgang
        self.sumdw1 = 0
        self.sumdw2 = 0
        self.sumdb = 0
        
X  = [(0,0),(0,1),(1,0),(1,1)]
Y = [0,1,1,1]
w = [-1, 2]
b = -1.5
lr = 0.01   # learning rate


n = Neuron(w + [b])
for k in range(1):
    for (x1,x2),y in zip(X,Y):
        a = n.forward(x1,x2)
        g = -y/a + (1-y)/(1-a)
        n.backward(g)
        
    print(n.sumdw1/4, n.sumdw2/4, n.sumdb/4)  
    n.update(lr)

#for (x1,x2) in X:
#    print(n.forward(x1,x2))

-0.38665028779515276 -0.25 -0.43542907404310005


In [111]:
[[-0.38665029]
 [-0.25      ]] -0.43542907404310005

NameError: name 'array' is not defined