# Einführung in die Neuroinformatik - 3. Aufgabenblatt
## Gruppe Q: Dominik Authaler, Marco Deuscher, Carolin Schindler

### Aufgabe 1: Lernregeln
#### Teilaufgabe 1: 
Bestimmen des Gradienten der Fehlerfunktion  
$\nabla E(w,b) = (\frac{\partial E}{\partial w},\frac{\partial E}{\partial b})^T$  
$\frac{\partial E}{\partial w} = \frac{\partial}{\partial w}(\frac{1}{2}\sum_{\mu=1}^{M}(T_\mu-f(wx_\mu+b))^2)
= -\sum_{\mu=1}^{M}(T_\mu-f(wx_\mu+b))\cdot f'(wx_\mu+b)\cdot x_\mu = \sum_{\mu=1}^{M}(f(wx_\mu+b)-T_\mu)\cdot f'(wx_\mu+b)\cdot x_\mu$

$\frac{\partial E}{\partial b} = \frac{\partial}{\partial b}(\frac{1}{2}\sum_{\mu=1}^{M}(T_\mu-f(wx_\mu+b))^2)
= -\sum_{\mu=1}^{M}(T_\mu-f(wx_\mu+b))\cdot f'(wx_\mu+b)= \sum_{\mu=1}^{M}(f(wx_\mu+b)-T_\mu)\cdot f'(wx_\mu+b)\cdot$

#### Teilaufgabe 2:
##### Inkrementelle Version
$w(t+1) = w(t) - \eta \cdot(f(wx_\mu+b)-T_\mu)\cdot f'(wx_\mu+b)\cdot x_\mu$  
$b(t+1) = b(t) - \eta \cdot(f(wx_\mu+b)-T_\mu)\cdot f'(wx_\mu+b)$
##### Batch Version
$w(t+1) = w(t) - \eta\cdot\;(1\quad 0)\;\nabla E(w,b) = w(t) - \eta \cdot \sum_{\mu=1}^{M}(f(wx_\mu+b)-T_\mu)\cdot f'(wx_\mu+b)\cdot x_\mu$  
$b(t+1) = b(t) - \eta\cdot\;(0\quad 1)\;\nabla E(w,b) = b(t) - \eta \cdot \sum_{\mu=1}^{M}(f(wx_\mu+b)-T_\mu)\cdot f'(wx_\mu+b)$

#### Teilaufgabe 3:

In [2]:
import math

def sigmoid(x):
    return 1/(1+math.exp(-x))

def d_sigmoid(x):
    return math.exp(-x)/(1+math.exp(-x))**2

def grad_E(x,T,w0,b0):
    grad_w = 0
    grad_b = 0
    for i in range(len(x)):
        grad_w += (sigmoid(x[i]*w0+b0)-T[i]) * d_sigmoid(w0*x[i]+b0)*x[i]
        grad_b += (sigmoid(x[i]*w0+b0)-T[i]) * d_sigmoid(w0*x[i]+b0)
    return grad_w,grad_b

def batch_version(w0,b0,grad_w,grad_b,eta):
    return w0-eta*(grad_w), b0-eta*(grad_b)




w0 = -1
b0 = 3
eta = 0.8
x = [-1, 0, 1, 2]
T = [0, 1, 0, 0]

grad_w0 = 0 #grad start pos
grad_b0 = 0 #grad start pos
w1 = 0 #weight nach dem ersten update
b1 = 0 #bias nach dem ersten update

grad_w0,grad_b0 = grad_E(x,T,w0,b0)
print("Grad_w0: " + str(grad_w0))
print("Grad_b0: " + str(grad_b0))
w1,b1 = batch_version(w0,b0,grad_w0,grad_b0,eta)
print("New weight: " + str(w1))
print("New bias: " + str(b1))



Grad_w0: 0.36260270307341996
Grad_b0: 0.25141536222290073
New weight: -1.290082162458736
New bias: 2.7988677102216792


(b) ![title](b03.png)
(c) siehe cell above  
(d) Eigenschaften des Gradienten sind identisch für lokale und globale Minima. Daher kann man mit dem Gradientenabstiegsverfahren i.A. nur lokale Minima finden.  

#### Teilaufgabe 4:
Bei der Batch Variante wird immer ein vollständiges Dataset verwendet um den Gradienten und dann daraus die neuen Gewichte und Bias zu berechenen. Bei der inkrementellen Version geschieht dieser Prozess nach jedem der Datenpunkte.  
Pfad 1 stammt von der Batch Version und Pfad 2 von der inkrementellen Version. Dies lässt gut an den in Pfad 2 enthaltenen Zacken erkennen.  

 
Batches sind effizienter in der Berechnung, da nicht nach jedem Punkt die Gewichte und der Bias angepasst werden muss. Außerdem wird durch die Summierung über merhere Datenpunkte ein Mittelwert gebildet und man erhält damit einen zuverlässigen Gradienten.
Ein Vorteil der inkrementellen Methode ist, dass nicht immer das gesamte Dataset zum trainieren verwendet werden muss. Außerdem findet das inkrementelle Verfahren schneller ein Minimum und mit höherer Wahrscheinlichkeit ein globales. Da beim der inkrementellen Methode immer nur ein einziger Datenpunkt verwndet wird, kann es vorkommen, dass ein lokales Minimum übersprugnen wird. Dies kann unter anderem auch dafür verwender werden, um nicht gegen einen Sattelpunkt zu konvergieren.

#### Teilaufgabe 5:
Wenn die Lernrate zu groß wird, kann es vorkommen, dass ein lokales Minimum übersprungen wird und man nicht gegen dieses konvergiert. 
$w(t+1) = w(t) - \eta\;(1\quad 0)\;\nabla E(w,b)$  
Ist die Lernrate zu groß, hat auch ein kleiner Gradient noch eine merkliche Auswirkung auf die Gewichte.  
In der Animation kann man gut sehen, dass wenn die Lernrate zu groß wird, die Sprünge zwischen den einzelnen Punkten zu groß werden.

#### Teilaufgabe 6:
Man muss beachten, dass das von uns beschriebene Netz nur aus einem einzelnen Neuron besteht. Als Transferfunktion wurde die Sigmoid-Funktion gewählt. Folglich kann der Output des Netzes auch immer nur die Form einer solchen Sigmoid-Funktion haben. Mit den gewählten Parametern kann diese etwas gestaucht,gestreckt oder verschoben werden aber nicht grundsätzliche verändert werden.  
Die Approximation ist im Minimum so gut wie es die Umgebung des Anfangspunktes zugelassen hat, d.h. aber nicht, dass das erhaltene Ergebnis auch sinnvoll ist.