# **Einführung in die Neuroinformatik - Blatt 03**

#### Gruppe AC

### Aufgabe 1 - *Lernregeln*

Die Fehlerfunktion ist gegeben durch  
> $E(w,b) = \frac{1}{2} \sum_{\mu = 1}^M (T_{\mu}-y(x_{\mu}))^2  = \frac{1}{2} \sum_{\mu = 1}^M (T_{\mu}-f(wx_{\mu}+b)^2$  

mit der Netzausgabe $y(x_{\mu})$, dem Lehrersignal $T_{\mu}$, einem Gewicht $w$ und dem Bias $b$.

**1.** Der Gradient der Fehlerfunktion $\nabla E(w,b) = \left(\begin{array}{c} \frac{\partial E}{\partial w}\\ \frac{\partial E}{\partial b}\\ \end{array} \right)$ ist gegeben durch:  
> $\frac{\partial E}{\partial w} = \frac{1}{2} \sum_{\mu = 1}^M 2 ((T_{\mu}-y(x_{\mu})) (-f'(wx_{\mu}+b)) x_{\mu} = - \sum_{\mu = 1}^M ((T_{\mu}-y(x_{\mu})) f'(wx_{\mu}+b) x_{\mu}$
> 
> $\frac{\partial E}{\partial b} = \frac{1}{2} \sum_{\mu = 1}^M 2 ((T_{\mu}-y(x_{\mu})) (-f'(wx_{\mu}+b)) = - \sum_{\mu = 1}^M ((T_{\mu}-y(x_{\mu})) f'(wx_{\mu}+b)$

**2.** Die Lernregeln für das Gewicht $w$ und den Bias $b$ mit einer Lernrate $\eta > 0$ lauten folgendermaßen:  
a) Inkrementelle Version
> $w(t+1) = w(t) + \eta (T_{\mu}-y(x_{\mu})) f'(wx_{\mu}+b)x_{\mu}$  
> $b(t+1) = b(t) + \eta (T_{\mu}-y(x_{\mu})) f'(wx_{\mu}+b)$  

b) Batch - Version
> $w(t+1) = w(t) + \eta \sum_{\mu = 1}^M (T_{\mu}-y(x_{\mu})) f'(wx_{\mu}+b)x_{\mu}$  
> $b(t+1) = b(t) + \eta \sum_{\mu = 1}^M (T_{\mu}-y(x_{\mu})) f'(wx_{\mu}+b)$  

**3.**

In [11]:
import numpy as np

#Datensatz initialisieren
x = [-1, 0, 1, 2]
T = [0, 1, 0, 0]

#Gewicht und Bias initialisieren
w0 = -1
b0 = 3

#Funktion f beschreiben
def f(x):
    result = 1/(1 + np.exp(-x))
    return result

#Ableitung von f beschreiben
def df(x):
    result = np.exp(-x) / (1 + np.exp(-x)) ** 2
    return result

a) Berechnung des Gradienten an der Startposition $\nabla E(w(0), b(0))$

In [19]:
grad_w0 = 0
grad_b0 = 0
for mu in range(0, len(x)):
    grad_w0 -= (T[mu] - f(w0 * x[mu] + b0)) * df(w0 * x[mu] + b0) * x[mu]
    grad_b0 -= (T[mu] - f(w0 * x[mu] + b0)) * df(w0 * x[mu] + b0)

b) ![title](gradient.png)

c) Ausführung einer Iteration der Batch-Modus-Lernregel

In [17]:
eta = 0.8

w1 = w0
b1 = b0
for mu in range(0, len(x)):
    w1 += eta * (T[mu] - f(w0 * x[mu] + b0)) * df(w0 * x[mu] + b0) * x[mu]
    b1 += eta * (T[mu] - f(w0 * x[mu] + b0)) * df(w0 * x[mu] + b0)

d) Das Problem ist, dass das Gradientenverfahren ein lokales und kein globales Verfahren ist. Somit kann auch nur ein lokales Minimum gefunden werden. In diesem Fall wird ein lokales Minimum gefunden, das nicht dem globalen gesuchten Minimum entspricht.