Version: 2020.01.14

---


# Intelligente Systeme - Übung Neuronale Netze

## Aufgabe 1 - Perzeptron

Wir betrachten ein einzelnes Perzeptron mit Eingängen $(x_i, y_i)$ und Aktivierungsfunktion $f(t) = \text{sgn}(t)$. Die Entscheidungsgrenze ist im folgenden Bild gegeben. Die roten und blauen Kreise repräsentieren dabei Beispiele mit unterschiedlichen Klassen.

![Entscheidungsgrenze](https://docs.google.com/uc?id=1ouXvnfRf3IuqkBe37GxEnOeR_X2vuHX7)

Bestimmen Sie anhand dieses Bildes die Gewichte $w_0$, $w_1$ und $w_2$.

### Lösung - Aufgabe 1

Aus dem Bild erkennen wir

$$y = 2x + 2 \Leftrightarrow 2x - y + 2 = 0.$$

Mit 

$$\vec{w} = \begin{pmatrix} 2 \\ -1 \\2\end{pmatrix}, \qquad \vec{x} = \begin{pmatrix}x \\ y\\ 1\end{pmatrix}$$
können wir für die Entscheidungsregel schreiben $\vec{w}^T \cdot \vec{x} \gtrless 0$. Es ist auch üblich $\vec{w}$ noch zu normalisieren, also 
$$\hat{w} = \frac{1}{3}\begin{pmatrix}2 \\ -1 \\ 2\end{pmatrix}.$$

## Aufgabe 2 - Datentransformation
Gegeben seien Eingangsvektoren $x \in \mathbb{R}_{>0}^n$ (d.h. Komponenten für Komponenten des Vektors $x$ gilt: $x_i > 0$). Diese Eingangsvektoren können anhand der Entscheidungsregel 
$$\prod_i x_i^{w_i} \gtrless b$$
in zwei unterschiedliche Klassen aufgeteilt werden. 

Wie kann man anhand eines gelabelten Datensatzes $(x^l, k^l)$ und linearer Regression die unbekannten Parameter lernen $w_i$ und $b$.


### Lösung - Aufgabe 2

Wir wenden $\ln$ auf beiden Seiten der Gleichung an, also

$$\sum_i w_i \ln x_i \gtrless \ln b \Leftrightarrow \vec{w}'^T \vec{x}' \gtrless 0$$ 

mit 
$$\vec{w}' = \begin{pmatrix} w_1 \\ \vdots \\w_n \\ -\ln b \end{pmatrix}$$
sowie 
$$\vec{x}' = \begin{pmatrix}\ln x_1 \\ \vdots \\ \ln x_n \\ 1 \end{pmatrix}.$$
Damit haben wir ein lineares Klassifikationsproblem wie in Aufgabe 1 mit den Daten $(\ln x^l, k^l)$ (komponentenweise Anwendung von $\ln$ auf Vektor $x$. 


## Aufgabe 3 - Logische Netzwerke

Wir betrachten die boolsche Funktion

$$y = (x_1 \lor \overline{x_2})\land (\overline{x_1}\lor x_3),$$
welche jedem Tripel $x = (x_1, x_2, x_3)$ boolscher Variablen, $x_i \in \{0, 1\}$ (Input) einen boolschen Wert $y\in \{0, 1\}$ (Output) zuweist.

a) Konstruieren Sie ein Feed-Forward-Netzwerk mit Schwellwert-Neuronen, welches diese Funktion implementiert. 

Wie viele Neuronen und wieviele Schichten werden gebraucht? 

Wie müssen die Neuronen verbunden werden? 

Wie sind die Gewichte und Schwellwerte der Neuronen? 

b) Generalisieren Sie dieses Vorgehen auf beliebige boolsche Funktionen, d.h. beliebige Funktionen $f: \{0, 1\}^n \mapsto \{0, 1\}$.

c) Zeigen Sie ferner, dass jede boolsche Funktion nur mit einem Feed-Forward-Netzwerk mit nur einer versteckten (hidden) Schicht realisiert werden kann. 

Welches Netzwerk erhält man beispielsweise für die Funktion
$$y = (x_1 \lor \overline{x_2}) \land x_3$$

### Lösung - Aufgabe 3
a) Konstruiere zuerst die Standard-Funktionen *Negation*, *log. Und* sowie *log. Oder*.

Für *Negation* wähle Gewicht $-1$ und Schwellwert $-\frac{1}{2}$.

Für $\lor$ wähle als Gewicht für negierte Inputs $-1$ und nicht-negierte $+1$. Als Schwellwert wähle Summe aller Gewichte negierter Inputs und addiere 0.5, also $\sum "-1" + 0.5$.

Mathematischer: Angenommen, wir haben eine Disjunktion $\bigvee_i x_i^{a_i}$ für boolsche Variablen $x_i\in \{0, 1\}$ und $a_i\in \{0, 1\}$, wobei $x_i^0 = \bar{x}_i$ und $x_i^1 = x_i$ ist. Wir wollen ein Schwellwert-Neuron konstruieren mit $o = f_t(\sum_i w_i x_i)$. $f_t(x)$ ist 1, falls $\sum_i w_i x_i > t$ und 0, falls $\sum_i w_i x_i < t$. Oben in Worten gefasstes lässt sich formulieren als $w_i = (-1)^{1-a_i}$. Der Schwellwert $t$ ergibt sich aus $t = \sum_{i: a_i=0} w_i + 0.5 = -\sum_{i: a_i=0} 1 + 0.5$. 

Für $\land$ wähle als Gewicht für negierte Inputs $-1$ und nicht-negierte $+1$. Als Schwellwert wähle Summe aller Gewichte nicht-negierter Inputs und subtrahiere 0.5, also $\sum "+1" - 0.5$.

Mathematischer: Angenommen, wir haben eine Konjunktion $\bigwedge_i x_i^{a_i}$ für boolsche Variablen $x_i\in \{0, 1\}$ und $a_i\in \{0, 1\}$, wobei $x_i^0 = \bar{x}_i$ und $x_i^1 = x_i$ ist. Wir wollen ein Schwellwert-Neuron konstruieren mit $o = f_t(\sum_i w_i x_i)$. $f_t(x)$ ist 1, falls $\sum_i w_i x_i > t$ und 0, falls $\sum_i w_i x_i < t$. Oben in Worten gefasstes lässt sich formulieren als $w_i = (-1)^{1-a_i}$. Der Schwellwert $t$ ergibt sich aus $t = \sum_{i: a_i=1} w_i - 0.5 = \sum_{i: a_i=1} 1 - 0.5$. 

Damit kann man nun das Netzwerk für die gegebene Funktion aufbauen. 

![Netzwerk A3a](https://docs.google.com/uc?id=1LrdIr-WnrckhQ2pZTw3-Rf8GNjxS54BH)

b, c) Wir können jede boolsche Funktion in konjunktive oder disjunktive Normalfunktion umwandeln (KNF oder DNF). Damit können wir in der Hidden-Schicht die Klammern auswerten und dann in der Output-Schicht die geklammerten Ausdrücke zusammenfassen. 

![Netzwerk A3bc](https://docs.google.com/uc?id=1Kg-Ch8N4Bm1V-48d_pd8LoVC7s7Wwro5)

## Aufgabe 4 - Anzahl lernbarer Parameter

Gegeben sei ein Netzwerk mit einer Input-Schicht, einer Hidden-Schicht und einer Output-Schicht. Die Input-Schicht hat $i$ Neuronen. Die Hidden-Schicht hat $h$ Neuronen. Die Output-Schicht hat $o$ Neuronen. Die Input-Schicht sei vollständig mit der Hidden-Schicht verbunden. Die Hidden-Schicht sei vollständig mit der Output-Schicht verbunden.

a) Wieviele Parameter müssen wir in diesem Netzwerk optimieren?
 Was ergibt sich für $i =4$, $h = 3$ und $o = 2$?

*Hinweis:* Für die Output-Schicht wird oft die Softmax-Aktivierungsfunktion verwendet. Daher braucht man für die Output-Schicht keine Bias-Neuronen. Machen Sie sich das auch anhand der Formel für die Softmax-Aktivierungsfunktion klar.

b) Zeichen Sie das Netz!

### Lösung - Aufgabe 4

a) Wir haben insgesamt 

$$N = ih + h + ho = h(i+o+1)$$

Gewichte, die wir optimieren müssen. Für die gegebenen Werte ergeben sich also 

$$N = 3(4+2+1) = 21$$
Gewichte.

b) 

![Netzwerk A4](https://docs.google.com/uc?id=1ZKZEr7jvRRhO1Y3Ab-42GdoVnN2NCKcz)