<a href="https://colab.research.google.com/github/InSuLaTi0N/Informatik/blob/master/neural_networks_solution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Version: 2022.01.06

---


# Intelligente Systeme - Übung Neuronale Netze

## Aufgabe 1 - Von Regression zu Klassifikation

Letzte Woche haben wir mittels Gradientenabstieg den funktionalen Zusammenhang zwischen zwei Werten beschrieben. Diese Woche verwenden wir Gradientenabstieg nicht zur Regression, sondern zur Klassifikation.

1. Wir klassifizieren mithilfe der logistischen Funktion $\frac{1}{1+e^{-x}}$, wobei wir für x die nach 0 umgestellte lineare Funktion $y = w_1 x + w_0$ einsetzen, welche die beiden Klassen trennt. Überlegen Sie, welche Bedeutung das Umstellen nach 0 hat. Welche Differenz wird damit berechnet, wenn die Koordinaten eines zu klassifizierenden Punktes eingesetzt werden? Wie wird diese Differenz von der logistischen Funktion interpretiert? 

  Sie können sich die Zusammenhänge mit Hilfe eines kleinen Beispiels verdeutlichen: Die Funktion $y = w_1x + w_0$ mit $w_1= 1$ und $w_0 = 0.5$ trennt zwei Klassen 0 und 1. Ein Beispiel der Klasse 0 ist der Punkt $P_1=(1,2.5)$, ein Beispiel der Klasse 1 ist $P_2=(2.5,1)$.

2. In der Vorlesung haben Sie gelernt, dass die nach 0 umgestellte lineare Funktion auch in der Vektorschreibweise $\vec{w} \cdot \vec{x} = 0$, mit $\vec{w} = \begin{pmatrix} w_0 \\ w_1 \\w_2\end{pmatrix}, \qquad \vec{x} = \begin{pmatrix}x_0 \\ x_1\\ x_2\end{pmatrix}, \qquad$ dargestellt werden kann. 

  Wo finden Sie in dieser Darstellung das $x$ und das $y$ aus Aufgabe 1.1? Was sind $w_2$ und $x_0$? 


3. Der Code unten implementiert den Gradientenabstieg für die lineare Regression für einige Beispieldaten. Die Daten haben jedoch zusätzlich zur x- und y-Koordinate auch ein Klassenlabel. Ergänzen Sie den Code, um Gradientenabstieg zum Lernen eines Klassifikators zu nutzen. Verwenden Sie ihre Erkenntnisse aus Aufgaben 1.1 und 1.2. Warum muss $w_2$ nicht gelernt werden?

### Lösung - Aufgabe 1.1

Die berechnete Differenz entspricht dem Abstand von dem zu klassifizierenden Punkt zu der linearen Funktion, die die beiden Klassen trennt. Mit dem untenstehenden Code können Sie dies für das gegebene Beispiel visualisieren. 

Dieser Abstand ist 
* negativ, wenn der Punkt oberhalb der Geraden liegt, 
* positiv, wenn er darunter liegt und 
* 0, wenn er genau auf der Geraden liegt. 

Die Logistische Funktion ordnet dann jedem Punkt mit positiver Differenz einen Wert größer 0.5 (und damit das Label 1) und mit negativer Differenz einen Wert kleiner 0.5 (und damit das Label 0) zu.

In [None]:
  import matplotlib.pyplot as plt
  import numpy as np
  import math

  def f(x):
    return w1*x+w0
  w1 = 1
  w0 = 0.5

  plt.ylim(0,4)
  plt.xlim(0,4)
  plt.scatter([1],[2.5])
  plt.scatter([2.5],[1])
  plt.plot([1,1],[f(1),2.5])
  plt.plot([2.5,2.5],[f(2.5),1])
  plt.plot([0,4],[f(0),f(4)])
  plt.ylabel("y")
  plt.xlabel("x")
  plt.show()
  
  def logistic(x):
    return 1/(1+math.exp(-x))

  ax = plt.subplot(1, 1, 1)

  ax.spines['left'].set_position(('data', 0.0))
  ax.spines['bottom'].set_position(('data', 0.0))
  ax.spines['right'].set_color('none')
  ax.spines['top'].set_color('none')

  xs = np.arange(-10,10,0.5)
  plt.plot(xs,[logistic(x) for x in xs], label="$f(x)=1/(1+e^{-x})$")
  plt.ylabel("y")
  plt.xlabel("x")
  plt.legend()
  plt.show()

### Lösung - Aufgabe 1.2
$\vec{w} \cdot \vec{x} = w_0x_0 + w_1x_1 + w_2x_2 = 0 = w_0 +w_1x -y$

$x$ entspricht also $x_1$ und $y$ entspricht $x_2$.

$w_2$ ist der Faktor vor bzw. das Gewicht von $y$ und damit $-1$.

$x_0$ ist die x-Variable, die zum Gewicht $w_0$ gehört, und hat konstant den Wert 1.

### Lösung - Aufgabe 1.3
Wir müssen das Gewicht $w_2$ nicht lernen, da es konstant den Wert -1 hat. In der Implementierung unten wurde auf die Vektordarstellung verzichtet und deshalb $w_2$ nicht einbezogen. 

Natürlich ist auch eine Lösung möglich, die $w_2$ (und $x_0 = 1$) mit einbezieht und die Vektordarstellung wie in der Vorlesung nutzt. Dabei können sie $w_2=-1$ trotzdem konstant lassen oder ebenfalls mit trainieren.
Um für diesen Fall die resultierende lineare Funktion zu konstruieren, müssten Sie anschließend jedoch $w_1$ und $w_0$ durch $-w_2$ teilen:

$0 = w_0 \cdot 1 + w_1x + w_2y$
$\Leftrightarrow -w_2y = w_0*1 + w_1x$
$\Leftrightarrow y = \frac{w_1}{-w_2}x + \frac{w_0}{-w_2}$

So wird gut sichtbar, dass Sie eigentlich nur zwei Gewichte lernen brauchen, um den nötigen linearen Zusammenhang zu beschreiben.

In [None]:
import math
import random
import matplotlib.pyplot as plt

data = [(0.44, 0.12, 0), (1.15, 0.15, 0), (1.46, 0.34, 0), (1.5, 0.35, 0), (2.35, 0.57, 0), 
        (2, 0.72, 0), (6.8, 0.91, 1), (3.98, 0.86, 1), (4.1, 0.98, 1), (4.92, 0.79, 1), 
        (5.29, 1.22, 1), (6.31, 1.29, 1), (6.09, 1.29, 1), (6.5, 1.52, 1), (7.54, 1.19, 1), 
        (8.47, 1.43, 1), (8.33, 1.36, 1), (8.75, 1.49, 1), (9.69, 2.0, 1), (9.8, 1.65, 1)]

x1,x2 = 0,10
n = len(data)

def f(x):
  return w1*x + w0

# The mean squared error
# Takes a list of the true/expected values and a list of the results obtained by our model
def loss(ys, fs):
  return (1.0/n) * sum([math.pow(y - f, 2) for (y,f) in zip(ys, fs)])

def showplot():
  plt.ylim(0,2.5)
  plt.xlim(0,10)
  plt.scatter([x for (x,y,z) in data if z],[y for (x,y,z) in data if z])
  plt.scatter([x for (x,y,z) in data if not z],[y for (x,y,z) in data if not z])
  plt.ylabel("y")
  plt.xlabel("x")
  plt.show()

showplot()

### Gradient Descent for Linear Regression

w0,w1=0.0,0.0
epochs = 10
alpha = 0.004
for i in range(epochs):
  plt.plot([x1,x2], [f(x1),f(x2)], color=(1,0,0,(0.05+0.95*(i+1)/epochs)))  # regression line
  w0 += alpha*(2.0/n)*sum([  (y-f(x)) for (x,y,z) in data])
  w1 += alpha*(2.0/n)*sum([x*(y-f(x)) for (x,y,z) in data])

print(f"Durch Gradientenabstieg in {epochs} Schritten gefundene Lösung")
print(f"f(x)= {w1:.2f} x + {w0:.2f}")
print(f"Loss: {loss([y for (x,y,z) in data],[f(x) for (x,y,z) in data]):.2f}")

showplot()

### Gradient Descent to Train Linear Classifier
def logistic(x,y):
  return 1/(1+math.exp(-(w0+w1*x-y)))

w0,w1=0.0,0.0
epochs = 24
alpha = 2.5
for i in range(epochs):
  plt.plot([x1,x2], [f(x1),f(x2)], color=(1,0,0,(0.05+0.95*(i+1)/epochs)))  # regression line
  w0 += alpha*(2.0/n)*sum([(z-logistic(x,y))*logistic(x,y)*(1-logistic(x,y))   for (x,y,z) in data])
  w1 += alpha*(2.0/n)*sum([(z-logistic(x,y))*logistic(x,y)*(1-logistic(x,y))*x for (x,y,z) in data])

print(f"Durch Gradientenabstieg in {epochs} Schritten gefundene Lösung:\n f(x)= {w1:.2f} x + {w0:.2f}")
print(f"Die logistische Funktion, mit deren Hilfe klassifiziert wird, ist entsprechend:\n label(x,y)=1/(1+e^(-({w0:.2f}+{w1:.2f}*x-y)))")
print(f"Loss: {loss([z for (x,y,z) in data],[logistic(x,y) for (x,y,z) in data]):.2f}")

showplot()

print(f"Label von (0,0) ist: {int(round(logistic(0,0),0))}")
print(f"Label von (6,0.5) ist: {int(round(logistic(6,0.5),0))}")

## Aufgabe 2 - Perzeptron

Wir möchten zwei Gruppen von Punkten unterscheiden. Die Entscheidungsgrenze ist im folgenden Bild gegeben. Die roten und blauen Kreise repräsentieren dabei Beispiele mit unterschiedlichen Klassen. Bestimmen Sie anhand des Bildes den Gewichtsvektor $\vec{w}$ mit den Gewichten $w_0$, $w_1$ und $w_2$ und den Vektor $\vec{x}$ mit $x_0$, $x_1$ und $x_2$, wobei $x_0=1$ ist.

![Entscheidungsgrenze](https://cloudstore.zih.tu-dresden.de/index.php/s/TwSsSfaxrNf4axj/download/decisionboundary-edited.png)



### Lösung - Aufgabe 2

Aus dem Bild erkennen wir

$x_2 = 2x_1 + 2$

$\Leftrightarrow 2 + 2x_1 - x_2 = 0.$

Mit 

$\vec{w} = \begin{pmatrix} 2 \\ 2 \\-1\end{pmatrix}, \qquad \vec{x} = \begin{pmatrix}x_0 \\ x_1\\ x_2\end{pmatrix}$

können wir schreiben:

$\vec{w} \cdot \vec{x} = 0, \qquad für \quad x_0=1.$

Die Entscheidungsregel ergibt sich daraus wie folgt: 

$\vec{w} \cdot \vec{x} < 0$  Rot

$\vec{w} \cdot \vec{x} > 0$  Blau

## Aufgabe 3 - Datentransformation
Gegeben seien Eingangsvektoren $x \in \mathbb{R}_{>0}^n$ (d.h. für Komponenten des Vektors $x$ gilt: $x_i > 0$). Diese Eingangsvektoren können anhand der Entscheidungsregel 
$$\prod_i x_i^{w_i} \gtrless b$$
in zwei unterschiedliche Klassen aufgeteilt werden. 

Wie kann man anhand eines gelabelten Datensatzes $(x^m, k^m)$ der Größe M und linearer Regression die unbekannten Parameter $w_i$ und $b$ lernen?


### Lösung - Aufgabe 3

Wir wenden $\ln$ auf beiden Seiten der Gleichung an, also

$\sum_i w_i \ln x_i \gtrless \ln b$

$\Leftrightarrow \sum_i (w_i \ln x_i) - \ln b \gtrless 0$

$\Leftrightarrow \vec{w} \cdot \vec{x} \gtrless 0$ 

mit

$\vec{w} = \begin{pmatrix} w_1 \\ \vdots \\w_n \\ -\ln b \end{pmatrix}, \qquad \vec{x} = \begin{pmatrix}\ln x_1 \\ \vdots \\ \ln x_n \\ 1 \end{pmatrix}.$

Damit haben wir ein lineares Klassifikationsproblem wie in Aufgabe 1 mit den Daten $(\ln x^m, k^m)$ (komponentenweise Anwendung von $\ln$ auf Vektor $x$. 

## Aufgabe 4 - Logische Netzwerke

Wir betrachten die boolsche Funktion

$$y = (x_1 \lor \overline{x_2})\land (\overline{x_1}\lor x_3),$$
welche jedem Tripel $x = (x_1, x_2, x_3)$ boolscher Variablen, $x_i \in \{0, 1\}$ (Input) einen boolschen Wert $y\in \{0, 1\}$ (Output) zuweist.

a) Konstruieren Sie ein Feed-Forward-Netzwerk mit Schwellwert-Neuronen (Neuronen mit der Stufenfunktion), welches diese Funktion implementiert. 

Wie viele Neuronen und wieviele Schichten werden gebraucht? 

Wie müssen die Neuronen verbunden werden? 

Wie sind die Gewichte und Schwellwerte der Neuronen?

Hinweis: Konstruieren Sie die Schwellwert-Neuronen so, dass 0 oder 1 ausgegeben wird, je nachdem, ob der Eingang über oder unter dem Schwellwert liegt. Wählen Sie als Gewicht für negierte Inputs -1 und für nicht-negierte Inputs +1. Überlegen Sie sich, wie der Schwellwert bei einem logischen Und $\land$ bzw. einem logischen Oder $\lor$ gewählt werden muss.

b) Generalisieren Sie dieses Vorgehen auf beliebige boolsche Funktionen, d.h. beliebige Funktionen $f: \{0, 1\}^n \mapsto \{0, 1\}$.

c) Argumentieren Sie ferner, dass jede boolsche Funktion nur mit einem Feed-Forward-Netzwerk mit nur einer versteckten (hidden) Schicht realisiert werden kann. 

Welches Netzwerk erhält man beispielsweise für die Funktion
$$y = (x_1 \lor \overline{x_2}) \land x_3$$

### Lösung - Aufgabe 4
a) Konstruiere zuerst Standard-Funktionen für *Negation*, *logisches Und* $\land$, und *logisches Oder* $\lor$.

Für *Negation* wähle Gewicht $-1$ und Schwellwert $-\frac{1}{2}$.

Für $\lor$ wähle als Gewicht für negierte Inputs $-1$ und nicht-negierte $+1$. Als Schwellwert wähle Summe aller Gewichte negierter Inputs und addiere 0.5, also $\sum "-1" + 0.5$.

Mathematischer: Angenommen, wir haben eine Disjunktion $\bigvee_i x_i^{a_i}$ für boolsche Variablen $x_i\in \{0, 1\}$ und $a_i\in \{0, 1\}$, wobei $x_i^0 = \bar{x}_i$ und $x_i^1 = x_i$ ist. Wir wollen ein Schwellwert-Neuron konstruieren mit $o = f_t(\sum_i w_i x_i)$. $f_t(x)$ ist 1, falls $\sum_i w_i x_i > t$ und 0, falls $\sum_i w_i x_i < t$. Oben in Worten gefasstes lässt sich formulieren als $w_i = (-1)^{1-a_i}$. Der Schwellwert $t$ ergibt sich aus $t = \sum_{i: a_i=0} w_i + 0.5 = -\sum_{i: a_i=0} 1 + 0.5$. 

Für $\land$ wähle als Gewicht für negierte Inputs $-1$ und nicht-negierte $+1$. Als Schwellwert wähle Summe aller Gewichte nicht-negierter Inputs und subtrahiere 0.5, also $\sum "+1" - 0.5$.

Mathematischer: Angenommen, wir haben eine Konjunktion $\bigwedge_i x_i^{a_i}$ für boolsche Variablen $x_i\in \{0, 1\}$ und $a_i\in \{0, 1\}$, wobei $x_i^0 = \bar{x}_i$ und $x_i^1 = x_i$ ist. Wir wollen ein Schwellwert-Neuron konstruieren mit $o = f_t(\sum_i w_i x_i)$. $f_t(x)$ ist 1, falls $\sum_i w_i x_i > t$ und 0, falls $\sum_i w_i x_i < t$. Oben in Worten gefasstes lässt sich formulieren als $w_i = (-1)^{1-a_i}$. Der Schwellwert $t$ ergibt sich aus $t = \sum_{i: a_i=1} w_i - 0.5 = \sum_{i: a_i=1} 1 - 0.5$. 

Damit kann man nun das Netzwerk für die gegebene Funktion aufbauen. Zuerst betrachten wir die Wahrheitstabelle. Darin repräsentieren gleiche Farben einander entsprechende Ausgänge.

![Wahrheitstabelle](https://cloudstore.zih.tu-dresden.de/index.php/s/mcMXzTWfmqRtn6K/download/truthtable.png)

Anschließend zeichnen wir das Netzwerk. Das Netzwerk hat die Eingänge $x_1$, $x_2$ und $x_3$. In der verborgenen Ebene befinden sich zwei Schwellwert-Neuronen mit dem Schwellwert -0.5. Diese beiden Neuronen werten die Oder $\lor$ Verknüpfungen in den Klammern aus. In der Ausgangsebene befindet sich ein Neuron mit dem Schwellwert 1.5. Dieses Neuron wertet die Und $\land$ Verknüpfung der geklammerten Ausdrücke aus.

![Netzwerk A3a](https://cloudstore.zih.tu-dresden.de/index.php/s/HwtxzALf4max8b6/download/task3a.png)

b, c) Wir können jede boolsche Funktion in konjunktive oder disjunktive Normalfunktion umwandeln (KNF oder DNF). Damit können wir in der Hidden-Schicht die Klammern auswerten und dann in der Output-Schicht die geklammerten Ausdrücke zusammenfassen. 

![Netzwerk A3bc](https://cloudstore.zih.tu-dresden.de/index.php/s/jBy3kofwGtAKsZG/download/task3b.png)

## Aufgabe 5 - Anzahl lernbarer Parameter

Gegeben sei ein Netzwerk mit einer Input-Schicht, einer Hidden-Schicht und einer Output-Schicht. Die Input-Schicht hat $i$ Neuronen. Die Hidden-Schicht hat $h$ Neuronen. Die Output-Schicht hat $o$ Neuronen. Die Input-Schicht sei vollständig mit der Hidden-Schicht verbunden. Die Hidden-Schicht sei vollständig mit der Output-Schicht verbunden.

a) Wieviele Parameter müssen wir in diesem Netzwerk optimieren?
 Was ergibt sich für $i =4$, $h = 3$ und $o = 2$?

*Hinweis:* Die Bias-Neuronen kommen zusätzlich noch hinzu. In der Output-Schicht befinden sich keine Bias Neuronen. Versuchen Sie sich zu erklären, warum das so ist.

b) Zeichen Sie das Netz!

### Lösung - Aufgabe 5

a) Wir haben insgesamt 

$$N = ih + ho + h + o = h(i+o+1) + o$$

Gewichte, die wir optimieren müssen. Für die gegebenen Werte ergeben sich also 

$$N = 3(4+2+1) + 2 = 23$$
Gewichte.

b) 

![Netzwerk A4](https://cloudstore.zih.tu-dresden.de/index.php/s/jSHxcX4cE7rKSXc/download/task4.png)