### Find partial derivatives of neuronal network
![image.png](attachment:image.png)

#### Loss Funktion
$$L(y, \hat y)=\frac{1}{2}(\hat y-y)^2$$

#### Activation function
$$\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} = \frac{2}{1+e^{-2x}}-1 $$
and it's derivative:
$$\tanh'(x)=-1-\tanh^2(x) = 1- \frac{(e^x-e^{-x})^2}{(e^x+e^{-x})^2} $$

Net architecture:
2 inputs $x_1$, $x_2$ and a bias term $b=1$, fully connected to 4 neurons each summing up the inputs and activated with the tanh-function. As a sample the first connection from input $x_1$ to neuron $h_1$ is shown and has the weight $w_{1}$. The neurons of the hidden layer are fully connected to the output neuron $\hat y$. Also a bias term is added. As another example the connection from $h_1$ to $\hat y$ is weighted with $w_{2}$. The output neuron is activated with the $\tanh$ function as well.

What is the partial derivative of the loss function $L$ with respect to the weight $w_{1}$?

$$\frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial \hat y} \cdot \frac{\partial \hat y}{\partial w_{1}}$$


What is the partial derivative of the loss function $L$ with respect to the weight $w_{2}$ (hidden layer neuron $h_1$ to output layer)?

$$\frac{\partial L}{\partial w_{2}} = \frac{\partial L}{\partial \hat y} \cdot \frac{\partial \hat y}{\partial h_{1}} \cdot \frac{\partial h_{1}}{\partial w_{2}}$$
#### Calculating a forward pass

$$\hat y = \tanh\Biggl(\sum_{i=1}^{4} w_{i} \cdot \tanh\Bigl(\sum_{j=1}^{2} x_{j} \cdot w_{j} + b\Bigr) + b\Biggr)$$

To calculate the partial derivatives with respect to $w_1$ and $w_2$, let's start by calculating a forward pass through the network to get an expression for $\hat{y}$. Given the architecture you described, the forward pass can be written as:

$$\hat{y} = \tanh\left(\sum_{i=1}^{4} w_i \cdot \tanh\left(\sum_{j=1}^{2} x_j \cdot w_j + b\right) + b\right)$$

Now, let's calculate the partial derivative of the loss function $L$ with respect to $w_1$ and $w_2$.

1. Partial derivative with respect to $w_1$:

   Using the chain rule, we have:

   $$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial h_1} \cdot \frac{\partial h_1}{\partial w_1}$$

   To calculate each term separately:
   - $\frac{\partial L}{\partial \hat{y}}$ can be obtained by differentiating the loss function with respect to $\hat{y}$:
   
     $$\frac{\partial L}{\partial \hat{y}} = \hat{y} - y$$
     
   - $\frac{\partial \hat{y}}{\partial h_1}$ can be obtained by differentiating the activation function with respect to $h_1$:
   
     $$\frac{\partial \hat{y}}{\partial h_1} = \tanh'(\sum_{i=1}^{4} w_i \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b) + b)$$
     
   - $\frac{\partial h_1}{\partial w_1}$ is simply the value of $x_1$ (since $w_1$ multiplies $x_1$ in the network).

   Therefore, the partial derivative with respect to $w_1$ is:
   
   $$\frac{\partial L}{\partial w_1} = (\hat{y} - y) \cdot \tanh'(\sum_{i=1}^{4} w_i \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b) + b) \cdot x_1$$

2. Partial derivative with respect to $w_2$:

   Using the chain rule, we have:
   
   $$\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial h_1} \cdot \frac{\partial h_1}{\partial w_2}$$

   To calculate each term separately:
   - $\frac{\partial L}{\partial \hat{y}}$ is the same as before: $\hat{y} - y$.
   
   - $\frac{\partial \hat{y}}{\partial h_1}$ remains the same: $\tanh'(\sum_{i=1}^{4} w_i \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b) + b)$.
   
   - $\frac{\partial h_1}{\partial w_2}$ is the value of $\tanh(\sum_{j=1}^{2} x_j \cdot w_j + b)$ (

since $w_2$ multiplies $\tanh(\sum_{j=1}^{2} x_j \cdot w_j + b)$ in the network).
   
   Therefore, the partial derivative with respect to $w_2$ is:
   
   $$\frac{\partial L}{\partial w_2} = (\hat{y} - y) \cdot \tanh'(\sum_{i=1}^{4} w_i \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b) + b) \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b)$$

These expressions give you the partial derivatives of the loss function with respect to $w_1$ and $w_2$, respectively.
Yes, with the expression for the derivative of the hyperbolic tangent function, we can further simplify the formulas for the partial derivatives.

1. Partial derivative with respect to $w_1$:

   The derivative of the hyperbolic tangent function is given by:
   
   $$\tanh'(x) = 1 - \tanh^2(x)$$
   
   Substituting this into the expression for $\frac{\partial L}{\partial w_1}$:
   
   $$\frac{\partial L}{\partial w_1} = (\hat{y} - y) \cdot (1 - \tanh^2(\sum_{i=1}^{4} w_i \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b) + b)) \cdot x_1$$

2. Partial derivative with respect to $w_2$:

   Substituting the derivative of the hyperbolic tangent function, $\tanh'(x)$, into the expression for $\frac{\partial L}{\partial w_2}$:
   
   $$\frac{\partial L}{\partial w_2} = (\hat{y} - y) \cdot (1 - \tanh^2(\sum_{i=1}^{4} w_i \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b) + b)) \cdot \tanh(\sum_{j=1}^{2} x_j \cdot w_j + b)$$

These simplified expressions account for the derivative of the hyperbolic tangent function in the partial derivatives of the loss function with respect to $w_1$ and $w_2$.

---

# Beispielfragen

- Wie definieren wir „Maschinelles Lernen“?
Meine Antwort: Beim maschinellen Lernen wird ein Computerprogramm trainiert mit einer Erfahrung E, in Bezug auf eine Klasse voN Aufgaben T und Leistungsmaß P. Das Programm lernt mit Erfahrung E, wenn seine Leistung bei Aufgaben T, gemessen durch P, mit Erfahrung E zunimmt. E wäre ein Trainingsdatensatz, T wäre die Aufgabe, die das Programm lösen soll und P wäre die Kostenfunktion, die die Leistung des Programms misst.

- Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen?
Meine Antwort: Beim überwachten Lernen werden die Trainingsdaten mit den richtigen Antworten (Labels) geliefert. Beim unüberwachten Lernen werden die Trainingsdaten ohne die richtigen Antworten geliefert.

- Wie lernen wir in einem künstlichen neuronalen Netz "optimale" Gewichte?
Meine Antwort: Wir verwenden einen Optimierungsalgorithmus, der die Gewichte iterativ anpasst, um die Kostenfunktion zu minimieren. Ein Beispiel für einen Optimierungsalgorithmus ist der Gradientenabstieg.
Wir möchten diejenigen Parameter $\mathbf{w^*}$ finden, die den Fehler $J(\mathbf{w})$ über alle n Trainingsbeispiele $(\mathbf{x}, \mathbf{y}$ minimieren

$$\mathbf{w^*} = \argmin_{\mathbf{w}} J(\mathbf{w}) = \argmin_{\mathbf{w}} \sum_{i=1}^{n}L\Bigl(f\Bigl(\mathbf{x}^{(i)}, \mathbf{w}\Bigr), \mathbf{y}^{(i)}\Bigr)$$

- Möglichst einfaches neuronales Netz
Meine Antwort: Ein neuronales Netz mit nur einer Schicht, die aus einem Neuron besteht, das eine lineare Aktivierungsfunktion verwendet. Kostenfunktion wäre der MSE: $L(\hat{y}, y) = \frac{1}{2}\cdot(\hat{y} - y)^2$. $\frac{1}{2}$ einzubauen hat den Vorteil, dass man sich in der Ableitung eine Multiplikation spart.

- Varianten für Gradientenabstieg: Batch, Mini-Batch, Stochastic
    - Stochastic: In jeder Epoche wird jedes Beispiel genau ein Mal betrachtet. Der Gradient wird für jedes Beispiel berechnet und die Gewichte werden nach jedem Beispiel aktualisiert.
    - Batch: Es wird ein gemittelter Gradient über alle Beispiele berechnet und die Gewichte werden danach aktualisiert.
    - Mini-Batch: Jeder Batch ist ein Sample aus dem Trainingsdatensatz. Der Gradient wird für jeden Batch berechnet und die Gewichte werden nach jedem Batch aktualisiert. Er macht $n\over B$ Updates pro Epoche, wobei $n$ die Anzahl der Trainingsbeispiele und $B$ die Batchgröße ist.


- Wie können wir ein sinnvolles Fehlermaß bestimmen, wenn 10 Klassen erkannt werden
sollen und $y$ _one-hot-encoded_ ist?
Ein sinnvolles Fehlermaß ist die Kreuzentropie: $$H(\mathbf{X}, P, Q) = - \sum_{i=1}^{n}Q(x_i)\log_2 P(x_i)$$
Die Kreuzentropie ist ein Maß für die Ähnlichkeit zwischen zwei Wahrscheinlichkeitsverteilungen. In unserem Fall sind $P$ und $Q$ die Wahrscheinlichkeitsverteilungen der tatsächlichen und der vorhergesagten Klasse. Die Kreuzentropie ist minimal, wenn die beiden Verteilungen gleich sind.

- Was bedeutet es, wenn man im Zusammenhang mit dem Training von Überanpassung
spricht? Ein Modell ist überangepasst, wenn es nicht mehr auf ungesehene Daten generalisieren kann. Es hat sich zu sehr an die Trainingsdaten angepasst. Zentral dabei ist der Variance-Bias-Tradeoff. Ein komplexes Modell hat eine geringe Bias, aber eine hohe Varianz. Ein einfaches Modell hat eine hohe Bias, aber eine geringe Varianz. Ein überangepasstes Modell hat eine geringe Bias und eine hohe Varianz. Es modelliert sozusagen auch das Rauschen im Datensatz und kann deshalb nicht mehr auf ungesehene Daten generalisieren.

