# Python-Grundlagen mit Numpy

Diese Übung gibt Ihnen eine kurze Einführung in Python. Selbst wenn Sie Python schon einmal benutzt haben, wird Ihnen dies helfen, sich mit den Funktionen vertraut zu machen, die wir brauchen werden.  

**Hinweise:**
- Wir verwenden Python 3.
- Vermeiden Sie for-Schleifen und while-Schleifen, es sei denn, Sie werden ausdrücklich dazu aufgefordert.
- Nachdem Sie Ihre Funktion kodiert haben, führen Sie die Zelle direkt darunter aus, um zu überprüfen, ob das Ergebnis korrekt ist.

**Nach dieser Aufgabe können SIe:**
- Jupyter Notebooks verwenden
- Numpy-Funktionen und Numpy-Matrix-/Vektoroperationen verwenden
- das Konzept des "Broadcasting" verstehen
- In der Lage sein, Code zu vektorisieren

Los geht's!

## Table of Contents
- [About iPython Notebooks](#0)
    - [Exercise 1](#ex-1)
- [1 - Building basic functions with numpy](#1)
    - [1.1 - sigmoid function, np.exp()](#1-1)
        - [Exercise 2 - basic_sigmoid](#ex-2)
        - [Exercise 3 - sigmoid](#ex-3)
    - [1.2 - Sigmoid Gradient](#1-2)
        - [Exercise 4 - sigmoid_derivative](#ex-4)
    - [1.3 - Reshaping arrays](#1-3)
        - [Exercise 5 - image2vector](#ex-5)
    - [1.4 - Normalizing rows](#1-4)
        - [Exercise 6 - normalize_rows](#ex-6)
        - [Exercise 7 - softmax](#ex-7)
- [2 - Vectorization](#2)
    - [2.1 Implement the L1 and L2 loss functions](#2-1)
        - [Exercise 8 - L1](#ex-8)
        - [Exercise 9 - L2](#ex-9)

<a name='0'></a>
## Über Jupyter Notebooks ##

Jupyter Notebooks sind interaktive Programmierumgebungen, die in eine Webseite eingebettet sind. In diesem Kurs werden wir Jupyter Notebooks verwenden. Sie können Zellen ausführen, indem Sie entweder die Tastenkombination "SHIFT "+"ENTER" drücken oder in der oberen Leiste des Notizbuchs auf "Zelle ausführen" (gekennzeichnet durch ein Play-Symbol) klicken.

<a name='ex-1'></a>
### Aufgabe 1
Setzen Sie test in der Zelle unten auf `"Hello World"`, um "Hello World" auszugeben, und führen Sie die beiden Zellen unten aus.

In [1]:
# (≈ 1 line of code)
# test = 
# YOUR CODE STARTS HERE
test = "Hello World"
# YOUR CODE ENDS HERE

In [2]:
print ("test: " + test)

test: Hello World


**Erwartete Ausgabe:**:
test: Hello World

<a name='1'></a>
## 1 - Grundlegende Funktionen mit Numpy erstellen ##

Numpy ist das wichtigste Paket für das wissenschaftliche Rechnen in Python. Es wird von einer großen Community gepflegt (www.numpy.org). In dieser Übung werden Sie mehrere wichtige Numpy-Funktionen wie `np.exp`, `np.log` und `np.reshape` kennenlernen. Sie benötigen diese Funktionen für zukünftige Aufgaben.

<a name='1-1'></a>
### 1.1 - Sigmoidfunktion, np.exp() ###

Bevor Sie `np.exp()` verwenden, werden Sie zunächst `math.exp()` benutzen, um die Sigmoidfunktion zu implementieren. Sie werden dann sehen, warum `np.exp()` der Funktion `math.exp()` vorzuziehen ist.

<a name='ex-2'></a>
### Übung 2 - basic_sigmoid
Erstellen Sie eine Funktion, die das Sigmoid einer reellen Zahl x liefert. Verwenden Sie `math.exp(x)` für die Exponentialfunktion.

**Erinnerung**:
$sigmoid(x) = \frac{1}{1+e^{-x}}$ ist manchmal auch als logistische Funktion bekannt. Sie ist eine nichtlineare Funktion, die nicht nur im Machine Learning (Logistische Regression), sondern auch im Deep Learning verwendet wird.

<img src="images/Sigmoid.png" style="width:500px;height:228px;">

Um auf eine Funktion zu verweisen, die zu einem bestimmten Paket gehört, können Sie sie mit `Paketname.Funktion()` aufrufen. Führen Sie den folgenden Code aus, um ein Beispiel mit `math.exp()` zu sehen.

In [3]:
import math
from public_tests import *

# GRADED FUNCTION: basic_sigmoid

def basic_sigmoid(x):
    """
    Compute sigmoid of x.

    Arguments:
    x -- A scalar

    Return:
    s -- sigmoid(x)
    """
    # (≈ 1 line of code)
    # s = 
    # YOUR CODE STARTS HERE
    s = 1 / (1 + math.exp(-x))
    # YOUR CODE ENDS HERE
    
    return s

In [4]:
print("basic_sigmoid(1) = " + str(basic_sigmoid(1)))

basic_sigmoid_test(basic_sigmoid)

basic_sigmoid(1) = 0.7310585786300049
[92m All tests passed.


Eigentlich verwenden wir die "math"-Bibliothek beim Deep Learning nur selten, weil die Eingaben der Funktionen reelle Zahlen sind. Beim Deep Learning verwenden wir meist Matrizen und Vektoren. Aus diesem Grund ist numpy nützlicher. 

In [5]:
### One reason why we use "numpy" instead of "math" in Deep Learning ###

x = [1, 2, 3] # x becomes a python list object
basic_sigmoid(x) # you will see this give an error when you run it, because x is a vector.

TypeError: bad operand type for unary -: 'list'

Wenn nämlich $ x = (x_1, x_2, ..., x_n)$ ein Zeilenvektor ist, dann wendet `np.exp(x)` die Exponentialfunktion auf jedes Element von x an. Die Ausgabe lautet also: `np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})`

In [6]:
import numpy as np

# example of np.exp
t_x = np.array([1, 2, 3])
print(np.exp(t_x)) # result is (exp(1), exp(2), exp(3))

[ 2.71828183  7.3890561  20.08553692]


Wenn x ein Vektor ist, gibt eine Python-Operation wie $s = x + 3$ oder $s = \frac{1}{x}$ s als einen Vektor der gleichen Größe wie x aus.

In [7]:
# example of vector operation
t_x = np.array([1, 2, 3])
print (t_x + 3)

[4 5 6]


Wann immer Sie weitere Informationen zu einer Numpy-Funktion benötigen, empfehlen wir Ihnen einen Blick in [die offizielle Dokumentation] (https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html). 

Sie können auch eine neue Zelle im Notizbuch erstellen und `np.exp?` (zum Beispiel) schreiben, um schnellen Zugriff auf die Dokumentation zu erhalten.

<a name='ex-3'></a>
### Aufgabe 3 - sigmoid
Implementieren Sie die Funktion sigmoid mit numpy. 

**Anleitung**: x kann nun entweder eine reelle Zahl, ein Vektor oder eine Matrix sein. Die Datenstrukturen, die wir in numpy verwenden, um diese Formen (Vektoren, Matrizen...) darzustellen, heißen numpy-Arrays. Mehr brauchen Sie im Moment nicht zu wissen.
$$ \text{Für } x \in \mathbb{R}^n \text{, } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1 \\
    x_2 \\
    ...  \\
    x_n \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{1} $$

In [8]:
def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """
    
    # (≈ 1 line of code)
    # s = 
    # YOUR CODE STARTS HERE
    s = 1 / (1 + np.exp(-x))
    # YOUR CODE ENDS HERE
    
    return s

In [9]:
t_x = np.array([1, 2, 3])
print("sigmoid(t_x) = " + str(sigmoid(t_x)))

sigmoid_test(sigmoid)

sigmoid(t_x) = [0.73105858 0.88079708 0.95257413]
[92m All tests passed.


<a name='1-2'></a>
### 1.2 - Sigmoid Gradient

Wie Sie in der Vorlesung gesehen haben, müssen Sie Gradienten berechnen, um Verlustfunktionen mit Backpropagation zu optimieren. Lassen Sie uns Ihre erste Gradientenfunktion schreiben.

<a name='ex-4'></a>
### Aufgabe 4 - sigmoid_derivative
Implementieren Sie die Funktion sigmoid_grad(), um den Gradienten der Sigmoidfunktion in Bezug auf ihre Eingabe x zu berechnen. Die Formel lautet: 

$$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$

Diese Funktion wird häufig in zwei Schritten kodiert:
1. Berechnen Sie s als Sigmoid von x
2. Berechne $\sigma'(x) = s(1-s)$

In [10]:
def sigmoid_derivative(x):
    """
    Compute the gradient (also called the slope or derivative) of the sigmoid function with respect to its input x.
    You can store the output of the sigmoid function into variables and then use it to calculate the gradient.
    
    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """
    
    #(≈ 2 lines of code)
    # s = 
    # ds = 
    # YOUR CODE STARTS HERE
    s = 1 / (1 + np.exp(-x))
    ds = s * ( 1 - s)
    # YOUR CODE ENDS HERE
    
    return ds

In [11]:
t_x = np.array([1, 2, 3])
print ("sigmoid_derivative(t_x) = " + str(sigmoid_derivative(t_x)))

sigmoid_derivative_test(sigmoid_derivative)

sigmoid_derivative(t_x) = [0.19661193 0.10499359 0.04517666]
[92m All tests passed.


<a name='1-3'></a>
### 1.3 - Umformen von Arrays ###

Zwei häufige Numpy-Funktionen, die beim Deep Learning verwendet werden, sind [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) und [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html). 
- X.shape wird verwendet, um die Form (Dimension) einer Matrix/eines Vektors X zu erhalten. 
- X.reshape(...) wird verwendet, um X in eine andere Dimension umzuformen. 

In der Informatik wird zum Beispiel ein Bild durch ein 3D-Array der Form $(Länge, Höhe, Tiefe = 3)$ dargestellt. Wenn Sie jedoch ein Bild als Eingabe für einen Algorithmus lesen, wandeln Sie es in einen Vektor der Form $(Länge*Höhe*3, 1)$ um. Mit anderen Worten, man "entrollt" oder formt das 3D-Array in einen 1D-Vektor um.

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

<a name='ex-5'></a>
### Aufgabe 5 - image2vector
Implementieren Sie `image2vector()`, das eine Eingabe der Form (Länge, Höhe, 3) annimmt und einen Vektor der Form (Länge\*Höhe\*3, 1) zurückgibt. Wenn Sie zum Beispiel ein Array v der Form (a, b, c) in einen Vektor der Form (a*b,c) umformen möchten, würden Sie dies wie folgt tun:
```` python
v = v.reshape((v.shape[0] * v.shape[1], v.shape[2])) # v.form[0] = a ; v.form[1] = b ; v.form[2] = c
````

- Bitte geben Sie die Abmessungen des Bildes nicht als Konstante ein. Schauen Sie stattdessen mit `image.shape[0]` nach, welche Größen Sie benötigen, usw. 
- Sie können v = v.reshape(-1, 1) verwenden. Stellen Sie nur sicher, dass Sie verstehen, warum es funktioniert.

In [12]:
def image2vector(image):
    """
    Argument:
    image -- a numpy array of shape (length, height, depth)
    
    Returns:
    v -- a vector of shape (length*height*depth, 1)
    """
    
    # (≈ 1 line of code)
    # v =
    # YOUR CODE STARTS HERE
    v = image.reshape((image.shape[2] * image.shape[1] * image.shape[0], 1))
    # YOUR CODE ENDS HERE
    
    return v

In [13]:
# This is a 3 by 3 by 2 array, typically images will be (num_px_x, num_px_y,3) where 3 represents the RGB values
t_image = np.array([[[ 0.67826139,  0.29380381],
                     [ 0.90714982,  0.52835647],
                     [ 0.4215251 ,  0.45017551]],

                   [[ 0.92814219,  0.96677647],
                    [ 0.85304703,  0.52351845],
                    [ 0.19981397,  0.27417313]],

                   [[ 0.60659855,  0.00533165],
                    [ 0.10820313,  0.49978937],
                    [ 0.34144279,  0.94630077]]])

print ("image2vector(image) = " + str(image2vector(t_image)))

image2vector_test(image2vector)

image2vector(image) = [[0.67826139]
 [0.29380381]
 [0.90714982]
 [0.52835647]
 [0.4215251 ]
 [0.45017551]
 [0.92814219]
 [0.96677647]
 [0.85304703]
 [0.52351845]
 [0.19981397]
 [0.27417313]
 [0.60659855]
 [0.00533165]
 [0.10820313]
 [0.49978937]
 [0.34144279]
 [0.94630077]]
[92m All tests passed.


<a name='1-4'></a>
### 1.4 - Zeilen normalisieren

Eine weitere gängige Technik, die wir beim maschinellen Lernen und Deep Learning verwenden, ist die Normalisierung unserer Daten. Dies führt oft zu einer besseren Leistung, da der Gradientenabstieg nach der Normalisierung schneller konvergiert. Unter Normalisierung verstehen wir hier die Änderung von x in $ \frac{x}{\| x\|} $ (Division jedes Zeilenvektors von x durch seine Norm).

Zum Beispiel, wenn 
$$x = \begin{bmatrix}
        0 & 3 & 4 \\
        2 & 6 & 4 \\
\end{bmatrix}\tag{3}$$ 
dann 
$$\| x\| = \text{np.linalg.norm(x, axis=1, keepdims=True)} = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{4} $$
und
$$ x\_normalisiert = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{5}$$ 

Beachten Sie, dass Sie Matrizen unterschiedlicher Größe teilen können und es funktioniert einwandfrei: Das nennt man Broadcasting und Sie werden es später kennenlernen.

Mit `keepdims=True` wird das Ergebnis korrekt auf das ursprüngliche x übertragen.

`Achse=1` bedeutet, dass Sie die Norm zeilenweise erhalten. Wenn Sie die Norm spaltenweise benötigen, müssen Sie `axis=0` setzen. 

numpy.linalg.norm hat einen weiteren Parameter `ord`, mit dem die Art der Normalisierung angegeben wird (in der folgenden Übung werden Sie die 2-Norm verwenden). Um sich mit den Arten der Normalisierung vertraut zu machen, können Sie [numpy.linalg.norm](https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html) besuchen.

<a name='ex-6'></a>
### Aufgabe 6 - normalize_rows
Implementieren Sie normalize_rows(), um die Zeilen einer Matrix zu normalisieren. Nach Anwendung dieser Funktion auf eine Eingabematrix x sollte jede Zeile von x ein Vektor mit Einheitslänge (d.h. Länge 1) sein.

In [14]:
def normalize_rows(x):
    """
    Implement a function that normalizes each row of the matrix x (to have unit length).
    
    Argument:
    x -- A numpy matrix of shape (n, m)
    
    Returns:
    x -- The normalized (by row) numpy matrix. You are allowed to modify x.
    """
    
    #(≈ 2 lines of code)
    # Compute x_norm as the norm 2 of x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    # x_norm =
    # Divide x by its norm.
    # x =
    # YOUR CODE STARTS HERE
    x_norm = np.linalg.norm(x,ord = 2,axis=1,keepdims=True)    
    x = x / x_norm
    # YOUR CODE ENDS HERE

    return x

In [15]:
x = np.array([[0., 3., 4.],
              [1., 6., 4.]])
print("normalizeRows(x) = " + str(normalize_rows(x)))

normalizeRows_test(normalize_rows)

normalizeRows(x) = [[0.         0.6        0.8       ]
 [0.13736056 0.82416338 0.54944226]]
[92m All tests passed.


**Hinweis**:
In normalize_rows() können Sie versuchen, die Dimensionen / Shapes von x_norm und x auszugeben, und dann die Berechnung erneut durchführen. Sie werden feststellen, dass sie unterschiedliche Dimensionen / Shapes haben. Das ist normal, denn x_norm nimmt die Norm jeder Zeile von x. x_norm hat also die gleiche Anzahl von Zeilen, aber nur 1 Spalte. Wie funktionierte es also, wenn man x durch x_norm teilte? Das nennt man Broadcasting (siehe unten).

<a name='ex-7'></a>
### Übung 7 - softmax
Implementieren Sie nun eine softmax-Funktion mit numpy. Sie können sich softmax als eine Normalisierungsfunktion vorstellen, die verwendet wird, wenn Ihr Algorithmus zwei oder mehr Klassen klassifizieren muss. Sie werden im Laufe der Vorlesung mehr über softmax lernen.

**Anweisungen**:
- $\text{für} x \in \mathbb{R}^{1\times n} \text{, }$

\begin{align*}
 softmax(x) &= softmax\left(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}\right) \\&= \begin{bmatrix}
    \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} 
\end{align*}

- $\text{für eine Matrix } x \in \mathbb{R}^{m \times n} \text{ bildet } x_{ij} \text{ das Element in der } i. \text{ Zeile und } j. \text{ Spalte von x ab, also haben wir:} $  

\begin{align*}
softmax(x) &= softmax\begin{bmatrix}
            x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
            x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
            \vdots & \vdots & \vdots & \ddots & \vdots \\
            x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
            \end{bmatrix} \\ \\&= 
 \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} \\ \\ &= \begin{pmatrix}
    softmax\text{(erste Reihe von x)}  \\
    softmax\text{(zweite Reihe von x)} \\
    \vdots  \\
    softmax\text{(letzte Reihe von x)} \\
\end{pmatrix} 
\end{align*}

**Anmerkungen:**
Beachten Sie, dass im weiteren Verlauf der Vorlesung "m" für die "Anzahl der Trainingsbeispiele" verwendet wird und jedes Trainingsbeispiel in einer eigenen Spalte der Matrix steht. Außerdem befindet sich jedes Merkmal in einer eigenen Zeile (jede Zeile enthält Daten für dasselbe Merkmal).  

In dieser Programmierpraxis geht es jedoch nur darum, sich mit Python vertraut zu machen, daher verwenden wir die übliche mathematische Notation $m \times n$  
wobei $m$ für die Anzahl der Zeilen und $n$ für die Anzahl der Spalten steht.

In [16]:
def softmax(x):
    """Calculates the softmax for each row of the input x.

    Your code should work for a row vector and also for matrices of shape (m,n).

    Argument:
    x -- A numpy matrix of shape (m,n)

    Returns:
    s -- A numpy matrix equal to the softmax of x, of shape (m,n)
    """
    
    #(≈ 3 lines of code)
    # Apply exp() element-wise to x. Use np.exp(...).
    # x_exp = ...

    # Create a vector x_sum that sums each row of x_exp. Use np.sum(..., axis = 1, keepdims = True).
    # x_sum = ...
    
    # Compute softmax(x) by dividing x_exp by x_sum. It should automatically use numpy broadcasting.
    # s = ...
    
    # YOUR CODE STARTS HERE
    x_exp = np.exp(x)
    x_sum = np.sum(x_exp, axis = 1, keepdims = True)
    s = x_exp / x_sum
    # YOUR CODE ENDS HERE
    
    return s

In [17]:
t_x = np.array([[9, 2, 5, 0, 0],
                [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(t_x)))

softmax_test(softmax)

softmax(x) = [[9.80897665e-01 8.94462891e-04 1.79657674e-02 1.21052389e-04
  1.21052389e-04]
 [8.78679856e-01 1.18916387e-01 8.01252314e-04 8.01252314e-04
  8.01252314e-04]]
[92m All tests passed.


#### Hinweise
- Wenn Sie die Formen von x_exp, x_sum und s oben ausgeben und die Bewertungszelle erneut ausführen, werden Sie sehen, dass x_sum die Form (2,1) hat, während x_exp und s die Form (2,5) haben. **x_exp/x_sum** funktioniert aufgrund desBroadcastings.

<a name='2'></a>
## 2 - Vektorisierung


Beim Deep Learning hat man es mit sehr großen Datensätzen zu tun. Daher kann eine rechnerisch nicht optimale Funktion zu einem großen Engpass in Ihrem Algorithmus werden und zu einem Modell führen, das ewig braucht, um zu trainieren. Um sicherzustellen, dass Ihr Code rechnerisch effizient ist, werden Sie Vektorisierung verwenden. Versuchen Sie zum Beispiel, den Unterschied zwischen den folgenden Implementierungen des Skalarprodukts zu erkennen.

In [18]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### CLASSIC DOT PRODUCT OF VECTORS IMPLEMENTATION ###
tic = time.process_time()
dot = 0

for i in range(len(x1)):
    dot += x1[i] * x2[i]
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC OUTER PRODUCT IMPLEMENTATION ###
tic = time.process_time()
outer = np.zeros((len(x1), len(x2))) # we create a len(x1)*len(x2) matrix with only zeros

for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i] * x2[j]
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC ELEMENTWISE IMPLEMENTATION ###
tic = time.process_time()
mul = np.zeros(len(x1))

for i in range(len(x1)):
    mul[i] = x1[i] * x2[i]
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC GENERAL DOT PRODUCT IMPLEMENTATION ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.process_time()
gdot = np.zeros(W.shape[0])

for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j] * x1[j]
toc = time.process_time()
print ("gdot = " + str(gdot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

dot = 278
 ----- Computation time = 0.04212900000011288ms
outer = [[81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [63. 14. 14. 63.  0. 63. 14. 35.  0.  0. 63. 14. 35.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0

In [19]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### VECTORIZED DOT PRODUCT OF VECTORS ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### VECTORIZED OUTER PRODUCT ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### VECTORIZED ELEMENTWISE MULTIPLICATION ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED GENERAL DOT PRODUCT ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("gdot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

dot = 278
 ----- Computation time = 0.04644799999997673ms
outer = [[81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [63 14 14 63  0 63 14 35  0  0 63 14 35  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]]
 ----- Computation time = 0.04361199999980414ms
elementwise multiplication = [81  4 10  0  0 63 10  0  0  0 81  4 25  0  0]
 ----- Computation time = 0.023083999999951033ms
gdot = [20.43849356 29.46984277 12.14214

Wie Sie vielleicht bemerkt haben, ist die vektorisierte Implementierung viel sauberer und effizienter. Bei größeren Vektoren/Matrizen werden die Unterschiede in der Laufzeit noch größer. 

**Anmerkung**: `np.dot()` führt eine Matrix-Matrix- oder Matrix-Vektor-Multiplikation durch. Dies unterscheidet sich von `np.multiply()` und dem `*`-Operator (der äquivalent zu `.*` in Matlab/Octave ist), der eine elementweise Multiplikation durchführt.

<a name='2-1'></a>
### 2.1 Implementierung der Verlustfunktionen L1 und L2

<a name='ex-8'></a>
### Aufgabe 8 - L1 
Implementieren Sie die numpy-vektorisierte Version der L1-Verlustfunktion. Vielleicht finden Sie die Funktion abs(x) (absoluter Wert von x) dabei nützlich.

**Erinnerung**:
- Die Verlustfunktion wird verwendet, um die Leistung Ihres Modells zu bewerten. Je größer der Verlust ist, desto mehr weichen Ihre Vorhersagen ($ \hat{y} $) von den wahren Werten ($y$) ab. Beim Deep Learning verwenden Sie Optimierungsalgorithmen wie Gradient Descent, um Ihr Modell zu trainieren und die Kosten zu minimieren.
- Der L1-Verlust ist definiert als:
$$\begin{align*} &\mathscr{L_1}(\hat{y}, y) = \sum_{i=0}^{m-1}|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [20]:

def L1(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L1 loss function defined above
    """
    
    #(≈ 1 line of code)
    # loss = 
    # YOUR CODE STARTS HERE
    loss = sum(abs(y-yhat))
    # YOUR CODE ENDS HERE
    
    return loss

In [21]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat, y)))

L1_test(L1)

L1 = 1.1
[92m All tests passed.


<a name='ex-9'></a>
### Aufgabe 9 - L2
Implementieren Sie die numpy-vektorisierte Version des L2-Verlustes. Es gibt mehrere Möglichkeiten, den L2-Verlust zu implementieren, aber vielleicht ist die Funktion np.dot() nützlich. Zur Erinnerung: Wenn $x = [x_1, x_2, ..., x_n]$, dann ist `np.dot(x,x)` = $\sum_{j=1}^n x_j^{2}$. 

- L2-Verlust ist definiert als $$\begin{align*} & \mathscr{L_2}(\hat{y},y) = \sum_{i=0}^{m-1}(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [22]:
def L2(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L2 loss function defined above
    """
    
    #(≈ 1 line of code)
    # loss = ...
    # YOUR CODE STARTS HERE
    loss = sum((y-yhat)**2)
    # YOUR CODE ENDS HERE
    
    return loss

In [23]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])

print("L2 = " + str(L2(yhat, y)))

L2_test(L2)

L2 = 0.43
[92m All tests passed.


Herzlichen Glückwunsch zur Bewältigung dieser Übung. Wir hoffen, dass diese kleine Aufwärmübung Ihnen bei den zukünftigen Aufgaben hilft.

<b>Fazit:</b>
    
- Die Vektorisierung ist beim Deep Learning sehr wichtig. Sie sorgt für Berechnungseffizienz und Klarheit.
- Sie haben den L1- und L2-Verlust kennengelernt.
- Sie sind nun mit vielen Numpy-Funktionen wie np.sum, np.dot, np.multiply, np.maximum usw. vertraut.