# Python Grundlagen 9
## Numpy
***
In diesem Notebook wird behandelt:
- Arithmetische Operatoren
- Broadcasting
- Statistische Methoden
***

## 1. Arithmetische Operatoren
 `Numpy` ermöglicht es dir, mathematische Operationen auf Arrays in optimierter Weise durchzuführen. <br>
 * Wenn du eine der grundlegenden arithmetischen Operationen (`/`, `*`, `-`, `+`, `**`) zwischen einem Array und einem Wert ausführst, wird die Operation auf **jedes Element** des Arrays angewendet. <br>
 * Es ist auch möglich, eine arithmetische Operation **zwischen zwei Arrays** durchzuführen. Dabei wird die Operation zwischen **jedem Elementpaar** ausgeführt. <br>
 ```python
 # Erstellen von zwei Arrays mit je 2 Werten
 a = np.array([4, 10])
 b = np.array([6, 7])

 # Multiplikation zwischen zwei Arrays
 print(a * b)
 >>> [24, 70]
 ```

#### 1.1 Aufgaben:
> (a) Importiere das Paket **`numpy`** unter dem Namen **`np`**. <br>
>
> (b) Erstelle ein Array der Dimensionen 10x4, das mit Einsen gefüllt ist. <br>
>
> (c) Multipliziere mit Hilfe einer `for`-Schleife und der `enumerate`-Funktion jede Zeile mit ihrem Index. Um die Matrix zu modifizieren, **muss sie über Indizierung angesprochen werden**. <br>

In [1]:
# Deine Lösung:





#### Lösung:

In [None]:
import numpy as np

M = np.ones((10, 4))

# Für jede Reihe der Matrix M
for i, row in enumerate(M):
    # Multiplizieren wir die Reihe mit ihrem Index
    M[i,:] = row*i
    # Alternativ: M[i,:]* = i
    
print(M)

#### 
Wie oben erklärt, ermöglicht der `*`-Operator die Berechnung eines elementweisen Produkts zwischen Arrays. <br>
 Zum Beispiel: <br>
 $$    \begin{pmatrix} 
         5 & 1\\
         3 & 0\\
         \end{pmatrix}
      \times  \begin{pmatrix} 
         2 & 4\\
         0 & 8\\
         \end{pmatrix} 
      =  \begin{pmatrix} 
         10 & 4\\
          0 & 0\\
         \end{pmatrix} 
 $$ <br>
 Das Matrixprodukt im mathematischen Sinne kann mit der **`dot`**-Methode eines `numpy`-Arrays durchgeführt werden: <br>
 ```python
 # Erstellen von zwei Arrays der Größe 2x2
 M = np.array([[5, 1],
               [3, 0]])

 N = np.array([[2, 4],
               [0, 8]])

 # Matrixprodukt zwischen den zwei Arrays
 print(M.dot(N))
 >>> [[10, 28]
 >>>  [6, 12]]
 ```
 Wenn wir uns an das Matrixprodukt erinnern: <br>
 $$ M = \begin{pmatrix} 
            5 & 1\\
            3 & 0\\
         \end{pmatrix},
     N = \begin{pmatrix} 
            2 & 4\\
            0 & 8\\
         \end{pmatrix}$$ <br>
 $$ M N =  \begin{pmatrix} 
                5 & 1\\
                3 & 0\\
                \end{pmatrix} 
             \begin{pmatrix} 
             2 & 4\\
             0 & 8\\
             \end{pmatrix} 
           = \begin{pmatrix} 
                (5*2)+(1*0) & (5*4)+(1*8)\\
                (3*2)+(0*0) & (3*4)+(0*8)\\
             \end{pmatrix} 
           = \begin{pmatrix} 
           10 & 28\\
           6 & 12\\
           \end{pmatrix} 
   $$ <br>

Betrachten wir die folgende Matrix: <br>
$$ A = \begin{pmatrix} 
          1 & -1 \\
          -1 & 1 \\
       \end{pmatrix}
$$ <br>

> (d) Erstelle eine Funktion namens **`powerA`**, die eine ganze Zahl `n` größer als 1 als Argument akzeptiert. Diese Funktion soll das Ergebnis der Potenzierung der Matrix A zur n-ten Potenz (unter Verwendung der Matrixmultiplikation) berechnen und zurückgeben. <br>
>
> (e) Berechne und zeige die Werte von $A^2$, $A^3$ und $A^4$. Kannst du eine allgemeine Formel für $A^n$ erraten? <br>
>

In [2]:
# Deine Lösung:





#### Lösung:

In [None]:
def powerA(n):
    # A wird als Identitätmatrix initialisiert
    A = np.array([[1, 0],
                  [0, 1]])
    
    # Matrix B wird verwendet, um die Potenzen von A zu berechnen
    B = np.array([[1, -1],
                  [-1, 1]])
    
    # Wir mulitplizieren A mit B n-mal, um A hoch n zu erhalten
    for i in range(n):
        A = A.dot(B)
        
    return A

print ("A**2: \n", powerA(2), "\n")
print ("A**3: \n", powerA(3), "\n")
print ("A**4: \n", powerA(4), "\n")

print ("A general formula of A**n is given by:")
print ("[2**(n-1), -2**(n-1)]")
print ("[-2**(n-1), 2**(n-1)]")

#### 
In einer zweidimensionalen Ebene werden Rotationen um den Ursprung durch Matrizen der Form dargestellt: <br>
 $$ A(\theta) =
    \begin{pmatrix}
        \mathrm{cos}(\theta) & -\mathrm{sin}(\theta) \\
        \mathrm{sin}(\theta) & \mathrm{cos}(\theta) \\
    \end{pmatrix}
 $$ <br>
 wobei $\theta$ den Winkel der Rotation **in Radiant** definiert. Die Rotation eines Punktes mit den Koordinaten $x = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}$ wird also mit der Formel $\tilde{x} = A(\theta)x$ berechnet. <br>
>
> (f) Definiere eine Funktion namens **`rotationsmatrix`**, die eine Zahl $\theta$ (`theta`) nimmt und die zugehörige Matrix $A(\theta)$ zurückgibt. Du kannst die Funktionen $\mathrm{cos}$ und $\mathrm{sin}$ mit den Funktionen `np.cos` und `np.sin` von numpy berechnen. <br>
>
> (g) Sei $x = \begin{pmatrix} 1 \\ 1 \end{pmatrix}$ ein Punkt. Berechne und zeige $A(\pi) x$, was einer Rotation um 180º um den Ursprung entspricht. Du hast Zugriff auf die Konstante $\pi$ mit der Anweisung `np.pi`. <br>
>
> (h) Zeige, dass $A(\frac \pi 4) A(3 \frac \pi 4) x = A(\pi) x$. <br>
>
> (i) Im Allgemeinen gilt für jeden Winkel $A(\theta_1) A(\theta_2) x = A(\theta_1 + \theta_2) x$. Warum ist das so? <br>

In [3]:
# Deine Lösung:





#### Lösung:

In [None]:
# Erste Frage:
def rotations_matrix(theta):
    A = np.array([[np.cos(theta), -np.sin(theta)],
                  [np.sin(theta), np.cos(theta)]])
    
    return A

# Zweite Frage:
x = np.array([1, 1])
A_pi = rotations_matrix(np.pi)

print("x =", x)
print("A(pi)x =", A_pi.dot(x))

# Dritte Frage:
A_pi_4 = rotation_matrix(np.pi/4)
A_3pi_4 = rotation_matrix(3*np.pi/4)

print("A(pi/4) A(3pi/4) x =", A_pi_4.dot(A_3pi_4.dot(x)))

# Vierte Frage:
print("\n")
print("A(theta_1) A(theta_2) ist dasselbe wie A(theta_1 + theta_2), denn Rotation um theta_1 Grad und anschließend eine" )
print("weiterer Rotation um theta_2 Grad ist genau dasselbe, wie eine Rotation um (theta_1 + theta_2) Grad.")

## 2. Broadcasting zwischen einer Matrix und einem Wert
 Wenn `numpy` eine Operation zwischen Elementen unterschiedlicher Dimensionen durchführt, wendet es das sogenannte **Broadcasting** an, um die Operation zu verstehen und auszuführen. <br>
 Der Begriff "Broadcasting" wird verwendet, weil dabei eines der Arrays in ein Array größerer Dimensionen erweitert wird, um die Kompatibilität mit dem anderen Array sicherzustellen. Dieses Konzept wird weiter unten demonstriert. <br>
 In diesem Abschnitt werden wir versuchen, die Broadcasting-Regeln von `numpy` in folgenden Fällen zu verstehen: <br>
 * Operation zwischen einer Matrix und einer Konstante <br>
 * Operation zwischen einer Matrix und einem Vektor <br>
 Mathematisch gesehen hat das **Addieren einer Konstante zu einer Matrix** keine gültige Interpretation. Bei `numpy` besteht die Broadcasting-Regel in diesem Fall darin, **die Konstante zu jedem Term** der Matrix zu addieren. <br>
 $$
M = \begin{pmatrix}
        3 & 1 & 2 \\
       -2 & 1 & 5
    \end{pmatrix},
  c = 10
$$ <br>
 $$ \begin{align}
        M + c & = \begin{pmatrix}
                     3 + 10 & 1 + 10 & 2 + 10 \\
                    -2 + 10 & 1 + 10 & 5 + 10
                  \end{pmatrix} \\
              & = \begin{pmatrix}
                     13 & 11 & 12 \\
                     8 & 11 & 15
                  \end{pmatrix}
     \end{align}
$$ <br>
 Was tatsächlich passiert, ist, dass die Konstante $c$ in eine Matrix $C$ mit den gleichen Dimensionen wie $M$ gebroadcastet wird: <br>
 $$ c \mathop{\longrightarrow}^{\mathrm{broadcasting}} C = \begin{pmatrix}
                                                                c & c & c \\
                                                                c & c & c
                                                             \end{pmatrix}
$$ <br>
 Somit ist $M + C$ mathematisch wohldefiniert und kann mit grundlegenden Operationen berechnet werden. <br>

## 3. Broadcasting zwischen einer Matrix und einem Vektor
 Ähnlich erlaubt `numpy` arithmetische Operationen zwischen einer Matrix und einem Vektor. Allerdings gibt es einige **Einschränkungen**, die bestimmen, ob der Vektor in eine Matrix mit **kompatiblen** Dimensionen *gebroadcastet* werden kann. <br>
 Um festzustellen, ob die Dimensionen des Vektors und der Matrix kompatibel sind, vergleicht `numpy` **jede Dimension** der beiden Arrays und prüft, ob: <br>
 * die Dimensionen gleich sind. <br>
 * eine der Dimensionen gleich 1 ist. <br>
 **Wenn für jede Dimension eine dieser Bedingungen erfüllt ist**, dann sind die Dimensionen **kompatibel** und die Operation wurde verstanden. Andernfalls wird ein `ValueError: operands could not be broadcast together` Fehler angezeigt. <br>
 Betrachten wir die folgenden Objekte: <br>
 $$M = \begin{pmatrix}
           3 & 1 & 2 \\
          -2 & 1 & 5
        \end{pmatrix},
    v = \begin{pmatrix}
            2 \\
            5
         \end{pmatrix}
$$ <br>
 **Haben $M$ und $v$ kompatible Dimensionen für Broadcasting?** <br>
 $M$ ist eine Matrix der Dimension 2x3. $v$ ist ein Vektor mit 2 Elementen, aber `numpy` sieht $v$ als eine **Matrix der Dimension 2x1**, also eine Matrix mit zwei Zeilen und einer Spalte. <br>
 Die erste Dimension von $M$ und $v$ ist gleich $2$. Sie sind **gleich**, also ist die Kompatibilitätsbedingung für diese Dimension **erfüllt**. <br>
 Die zweite Dimension von $M$ ist gleich $3$ und die von $v$ ist gleich 1. Die Kompatibilitätsbedingung ist weiterhin **erfüllt**, weil **eine der Dimensionen gleich 1 ist**. <br>
 Daher haben $M$ und $v$ **kompatible Dimensionen** für Broadcasting. <br>
 **Der Vektor $v$ wird dann entlang der Achse gebroadcastet, wo die Dimension von $v$ gleich 1 ist**. In unserem Fall ist es die Achse der **Spalten**. Das Broadcasting von $v$ wird daher wie folgt ausgeführt: <br>
 $$
v = \begin{pmatrix}
        2 \\
        5
    \end{pmatrix}
\mathop{\longrightarrow}^{\mathrm{broadcasting}}
V =
\begin{bmatrix}
    v & v & v
\end{bmatrix}
  =                                                                 
\begin{pmatrix}
    2 & 2 & 2 \\
    5 & 5 & 5
\end{pmatrix}
$$ <br>
 Das Ergebnis von $M * v$ wird dann wie folgt berechnet: <br>
 $$
\begin{align}
M * v & \mathop{\longrightarrow}^{\mathrm{broadcasting}} M * V \\
      & = \begin{pmatrix}
            3 * 2 & 1 * 2 & 2 * 2 \\
           -2 * 5 & 1 * 5 & 5 * 5
          \end{pmatrix} \\
      & = \begin{pmatrix}
            6 & 2 & 4 \\
          -10 & 5 & 25
          \end{pmatrix}
\end{align}
$$ <br>
 Nehmen wir nun an, wir haben einen Zeilenvektor $u = \begin{pmatrix} 3 & 4 \end{pmatrix}$. <br>
 Für `numpy` hat dieser Vektor die Dimensionen 1x2 (eine Zeile und 2 Spalten). Die Vektoren $u$ und $v$ sind kompatibel für Broadcasting, weil auf jeder Achse einer der Vektoren eine Dimension gleich 1 hat. <br>
 **Wie** und **auf welchem Objekt** wird das Broadcasting in diesem Fall durchgeführt? <br>
 Das Broadcasting wird auf beiden Vektoren durchgeführt und die resultierende Matrix des Broadcasting wird die größte Dimension zwischen den beiden Vektoren haben: <br>
 $$
v = \begin{pmatrix}
        2 \\
        5
    \end{pmatrix}
\mathop{\longrightarrow}^{\mathrm{broadcasting}} V
  = \begin{pmatrix}
       2 & 2 \\
       5 & 5 
    \end{pmatrix}
$$ <br>
 und <br>
 $$
u = \begin{pmatrix}
        3 & 4
    \end{pmatrix}
\mathop{\longrightarrow}^{\mathrm{broadcasting}} U
  = \begin{pmatrix}
       3 & 4 \\
       3 & 4 
    \end{pmatrix}
$$ <br>
 Somit ergibt sich das Resultat von $v + u$ wie folgt: <br>
 $$
\begin{align}
v + u & = \begin{pmatrix}
             2 \\
             5
          \end{pmatrix}
          +
          \begin{pmatrix}
             3 & 4
          \end{pmatrix} \\
\mathop{\longrightarrow}^{\mathrm{broadcasting}} & V + U \\
      & = \begin{pmatrix}
            2 & 2 \\
            5 & 5 
          \end{pmatrix}
          +
          \begin{pmatrix}
            3 & 4 \\
            3 & 4 
          \end{pmatrix} \\
      & = \begin{pmatrix}
            5 & 6 \\
            8 & 9
          \end{pmatrix}
\end{align}
$$ <br>
 Diese Regeln ermöglichen uns, das Ergebnis einer Operation zwischen zwei Arrays mit unterschiedlicher Form zu verstehen und vorherzusagen. Sie werden für die folgende Übung nützlich sein: <br>
 Die **Min-Max**-Normalisierung ist eine Methode, die verwendet wird, um die **Variablen einer Datenbank auf das Intervall $[0, 1]$ zu skalieren**. <br>
 Nehmen wir an, unsere Datenbank enthält 3 Personen und 2 Variablen: <br>
 * Jacques: 24 Jahre alt, Größe 1,88m. <br>
 * Mathilde: 18 Jahre alt, Größe 1,68m. <br>
 * Alban: 14 Jahre alt, Größe 1,65m. <br>
 Diese Daten können durch die Matrix dargestellt werden: <br>
 $$ X  = \begin{pmatrix}
            24 & 1.88 \\
            18 & 1.68 \\
            14 & 1.65
        \end{pmatrix}
$$ <br>
 Jede Zeile entspricht einer Person, und jede Spalte entspricht einer Variable. Dies ist das Standardformat für Datenbanken. <br>
 Wir möchten die Altersunterschiede mit den Größenunterschieden zwischen den Personen vergleichen. Die Variablen in dieser Datenbank haben jedoch nicht die gleiche Skala. Wir müssen die Min-Max-Normalisierung verwenden, **damit die Variablen die gleiche Skala haben**. <br>
 Wir bezeichnen mit $X_{i, j}$ den Wert der Variable $j$ für die Person $i$ und mit $X_{:, j}$ die Spalte der Variable $j$. <br>
 Die Min-Max-Normalisierung erzeugt eine neue Matrix $\tilde X$, sodass für jeden Eintrag der Matrix $X$ gilt: <br>
 $$ \tilde X_{i, j} = \frac {X_{i, j} -  \mathrm{min}(X_{:, j})} {\mathrm{max}(X_{:, j})  - \mathrm{min}(X_{:, j})}$$ <br>
 Um die Min-Max-Normalisierung zu implementieren: <br>
 * Berechne für jede Spalte $X_{:, j}$ die Werte $\mathrm{min}(X_{:, j})$ und $\mathrm{max}(X_{:, j})$. <br>
 * Berechne für jedes Element $X_{i, j}$ in der Spalte den Wert $\tilde X_{i, j}$. <br>
 Standardmäßig durchläuft eine `for`-Schleife über $X$ die Zeilen von $X$. Um die Spalten von $X$ zu durchlaufen, kannst du die Zeilen der transponierten Matrix von $X$ durchlaufen, die wir mit $X^T$ bezeichnen. <br>
 $$ X^T = \begin{pmatrix}
            24 & 18 & 14 \\
            1.88 & 1.68 & 1.65 \\
         \end{pmatrix}
$$ <br>
 Die Transposition eines Arrays erhält man mit seinem `T`-Attribut: $X^T$ = `X.T`. <br>

#### 3.1 Aufgaben:
> (a) Definiere eine Funktion namens `normalisierung_min_max`, die als Argument eine Matrix $X$ nimmt und $\tilde X$ zurückgibt. <br>
>
> (b) Wende die Min-Max-Normalisierung auf $X$ an. Du solltest die Matrix auf zwei Dezimalstellen genau erhalten: <br>
>
> $$\tilde X  = \begin{pmatrix}
                 1 & 1 \\
                 0.4 & 0.13 \\
                 0 & 0
              \end{pmatrix}
$$ <br>

In [4]:
# Deine Lösung:





#### Lösung:

In [None]:
def normalization_min_max(X):
    # Initialisieren von X_tilde
    X_tilde = np.zeros(shape = X.shape)
    
    # Für jede Spalte von X
    for j, column in enumerate(X.T):
        # Initialisieren des Minimums und des Maximums der Spalte
        min_Xj = column[0]
        max_Xj = column[0]
        
        # Für jeden Wert der Spalte
        for value in column:
            # Falls der Wert kleiner als min ist
            if value < min_Xj:
                # überschreiben wir min mit dem Wert
                min_Xj = value
            
            # Falls der Wert größer als max ist
            if value > max_Xj:
                # überschreiben wir max mit dem Wert
                max_Xj = value
                
        # Jetzt können wir X_tilde für die Spalte berechnen
        # Durch Broadcasting brauchen wir hier keinen Loop 
        X_tilde[:, j] = (X[:, j] - min_Xj)/(max_Xj - min_Xj)
            
    return X_tilde
        

X = np.array([[24, 1.88],
              [18, 1.68],
              [14, 1.65]])

X_tilde = normalization_min_max(X)

print(X_tilde)

## 4. Statistische Methoden
 Zusätzlich zu den üblichen mathematischen Operationen verfügen `numpy`-Arrays auch über mehrere [Methoden](https://docs.scipy.org/doc/numpy-1.12.0/reference/arrays.ndarray.html#array-methods) für komplexere Array-Operationen. <br>
 Eine der am häufigsten verwendeten Operationen ist die **`mean`**-Methode eines Arrays zur Berechnung des Durchschnitts: <br>
 ```python
 A = np.array([[1, 1, 10],
               [3, 5, 2]])

 # Berechnung des Mittelwerts über ALLE Werte von X
 print(A.mean())
 >>> 3.67

 # Berechnung des Mittelwerts jeder SPALTE von X
 print(A.mean(axis = 0))
 >>> [2, 3, 6]

 # Berechnung des Mittelwerts jeder ZEILE von X
 print(A.mean(axis = 1))
 >>> [4, 3.33]
 ```
 Das **`axis`**-Argument gibt an, **welche Dimension durchlaufen wird**, um den Mittelwert zu berechnen: <br>
 * Wenn `axis = 0` ist, wird die Operation entlang der **Zeilen** ausgeführt und ergibt **den Durchschnitt jeder Spalte**. <br>
 * Wenn `axis = 1` ist, wird die Operation entlang der **Spalten** ausgeführt und ergibt **den Durchschnitt jeder Zeile**. <br>
 <img src="../imgs/mean_axis.png" style="height:350px"> <br>
 Das `axis`-Argument wird **sehr häufig** für Operationen auf Matrizen verwendet, und **nicht nur bei `numpy`**. <br>
 Es gibt weitere Funktionen, die das `axis`-Argument verwenden, wie zum Beispiel: <br>
 * **`sum`**: Berechnet die Summe der Elemente eines Arrays. <br>
 * **`std`**: Berechnet die Standardabweichung. <br>
 * **`min`**: Findet den minimalen **Wert** unter den Elementen eines Arrays. <br>
 * **`max`**: Findet den maximalen **Wert** unter den Elementen eines Arrays. <br>
 * **`argmin`**: Gibt den Index des minimalen **Werts** zurück. <br>
 * **`argmax`**: Gibt den Index des maximalen **Werts** zurück. <br>
 Im Allgemeinen verwenden wir den Wert **`axis = 0`**, um das Ergebnis **für jede Spalte** zu erhalten, das heißt **für jede Variable in der Datenbank**. <br>
 So können wir die Min-Max-Normalisierung sehr schnell mit den Methoden **`min`** und **`max`** zusammen mit **Broadcasting** berechnen: <br>
 ```python
 X_tilde = (X - X.min(axis = 0))/(X.max(axis = 0) - X.min(axis = 0))

 print (X_tilde)
 >>> [[1, 1]
 >>>  [0.4, 0.13043478]
 >>>  [0, 0]]
 ```
 Der [Mean Squared Error](https://en.wikipedia.org/wiki/Mean_squared_error) (mittlerer quadratischer Fehler) ist ein Metrik zur Quantifizierung des Vorhersagefehlers, der durch ein Regressionsmodell erhalten wird. Dieser Begriff wird später in deiner Ausbildung ausführlicher behandelt. <br>
 Die Formel für den mittleren quadratischen Fehler, abgekürzt mit $\mathrm{MSE}$, wird mit folgender Formel berechnet: <br>
 $$ \mathrm{MSE} = \frac 1 n \sum_{i=1}^n(\hat y_i - y_i)^2 $$ <br>
 wobei: <br>
 * $\hat y$ und $y$ **Vektoren** der Länge $n$ sind. <br>
 * $\hat y$ durch das Matrixprodukt zwischen einer Matrix $X$ und einem *Regressionsvektor* $\beta$ gegeben ist, also: <br>
 $$\hat y = X \beta$$ <br>
 Im Fall der linearen Regression ist das Ziel des mittleren quadratischen Fehlers (meist: mean squared error oder einfach mse), den Regressionsvektor $\beta$ zu finden, der diesen Fehler **minimiert**. <br>

#### 4.1 Aufgaben:
> (a) Definiere eine Funktion namens `mean_squared_error`, die als Argument eine Matrix `X`, einen Vektor `beta` und einen Vektor `y` nimmt und **ohne `for`-Schleife** den zugehörigen mittleren quadratischen Fehler zurückgibt. <br>

In [None]:
# Deine Lösung:





#### Lösung:

In [None]:
def mean_squared_error(X, beta, y):
    # Berechnen von ^y
    y_hat = X.dot(beta)
    
    # Berechnen von (^y_i - y_i)**2
    mse = (y_hat - y)**2
    
    # MSE
    mse = mse.mean()
    
    return mse

#### 
 Unsere Datenbank enthielt 3 Personen und 2 Variablen: <br>
 * Jacques: 24 Jahre alt, Größe 1,88m. <br>
 * Mathilde: 18 Jahre alt, Größe 1,68m. <br>
 * Alban: 14 Jahre alt, Größe 1,65m. <br>
 Wir werden versuchen, ein Modell zu finden, das die **Größe einer Person basierend auf ihrem Alter vorhersagen** kann. Dazu definieren wir: <br>
 $$
X = \begin{pmatrix}
      24 \\
      18 \\
      14
    \end{pmatrix}
$$ <br>
 $$
y = \begin{pmatrix}
      1.88 \\
      1.68 \\
      1.65 \\
    \end{pmatrix}
$$ <br>
 Unser Ziel wird es sein, ein **optimales** $\beta^*$ zu finden, sodass: <br>
 $$ y \approx X\beta^* $$ <br>
>
> (b) Berechne für `beta` mit den Werten 0.01, 0.02, ..., 0.13, 0.14 und 0.15 den zugehörigen $\mathrm{MSE}$ mit der zuvor definierten Funktion `mittlerer_quadratischer_fehler`. Speichere die Werte in einer Liste. <br>
>
 Um die Liste `[0.01, 0.02, ..., 0.13, 0.14, 0.15]` zu erstellen, kannst du die Funktion `np.linspace` verwenden, die eine ähnliche Signatur wie die `range`-Funktion hat: <br>
 ```python
 print(np.linspace(start = 0.01, stop = 0.15, num = 15))
 >>> [0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.1, 0.11, 0.12, 0.13, 0.14, 0.15]
 ```
 Das `num`-Argument ermöglicht es dir, **die gewünschte Anzahl von Elementen** zwischen `start` und `stop` zu definieren. **Es ist nicht der Schritt zwischen zwei aufeinanderfolgenden Werten**. <br>

In [5]:
# Deine Lösung:





#### Lösung:

In [None]:
X = np.array([24,
              18,
              14])

y = np.array([1.88,
              1.68,
              1.65])

# Liste die die mse enthält
errors = []

# Liste mit den betas, die getestet werden
betas = np.linspace(start = 0.01, stop = 0.15, num = 15)

# Für alle Werte von beta
for beta in betas:
    # Berechnen wir den MSE
    errors.append(mean_squared_error(X, beta, y))
    

#### 
> (c) Konvertiere die Liste mit den $\mathrm{MSE}$'s in ein numpy-Array. <br>
>
> (d) Bestimme das $\beta^*$, mit dem kleinsten $\mathrm{MSE}$. Nutze dafür die `argmin`-Methode. <br>

In [6]:
# Deine Lösung:





#### Lösung:

In [None]:
# Array mit den MSE für jedes beta
errors = np.array(errors)

# List mit betas die getestet wurden
betas = np.linspace(start = 0.01, stop = 0.15, num = 15)

# Index der beta dem kleinsten MSE 
index_beta_optimal = errors.argmin()

# Optimal beta 
beta_optimal = betas[index_beta_optimal]

print("The optimal beta is:", beta_optimal)

#### 
> (e) Was sind die von diesem optimalen $\beta^*$ vorhergesagten Größen? Die vom Modell vorhergesagten Größen werden durch den Vektor $\hat y = X \beta^*$ gegeben. <br>
>
> (f) Vergleiche die vorhergesagten Größen mit den tatsächlichen Größen der Personen. Du kannst zum Beispiel die durchschnittliche absolute Differenz zwischen den vorhergesagten und wahren Werten mit dem Absolutbetrag (`np.abs`) berechnen. <br>

In [7]:
# Deine Lösung:





#### Lösung:

In [None]:
y_hat = X.dot(beta_optimal)
print("Vorhergesagte Größe: \n", y_hat)

print("\n Tatsächliche Größe: \n", y)

print("\n Unser Model macht einen durchschnittlichen Fehler von ", np.abs(y - y_hat).mean(), "Metern.")

# Die vorhergesagten Größen sind inkorrekt, aber relativ nah an den tatsächlichen Größen