# Optionale Übung: Kostenfunktion 
<figure>
    <center> <img src="./images/C1_W1_L3_S2_Lecture_b.png"  style="width:1000px;height:200px;" ></center>
</figure>


## Ziele
In diesem Labor wirst du:
- die `cost`‑Funktion für eine lineare Regression mit einer Variablen implementieren und untersuchen. 


## Werkzeuge
In diesem Labor verwenden wir:
- NumPy, eine weit verbreitete Bibliothek für wissenschaftliches Rechnen
- Matplotlib, eine beliebte Bibliothek zum Plotten von Daten
- Lokale Plot‑Funktionen aus der Datei `lab_utils_uni.py` im aktuellen Verzeichnis


In [None]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_uni import plt_intuition, plt_stationary, plt_update_onclick, soup_bowl
plt.style.use('./deeplearning.mplstyle')

## Problemstellung

Du möchtest ein Modell, das den Hauspreis anhand der Größe des Hauses vorhersagen kann.  
Verwenden wir wie im vorherigen Labor dieselben zwei Datenpunkte – ein Haus mit 1000 Quadratfuß wurde für 300 000 \$ verkauft und ein Haus mit 2000 Quadratfuß für 500 000 \$.

| Größe (1000 sqft) | Preis (in 1000 \$) |
|-------------------|--------------------|
| 1 | 300 |
| 2 | 500 |


In [None]:
x_train = np.array([1.0, 2.0])           #(size in 1000 square feet)
y_train = np.array([300.0, 500.0])           #(price in 1000s of dollars)

## Berechnung der Kosten
Der Begriff „Cost“ (Kosten) kann in dieser Aufgabe etwas verwirrend sein, da er sich auf die Güte der Vorhersage bezieht und *nicht* auf den tatsächlichen Preis des Hauses. Der Begriff „Price“ wird nur für die Originaldaten verwendet.

Die Gleichung für die Kosten mit einer Variablen lautet:
  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$$ 
 
wobei 
  $$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{2}$$
  
- $f_{w,b}(x^{(i)})$ ist unsere Vorhersage für Beispiel $i$ mit den Parametern $w,b$.  
- $(f_{w,b}(x^{(i)}) -y^{(i)})^2$ ist die quadrierte Abweichung zwischen Zielwert und Vorhersage.   
- Diese Abweichungen werden über alle $m$ Beispiele aufsummiert und durch `2m` geteilt, um die Kosten $J(w,b)$ zu erhalten.  
>Hinweis: In den Vorlesungsfolien läuft die Summe meist von 1 bis $m$, im Code jedoch von 0 bis $m-1$.


Der folgende Code berechnet die Kosten, indem er über jedes Trainingsbeispiel iteriert. In jeder Schleife wird:
- `f_wb`, also eine Vorhersage, berechnet,
- die Differenz zwischen Zielwert und Vorhersage bestimmt und quadriert,
- und dieser Wert zur Gesamtsumme der Kosten addiert.


In [None]:
def compute_cost(x, y, w, b): 
    """
    Computes the cost function for linear regression.
    
    Args:
      x (ndarray (m,)): Data, m examples 
      y (ndarray (m,)): target values
      w,b (scalar)    : model parameters  
    
    Returns
        total_cost (float): The cost of using w,b as the parameters for linear regression
               to fit the data points in x and y
    """
    # Anzahl der Trainingsbeispiele
    m = x.shape[0] 
    
    cost_sum = 0 
    for i in range(m): 
        f_wb = w * x[i] + b   
        cost = (f_wb - y[i]) ** 2  
        cost_sum = cost_sum + cost  
    total_cost = (1 / (2 * m)) * cost_sum  

    return total_cost

## Intuition zur Kostenfunktion


<img align="left" src="./images/C1_W1_Lab02_GoalOfRegression.PNG" style="width:350px">

Die Kostenfunktion ist ein Maß dafür, wie genau das Modell auf den Trainingsdaten ist.

Gleichung (1) oben zeigt, dass man die Kosten minimieren kann, wenn geeignete Werte für $w$ und $b$ gewählt werden. In diesem einfachen Beispiel mit zwei Punkten ist das sogar exakt möglich!

Im vorherigen Labor hast du festgestellt, dass $b=100$ die optimale Lösung liefert, daher setzen wir $b$ auf 100 und konzentrieren uns auf $w$.

<br/>
Nutze den Schieberegler unten, um den Wert von $w$ zu wählen, der die Kosten minimiert. Das Aktualisieren der Grafik kann ein paar Sekunden dauern.


In [None]:
plt_intuition(x_train,y_train)

Die Grafik enthält einige bemerkenswerte Punkte:
- Die Kosten werden minimiert, wenn $w = 200$ ist, was mit dem Ergebnis aus dem vorherigen Labor übereinstimmt.
- Da der Fehler zwischen Zielwert und Vorhersage quadriert wird, nimmt die Kostenfunktion schnell zu, wenn $w$ zu groß oder zu klein ist.
- Die Wahl von $w$ und $b$, die die Kosten minimieren, führt zu einer Geraden, die perfekt zu den Daten passt.


## Visualisierung der Kostenfunktion – 3D

Wie sich die Kosten gleichzeitig in Abhängigkeit von `w` und `b` verändern, lässt sich in einer 3D‑Darstellung oder mit einem Konturdiagramm zeigen.  
Einige der Plot‑Routinen in diesem Kurs können ein paar Sekunden dauern, bis sie angezeigt werden. Die Funktionen befinden sich in `lab_utils_uni.py` im aktuellen Verzeichnis.


### Größerer Datensatz

Es ist interessant, ein Szenario mit ein paar mehr Datenpunkten zu betrachten. Kann man immer noch eine Gerade finden, die alle Punkte perfekt trifft? Lässt sich ein Paar $w$ und $b$ finden, das die Kosten auf 0 bringt?


In [None]:
x_train = np.array([1.0, 1.7, 2.0, 2.5, 3.0, 3.2])
y_train = np.array([250, 300, 480,  430,   630, 730,])

Klicke im Konturdiagramm auf einen Punkt, um ein Paar `w` und `b` auszuwählen, und beobachte, wie dies die Kosten beeinflusst. Du kannst mehrere Auswahlpunkte ausprobieren. Beachte, dass die Grafik ein paar Sekunden braucht, um sich zu aktualisieren.


In [None]:
plt.close('all') 
fig, ax, dyn_items = plt_stationary(x_train, y_train)
updater = plt_update_onclick(fig, ax, x_train, y_train, dyn_items)

Beachte oben die gestrichelten Linien im linken Plot. Sie zeigen den Anteil der Kosten, der von jedem einzelnen Trainingsbeispiel stammt. Da die Trainingspunkte nicht exakt auf einer Linie liegen, ist das Minimum der Kostenfunktion größer als 0.


### Konvexe Kostenfläche

Dadurch, dass die Kostenfunktion den Fehler quadriert, wird sie streng konvex. Das garantiert, dass es nur ein globales Minimum gibt. In der Vorlesung wurde dazu die folgende Darstellung gezeigt, in der $w$ und $b$ symmetrisch sind:


In [None]:
soup_bowl()

# Glückwunsch!
Du hast Folgendes gelernt:
 - Mit der Kostengleichung kannst du messen, wie gut deine Vorhersagen zu den Trainingsdaten passen.
 - Durch das Minimieren der Kosten findest du optimale Werte für $w$ und $b$.
