# Optionales Labor: Modellrepräsentation

<figure>
 <img src="./images/C1_W1_L3_S1_Lecture_b.png"   style="width:600px;height:200px;">
</figure>


## Ziele
In diesem Labor wirst du:
- lernen, das Modell $f_{w,b}$ für die lineare Regression mit einer Variablen zu implementieren


## Notation
Hier findest du eine Zusammenfassung einiger der Notationen, die dir begegnen werden.  

|Allgemein <img width=70/> <br />  Notation  <img width=70/> | Beschreibung<img width=350/>| Python (falls zutreffend) |
|: ------------|: ------------------------------------------------------------||
| $a$ | Skalar, nicht fett |
| $\mathbf{a}$ | Vektor, fett |
| **Regression** | | |
|  $\mathbf{x}$ | Merkmalswerte eines Trainingsbeispiels (in diesem Labor – Größe (1000 sqft)) | `x_train` |   
|  $\mathbf{y}$  | Zielwerte eines Trainingsbeispiels (in diesem Labor Preis (1000er Dollar))  | `y_train` |
|  $x^{(i)}$, $y^{(i)}$ | $i$‑tes Trainingsbeispiel | `x_i`, `y_i`|
| m | Anzahl der Trainingsbeispiele | `m`|
|  $w$  |  Parameter: Gewicht | `w` |
|  $b$  |  Parameter: Bias | `b` |     
| $f_{w,b}(x^{(i)})$ | Ergebnis der Modellauswertung bei $x^{(i)}$ parametrisiert durch $w,b$: $f_{w,b}(x^{(i)}) = wx^{(i)}+b$  | `f_wb` |


## Werkzeuge
In diesem Labor wirst du verwenden: 
- NumPy, eine weit verbreitete Bibliothek für wissenschaftliches Rechnen
- Matplotlib, eine populäre Bibliothek zum Plotten von Daten


In [None]:
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('./deeplearning.mplstyle')

# Problemstellung
<img align="left" src="./images/C1_W1_L3_S1_trainingdata.png"    style=" width:380px; padding: 10px;  " /> 

Wie in der Vorlesung wirst du das motivierende Beispiel der Vorhersage von Hauspreisen verwenden.  
Dieses Labor nutzt einen einfachen Datensatz mit nur zwei Datenpunkten – die Einheiten der Größe sind 1000 sqft und die Einheiten des Preises sind 1000er Dollar.

| Größe (1000 sqft) | Preis (1000er Dollar) |
| ------------------| ---------------------- |
| 1.0               | 300                    |
| 2.0               | 500                    |

Du möchtest ein lineares Regressionsmodell (oben als rote Linie dargestellt) an diese Daten anpassen und dann den Preis anderer Häuser vorhersagen – zum Beispiel eines Hauses mit 1200 sqft.


Bitte führe die folgende Codezelle aus, um deine Variablen `x_train` und `y_train` zu erzeugen. Die Daten sind in eindimensionalen NumPy‑Arrays gespeichert.


In [None]:
# x_train ist die Eingangsvariable (Größe in 1000 Quadratfuß)
# y_train ist das Ziel (Preis in 1000er Dollar)
x_train = np.array([1.0, 2.0])
y_train = np.array([300.0, 500.0])
print(f"x_train = {x_train}")
print(f"y_train = {y_train}")

>**Hinweis**: Der Kurs verwendet häufig die Python‑'f‑Strings'-Syntax. Damit kannst du Variablen und Ausdrücke direkt in Zeichenketten einbetten; alles zwischen den geschweiften Klammern wird beim Erzeugen der Ausgabe ausgewertet.


### Anzahl der Trainingsbeispiele `m`
Du wirst `m` verwenden, um die Anzahl der Trainingsbeispiele zu bezeichnen. NumPy stellt die Länge des Arrays und damit die Anzahl der Beispiele wie unten gezeigt bereit.


In [None]:
# m ist die Anzahl der Trainingsbeispiele
print(f"x_train.shape: {x_train.shape}")
m = x_train.shape[0]
print(f"Number of training examples is: {m}")

Man kann auch die Python‑Funktion `len()` verwenden, wie unten gezeigt.


In [None]:
# m ist die Anzahl der Trainingsbeispiele
m = len(x_train)
print(f"Number of training examples is: {m}")

### Trainingsbeispiel `x_i, y_i`

Du wirst (x$^{(i)}$, y$^{(i)}$) verwenden, um das $i$‑te Trainingsbeispiel zu bezeichnen. In unserem Datensatz ist (x$^{(0)}$, y$^{(0)}$) gleich (1.0, 300.0) und (x$^{(1)}$, y$^{(1)}$) gleich (2.0, 500.0).

Um einen Wert in einem NumPy‑Array zu erhalten, indexiert man das Array mit der Position, beginnend bei Null; die Syntax, um Position 0 von `x_train` abzurufen, lautet `x_train[0]`.
Führe den nächsten Codeblock aus, um das $i$‑te Trainingsbeispiel zu erhalten.


In [None]:
i = 0 # Change this to 1 to see (x^1, y^1)

x_i = x_train[i]
y_i = y_train[i]
print(f"(x^({i}), y^({i})) = ({x_i}, {y_i})")

### Darstellung der Daten


Du kannst diese beiden Punkte mit der Funktion `scatter()` aus der Bibliothek `matplotlib` darstellen, wie in der Zelle unten gezeigt.  
- Die Funktionsargumente `marker` und `c` zeigen die Punkte als rote Kreuze (der Standard wären blaue Punkte).

Du kannst weitere Funktionen aus `matplotlib` verwenden, um Titel und Achsenbeschriftungen festzulegen.


In [None]:
# Zeichne die Datenpunkte
plt.scatter(x_train, y_train, marker='x', c='r')
# Setze den Titel
plt.title("Housing Prices")
# Beschrifte die y-Achse
plt.ylabel('Price (in 1000s of dollars)')
# Beschrifte die x-Achse
plt.xlabel('Size (1000 sqft)')
plt.show()

## Modellfunktion

<img align="left" src="./images/C1_W1_L3_S1_model.png"     style=" width:380px; padding: 10px;  " />

Die Hypothese (das Modell, das eine Abbildung von `x` nach `y` darstellt) wird ausgedrückt als  

$$ f_{w,b}(x^{(i)}) = w x^{(i)} + b \tag{1}$$

Mit dieser Gleichung lassen sich Geraden darstellen – unterschiedliche Werte für $w$ und $b$ führen zu unterschiedlichen Geraden im Diagramm. <br/><br/><br/><br/><br/>

Versuchen wir, ein besseres Gefühl dafür zu bekommen, indem wir die folgenden Codeblöcke ausführen. Beginnen wir mit $w = 100$ und $b = 100$.

**Hinweis: Du kannst später zu dieser Zelle zurückkehren, um die Parameter $w$ und $b$ anzupassen.**


In [None]:
w = 100
b = 100
print(f"w: {w}")
print(f"b: {b}")

Nun wollen wir den Wert von $f_{w,b}(x^{(i)})$ für deine beiden Trainingsbeispiele berechnen. Du kannst das für jeden Datenpunkt explizit ausschreiben:

für $x^{(0)}$: `f_wb = w * x[0] + b`

für $x^{(1)}$: `f_wb = w * x[1] + b`

Bei einer großen Anzahl von Datenpunkten wird das umständlich und wiederholt sich. In Python kann man das mit einer `for`‑Schleife kompakter ausdrücken, wie in der Funktion `compute_model_output` unten gezeigt.  
> **Hinweis**: Die Argumentbeschreibung `(ndarray (m,))` beschreibt ein eindimensionales Array mit $m$ Elementen.  
> **Hinweis**: `np.zeros(n)` gibt ein eindimensionales NumPy‑Array mit $n$ Einträgen zurück.


In [None]:
def compute_model_output(x, w, b):
    """
    Berechnet die Vorhersage eines linearen Modells
    Args:
      x (ndarray (m,)): Daten, m Beispiele
      w,b (scalar)    : Modellparameter  
    Returns
      f_wb (ndarray (m,)): Modellvorhersage
    """
    m = x.shape[0]
    f_wb = np.zeros(m)
    for i in range(m):
        f_wb[i] = w * x[i] + b
        
    return f_wb

Rufen wir nun die Funktion `compute_model_output` auf und zeichnen die Ausgabe.


In [None]:
tmp_f_wb = compute_model_output(x_train, w, b,)

# Zeichne die Modellvorhersage
plt.plot(x_train, tmp_f_wb, c='b',label='Our Prediction')

# Zeichne die Datenpunkte
plt.scatter(x_train, y_train, marker='x', c='r',label='Actual Values')

# Setze den Titel
plt.title("Housing Prices")
# Beschrifte die y-Achse
plt.ylabel('Price (in 1000s of dollars)')
# Beschrifte die x-Achse
plt.xlabel('Size (1000 sqft)')
plt.legend()
plt.show()

Wie du siehst, führt die Wahl $w = 100$ und $b = 100$ *nicht* zu einer Geraden, die unsere Daten gut beschreibt. 

### Herausforderung
Experimentiere mit verschiedenen Werten für $w$ und $b$. Welche Werte sollten gewählt werden, damit die Gerade zu unseren Daten passt?

#### Tipp:
Klicke mit der Maus auf die grünen „Hinweise“, um Vorschläge für $b$ und $w$ anzuzeigen.


<details>
<summary>
    <font size='3', color='darkgreen'><b>Hinweise</b></font>
</summary>
    <p>
    <ul>
        <li>Versuche $w = 200$ und $b = 100$ </li>
    </ul>
    </p>
</details>


### Vorhersage
Jetzt, da wir ein Modell haben, können wir unsere ursprüngliche Vorhersage machen: den Preis eines Hauses mit 1200 sqft. Da die Einheit von $x$ in 1000er sqft angegeben ist, entspricht $x$ dem Wert 1.2.


In [None]:
w = 200                         
b = 100    
x_i = 1.2
cost_1200sqft = w * x_i + b    

print(f"${cost_1200sqft:.0f} thousand dollars")

# Glückwunsch!
In diesem Labor hast du gelernt:
 - Die lineare Regression erstellt ein Modell, das eine Beziehung zwischen Merkmalen und Zielwerten herstellt
     - In unserem Beispiel war das Merkmal die Hausgröße und das Ziel der Hauspreis
     - Bei der einfachen linearen Regression besitzt das Modell zwei Parameter, $w$ und $b$, deren Werte mithilfe von *Trainingsdaten* angepasst werden.
     - Sind die Modellparameter bestimmt, kann das Modell verwendet werden, um Vorhersagen für neue Daten zu erstellen.
