# Lineare Regression

## Grundlegendes Konzept

Die lineare Regression ist ein maschineller Lernalgorithmus, dessen Hauptziel es ist, die beste Gerade zu finden, die durch die verfügbaren Datenpunkte verläuft. Diese Methode versucht, eine lineare Beziehung zwischen Eingabe- und Ausgabevariablen herzustellen und ermöglicht präzise Vorhersagen für neue Daten.

## Überwachtes Lernen

![Titelbild](../Assets/linear_regression/input.png)

Die lineare Regression wird als **überwachter Lernalgorithmus** (*supervised learning*) klassifiziert. Diese Charakterisierung ergibt sich aus der Tatsache, dass der Algorithmus einen Trainingsdatensatz verwendet, der sowohl Eingabe-*Features* als auch entsprechende Ausgabe-*Targets* enthält. Während des Trainingsprozesses lernt das Modell, die Beziehungen zwischen diesen bekannten Eingaben und Ausgaben abzubilden.

## Mathematisches Modell

Sobald das Modell trainiert ist, wird es fähig, Werte $\hat{y}$ (*y-hat*) für neue Eingaben $x$ vorherzusagen. Diese Vorhersage kann mathematisch durch folgende Funktion dargestellt werden:

![Titelbild](../Assets/linear_regression/w_e_b.png)

$$f(x) = wx + b$$

Dabei:
- $f(x)$ oder $\hat{y}$ stellt den vorhergesagten Wert dar
- $w$ ist die Steigung der Geraden
- $b$ ist der Achsenabschnitt der Geraden
- $x$ ist das Eingabe-Feature

## Modellparameter

Die für die Parameter $w$ und $b$ gewählten Werte sind grundlegend, da sie das Verhalten des Modells vollständig bestimmen. Insbesondere definieren diese Parameter den Vorhersagewert $\hat{y}_i$ für jedes Beispiel $i$, basierend auf dem entsprechenden Eingabe-Feature $x_i$. Die Optimierung dieser Parameter während des Trainings ermöglicht es dem Modell, präzise Vorhersagen zu treffen.

## Kostenfunktion

Um die besten Werte für $w$ und $b$ zu finden, reduzieren wir die sogenannte **Kostenfunktion** (*cost function*). Das Ziel ist es, Werte für $w$ und $b$ zu wählen, sodass die Vorhersage $\hat{y}_i$ dem tatsächlichen Wert $y_i$ für alle Beispiele im Trainingssatz so nahe wie möglich kommt.

### Aufbau der Kostenfunktion

Die Kostenfunktion funktioniert, indem sie den tatsächlichen Wert $y_i$ mit dem vorhergesagten Wert $\hat{y}_i$ vergleicht. Die Differenz zwischen diesen Werten wird ausgedrückt als:

$$\hat{y}_i - y_i$$

Diese Differenz wird als **Fehler** (*error*) der Vorhersage bezeichnet.

Um eine robustere Metrik zu erhalten, quadrieren wir diesen Fehler. Dies dient zwei wichtigen Zwecken: Eliminierung negativer Werte (sodass sich positive und negative Fehler nicht gegenseitig aufheben) und intensivere Bestrafung größerer Fehler:

$$(\hat{y}_i - y_i)^2$$

Da wir den Fehler über den gesamten Datensatz quantifizieren möchten, summieren wir die quadrierten Fehler aller Trainingsbeispiele:

$$\sum_{i=1}^{m} (\hat{y}_i - y_i)^2$$

wobei $m$ die Gesamtzahl der Trainingsbeispiele oder Datenpunkte darstellt.

Schließlich berechnen wir den Durchschnitt dieser Fehler, indem wir durch $2m$ teilen. Die Wahl von $2m$ anstelle von nur $m$ soll die Mathematik später vereinfachen, insbesondere bei der Berechnung der partiellen Ableitung der Kostenfunktion.

Da $\hat{y}_i$ als $f(x_i)$ dargestellt werden kann, wird die vollständige **Kostenfunktion** ausgedrückt als:

$$J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (f(x_i) - y_i)^2$$

Diese Funktion, bekannt als **mittlerer quadratischer Fehler** (*Mean Squared Error* - MSE), ist die am häufigsten verwendete Kostenfunktion bei Problemen der linearen Regression.

## Gradientenabstieg

Um die Kostenfunktion zu minimieren, verwenden wir einen Algorithmus namens **Gradientenabstieg** (*Gradient Descent*). Der Prozess ist relativ einfach: Wir beginnen mit Anfangswerten für $w$ und $b$ (üblicherweise $w = 0$ und $b = 0$).

Anschließend aktualisieren wir die Parameter $w$ und $b$ wiederholt in kleinen Schritten mit dem Ziel, die Kosten zu reduzieren. Wir setzen diesen iterativen Prozess fort, bis wir die niedrigsten möglichen Kosten (lokales Minimum) erreichen. Wenn der Algorithmus diesen Punkt erreicht, sagen wir, er ist **konvergiert**.

![Gradientenabstieg](../Assets/linear_regression/gradient.png)

Der Prozess kann mit dem Abstieg eines Berges verglichen werden: Jeder Schritt bringt uns näher zum Boden des Tals. Die Richtung in jedem Schritt wird durch den **Gradienten** bestimmt, der immer in Richtung des steilsten Anstiegs zeigt.

![Gradientenabstieg Schritte](../Assets/linear_regression/steps.png)

Um die Kosten zu minimieren, bewegen wir uns in die entgegengesetzte Richtung des Gradienten, das heißt, wir machen Schritte bergab.

### Gradientenabstiegs-Formel

Die Parameteraktualisierung bei jeder Iteration folgt diesen Gleichungen:

$w = w - \alpha \frac{\partial J(w,b)}{\partial w}$

$b = b - \alpha \frac{\partial J(w,b)}{\partial b}$

Dabei:
- $w$ und $b$ werden bei jeder Iteration simultan aktualisiert
- $\alpha$ ist die **Lernrate** (*learning rate*)
- $\frac{\partial J(w,b)}{\partial w}$ und $\frac{\partial J(w,b)}{\partial b}$ sind die partiellen Ableitungen der Kostenfunktion

### Lernrate

Die Wahl eines guten Wertes für $\alpha$ ist entscheidend:

- **$\alpha$ zu klein**: Der Algorithmus macht sehr kurze Schritte, was die Konvergenz langsam und zeitaufwendig macht
- **$\alpha$ zu groß**: Der Algorithmus kann über das Minimum "springen", konvergiert nicht oder divergiert sogar

![Lernrate](../Assets/linear_regression/alpha.png)

## Berechnung der partiellen Ableitungen

Um den Gradientenabstieg zu implementieren, müssen wir die partiellen Ableitungen der Kostenfunktion $J(w,b)$ in Bezug auf $w$ und $b$ berechnen. Wir beginnen mit unserer Kostenfunktion:

$J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (f(x_i) - y_i)^2$

Da $f(x_i) = wx_i + b$, können wir umschreiben:

$J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} ((wx_i + b) - y_i)^2$

### Partielle Ableitung nach $w$

Anwendung der Kettenregel zur Ableitung von $J(w,b)$ nach $w$:

$\frac{\partial J(w,b)}{\partial w} = \frac{\partial}{\partial w} \left[\frac{1}{2m} \sum_{i=1}^{m} ((wx_i + b) - y_i)^2\right]$

Die Konstante $\frac{1}{2m}$ kann aus der Ableitung herausgezogen werden:

$\frac{\partial J(w,b)}{\partial w} = \frac{1}{2m} \sum_{i=1}^{m} \frac{\partial}{\partial w} ((wx_i + b) - y_i)^2$

Anwendung der Kettenregel: $\frac{d}{dx}[g(x)]^2 = 2g(x) \cdot g'(x)$

$\frac{\partial J(w,b)}{\partial w} = \frac{1}{2m} \sum_{i=1}^{m} 2((wx_i + b) - y_i) \cdot \frac{\partial}{\partial w}((wx_i + b) - y_i)$

Da $\frac{\partial}{\partial w}((wx_i + b) - y_i) = x_i$:

$\frac{\partial J(w,b)}{\partial w} = \frac{1}{2m} \sum_{i=1}^{m} 2((wx_i + b) - y_i) \cdot x_i$

Der Faktor $2$ hebt sich mit der $2$ im Nenner auf:

$\frac{\partial J(w,b)}{\partial w} = \frac{1}{m} \sum_{i=1}^{m} x_i \big((w x_i + b) - y_i\big)$

Ersetzen von $wx_i + b$ durch $f(x_i)$:

$\boxed{\frac{\partial J(w,b)}{\partial w} = \frac{1}{m} \sum_{i=1}^{m} x_i(f(x_i) - y_i) }$

### Partielle Ableitung nach $b$

Nach demselben Verfahren für $b$:

$\frac{\partial J(w,b)}{\partial b} = \frac{\partial}{\partial b} \left[\frac{1}{2m} \sum_{i=1}^{m} ((wx_i + b) - y_i)^2\right]$

$\frac{\partial J(w,b)}{\partial b} = \frac{1}{2m} \sum_{i=1}^{m} \frac{\partial}{\partial b} ((wx_i + b) - y_i)^2$

Anwendung der Kettenregel:

$\frac{\partial J(w,b)}{\partial b} = \frac{1}{2m} \sum_{i=1}^{m} 2((wx_i + b) - y_i) \cdot \frac{\partial}{\partial b}((wx_i + b) - y_i)$

Da $\frac{\partial}{\partial b}((wx_i + b) - y_i) = 1$:

$\frac{\partial J(w,b)}{\partial b} = \frac{1}{2m} \sum_{i=1}^{m} 2((wx_i + b) - y_i) \cdot 1$

Vereinfachung:

$\frac{\partial J(w,b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} ((wx_i + b) - y_i)$

Ersetzen von $(wx_i + b)$ durch $f(x_i)$:

$\boxed{\frac{\partial J(w,b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f(x_i) - y_i)}$

### Vollständiger Algorithmus

Mit den berechneten Ableitungen lautet der Gradientenabstiegs-Algorithmus für lineare Regression:

**Wiederholen bis zur Konvergenz:**

$w = w - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} x_i(f(x_i) - y_i) $

$b = b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f(x_i) - y_i)$

Dabei $f(x_i) = wx_i + b$

> **Wichtiger Hinweis**: Die Parameter $w$ und $b$ müssen bei jeder Iteration **simultan** aktualisiert werden, das heißt, wir berechnen beide Ableitungen mit den alten Werten, bevor wir einen Parameter aktualisieren.

# Unten finden Sie ein Beispiel mit Python-Code

In [None]:
# Importieren der Bibliotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Importieren unseres Datensatzes
training_set = pd.read_csv('../Datasets/Salary_Data.csv')

In [None]:
# Definition unseres Parameters und Ziels
X_train = training_set['YearsExperience'].values
y_train = training_set['Salary'].values

In [None]:
# Scatter-Darstellung des Parameters mit dem Ziel
plt.scatter(X_train, y_train)
plt.xlabel("Years of Experience")
plt.ylabel("Salary")
plt.show()

In [None]:
# Wir brauchen drei Hauptfunktionen, um die lineare Regression zu implementieren:
# 1) Kostenfunktion: Berechnet, wie gut das Modell ist, mit dem Mean Squared Error (MSE), der den durchschnittlichen quadrierten Fehler zwischen den vorhergesagten Werten und den echten Werten misst.

# 2) Gradientenfunktion: Berechnet die Ableitungen der Kostenfunktion in Bezug auf die Parameter w und b.

# 3) Gradientenabstiegsfunktion: Verwendet die berechneten Gradienten, um die Parameter w und b in jeder Iteration zu aktualisieren, mit dem Ziel, den Fehler zu minimieren.

def cost_function(x, y, w, b):
    m = len(x)
    cost_sum = 0

    for i in range(m):
        f = w * x[i] + b
        cost = (f - y[i]) ** 2
        cost_sum += cost

    total_cost = (1/(2*m)) * cost_sum
    return total_cost


def gradient_function(x, y, w, b):
    m = len(x)
    dc_dw = 0
    dc_db = 0

    for i in range(m):
        f = w * x[i] + b

        dc_dw += (f - y[i]) * x[i]
        dc_db += (f - y[i])

    dc_dw = (1/m) * dc_dw
    dc_db = (1/m) * dc_db

    return dc_dw, dc_db


def gradient_descent(x, y, alpha, iterations):
    w = 0
    b = 0

    for i in range(iterations):
        dc_dw, dc_db = gradient_function(x, y, w, b)

        w = w - alpha * dc_dw
        b = b - alpha * dc_db

        print(f"Iteration {i}: Cost {cost_function(x, y, w, b)}")

    return w, b

In [None]:
# Gibt die Lernrate und die Anzahl der Iterationen an
learning_rate = 0.01
iterations = 10000
# Berechnet den Gradientenabstieg
final_w, final_b = gradient_descent(
    X_train, y_train, learning_rate, iterations)
print(f"w: {final_w:.4f}, b: {final_b:.4f}")

In [None]:
# Visualisiert die Regressionslinie
plt.scatter(X_train, y_train, label='Data Points')

X_vals = np.linspace(min(X_train), max(X_train), 100)
y_vals = final_w * X_vals + final_b
plt.plot(X_vals, y_vals, color='red', label='Regression Line')

plt.xlabel("Years of Experience")
plt.ylabel("Salary")
plt.legend()
plt.show()

# Optimierung der Linearen Regression

## Einführung

Nach der Implementierung des grundlegenden linearen Regressionsalgorithmus mit Gradientenabstieg treten in der Praxis zwei häufige Herausforderungen auf:

1. **Sehr hohe Kostenwerte** - Erschwerung der Interpretation und Konvergenz
2. **Ungeeignete Wahl der Lernrate** - Führt zu langsamer Konvergenz oder Trainingsversagen

Dieser Leitfaden präsentiert zwei wesentliche Techniken zur Lösung dieser Probleme: **Merkmalsnormalisierung** und **systematisches Testen von Lernraten**.

---

## Merkmalsnormalisierung

### Das Skalenproblem

Beim Arbeiten mit Daten auf verschiedenen Skalen stößt der Gradientenabstiegs-Algorithmus auf Schwierigkeiten. Wenn beispielsweise ein Merkmal zwischen 0 und 100 variiert und ein anderes zwischen 0 und 100.000, haben die Gradienten sehr unterschiedliche Größenordnungen, was verursacht:

- **Langsame Konvergenz**: Der Algorithmus benötigt viele Iterationen
- **Numerische Instabilität**: Extrem große Kostenwerte
- **Schwierigkeit bei der Wahl der Lernrate**: Ein α, das für ein Merkmal funktioniert, kann für ein anderes ungeeignet sein

### Lösung: Z-Score-Normalisierung

Die **Z-Score**-Normalisierung transformiert die Daten so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben:

$$X_{norm} = \frac{X - \mu}{\sigma}$$

Dabei:
- $\mu$ ist der Mittelwert der Daten
- $\sigma$ ist die Standardabweichung der Daten

### Implementierung

```python
def normalize_features(X):
    """Normalisiert Daten mittels Z-Score"""
    mean = np.mean(X)
    std = np.std(X)
    X_norm = (X - mean) / std
    return X_norm
```

**Parameter:**
- `X`: Array mit Originaldaten

**Rückgabe:**
- `X_norm`: Normalisierte Daten

### Vorteile der Normalisierung

1. **Drastische Kostenreduzierung**: Von Millionen auf Werte nahe 0
2. **Schnellere Konvergenz**: Weniger Iterationen erforderlich
3. **Ausgeglichene Gradienten**: Alle Merkmale tragen gleichermaßen bei
4. **Erleichtert die Wahl der Lernrate**: Typische Werte (0,01 bis 1,0) funktionieren gut

### Praktisches Beispiel

Vor der Normalisierung:
```
X: min=1.10, max=10.50, mean=5.31
y: min=$37,731, max=$122,391, mean=$76,003
Anfangskosten: 1,344,612,525
```

Nach der Normalisierung:
```
X_norm: min=-1.51, max=1.86, mean=0.00
y_norm: min=-1.42, max=1.72, mean=0.00
Anfangskosten: 0.499
```

---

## Optimierung der Lernrate

### Das Lernraten-Dilemma

Die Lernrate ($\alpha$) kontrolliert die Größe der Schritte, die der Algorithmus in Richtung des Minimums macht. Die Wahl dieses Wertes ist kritisch:

| Lernrate | Verhalten | Ergebnis |
|----------|-----------|----------|
| **Zu klein** | Winzige Schritte | Sehr langsame Konvergenz |
| **Angemessen** | Ausgeglichene Schritte | Effiziente Konvergenz |
| **Zu groß** | Übermäßige Schritte | Oszillation oder Divergenz |

### Systematische Teststrategie

Anstatt willkürlich zu wählen, testen wir mehrere Werte und wählen den besten basierend auf Leistungsmetriken aus.

### Implementierung

```python
def test_learning_rates(X, y):
    """Testet verschiedene Lernraten, um die beste zu finden"""
    learning_rates = [0.001, 0.01, 0.1, 0.5, 1.0]
    iterations = 5000

    print("="*60)
    print("TESTEN VERSCHIEDENER LERNRATEN")
    print("="*60)

    results = []

    for lr in learning_rates:
        print(f"\n--- Teste α = {lr} ---")
        w, b, history = gradient_descent(
            X, y, lr, iterations, print_every=1000)

        # Berechne R²
        predictions = w * X + b
        ss_res = np.sum((y - predictions) ** 2)
        ss_tot = np.sum((y - np.mean(y)) ** 2)
        r2 = 1 - (ss_res / ss_tot)

        results.append({
            'lr': lr,
            'final_cost': history[-1],
            'r2': r2,
            'w': w,
            'b': b
        })

        print(f"Endkosten: {history[-1]:.6f}, R²: {r2:.4f}")

    # Wähle das beste Ergebnis
    best = max(results, key=lambda x: x['r2'])
    print("\n" + "="*60)
    print(f"BESTE LERNRATE: α = {best['lr']}")
    print(f"R² = {best['r2']:.4f}")
    print("="*60)

    return best['lr']
```

### Code-Aufschlüsselung

#### 1. Definition der Kandidaten

```python
learning_rates = [0.001, 0.01, 0.1, 0.5, 1.0]
```

Wir testen Werte auf einer **logarithmischen Skala**, die von sehr konservativen bis zu aggressiven Werten reicht.

#### 2. Training mit jedem Kandidaten

```python
for lr in learning_rates:
    w, b, history = gradient_descent(X, y, lr, iterations, print_every=1000)
```

Jede Lernrate wird mit der gleichen Anzahl von Iterationen für einen fairen Vergleich getestet.

#### 3. R²-Score-Berechnung

Das **Bestimmtheitsmaß** ($R^2$) misst, wie gut das Modell die Datenvariabilität erklärt:

$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$$

Dabei:
- $SS_{res} = \sum_{i=1}^{m} (y_i - \hat{y}_i)^2$ (Summe der quadrierten Residuen)
- $SS_{tot} = \sum_{i=1}^{m} (y_i - \bar{y})^2$ (Gesamtsumme der Quadrate)

```python
predictions = w * X + b
ss_res = np.sum((y - predictions) ** 2)
ss_tot = np.sum((y - np.mean(y)) ** 2)
r2 = 1 - (ss_res / ss_tot)
```

#### R²-Interpretation:

- R² = 1,0: Perfektes Modell (erklärt 100% der Varianz)
- R² = 0,95: Ausgezeichnet (erklärt 95% der Varianz)
- R² = 0,70: Gut (erklärt 70% der Varianz)
- R² = 0,50: Durchschnittlich (erklärt 50% der Varianz)
- R² < 0,30: Schlecht (Modell hat wenig Vorhersagekraft)
- R² < 0: Modell schlechter als einfach den Mittelwert zu verwenden

#### 4. Speicherung der Ergebnisse

```python
results.append({
    'lr': lr,
    'final_cost': history[-1],
    'r2': r2,
    'w': w,
    'b': b
})
```

Jeder Test wird in einem Wörterbuch gespeichert, das alle relevanten Metriken enthält.

#### 5. Auswahl der besten Lernrate

```python
best = max(results, key=lambda x: x['r2'])
```

Wir verwenden R² als Auswahlkriterium und wählen die Lernrate, die diese Metrik maximiert.

# Code in der Praxis!

In [None]:
# Bonus-Code - Normalisierung und passende Lernrate

def normalize_features(X):
    """Normalisiert Daten mittels Z-Score"""
    mean = np.mean(X)
    std = np.std(X)
    X_norm = (X - mean) / std
    return X_norm, mean, std


def test_learning_rates(X, y):
    """Testet verschiedene Lernraten, um die beste zu finden"""
    learning_rates = [0.001, 0.01, 0.1, 0.5, 1.0]
    iterations = 5000

    print("="*60)
    print("TESTEN VERSCHIEDENER LERNRATEN")
    print("="*60)

    results = []

    for lr in learning_rates:
        print(f"\n--- Teste α = {lr} ---")
        w, b = gradient_descent(
            X, y, lr, iterations)

        # R²
        predictions = w * X + b
        ss_res = np.sum((y - predictions) ** 2)
        ss_tot = np.sum((y - np.mean(y)) ** 2)
        r2 = 1 - (ss_res / ss_tot)

        results.append({
            'lr': lr,
            'r2': r2,
            'w': w,
            'b': b
        })

        print(f"R²: {r2:.4f}")

    # Bestes Ergebnis
    best = max(results, key=lambda x: x['r2'])
    print("\n" + "="*60)
    print(f"BESTE LERNRATE: α = {best['lr']}")
    print(f"R² = {best['r2']:.4f}")
    print("="*60)

    return best['lr']

In [None]:
# Normalisiere die Daten
X_norm, x_mean, x_std = normalize_features(X_train)
y_norm, y_mean, y_std = normalize_features(y_train)

print("\nNORMALISIERTE DATEN")
print(
    f"X_norm: min={X_norm.min():.2f}, max={X_norm.max():.2f}, mean={X_norm.mean():.2f}")
print(
    f"y_norm: min={y_norm.min():.2f}, max={y_norm.max():.2f}, mean={y_norm.mean():.2f}")

# Teste verschiedene Lernraten
best_lr = test_learning_rates(X_norm, y_norm)

# Trainiere erneut, aber jetzt mit der besten Lernrate
print("\n" + "="*60)
print(f"ABSCHLUSSTRAINING MIT α = {best_lr}")
print("="*60)

w_initial = 0
b_initial = 0
iterations = 10000

In [None]:
# Führe Gradientenabstieg jetzt mit viel niedrigeren Kosten durch (besser)
w_final, b_final = gradient_descent(
    X_norm, y_norm, best_lr, iterations
)

In [None]:
# Funktion zur Visualisierung der Regressionslinie
def plot_regression(X, y, w, b):
    """Plottet Daten und Regressionslinie - SEHR EINFACH"""

    # Berechne Vorhersagen
    predictions = w * X + b

    # Plotten
    plt.figure(figsize=(10, 6))
    plt.scatter(X, y, color='blue', s=100, alpha=0.6, label='Daten')
    plt.plot(X, predictions, color='red', linewidth=3, label='Regression')

    plt.xlabel('X')
    plt.ylabel('y')
    plt.title(f'Lineare Regression: y = {w:.4f}x + {b:.4f}')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()


plot_regression(X_norm, y_norm, w_final, b_final)