In [None]:
# DO NOT EDIT THIS CELL
# ADD ADDITIONAL IMOPRTS IN ASSIGNMENT CELLS

# Notebook configs
%load_ext autoreload
%autoreload 2
%matplotlib inline

from IPython.core.interactiveshell import InteractiveShell
from IPython.display import HTML

InteractiveShell.ast_node_interactivity = "all"

# GML Mini-Challenge 1 - HS 2024

**Ausgabe:** Montag 14.10.2024  
**Abgabe:** Montag 11.11.2024 23:59 Uhr

## Vorgaben zu Umsetzung und Abgabe

- Die Algorithmen müssen auf der Basis von Array Operationen selber implementiert werden.
- Der Code muss lauffähig sein bei Ausführung im aktuellen Docker-Container zum gml Repo oder auf JHub. 
- Es darf kein Code ausgelagert werden, i.e. sämtlicher Code muss sich im Notebook befinden.
- Sämtliche Plots sind komplett beschriftet (Achsen, Labels, Überschrift, Colorbar, ..), so dass der Plot ohne den Code zu konsultieren, verstanden werden kann.
- Als **Abgabe** zählt der letzte Commit vor Abgabetermin in in deinem Fork des Repos.  
- **Bitte lösche, kopiere, dupliziere, splitte und verschiebe die vorhandenen Zellen nicht**. Dies führt zu Problemen bei der Korrektur. Du darfst aber beliebig viele weitere Zellen hinzufügen (nur via **insert new cell**).
- Laufzeit vom Notebook: Das gesamte Notebook sollte in weniger als 1 Stunde ausgeführt werden können.

Für die Erarbeitung der Lösung darf unter Studierenden zusammengearbeitet werden.  
Die Zusammenarbeit ist dabei aber auf konzeptionelle und algorithmische Fragen und Verständnisaspekte beschränkt.  

**Es darf kein Code oder Text von anderen oder vom Internet kopiert werden.**


### Python Module

Neben den Python-Basismodulen darfst du die folgenden Module immer benutzen: `numpy`, `pandas`, `matplotlib`, `seaborn`,  `tqdm` (für Progress-Bars).

Du darfst auch generell [sklearn.preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing), [sklearn.model_selection](https://scikit-learn.org/stable/model_selection.html), [sklearn.pipeline](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.pipeline) und [sklearn.compose](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.compose) verwenden.

Weitere Module darfst du nur verwenden wenn dies ausdrücklich erwähnt oder bereits vorgegeben ist in der Code-Cell.


## Bewertung

Bewertet wird:

- Vollständigkeit (Code, Text)
- Korrektheit (Code, Text)
- Implementation (z.B. Vektorisierung der Operationen, Scikit-Learn API, Visualisierungen, Lesbarkeit Code/Output)

## Einleitung

Biologen haben einen umfangreichen Datensatz zu Schalentieren gesammelt. Dabei haben sie die Tiere zerlegt, vermessen und verschiedene Messgrössen erfasst. Das Alter eines solchen Schalentiers kann, ähnlich wie bei Bäumen, über das Zählen von Ringen, die im Schalenquerschnitt ersichtlich sind, bestimmt werden. Dabei ergibt sich das Alter des Tieres als Anzahl Ringe + 1.5. Jahre. Dieser Vorgang ist aber sehr zeitaufwendig. Aus dem vorliegenden Datensatz möchten die Biologen nun untersuchen, ob es möglich ist, das Alter der Tiere aus den anderen, einfach zu erfassenden Messgrössen abzuschätzen, um in Zukunft auf das Zählen der Schalenringe verzichten zu können.

Auf jeder Zeile des vorliegenden Datensatzes sind die Messgrössen eines Schalentiers gegeben. Die Spalten sind wie folgt zu verstehen:

| Spalte        | Erklärung                                                      | Einheit    |
|-------------- |----------------------------------------------------------------| -----------|
| geschlecht    | Das Geschlecht des Tieres.                                     |            |
| laenge        | Die grösste Spanne gemessen über die Schale hinweg.            | mm         |
| breite        | Die Spanne gemessen senkrecht zur Länge.                       | mm         |
| hoehe         | Die Spanne von unten nach oben gemessen, mit lebendem Inhalt.  | mm         |
| gew_tot       | Gesamtgewicht                                                  | g          |
| gew_f         | Gewicht des Fleisches des Schalentiers                         | g          |
| gew_i         | Gewicht der Innereien                                          | g          |
| gew_s         | Gewicht der Schale                                             | g          |
| ringe         | Anzahl der gezählten Ringe; +1.5 ergibt das Alter in Jahren    |            |

Wir wollen nun helfen zu verstehen, wie gut wir das Alter der Schalentiere vorhersagen können, unter Verwendung dieser Variablen, ohne die Anzahl der Ringe zu kennen. 

## Aufgabe 1 (8 Punkte)

Bevor wie einen Datensatz modellieren wollen wir diesen stets mit Explorativer Datenanalyse kennenlernen.  
Dabei legen wir besonderes Augenmerk auf die für unsere Modellierungsaufgabe relevanten Aspekte.

### Aufgabe 1 a

Unternimm die die folgenden Schritte:
    
- Lese den Datensatz `schalentiere_train.csv` ein und verschaffe dir einen groben Überblick.
- Berechne und zeige wichtige statistische Kennzahlen.
- Visualisiere jede Variable mit einem sinnvollen Plot. Berücksichtige dabei die Aufgabenstellung.

Versuche abzuschätzen, wie gut die Vorhersage des Alters gelingen könnte, welche Variablen wichtig sein könnten und wie man Variablen allenfalls präprozessieren muss.

In [2]:
# Data einlesen
import pandas as pd
data = pd.read_csv('schalentiere_training.csv')
data.head()

Unnamed: 0,geschlecht,laenge,breite,hoehe,gew_tot,gew_f,gew_i,gew_s,ringe
0,M,0.625,0.48,0.175,1.065,0.4865,0.259,0.285,10
1,M,0.48,0.38,0.13,0.6175,0.3,0.142,0.175,12
2,W,0.2,0.145,0.06,0.037,0.0125,0.0095,0.011,4
3,W,0.505,0.4,0.145,0.7045,0.334,0.1425,0.207,8
4,M,0.5,0.415,0.165,0.6885,0.249,0.138,0.25,13


In [3]:
# wichtige Kennzahlen
data.describe()

Unnamed: 0,laenge,breite,hoehe,gew_tot,gew_f,gew_i,gew_s,ringe
count,3132.0,3132.0,3132.0,3132.0,3132.0,3132.0,3132.0,3132.0
mean,0.523851,0.407996,0.139735,0.831573,0.359797,0.180614,0.239814,9.921775
std,0.120694,0.099755,0.04321,0.494657,0.223299,0.10978,0.141134,3.23012
min,0.075,0.055,0.0,0.002,0.001,0.0005,0.0015,1.0
25%,0.45,0.35,0.115,0.444375,0.186,0.093875,0.13,8.0
50%,0.545,0.425,0.14,0.79675,0.334,0.171,0.23075,9.0
75%,0.615,0.48,0.165,1.154125,0.502,0.253125,0.329625,11.0
max,0.815,0.65,1.13,2.7795,1.488,0.76,1.005,29.0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3132 entries, 0 to 3131
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   geschlecht  3132 non-null   object 
 1   laenge      3132 non-null   float64
 2   breite      3132 non-null   float64
 3   hoehe       3132 non-null   float64
 4   gew_tot     3132 non-null   float64
 5   gew_f       3132 non-null   float64
 6   gew_i       3132 non-null   float64
 7   gew_s       3132 non-null   float64
 8   ringe       3132 non-null   int64  
dtypes: float64(7), int64(1), object(1)
memory usage: 220.3+ KB


In [5]:
# Korrelationen
data_encoded = data.copy()
data_encoded['geschlecht'] = data_encoded['geschlecht'].map({'M': 0, 'F': 1})
data_encoded.corr()['ringe'].sort_values(ascending=False)


ringe         1.000000
gew_s         0.631968
breite        0.580289
laenge        0.561250
gew_tot       0.547450
hoehe         0.545808
gew_i         0.513120
gew_f         0.429565
geschlecht         NaN
Name: ringe, dtype: float64

In [None]:
# Plotting
import matplotlib.pyplot as plt
features = [col for col in data.columns if col != "ringe"]

plt.figure(figsize=(15, 30))
for i, feature in enumerate(features):
    plt.subplot((len(features) // 2) + 1, 2, i + 1)
    plt.scatter(data[feature], data["ringe"])
    plt.title(f'{feature} vs Ringe')
    plt.xlabel(feature)
    plt.ylabel("Ringe")

plt.tight_layout()
plt.show()

<Figure size 1500x3000 with 0 Axes>

<Axes: >

<matplotlib.collections.PathCollection at 0x40006e4e1710>

Text(0.5, 1.0, 'geschlecht vs Ringe')

Text(0.5, 0, 'geschlecht')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006e53a310>

Text(0.5, 1.0, 'laenge vs Ringe')

Text(0.5, 0, 'laenge')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006ef55a90>

Text(0.5, 1.0, 'breite vs Ringe')

Text(0.5, 0, 'breite')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006ef8f4d0>

Text(0.5, 1.0, 'hoehe vs Ringe')

Text(0.5, 0, 'hoehe')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006efce810>

Text(0.5, 1.0, 'gew_tot vs Ringe')

Text(0.5, 0, 'gew_tot')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006efccdd0>

Text(0.5, 1.0, 'gew_f vs Ringe')

Text(0.5, 0, 'gew_f')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006efcfe50>

Text(0.5, 1.0, 'gew_i vs Ringe')

Text(0.5, 0, 'gew_i')

Text(0, 0.5, 'Ringe')

<Axes: >

<matplotlib.collections.PathCollection at 0x40006f081bd0>

Text(0.5, 1.0, 'gew_s vs Ringe')

Text(0.5, 0, 'gew_s')

Text(0, 0.5, 'Ringe')

### Aufgabe 1 b

Unser Ziel ist es, das Alter der Schalentiere vorherzusagen unter Verwendung der im Datensatz vorhandenen Variablen, ausser der Anzahl Ringe.  
Können wir auch direkt die Anzahl Ringe vorhersagen? Warum? Begründe mit Bezugnahme auf ein (regularisiertes) Lineares Modell.

Diskutiere deine Einsichten zum Modellieren der Anzahl Ringe auf Basis der Analyse in Aufgabe 1a.

Was fällt sonst noch auf in den Daten? Beschreibe und begründe.

1. Ja, es ist möglich, die Anzahl der Ringe direkt vorherzusagen, da die Anzahl der Ringe als abhängige Variable in einem Vorhersagemodell verwendet werden kann, wie zum Beispiel ein reguliertes Lineares Modell:

- Die dargestellten Scatterplots zeigen eine überwiegend positive lineare Korrelation zwischen den unabhängigen Variablen und der Zielvariable „Ringe“. Das bedeutet, dass ein lineares Modell eine sinnvolle Wahl sein kann, um diese Beziehungen zu modellieren.

- Regularisierte lineare Modelle fügen dem Modell eine Strafe für zu große Koeffizienten hinzu. Dies hilft, Overfitting zu verhindern, besonders wenn es Korrelationen zwischen den unabhängigen Variablen gibt oder einige Variablen weniger wichtig für die Vorhersage sind. Die Regularisierung verhindert, dass das Modell zu komplex wird und passt es an, um bessere generalisierte Vorhersagen zu liefern.

- Ein lineares Modell ist leicht interpretierbar, da die Koeffizienten anzeigen, wie stark jede unabhängige Variable die Anzahl der Ringe beeinflusst. Bei einem regularisierten Modell können die weniger relevanten Variablen auf nahezu null reduziert werden, was die Interpretation weiter vereinfacht.

2. Basierend auf den Scatterplots und der Analyse der Variablen können einige Schlussfolgerungen gezogen werden:

- Zwischen dem Geschlecht und den Ringen gibt es keine signifikante lineare Beziehung, da die Verteilung beider Geschlechter ähnlich aussehen. Diese Variable ist daher nicht so relevant für das lineare Modell.

- Das Gewicht, besonders das Gewicht der Schale zeigen eine sehr klare lineare positive Tendenz mit den Ringen. Diese Variablen werden also sehr relevant für das lineare Modell.

- Die Datenpunkte bei der Variable Höhe zeigen einige Ausreisser, welche das lineare Modell beeinflussen könnten. Dies wird auch anahnd der Statsitiken sichtbar, denn der Mittelwert liegt bei etwa 0.1, der Maximalwert jedoch bei 1.1.

- bei einigen Variablen, wie der breite oder dem totalen Gewicht nimmt die Streuung der Datenpunkte bei höherer Ringanzahl zu. Das Model könnte also Schwierigkeiten haben, diese präzise zu erfassen.

- Die Verteilung der Anzahl der Ringe scheint relativ breit zu sein (zwischen 5 und 25 Ringen), was auf eine Vielzahl von Altersstufen bei den Schalentiere hinweist. Ein lineares Modell könnte Schwierigkeiten haben, die Ränder dieser Verteilung genau zu modellieren.

## Aufgabe 2 (14 Punkte)

In dieser Aufgabe ist es das Ziel eine regularisierte Lineare Regression zu implementieren (_Ridge Regression_) und die Implementation zu validieren.

### Ridge Regression

Ridge Regression ist eine regularisierte Form ($L_2$-Regularisierung) der Ordinary Least Squares (OLS) Kostenfunktion für die lineare Regression.  

Die Ridge Regression-Kostenfunktion $J(\mathbf{w})$ für einen Datensatz $\cal{D}=\{(\mathbf{x}^{(1)}, y^{(1)}), \dots, (\mathbf{x}^{(n)}, y^{(n)}) \}$ mit $n$ Datenpunkten ist:

\begin{align}
J(\mathbf{w}) &= \frac{1}{2n}\sum_{i=1}^n (y^{(i)} - \mathbf{x}^{(i)T}\mathbf{w})^2 + \Omega(\mathbf{w})
\end{align}

Wobei die Regularisierung $\Omega(\mathbf{w})$ folgendermassen definiert ist:

\begin{align}
\Omega(\mathbf{w}) &= \frac{1}{2}\lambda \sum_{j=1}^p w_j^2 
\end{align}

Der $i$te Datenpunkt $\mathbf{x}^{(i)}$ ist ein Vektor der Dimensionalität $\mathbb{R}^{p +1}$: $\mathbf{x}^{(i)} = \Big(1, x_1^{(i)}, \dots , x_p^{(i)}\Big)$.

$\mathbf{w} = (w_0, \dots, w_p)$ sind dabei die Modellkoeffizienten, $\lambda$ ist die Regularisierungsstärke.


**Beachte:**

- In sklearn wird statt $\lambda$ jeweils $\alpha$ `alpha` als Bezeichnung für die Regularisierungsstärke verwendet (wohl weil `lambda` ein reserviertes Wort ist in Python).

- Um Gradient Descent umzusetzen, musst du die Kostenfunktion ableiten.

- Implementiere alles vektorisiert.


### Stochastic Gradient Descent

Mit _Batch Gradient Descent (BGD)_ berechnet man den Gradienten der Kostenfunktion bezüglich der Modellparameter für jeden _Gradient Descent Step_ mit **allen Datenpunkten**. Damit berechnet man den Gradient exakt. Man kann den Gradienten jedoch auch mit einem Subset der Datenpunkte berechnen und den exakten Gradient damit schätzen. Dadurch verringert sich der Rechenaufwand. Mit _Stochastic Gradient Descent (SGD)_ nimmt man nur **einen, zufällig ausgewählten, Datenpunkt** (deshalb _stochastic_) um den Gradient in jeder Iteration zu schätzen. 

Implementiere die Optionen `optimization_method="bgd"` und `optimization_method="sgd"` um das Modell wahlweise mit _BGD_ oder _SGD_ zu optimisieren. 

### Aufgabe 2a
Ergänze die untenstehende Klasse und deren Methoden. Folge der Scikit-Learn API ([Link](https://scikit-learn.org/stable/developers/develop.html)): Das bedeutet im Wesentlichen, dass du die Methoden implementieren sollst, die in der Klasse schon vorgegeben sind.

Beachte die in den Doc-Strings spezifizierten Angaben, insbesondere auch die der Shapes der Inputs und Outputs der einzelnen Methoden.

Der Estimator soll eine Ridge Regression durchführen. Das Finden der Modell-Koeffizienten soll mit Gradient Descent erfolgen.

In [None]:
from typing import Self

import numpy as np
from sklearn.base import BaseEstimator
from tqdm.notebook import tqdm


class LinearRegression(BaseEstimator):
    """Linear Regression
    
    Args:
    -----
        epsilon: if norm of gradient falls below epsilon, 
            gradient descent terminates (disable with negative values)  
        max_num_steps: max number of steps for gradient descent
        learning_rate: learning rate for gradient descent
        optimization_method: one of 'bgd' (batch gradient descent),
            'sgd' (stochastic gradient descent)
        alpha: regularization strength (lambda)
        verbose: whether to print progress during model training (optional)
    """

    def __init__(
        self,
        epsilon: float = -1,
        max_num_steps: int = 1000,
        learning_rate: float = 0.1,
        optimization_method: str = "bgd",
        alpha: float = 0.0,
        verbose: bool = True
    ):
        self.alpha = alpha
        self.epsilon = epsilon
        self.max_num_steps = max_num_steps
        self.learning_rate = learning_rate
        self.optimization_method = optimization_method
        self.verbose = verbose

    def fit(self, X: np.ndarray, y: np.ndarray) -> Self:
        """Fit the model coefficients.
        Args:
            X: input data (n, p)
            y: input labels (n, )

        Attributes>
            w_: model coefficients as 1d array, including bias weight w_0 

        Returns:
            self
        """
        n, p = X.shape
        self.w_ = np.zeros(p + 1)
        self.costs_ = []
        
        for step in tqdm(range(self.max_num_steps)):
            if self.optimization_method == "bgd":
                gradient = self.gradient(X, y)
            
            elif self.optimization_method == "sgd":
                i = np.random.randint(0, n)
                gradient = self.gradient(X[i:i+1], y[i:i+1])
            else:
                raise ValueError(f"Unknown optimization method: {self.optimization_method}")

            self.w_ -= self.learning_rate * gradient

            cost = self.cost(X, y)
            
            self.costs_.append(cost)
            
            if self.verbose:
                print(f"Step {step}, Cost: {cost}")

            if self.epsilon > 0 and np.linalg.norm(gradient) < self.epsilon:
                if self.verbose:
                    print(f"Gradient norm below epsilon, terminating optimization.")
                break
            
        return self

    def gradient(self, X: np.ndarray, y: np.ndarray) -> np.ndarray:
        """Calculate Gradient of Cost Function.
        
        Calculates dJ/dw, while w are the current parameter estimates in self.w_

        Args:
            X: input data (n, p)
            y: input labels (n, )

        Returns:
            dJ/dw gradient vector (p + 1, )
        """
        X_bias = np.c_[np.ones((X.shape[0], 1)), X] 
        # OLS gradient
        gradient = (1/len(y)) * X_bias.T.dot(X_bias.dot(self.w_) - y) + (self.alpha/len(y)) * self.w_
        
        assert gradient.ndim == 1
        return gradient
    
    def cost(self, X: np.ndarray, y: np.ndarray) -> float:
        """Evaluate the Cost Function.

        Args:
            X: input data (n, p)
            y: input labels (n, )

        Returns:
            total cost
        """
        n = X.shape[0]
    
        cost = (1 / (2 * n)) * np.sum((y - self.predict(X)) ** 2)
        # add L2 regularization
        cost += (self.alpha / 2) * np.sum(self.w_[:-1] ** 2)
        
        assert isinstance(cost, float)
        return cost

    def predict(self, X: np.ndarray) -> np.ndarray:
        """Calculate Predictions.

        Args:
            X: input Data (n, p)
            
        Returns:
            Predictions (n, )
        """
        X_bias = np.c_[np.ones((X.shape[0], 1)), X]
        pred = X_bias @ self.w_
        
        assert pred.ndim == 1, "Predictions should be 1D"
        return pred

    def score(self, X: np.ndarray, y: np.ndarray) -> float:
        """Calculate R^2
        
        See: https://en.wikipedia.org/wiki/Coefficient_of_determination

        Args:
            X: Input Data (n, p)
            y: Input Labels (n, )
        
        Returns:
            R^2
        """
        Rsquare = 1 - np.sum((y - self.predict(X))**2) / np.sum((y - np.mean(y))**2)
        
        assert isinstance(Rsquare, float)
        return Rsquare

### Aufgabe 2b
Die folgende Zelle enthält verschiedene Tests die dein Implementation prüfen. Sorge dafür, dass diese Tests erfolgreich sind. Stelle dazu sicher, dass die Input-Shapes der Methoden die du implementierst den Doc-Strings entsprechen.

**Achtung: Die Tests decken nicht alles ab. Du kannst also nicht davon ausegehen, dass dein Implementation korrekt ist sobald die Tests erfolgreich sind.**

Deine Abgabe wird noch mit weiteren, für dich nicht sichtbare Tests, geprüft. Es ist grundsätzlich deine Aufgabe, die Implementation genau zu prüfen. Du kannst dazu weitere Zellen mit eigenen Tests einfügen. Du kannst jedoch die folgende Zelle nicht ändern. Diese wird nach Abgabe wieder überschrieben, sodass die von mir definierten Tests ausgeführt werden.

In [None]:
import numpy as np
from sklearn.datasets import make_regression


def print_result(test_name, passed, expected, actual):
    status = "Passed" if passed else "Failed"
    print(f"{status} test: {test_name}")
    print(f"----> Expected: {expected}")
    print(f"----> Actual: {actual}")


def run_test_multivariate():
    Xdummy, ydummy, w_true = make_regression(
        n_samples=30, bias=5.0, coef=True, n_features=2, n_targets=1, random_state=123
    )
    w_true = np.concatenate([np.array([5.0]), w_true])

    lr = LinearRegression(alpha=0, epsilon=1e-3, optimization_method="bgd", learning_rate=0.1)
    lr.fit(Xdummy, ydummy)

    try:
        np.testing.assert_allclose(w_true, lr.w_, atol=1e-3)
        print_result("run_test_multivariate", True, w_true, lr.w_)
    except AssertionError:
        print_result("run_test_multivariate", False, w_true, lr.w_)


def run_test_univariate():
    Xdummy, ydummy, w_true = make_regression(
        n_samples=30, bias=5.0, coef=True, n_features=1, n_targets=1, random_state=123
    )
    w_true = np.concatenate([np.array([5.0]), np.array([w_true])])
    
    lr = LinearRegression(alpha=0, epsilon=1e-3, optimization_method="bgd", learning_rate=0.1)
    lr.fit(Xdummy, ydummy)
    try:
        np.testing.assert_allclose(w_true, lr.w_, atol=1e-3)
        print_result("run_test_univariate", True, w_true, lr.w_)
    except AssertionError:
        print_result("run_test_univariate", False, w_true, lr.w_)


def run_test_score():
    Xdummy, ydummy, w_true = make_regression(
        n_samples=30, bias=5.0, coef=True, n_features=1, n_targets=1, random_state=123
    )
    lr = LinearRegression(alpha=0, epsilon=1e-3, optimization_method="bgd", learning_rate=0.1)
    lr.fit(Xdummy, ydummy)
    score = lr.score(Xdummy, ydummy)
    expected_score = 1.0

    try:
        np.testing.assert_almost_equal(score, expected_score, decimal=3)
        print_result("run_test_score", True, expected_score, score)
    except AssertionError:
        print_result("run_test_score", False, expected_score, score)


def run_test_cost():
    Xdummy, ydummy, _ = make_regression(
        n_samples=30, bias=5.0, coef=True, n_features=1, n_targets=1, random_state=123
    )
    lr = LinearRegression(alpha=0, epsilon=1e-3, optimization_method="bgd", learning_rate=0.1)
    lr.fit(Xdummy, ydummy)
    actual_cost = lr.cost(Xdummy, ydummy)
    expected_cost = 1e-6

    try:
        assert actual_cost < expected_cost
        print_result("run_test_cost", True, f"< {expected_cost}", actual_cost)
    except AssertionError:
        print_result("run_test_cost", False, f"< {expected_cost}", actual_cost)


def run_test_gradient():

    Xdummy, ydummy, w_true = make_regression(
        n_samples=30, bias=5.0, coef=True, n_features=1, n_targets=1, random_state=123
    )
    w_true = np.concatenate([np.array([5.0]), np.array([w_true])])

    lr = LinearRegression(alpha=0, epsilon=1e-3, optimization_method="bgd", learning_rate=0.1)
    lr = lr.fit(Xdummy, ydummy)
    
    expected_gradient = np.array([-6.92655851, -59.01320294])
    weights = np.array([0.0, 0.0])
    lr.w_ = weights
    actual_gradient = lr.gradient(Xdummy, ydummy)
    try:
        np.testing.assert_allclose(actual_gradient, expected_gradient)
        print_result("run_test_gradient", True, expected_gradient, actual_gradient)
    except AssertionError:
        print_result("run_test_gradient", False, expected_gradient, actual_gradient)


for test in [run_test_multivariate, run_test_univariate, run_test_score, run_test_cost, run_test_gradient]:
    try:
        test()
    except Exception as e:
        print(f"Error during testing - test: {test} error: {e}")

### Aufgabe 2c

Erkläre, was die Tests in Aufgabe 2b jeweils prüfen.  

Kannst du dir noch weitere Tests vorstellen? Welche?

1. multivariate: es wird überprüft ob das Modell mit zwei Features korrekt funktioniert und läuft

2. univariate: hier wird geprüft, ob es mit einem Feature funktioniert und läuft

3. score: es wird überprüft, ob der R^2-score richtig berechnet wird

4. cost: die Kostenfunktion wird überprüft und geschaut, dass sie den gleichen Wert erhält

5. gradient: hier wird getestet, ob der gradient richtig implementiert wurde und dementsprechend die gleichen Werte erhält

man könnte noch überprüfen, ob die Regularisierung und die verschiedenen Gradient Descent Methoden richtig implementiert wurde

## Aufgabe 3 (12 Punkte)

In dieser Aufgabe wendest du den Algorithmus auf dem Datensatz `schalentiere_training.csv` an. Damit testest und verwendest du dein Implementation der Klasse `LinearRegression` und lernst gleichzeitig den Datensatz besser kennen.


### Aufgabe 3a

1) Trainiere ein Modell. Verwende ausschliesslich `laenge` als Input-Variable um `ringe` vorherzusagen. Lass die Variablen komplett unverändert.
2) Berechne $R^2$ mit der `score()` Methode und gib den berechneten Wert aus.
4) Zeige in einer Tabelle für die ersten 10 Beobachtungen: `y_true` ($\mathbf{y}$), `y_hat` ($\mathbf{\hat{y}}$)und `y_true - y_hat` (das Residuum $\mathbf{r}$). Erstelle ein `pd.DataFrame` und zeige dieses mit `print` an.
5) Berechne und zeige den Wert der Kostenfunktion nach dem Optimieren der Koeffizienten mit Gradient Descent.
6) Gib die Modellkoeffizienten aus. Überprüfe die Korrektheit der mit Gradient Descent berechneten Koeffizienten durch Verwendung der Normalengleichung.

Verwende `print()` Statements um Fragen nach bestimmten Outputs zu beantworten. Beispiel:

```
print(f"R^2 is: {lr.score(X_train, y_train):.3f}")
```

In [None]:
# Model mit nur laenge und ringe
X = data[['laenge']].values
y = data['ringe'].values

lr = LinearRegression()
lr.fit(X, y)

In [None]:
# R^2 score
score = lr.score(X, y)
print(f"R^2: {score}")

In [None]:
# Tabelle y_true, y_hat, error
y_hat = lr.predict(X)
error = y - y_hat
results = pd.DataFrame({'y_true': y, 'y_hat': y_hat, 'error': error})
print(results.head(10))

In [None]:
# Kostenfunktion
cost = lr.cost(X, y)
print(f"Cost: {cost}")

In [None]:
# Modellkoefizienten
print(f"Modellkoefizienten: {lr.w_}")

# mit Normalengleichung überprüfen
X_bias = np.c_[np.ones((X.shape[0], 1)), X]
w = np.linalg.inv(X_bias.T @ X_bias) @ X_bias.T @ y
print(f"Modellkoefizienten (Normalgleichung): {w}")

### Aufgabe 3b

Zeichne einen Tukey-Anscombe-Plot für ihr Modell aus Aufgabe 3a.  

Schau dir das Skript von Stahel in den Lernmaterialien dazu an.

In [None]:
# Tukey Anscombe Plot
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.residplot(x=y_hat, y=error, scatter_kws={'alpha':0.7, 's':50})
sns.set_theme(style="whitegrid")
plt.xlabel('Vorhersage Ringe', fontsize=14, labelpad=10)
plt.ylabel('Residuen', fontsize=14, labelpad=10)
plt.title('Tukey-Anscombe Plot', fontsize=16, pad=15)

plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

Überprüfe die Modell-Annahmen eines linearen Modells durch Analyse der Darstellung. Was schliesst du daraus? Erkläre.

1. Linearität von X und Y: Die Residuen zeigen ein Muster und verlaufen in parallelen Linien. Das weist darauf hin, dass X und Y nicht linear zueinander sind. Hier wäre es sinnvoll, eine Transformation der Variablen durchzuführen. 

2. Unabhängigkeit der Residuen: Man kann davon ausgehen, dass die Residuen unabhängig voneinander sind, da es keine klare Sequenzierung der Residuen giobt. Um diese Annahme jedoch genauer zu überprüfen, sind wietere Tests notwendig (Autokorrelationstests).

3. Erwartubgswert = 0: Die Residuen sind in etwa gleichmässig um den Nullpunkt verteilt, jedoch zeigt der Plot Heteroskedastizität. Die Streuung der residuen nimmt mit den Vorhersagewerten zu, was bedeutet, dass die Varianz der Residuen nicht konstant ist. Die Residuen sind also nicht normalverteilt.

### Aufgabe 3c

Nimm am Datensatz von Aufgabe 3a geeignete Transformationen vor und fitte die Daten erneut.

In [None]:
# geeignete Transformation (logarithmisch)
y_log = np.log(data['ringe'].values)

# Modell trainieren
lr_trans = LinearRegression()
lr_trans.fit(X, y_log)

# R^2 score
score = lr_trans.score(X, y_log)
print(f"R^2: {score}")

Überprüfe erneut die Modell-Annahmen mit einem Tukey-Anscombe-Plot.
Sind sie nun besser erfüllt?  

Ist es ok, das Bestimmtheitsmass mit und ohne Transformation miteinander zu vergleichen?  
Begründe.

In [None]:
# Tukey Anscombe Plot
y_log_hat = lr_trans.predict(X)
error = y_log - y_log_hat
plt.figure(figsize=(10, 6))
sns.set(style="whitegrid")
sns.residplot(x=y_log_hat, y=error, scatter_kws={'alpha':0.7, 's':50})
plt.xlabel('Vorhersage Ringe', fontsize=14, labelpad=10)
plt.ylabel('Residuen', fontsize=14, labelpad=10)
plt.title('Tukey-Anscombe Plot', fontsize=16, pad=15)

plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

1. Der Plot sieht nun etwas besser aus, jedoch gibt es immer noch systematische Muster (bei den grösseren Ringen jedoch nicht mehr so stark). Die Residuen haben ebenfalls noch eine leichte Asymmetrie, was beduetet, dass sie immer noch nicht komplett normalverteilt sind. Im Vergleich zu anderen Transformationen (Quadratische, Quadrierte Transformation) ist diese am geeignetsten.

2. Das Bestimmheitsmass beider Regresionen miteinander zu vergleichen ist nicht besonders sinnvoll, denn es bezieht sich auf die Skalierung und Verteilung der abhängigen Variable. Bei einer Transformation verändert sich die abhängige Variable und somit auch die Verteilung der Daten, bei einer logarithmischen Transformation werden grosse Werte zum Beispiel weniger gewichtet, was das das Ergebnis verzerrt. Ein hoher R²-Wert auf der transformierten Skala bedeutet nicht unbedingt eine bessere Modellanpassung auf der ursprünglichen Skala, da durch die Transformation die Struktur der Daten und damit das Gewicht der Fehler verändert wurde.

## Aufgabe 4 (14 Punkte)

Erweitere dein Modell aus Aufgabe 3c nun mit den verbleibenden quantitativen unabhängigen Variablen.

In [None]:
# alle quantitativen Variablen
X = data[['gew_s', 'breite', 'laenge', 'gew_tot', 'hoehe', 'gew_i', 'gew_f']].values
y = np.log(data['ringe'].values)

# Modell trainieren
model = LinearRegression()
model.fit(X, y)

# R^2 score
score = model.score(X, y)
print(f"R^2: {score}")

# Kostenfunktion
cost = model.cost(X, y)
print(f"Cost: {cost}")

### Aufgabe 4a
Trainiere mit dem erweiterten Datensatz zwei Modelle. Einmal mit `optimization_method="sgd"` und einmal mit `optimization_method="bgd"`. Du kannst die restlichen Parameter selber wählen, sie sollen aber identisch sein für die beiden Modelle.

Zeichne für beide Modelle eine Learning-Curve. Wähle eine Darstellung die einen einfachen Vergleich erlaubt.

In [None]:
# SGD Modell
model_sgd = LinearRegression(max_num_steps=1000, learning_rate=0.1, optimization_method='sgd', verbose=False)
model_sgd.fit(X, y)

# BGD Modell
model_bgd = LinearRegression(max_num_steps=1000, learning_rate=0.1, optimization_method='bgd', verbose=False)
model_bgd.fit(X, y)

# Plot der Learning-Curves für beide Modelle
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

ax1.plot(model_sgd.costs_, label='SGD')
ax1.plot(model_bgd.costs_, label='BGD')
ax1.set_xlabel('Iteration')
ax1.set_ylabel('Cost')
ax1.legend()
ax1.set_title('Gesamter Kostenverlauf: SGD vs. BGD')

ax2.plot(model_sgd.costs_, label='SGD')
ax2.plot(model_bgd.costs_, label='BGD')
ax2.set_xlabel('Iteration')
ax2.set_ylabel('Cost')
ax2.legend()
ax2.set_title('Zoom auf Kostenverlauf: SGD vs. BGD')
ax2.set_xlim(0, 1000) 

plt.tight_layout()
plt.show()

Wie unterscheiden sich die Learning-Curves? Warum?

1. BGD: Hier wird der Gradient bei jeder Iteration anhand aller Datenpunkte berechnet, somit zeigt die Lernkurve eine gleichmässige Abnahme der Kostenfunktion. Die Berechnung des Minima benötigt jedoch mehrere Iterationen, wodurch die Berechnung länger dauert. Wir erreichen hier eine präzise Konvergenz zum globalen Minimum, allerdings nur, wenn es genügend Iterationsschritte gibt.

2. SGD: Hier wird der Gradient mit nur einem zufällig ausgewählten Datenpunkt geschätzt, was zu diesen grossen Schwankungen in der Lernkurve führt. Die Berechnung des Minima benötigt weniger Iterationen, wodurch die Berechnung schneller geht. Wir befinden uns hier im Bereich des globalen Minimum, das Modell bleibt oft nur in der Nähe des Minimum, ohne es genau zu erreichen.

### Aufgabe 4b

Gib die Koeffizienten und das Bestimmheitsmass der Lösungen der beiden Gradient Descent Methoden aus und vergleiche sie mit der Lösung, welche du via Normalengleichung berechnest.  

In [None]:
# Koeffizienten und Bestimmtheitsmass
print(f"SGD Modellkoefizienten: {model_sgd.w_}")
print(f"SGD R^2: {model_sgd.score(X, y)}")

print(f"BGD Modellkoefizienten: {model_bgd.w_}")
print(f"BGD R^2: {model_bgd.score(X, y)}")

# Vergleich mit Normalengleichung
X_bias = np.c_[np.ones((X.shape[0], 1)), X]
w = np.linalg.inv(X_bias.T @ X_bias) @ X_bias.T @ y
print(f"Modellkoefizienten (Normalgleichung): {w}")
print(f"R^2 (Normalgleichung): {1 - np.sum((y - X_bias @ w)**2) / np.sum((y - np.mean(y))**2)}")

Was stellst du fest? Wie interpretierst und erklärst du das Beobachtete?

1. Modellkoefizienten: Die Normalengleichung und der BGD haben die geringste durchschnittliche Abweichung von 0.05, somit hat der BGD eine präzisere Annäherung an das Optimum als der SGD. Dies erklärt sich dadurch, dass die Berechnung des Optimum beim SGD nicht so genau ist wie beim BGD.

2. Bestimmtheitsmass: Der R²-Wert ist bei der Normalengleichung und dem BGD fast identisch und die des SGD leicht schlechter. Dies bestätigt also nochmals, dass der SGD weniger präziser ist (jedoch um einiges schneller bei grossen Datenmengen).

### Aufgabe 4c

Nun untersuchen wir verschiedene Learning-Rates. Verwende dasselbe Setup wie in Aufgabe 4b. Mit folgenden Parameter:

- `epsilon=-1`
- `alpha=0`
- `optimization_method="bgd"`
- `max_num_steps=500`

Variiere ausschliesslich den `learning_rate` Parameter in einem sinnvollen Bereich. Wähle mind. 10 verschiedene Werte. Trainiere mehrere Modelle und vergleiche die Konvergenz der Modelle für jeden Wert von `learning_rate`. Versuche eine möglichst hohe, funktionierende Learning-Rate zu finden. Zeichne dazu die Learning-Curves in eine Figure.

Achte darauf, dass die Darstellung einen sinnvollen Vergleich erlaubt.

In [None]:
learning_rates = [0.1, 0.2, 0.3, 0.5, 0.7, 0.01, 0.02, 0.05, 0.07, 0.001]

plt.figure(figsize=(12, 8))

legend = []

for lr in learning_rates:
    model = LinearRegression(epsilon=-1, alpha=0, max_num_steps=500, learning_rate=lr, optimization_method='bgd')
    model.fit(X, y)
    r2_score = model.score(X, y)
    plt.plot(model.costs_) 
    legend.append(f"lr={lr}, R²={r2_score:.3f}")

plt.xlabel('Iteration')
plt.ylabel('Cost')
plt.legend(legend)
plt.title('Kostenverlauf für verschiedene Lernraten')
plt.show()


Interpretiere die Learning-Curves. Was siehst du? Welche Learning-Rates funktionieren und sind praktikabel? Welche findest du optimal?

Die Learning-Rates 0.5, 0.7 sind die besten geeignet, da sie eine schnelle Konvergenz zeigen und die Kostenfunktion am schnellsten minimieren. Jedoch kann es bei hohen Learning-Rates zu Oszillationen oder Instabilität führen, also dass das Modell nicht konvergiert. Generell ist es wichtig, die Learning-Rate so zu wählen, dass die Kostenfunktion schnell minimiert wird, aber auch stabil bleibt. Da alle ausser 0.001 zu einem relativ schnellen Konvergenz führen, sind diese auch praktikabel. 
Für mich ist die Learning-rate 0.3 optimal, da sie eine schnelle Konvergenz zeigt und Oszillationen vermeidet.

## Aufgabe 5 (3 Punkte)

Füge die Variable `geschlecht` hinzu. Fitte ein neues unregularisiertes Lineares Modell.  

Erstelle erneut einen Tukey-Anscombe-Plot.

Miss das Bestimmtheismass nun auch auf den Testdaten `schalentiere_test.csv`.

Tipp: Du kannst von `sklearn.preprocessing` `StandardScaler` und `OneHotEncoder`, sowie `sklearn.compose.ColumnTransformer` und `sklearn.pipeline.Pipeline`verwenden.

In [None]:
# Geschlecht hinzufügen
from sklearn.pipeline import Pipeline

# M zu 0, W zu 1
data['geschlecht'] = data['geschlecht'].map({'M': 0, 'W': 1})

data_test = pd.read_csv('schalentiere_test.csv')
data_test['geschlecht'] = data_test['geschlecht'].map({'M': 0, 'W': 1})

X_test = data_test[['gew_s', 'breite', 'laenge', 'gew_tot', 'hoehe', 'gew_i', 'gew_f', 'geschlecht']]
y_test = np.log(data_test['ringe'].values)

X = data[['gew_s', 'breite', 'laenge', 'gew_tot', 'hoehe', 'gew_i', 'gew_f', 'geschlecht']]
y = np.log(data['ringe'].values)

# Modell trainieren
model = Pipeline([
    ('regressor', LinearRegression(learning_rate=0.3))
])

model.fit(X, y)
print(f"R^2: {model.score(X, y)}")

# Tukey-Anscombe Plot
y_hat = model.predict(X)
error = y - y_hat
plt.figure(figsize=(10, 6))
sns.set_theme(style="whitegrid")
sns.residplot(x=y_hat, y=error, scatter_kws={'alpha':0.7, 's':50})
plt.xlabel('Vorhersage Ringe', fontsize=14, labelpad=10)
plt.ylabel('Residuen', fontsize=14, labelpad=10)
plt.title('Tukey-Anscombe Plot', fontsize=16, pad=15)

plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

# Bestimmtheitsmass Testdaten
r2_test = model.score(X_test, y_test)
print(f"R^2 Testdaten: {r2_test}")

Wie interpretierst du den Tukey-Anscombe-Plot?

Vergleiche das neue Modell, sämtlicher unabhängiger Variablen mit der Lösung aus Aufgabe 4.

Im Vergleich zum Tukey-Anscombe-Plot aus Aufgabe 4 zeigt das Modell eine leicht verbesserte Anpassung. Die Residuen sind nun gleichmässiger um den Nullpunkt verteilt, die Varianz hat also abgenommen. Beide Modelle haben jedoch noch systematische Muster. 

## Aufgabe 6 (5 Punkte)

Untersuche nun den Effekt der Regularisierung $\lambda$ (Parameter `alpha`) auf das Modell. Dazu trainierst du mehrere Modelle mit verschiedenen Werten von `alpha` und vergleichst dann die Resultate. Folgende Bedingungen sollst du erfüllen:

- Wähle die `alpha` über einen grosszügig gewählten Bereich. Alle anderen Parameter sollen für alle Modelle identisch sein.
- Vergleiche für die verschiedenen Modelle die gefundenen Modell-Koeffizienten $\mathbf{w}$. Plotte dazu `alpha` auf der X-Achse und den Wert von jedem Modell-Koeffizient auf der Y-Achse. Beispiel: [Link](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ridge_path.html)

Am Besten verwendest du dazu erneut eine scikit-learn Pipeline.

In [None]:
alphas = np.logspace(-5, 4, 20)

coefs = []

for a in alphas:
    model = LinearRegression(alpha=a, epsilon=-1, optimization_method="bgd", learning_rate=0.3, max_num_steps=500, verbose=False)
    model.fit(X, y)
    coefs.append(model.w_)

# Plot der Koeffizienten
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale("log")
ax.set_xlim(ax.get_xlim()[::-1])
plt.xlabel("alpha")
plt.ylabel("weights")
plt.title("Regularization Path")
plt.axis("tight")
plt.show()


Interpretiere den Plot. Was sieht man und warum sieht es so aus?

In diesem Plot erkennt man die Veränderung der Koeffizienten in Abhängigkeit der Regularisierung. Je höher die Regularisierung, desto stärker werden die Koeffizienten reduziert. Dies ist sinnvoll, da die Regularisierung die Koeffizienten reduziert, um Overfitting zu verhindern. 

## Aufgabe 7 (7 Punkte)

In dieser Aufgabe geht es nun darum, ein bestmögliches lineares Regressions-Modell zu finden:

### Aufgabe 7a

- Entwickle nun ein multiples lineares Regressionsmodell für die Zielgrösse `ringe`.
- Du darfst dazu auch weitere Features hinzufügen, beispielsweise mit dem `PolynomialFeatures`-Transformer.
- Trainiere das Modell mit dem Trainings-Datensatz. 
- Evaluiere das beste Modell auf dem Trainings- und auf dem Testdatensatz.

Hinweis: In dieser Aufgabe geht es darum ein möglichst gutes Modell zu finden. Du sollst demonstrieren, dass du in der Lage bist, verschiedene Modell-Varianten miteinander zu vergleichen und die beste Variante auszuwählen. Ein ideales Instrument ist Kreuzvalidierung. Lies dazu die folgende Dokumentation: [cross_validation](https://scikit-learn.org/stable/modules/cross_validation.html). Verwende [sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) um verschiedene Modelle miteinander zu vergleichen. 

Verwende weitere geeignete Instrumente von sklearn, wie z.B.:
- [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)
- [sklearn.pipeline.Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)
- [sklearn.compose](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.compose)

In [None]:
# Multiple Regression mit Polynom
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline([
            ('poly', PolynomialFeatures()),
            ('scaler', StandardScaler())
        ]), slice(0, X.shape[1]))
    ],
    remainder='passthrough' 
)

model = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression(optimization_method='bgd', max_num_steps=500, learning_rate=0.3, verbose=False))
])

param_grid = {
    'preprocessor__num__poly__degree': [1, 2, 3],
    'regressor__alpha': np.logspace(-3, 3, 7) 
}

grid_search = GridSearchCV(model, param_grid, cv=5, scoring='r2')
grid_search.fit(X, y)


In [None]:
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)

In [None]:
# Testdaten
best_model = grid_search.best_estimator_
r2_test = best_model.score(X_test, y_test)
print(f"R^2 Testdaten: {r2_test}")

### Aufgabe 7b

Interpretiere das Ergebnis:

- Welche Modell-Varianten hast du verglichen? Welche ist die beste?
- Vergleiche und interpretiere die Scores auf Test- und Trainingsdatensatz. Wie schneidet das Modell im Vergleich zum Modell aus Aufgabe 5 ab?

1. Ich habe den Polynomgrad und Regularisierungsparameter varrieriert und die Modelle miteinander verglichen. Das beste Modell ist das Modell mit einem Polynomgrad von 1 und einem Regularisierungsparameter von 0.001. 

2. Der Score von 0.568 auf dem Trainingsdatensatz ist der beste Kreuzvalidierungsscore, bei der Wahl der besten Hyperparameter. Der Score auf dem Trainingsdatensatz beträgt ähnlich viel (0.584), was darauf hindeutet, dass das Modell gut generalisiert. Da die Parameter im vergleichb zu Aufgabe 5 gleich sind, schneiden die beiden Modelle auch gleich ab.

## Aufgabe 8 (11 Punkte)

In dieser Aufgabe vergleichen wir die Ridge Regression mit Lasso.

### Aufgabe 8a

Wie unterscheiden sich Lasso und Ridge regression hinsichtlich ihrer Kostenfunktionen?  

Was hat dies für Konsequenzen für die Optimierung der Modell-Koeffizienten?  

Wie unterscheiden sich die Lösungen typischerweise?

- Ridge-Regression

Die Kostenfunktion der Ridge-Regression mit einer \( L_2 \)-Strafe lautet:

$$
J(\beta) = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p \beta_j^2
$$

>Die Koeffizienten werden klein, aber werden nicht auf null gesetzt, den Einfluss der Koeffizienten wird also nur verringert (kugelförmig).

- Lasso-Regression

Die Kostenfunktion der Lasso-Regression mit einer \( L_1 \)-Strafe lautet:

$$
J(\beta) = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p |\beta_j|
$$

>Die Koeffizienten werden hier auf genau 0 gesetzt, es haben dann also nicht mehr alle Variablen einen Einfluss auf das Modell, nur die wichtigsten Variablen bleiben (Diamantförmig).

### Aufgabe 8b

Untersuche deine Vermutungen aus Aufgabe 8a zu den Lösungseigenschaften von Lasso durch Zeichnen des Lasso-Pfades.  

In [None]:
# Lasso-Pfad zeichnen
from sklearn.linear_model import Lasso

alphas = np.logspace(-5, 4, 20)
coefs = []

for a in alphas:
    model = Lasso(alpha=a, max_iter=500)
    model.fit(X, y)
    coefs.append(model.coef_)
    
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale("log")
ax.set_xlim(ax.get_xlim()[::-1])
plt.xlabel("alpha")
plt.ylabel("weights")
plt.title("Lasso Path")
plt.axis("tight")
plt.show()

Findest du deine Vermutungen bestätigt? Erkläre dies anhand des Plots.

Ja der Plot bestätigt die Vermutungen, für hohe Werte von lambda sind fast alle Koeffizienten auf null gesetzt. Man erkennt, dass nur eine sehr gerine Regularisierung notwendig ist, um die Koeffizienten auf null zu setzen. 

### Aufgabe 8c

Finde nun das beste Lasso-Modell.

Bespreche dein Resultat.

Gehe dazu gleich vor wie in Aufgabe 7.

In [None]:
# bestes Lasso-Modell finden mit polynom und cross-validation
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline([
            ('poly', PolynomialFeatures()),
            ('scaler', StandardScaler())
        ]), slice(0, X.shape[1]))
    ], 
    remainder='passthrough'
)

model = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', Lasso(max_iter=500))
])

param_grid = {
    'preprocessor__num__poly__degree': [1, 2, 3],
    'regressor__alpha': np.logspace(-3, 1, 20)
}

grid_search = GridSearchCV(model, param_grid, cv=5, scoring='r2')
grid_search.fit(X, y)

In [None]:
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)

In [None]:
# Testdaten
best_model = grid_search.best_estimator_
r2_test = best_model.score(X_test, y_test)
print(f"R^2 Testdaten: {r2_test}")

Wir haben hier ein Modell mit einem Polynomgrad von 2 und einem Regularisierungsparameter von 0.001. Dieses Modell hat den besten Kreuzvalidierungsscore von 0.621. Der Score auf dem Trainingsdatensatz beträgt ähnlich viel (0.636), was darauf hindeutet, dass das Modell gut generalisiert.

## Aufgabe 9 (4 Punkte)

In dieser Aufgabe verwenden wir nun noch k-Nearest-Neighbours als Modellierungsansatz.

### Aufgabe 9a

Finde und bespreche ein bestmögliches k-Nearest-Neighbours-Modell, wieder analog zu Aufgabe 7.

In [None]:
# bestmögliche k-Nearest Neighbors
from sklearn.neighbors import KNeighborsRegressor

preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline([
            ('poly', PolynomialFeatures()),
            ('scaler', StandardScaler())
        ]), slice(0, X.shape[1]))
    ], 
    remainder='passthrough'
)

model = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', KNeighborsRegressor())
])

param_grid = {
    'preprocessor__num__poly__degree': [1, 2, 3],
    'regressor__n_neighbors': [15, 17, 19, 21, 23, 25, 27, 29]
}

grid_search = GridSearchCV(model, param_grid, cv=5, scoring='r2')
grid_search.fit(X, y)

In [None]:
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)

In [None]:
# Testdaten
best_model = grid_search.best_estimator_
r2_test = best_model.score(X_test, y_test)
print(f"R^2 Testdaten: {r2_test}")

Wir haben hier ein Modell mit einem Polynomgrad von 1 und K-Nearest Neighbours von 19. Dieses Modell hat den besten Kreuzvalidierungsscore von 0.60. Der Score auf dem Trainingsdatensatz beträgt ähnlich viel (0.624), was darauf hindeutet, dass das Modell gut generalisiert.

## Aufgabe 10 (2 Punkte)

In dieser Aufgabe geht es darum die Ergebnisse der einzelnen Teilaufgaben zu konsolidieren und ein Fazit zu ziehen.

### Aufgabe 10a

Beantworte folgende Fragen:

- Wie schätzst du den Modellierungserfolg der verschiedenen Modellierungsansätze ein? Welche sind gut oder schlecht? Begründe dein Antwort.

- Wie könntest du herausfinden, welches die wichtigsten Variablen für die Vorhersage sind?


1. Alle Modellierungsansätze haben einen ähnlichen Score, jedoch hat das Modell mit dem Lasso den besten Score. Dieses Modell ist also am besten geeignet, um die Anzahl der Ringe vorherzusagen.

2. Um herauszufinden, welche die wichtigsten Variablen sind, ist es sinnvoll, die Koeffizienten der Modelle zu betrachten. Je grösser der Koeffizient, desto wichtiger ist die Variable für die Vorhersage.