## (2.3) Optimieren <span style="color:red; font-size:1em">(ooo)</span> <span style="font-size:1em">&#x1F4D8;</span>

In dieser Aufgabe implementieren wir verschiedene Strategien zum Optimieren der Parameter einer linearen Regression auf einem Toy-Datensatz. Wir nutzen dazu diverse Hilfsfunktionen aus der begleitenden Datei `utils_optimization.py`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')

%matplotlib widget
# %matplotlib notebook

from utils_optimization import x_train, y_train
from utils_optimization import visualize_optimization

### (2.3.1) Vorbereitung - Random Search

In dieser Aufgabe implementieren wir den Algorithmus aus dem Notebook `Optimieren.ipynb` Abschnitt **2.1** und lernen dabei die Struktur der Aufgabe kennen. Die Aufgabe basiert auf einer Hilfsfunktion `visualize_optimization` aus `utils_optimization`, die als erstes Argument eine Funktion erhält. Diese Funktion sollte folgende Struktur haben:

```python
def update_function(x_train, y_train, w, bias, **kwargs):
    # do something with x_train, y_train
    
    # compute the variables
    # - w_new
    # - bias_new
    
    # optionally use more kwargs    
    return w_new, bias_new


# Then visualize
fig, axes = visualize_optimization(update_function)
```

Das heißt, die Funktion erhält einen Trainingsdatensatz (`x_train` und `y_train`), die bisherigen Werte der Parameter (`w`, `bias`) und optional weitere Argumente. Daraus sollen neue Werte `w_new` und `bias_new` errechnet werden. Ihnen sind alle Freiheiten gegeben, doch unser Ziel sollte sein, zum Schluss hier den Gradientenabstieg zu implementieren.

Danach wird die Funktion als Argument (ja, das geht in Python!) der Funktion `visualize_optimization` übergeben.

Zunächst fangen wir aber mit etwas einfacherem an. Führen Sie den untestehende Code aus und interpretieren Sie das Ergebnis.

In [None]:
# Die Funktion `random_search_simple` erhält ebenfalls alle geforderten Argumente
# - nutzt diese aber nicht. Stattdessen wird ein zufälliger Wert für `w_new` und `bias_new` 
# erzeugt und zurückgegeben.
def random_search_simple(x_train, y_train, w, bias):
    w_new = np.random.uniform(-3, 3)
    bias_new = np.random.uniform(-4, 4)
    
    return w_new, bias_new

In [None]:
# Wir nutzen `random_search_simple` nun als Argument von `visualize_optimization`
fig, axes = visualize_optimization(update_w_and_bias, max_iter=200, learning_rate=0.03)

### (2.3.2) Random Search adaptieren

Versuchen Sie nun Folgendes: Ändern Sie das Argument `max_iter` der Funktion `visualize_optimization`. Was ändert sich?

Adaptieren Sie nun die Funktion `random_search_simple` und erstellen Sie eine Funktion `random_search_advanced`, die den Algorithmus aus Abschnitt **2.2** das Notebooks `Optimieren I.ipynb` umsetzt. Visualisieren Sie die Optimierung. Hier der Startpunkt:

In [None]:
def random_search_advanced(x_train, y_train, w, bias):
    # TODO
    return w_new, bias_new

fig, axes = visualize_optimization(random_search_advanced)

### (2.3.3) Gradientenabstieg

Implementieren Sie nun den Gradientenabstieg. Hier der Startpunkt:

In [None]:
def gradient_descent(x_train, y_train, w, bias, learning_rate=0.01):
    # TODO
    return w_new, bias_new


# die learning_rate kann von außen modifiziert werden:
fig, axes = visualize_optimization(gradient_descent, max_iter=100, learning_rate=0.01)

### (2.3.4) Gradientenabstieg

Implementieren Sie nun den Gradientenabstieg mit "Weight Decay", das heißt mit L2-Regularisierung. Hier der Startpunkt:

In [None]:
def gradient_descent(x_train, y_train, w, bias, learning_rate=0.01, alpha=0.01):
    # TODO
    return w_new, bias_new


# die learning_rate kann von außen modifiziert werden:
fig, axes = visualize_optimization(gradient_descent, max_iter=100, learning_rate=0.01)

### (2.3.5) Der Gradientenabstieg als Machine Learning Modell

Implementieren Sie ein Machine Learning Modell wie in Scikit Learn. Hier der Startpunkt:

In [None]:
from sklearn.exceptions import NotFittedError

class LinearRegression:
    def __init__(self, learning_rate=0.01, max_iter=1000):
        self.learning_rate = learning_rate
        self.max_iter = max_iter
        self._is_fitted = False
        
    def fit(self, x_train, y_train):
        
        w = np.random.normal()
        bias = 0.0
        
        # TODO: Iterative Updates von w und bias
        
        self.w_ = w
        self.bias_ = bias
        self._is_fitted = True
            
    
    def predict(self, x):
        if not self._is_fitted:
            raise NotFittedError
            
        y_pred = None  # TODO
        
        return y_pred


In [None]:
# Wenn die Klasse LinearRegression richtig implementiert ist, sollte
# der folgende Code funktionieren.
lin_reg = LinearRegression()
lin_reg.fit(x_train, y_train)

x_vis = np.linspace(0, 10, 100)
y_vis = lin_reg.predict(x_vis)

plt.scatter(x_train, y_train)
plt.plot(x_vis, y_vis, color="red")
