# Aufgabe 1: Lineare kleinste Quadrate mit Gradienten-Verfahren

> Für die Daten in der Tabelle soll mittels der kleinste Quadrate Methode ein
> lineares Modell $p(x_1,x_2) = b + w_1x_1 + w_2x_2$ trainiert werden.
> 
> | $j$ | $x_1$ | $x_2$ | $y$ |
> |-----|-------|-------|-----|
> | 1   | 1     | 2     | 1   |
> | 2   | -2    | 5     | 6   |
> | 3   | 0     | 1     | 1   |
> 
> Es liegen Startnäherungen für die Gewichte vor:
> - $b^{(0)} = 0$
> - $w_1^{(0)} = -1$
> - $w_2^{(0)} = 0$.

In [1]:
import numpy as np
np.set_printoptions(precision=4)

x1 = np.array([1, -2, 0])
x2 = np.array([2, 5, 1])
y = np.array([1, 6, 1])
w0 = np.array([0, -1, 0])

## Wert der Zielfunktion bzgl. Start-Gewichte

> Berechnen Sie den Wert der Zielfunktion
> $$f(w) = \frac1n \frac12 \sum_{j=1}^n (y_j - p(\mathbf{x}_j))^2$$
> bzgl. der Startgewichte.

In [2]:
n = x1.shape[0]
X = np.vstack((np.ones(n), x1, x2)).T
print(X)

[[ 1.  1.  2.]
 [ 1. -2.  5.]
 [ 1.  0.  1.]]


In [12]:
def f(X, W, y):
    return 1/n * 1/2 * np.sum((X @ W - y)**2)    

f1 = f(X, w0, y)
print(f'Wert der Zielfunktion = {f1}')

Wert der Zielfunktion = 3.5


## Batch-Gradienten-Verfahren

> Führen Sie einen Schritt des (Batch-) Gradienten-Verfahrens mit Schrittweite
> $\alpha=0.05$ aus. Geben Sie den Zielfunktionswert nach diesem Schritt an.

In [39]:
alpha = 0.05

def grad(w, X, y):
    return X.T @ (X @ w - y)

def gd(w, X, y, rate):
    n = X.shape[0]
    g = grad(w, X, y)
    return w - g / n * rate

W_gd = gd(w0, X, y, alpha)
print('W =', W_gd)

f_gd = f(X, W_gd, y)
print(f'f = {f_gd:.4f}')

W = [ 0.1167 -1.1     0.4167]
f = 0.6834


## Stochastisches Gradienten-Verfahren

> Wiederholen Sie **(b)** mit einer Epoche des stochastischen
> Gradienten-Verfahrens. Benutzen Sie dabei die ursprüngliche Reihenfolge der
> Beobachtungen und geben Sie die Zielfunktion am Ende der Epoche an.

In [5]:
def sgd(w0, X, y, grad_fun, max_it, rate, perm=None):
    w = w0
    n = X.shape[0]
    
    for k in range(max_it):
        idx = perm or np.random.permutation(n)
        print(k + 1, 'idx:', idx)

        for i in idx:
            xi = np.array([X[i - 1]])
            yi = np.array([y[i - 1]])
            grad = grad_fun(w, xi, yi)
            w = w - rate * grad
        print(k + 1, 'W:', w)
    
    return w

In [34]:
perm = [0, 1, 2]
W_sgd = sgd(w0, X, y, grad_fun=grad, max_it=1, rate=alpha, perm=perm)
print('==>', W_sgd)

1 idx: [0, 1, 2]
1 W: [ 0.2859 -1.1943  0.9519]
==> [ 0.2859 -1.1943  0.9519]


In [35]:
f_sgd = f(X, W_sgd, y)
print(f'f = {f_sgd:.4f}')

f = 0.3520
