# Stochastisches Gradientenverfahren

> Gegen seien die folgenden Daten
> 
> - $x_{1,i} = [3,5,7,3,−1,4]$
> - $x_{2,i} = [1,1,−2,−2,−1,0]$
> - $y_i = [20,27,2,3,0,18]$
> 
> Es soll mit der kleinste-Quadrate-Methode die Parameter für eine Funktion der
> Form
> 
> $$y = p(x_1, x_2) = w_0 + w_1x_1 + w_2x_2 + w_3x_1x_2$$
> 
> bestimmt werden.
> 
> Führen Sie dazu 1 Epoche des SGD mit Schrittweite $\alpha = 0.01$ aus. Benutzen
> Sie den Startvektor $\mathbf{w}^{(0)} = [4~3~2~0]^\intercal$ und verwenden Sie
> die Reihenfolge $[j_1,j_2,\ldots,j_n] = [4,3,6,1,5,2]$ der Beobachtungen.
> 
> Gesucht sind die resultierenden Gewichte.

In [1]:
import numpy as np
np.set_printoptions(precision=4, suppress=True)

x1 = np.array([3,5,7,3,-1,4])
x2 = np.array([1,1,-2,-2,-1,0])
y = np.array([20,27,2,3,0,18])

w0 = np.array([4, 3, 2, 0])
alpha = 0.01

j = [4, 3, 6, 1, 5, 2]

In [2]:
n = y.size

# Ausgleichsmatrix
A = np.vstack([np.ones(n), x1, x2, x1 * x2]).T
print(A)

[[  1.   3.   1.   3.]
 [  1.   5.   1.   5.]
 [  1.   7.  -2. -14.]
 [  1.   3.  -2.  -6.]
 [  1.  -1.  -1.   1.]
 [  1.   4.   0.   0.]]


In [3]:
def gradient(w, X, y):
    y_hat = X @ w
    return X.T @ (y_hat - y)

def sgd(w0, X, y, grad_fun, max_it, rate, perm=None):
    w = w0
    n = X.shape[0]
    
    for k in range(max_it):
        idx = perm or np.random.permutation(n)
        print(k + 1, 'idx:', idx)

        for i in idx:
            xi = np.array([X[i - 1]])
            yi = np.array([y[i - 1]])
            grad = grad_fun(w, xi, yi)
            w = w - rate * grad
        print(k + 1, 'W:', w)
    
    return w

In [4]:
W = sgd(w0, A, y, grad_fun=gradient, max_it=1, rate=alpha, perm=j)

1 idx: [4, 3, 6, 1, 5, 2]
1 W: [3.8639 2.1947 2.3801 2.0556]
