# Lineare Regression 1D (Aufgaben)

In dieses Übung wird eine zufällige Punkteverteilung erzeugt, für die eine Approximation mittels einer Geraden gesucht wird. Zu Beginn sind die Parameter theta0 (y-Achsenabschnitt) und theta1 (Steigung) der Geraden zufällig gesetzt. Danach werden sie mit dem Gradientenverfahren geändert.

Sie können das hier gezeigte Jupyter Notebook downloaden und auf ihren eigenen Rechner ausführen.

# Einleitung
Zunächst wird numpy für den Umgang und matplot zum Plotten von Matrizen importiert. Danach wird der Zufallsgenerator von Numpy geseedet und die Anzahl an Punkte die später erzeugt werden soll festgelegt.



In [None]:
import numpy as np
import matplotlib.pyplot as plt

# enable interactive plots
%matplotlib notebook

np.random.seed(7) 
num_points = 100

Die nachfolgenden Methoden sind zum Plotten der Datenpunkte und der approximierten Geraden, sowie dem berechnen des Approximationsfehlers.

In [None]:
def make_plot(x, y, prediction): 
    fig = plt.figure(figsize = (8,6))   
    
    ax = fig.add_subplot(1, 1, 1)
    ax.axis([-2, 2, 0.1, 0.6])
    ax.set_xlabel('x')
    ax.set_ylabel('y')
    
    dots, = ax.plot(x, y, 'ro')
    line, = ax.plot(x, prediction)
    return fig, dots, line

def show_plot(x, y, prediction): 
    fig, dots, line = make_plot(x, y, prediction)
    fig.tight_layout()
    plt.show()    
    
def calc_error(y, prediction):
    d = y - prediction
    d = np.square(d)
    e = np.sum(d)
    return e

Die eigentlichen Datenpunkte werden zufällig erzeugt, dabei wird eine Gauß-Verteilung verwendet.

In [None]:
# random data array
x = np.zeros(num_points, dtype=np.float32) 
y = np.zeros(num_points, dtype=np.float32)

for i in range(num_points):
    x[i] = np.random.normal(0.0, 0.55)
    y[i] = x[i] * 0.1 + 0.3 + np.random.normal(0.0, 0.03)

Der Y-Achsenabschnitt (t0) und die Steigung (t1) von einer Geradengleichung werden festgelegt. Diese Gleichung wird verwendet um für jeden X-Wert einen entsprechenden Y-Wert auszurechnen, die zusammen eine Gerade formen. Da t0 und t1 willkührlich ausgewählt wurden approximiert die entstandene Line die zufälligen Datenpunkte X,Y eher schlecht. 

In [None]:
# initiale theta-Werte
t0 =  0.4
t1 = -0.3 

# prediction
pred = lambda x: t0 + t1 * x
y_pred = pred(x)

# print results
print("error:", calc_error(y, y_pred))
show_plot(x, y, y_pred)

<hr />
<h2><span class="marker"><strong>Aufgabe</strong></span></h2>

<p><span class="marker">Im n&auml;chsten Abschnitt sollen die Theta Werte (t0 und t1) durch das&nbsp;</span>Gradientenverfahren&nbsp;angepasst werden. Implementieren sie die partielle Ableitung f&uuml;r t0 und t1, aktualisieren sie danach diese Werte und geben sie den neuen Pr&auml;diktionsfehler aus. Erstellen sie eine neue approximations Gerade und speichern sie dessen X-Werte im predictions array.</p>

In [None]:
# initiale theta-Werte
t0 =  0.4
t1 = -0.3 

# learn rate
alpha = 0.5 / num_points 

# predictions per iteration
predictions = []

# train for 30 iterations
for i in range(30):
    
    # TODO prediction with input data
    y_pred = pred(x)
    # TODO partial derivative
    grad_t0 = np.sum(- 2 * (y - y_pred) )
    grad_t1 = np.sum(- 2 * (y - y_pred) * x)

    # TODO update theta
    t0 = t0 - grad_t0 * alpha
    t1 = t1 - grad_t1 * alpha


    # print error
    print("{:2d} error: {:5.3f}".format(i, calc_error(y, y_pred)))
    
    # remember the current predictions 
    predictions.append(y_pred)

Die berechneten Geraden können über ein interaktives Diagramm betrachtet werden. Da in Python imports jeder Zeit möglich sind, wird das Slider-Widges von matplotlib Widges importiert und ein Plot erstellt der über einen Slider die Geraden der verschiedenen Iterationen anzeigt.

# Ergebnis

Nachdem die Theta Werte angepasst wurden, könnte der Ergebnisplot wie folgt aussehen:



In [None]:
show_plot(x, y, pred(x))

Bevor sie das Notebook in Moodle hochladen entfernen sie bitte über "Kernel" -> "Restart and Clear Output" sämtlichen von Python erstellten Inhalt und speichern anschließend das Notebook "File" -> "Save and Checkpoint" erneut ab. Sorgen sie bitte außerdem dafür das im Dateinamen ihr Vor- und Nachname steht, ich empfehle folgende Namensgebung: "01_LinearRegression_1D_VORNAME_NACHNAME.ipynb"