In [1]:
import sklearn
import sklearn.datasets
from sklearn.linear_model import LinearRegression
import pandas as pd
import matplotlib.pyplot as plt
import pandas.plotting
import numpy as np
%matplotlib inline

## Aufgabe 1

### 1) Laden Sie die CSV `IceCream.csv` in einen Pandas DataFrame

In [None]:
df = pandas.read_csv("IceCream.csv")

In [None]:
df

### 2) Erstellen Sie mit `matplotlib.pyplot.scatter` einen Scatterplot der `SoldIceCream` über die `Temperature` aufträgt. Beschriften Sie die Achsen passend.

In [None]:
plt.scatter(x=df["Temperature"], y=df["SoldIceCream"], s=5, marker='D')
plt.xlabel("°C")
plt.ylabel("Amount")
plt.show()

### 3) Beschreiben Sie kurz den Zusammenhang der beiden Features

Die beiden Features sind direkt proportional. D.h. bei steigenden Temperaturen werden auch mehr Eiskugeln verkauft.

### 4) Implementieren Sie eine Funktion `train(X, Y, steps, eta)` welchen den Lernalgorithmus für die eindimensionale lineare Regression mit Hilfe des Gradientenabstiegsverfahren darstellen soll. Die Parameter `X` und `Y` sind Listen der Eingabe- bzw. Ausgabewerte, `steps` ist die Anzahl der Lernschritte und `eta` ist die Lernrate. Die Funktion soll die beiden Gewicht $w_0$ und $w_1$ zurückgeben.

In [None]:
def train(X, Y, steps, eta):
    w0 = 0
    w1 = 0
    for i in range(steps):
        delta_w0 = 0
        delta_w1 = 0
        for x, y in zip(X, Y):
            delta_w0 += -y + w1 * x + w0
            delta_w1 += -x * y + w1 * x * x + w0 * x
        w0 += -eta * delta_w0
        w1 += -eta * delta_w1
    return w0, w1

### 5) Trainieren Sie ein lineares Regressionsmodell mit Hilfe dieser Funktion auf dem Feature `Temperature` und der Ausgabe `SoldIceCream` mit 200.000 Schritten und Lernrate $\eta = 0.0001$. Geben Sie $w_0$ und $w_1$ aus

In [None]:
w0, w1 = train(X=df["Temperature"], Y=df["SoldIceCream"], steps=200000, eta=0.0001)

In [None]:
w0, w1

### 6) Was bedeuten die Gewichte konkret in diesem Fall?

$f(x) = w_1 \cdot x + w_0 \Rightarrow f(x) = 37.85\cdot x -296$

Erst ab 8°C wird Eis verkauft und mit jedem Grad mehr Temperatur steigt die Anzahl der verkauften Eiskugeln um ~38.

### 7) Implementieren Sie eine Funktion `predict(x, w0, w1)` welche eine Vorhersage für die Eingabe `x` unter den Modellparametern `w0` und `w1` zurückgibt.

In [None]:
predict = lambda x, w0, w1: w1 * x + w0

### 8) Berechnen Sie die kleinste und größte Temperatur, die in den Daten vorkommt als Variablen `xmin` und `xmax` und die entsprechenden Vorhersagen des Modells als Variablen `ymin` und `ymax`.

In [None]:
x_min = df["Temperature"].min()
x_max = df["Temperature"].max()

y_min = predict(x_min, w0, w1)
y_max = predict(x_max, w0, w1)

### 9) Wiederholen Sie den Scatterplot und zeichnen sie zusätzlich via `matplotlib.pyplot.plot` die Modellvorhersage als Linie mit Hilfe der zuvor berechneten Variablen `xmin`, `xmax`, `ymin` und `ymax` ein

In [None]:
plt.scatter(x=df["Temperature"], y=df["SoldIceCream"], s=5, marker='D')
x_vals = np.arange(x_min, x_max, 0.5)
y_vals = [predict(x, w0, w1) for x in x_vals]
plt.plot(x_vals, y_vals, color="green")
plt.xlabel("°C")
plt.ylabel("Amount")
plt.show()

### 10) Interpretieren Sie den Plot

Die Gerade näher die gegebenen Datenpunkt sehr gut an.

## Aufgabe 2

### 1) Laden Sie den BostonHousing-Datensatz in eine Variable `boston`

In [None]:
boston = sklearn.datasets.load_boston()

### 2) Was ist `boston`?

`boston` is eine Map mit Feature- und Target-Daten, Namen der Features und einer Datensatzbeschreibung.

In [None]:
boston.keys()

### 3) Laden Sie die Boston Feature-Daten in einen DataFrame `X`

In [None]:
X = pd.DataFrame(data=boston["data"])

### 4) Zeigen Sie die ersten Zeilen von `X` an

In [None]:
X.head()

### 5) Was stellen Sie fest?

Spaltenbeschriftung fehlt

### 6) Laden Sie die Beschriftung aus dem `boston`-Objekt nach und verifizieren Sie das Ergebnis

In [None]:
X = pd.DataFrame(data=boston["data"], columns=boston["feature_names"])

In [None]:
X.head()

### 7) Laden Sie die Ausgabewerte des `boston`-Objekts in einen neuen DataFrame `y` und nennen Sie die Spalte `MEDV`

In [None]:
y = pd.DataFrame(data=boston["target"], columns=["MEDV"])

In [None]:
y.head()

### 8) Fügen Sie die beiden DataFrames zu einem neuen DataFrame `full` zusammen und erstellen Sie eine scatter-Matrix

In [None]:
full = pd.concat([X, y], axis=1, sort=False)

In [None]:
pandas.plotting.scatter_matrix(full, figsize=(20,20), s=5, marker='D')
plt.show()

### 9) Bei welchen Features vermuten Sie direkten Zusammenhang mit den Hauspreisen?

Bei den Features `LSTAT` und `RM`.

### 10) Erstellen Sie einen Scatterplot der Hauspreise über das Feature `LSTAT`

In [None]:
plt.scatter(x=full["MEDV"], y=full["LSTAT"], marker='D', s=5)
plt.show()

### 11) Erstellen Sie die Variable `simple_model` als neues `sklearn.linear_model.LinearRegression` -Objekt und trainieren Sie das lineare Regressionsmodell via `simple_model.fit` nur mit dem Feature `LSTAT` auf die Ausgabewerte `y`

In [None]:
simple_model = LinearRegression(n_jobs=4)
simple_model.fit(X=X[["LSTAT"]], y=y)

### 12) Lesen Sie aus dem Modell die beiden Parameter aus

In [None]:
print(simple_model.coef_[0][0], simple_model.intercept_[0])

### 13) Erstellen Sie einen neuen Scatterplot der Hauspreise über das Feature `LSTAT` und zeichen Sie eine Gerade ein mit Hilfe der zuvor berechneten Modellparametern

In [None]:
f = lambda x : simple_model.coef_[0][0] * x + simple_model.intercept_[0]
x_vals = np.arange(0, 50, 1)
y_vals = [f(x) for x in x_vals]
plt.scatter(x=full["MEDV"], y=full["LSTAT"], marker='D', s=5)
plt.plot(x_vals, y_vals, color="red")
plt.show()