## Weiteres zu Regressionen

Im folgenden sollen noch weitere Aspekte zu Regressionen vorgestellt werden - zum einen werden wir jetzt mit mehr Features arbeiten, die Modelle werden komplexer (und eventuell auch zu komplex).

In [None]:
# einige Importe
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import PolynomialFeatures

Wir beginnen erneut mit einem einfachen zufälligen Datensatz mit einem Feature X und Targets Y:

In [None]:
np.random.seed(0)
x = 2 - 3 * np.random.normal(0, 1, 20)
y = x - 2 * (x ** 2) + 0.5 * (x ** 3) + np.random.normal(-3, 3, 20)

# x wird noch in Spaltenform gebracht
x = x[:, np.newaxis]

# TODO: Scatterplot der Daten

Ein linearer Zusammenhang beschreibt die Daten nicht sehr gut - führen wir dennoch zunächst eine lineare Regression durch:

In [None]:
# TODO Berechnen Sie ein lineares Modell mit einem SGDRegressor()
model = ...

y_pred = model.predict(x)
plt.scatter(x, y)
plt.plot(x, y_pred);

Statt einem linearen könnte hier auch ein polynomielles Modell genutzt werden. Unser Regressionsmodel ist allerdings linear - stattdessen fügen wir unserer Datenmatrix X noch weitere Spalten (Features) hinzu, in denen wir die Werte z.B. quadrieren:

In [None]:
x_poly = np.c_[x, x**2]
x_poly

In [None]:
# TODO Erzeugen Sie ein zweites Modell mit den erweiterten Features
model2 = ...

# TODO Daten plotten
plt....


# TODO die folgenden Zeilen plotten das Modell
# x_axis = np.linspace(-5, 5, 20)
# plt.plot(x_axis, model2.predict(np.c_[x_axis, x_axis**2]));

In __sklearn__ ist das Erzeugen von polynomiellen Features bereits implementiert:

In [None]:
polynomial_features= PolynomialFeatures(degree=2)
x_poly = polynomial_features.fit_transform(x)
x_poly

Nutzen wir dieses Feature, um ein Polynom vom Grad 10 zu fitten:

In [None]:
from sklearn.linear_model import LinearRegression

# Features bis zu Grad 10 erzeugen
polynomial_features= ...
x_poly = ...

# hier nutzen wir einmal die sklearn-Implementierung ohne Gradientenabstieg
# denn der ist bei Polynomen mit hohem Grad sehr instabil
model3 = LinearRegression()
model3.fit.... # TODO

plt.... # TODO

# TODO: die folgenden Zeilen plotten das Modell
# x_axis = np.linspace(-5, 5, 100)[:, np.newaxis]
# plt.plot(x_axis, model3.predict(polynomial_features.fit_transform(x_axis)));


Wir sehen - dies ist ein klassischer Fall von Overfitting. Das gewählte Model ist zu kompliziert. Es hat zwar einen sehr geringen Fehler (Datenpunkte liegen fast alle auf dem Polynomgraphen), aber die Vorhersagen dieses Models werden für x < -4 sehr unrealistisch.

Ein Model, welches simplifiziert, und nicht sehr genau auf die Trainingsdaten anpasst, hat einen hohen _bias_ (wie das Model mit Grad 1).

Ein Model, welches sehr variabel ist, und sich daher sehr genau an Trainingsdaten anpasst (wie das Modell mit Grad 10) hat eine sehr hohe _variance_.

Beide Extreme führen zu schlechten Ergebnissen, das optimale Model liegt im Kompromiss dazwischen - man spricht daher vom _bias / variance tradeoff_.

## Beispiel: Boston house prices

Im folgenden wollen wir noch einige weitere Regressionen mit einem Beispieldatensatz rechnen:

In [None]:
import sklearn.datasets
import pandas as pd

data = sklearn.datasets.load_boston()

# TODO die folgende Zeile liefert etwas Dokumentation zum Datensatz
# print(data.DESCR)

In [None]:
# Untersuchen Sie die Variable data und  erzeugen ein Pandas dataframe
# mit den Features
df = ...
df.head()

In [None]:
# TODO und die Zielwerte werden ebenfalls in Pandas verpacken
df_target = ...
df_target.head()

In [None]:
# Betrachten wir die Korrelationen der Features mit den Hauspreisen
combined = pd.concat... # TODO Features und Preise zusammenfügen
combined...             # TODO Korrelationen berechnen

In [None]:
# Wir splitten die Daten in Training und Testset, damit wir 
# unsere Modelle validieren können

# TODO nutzen Sie die Funktion train_test_split 
# (80% für Training, 20% für Test)
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = ...

# TODO shapes ausgeben
# print(X_train.shape)
# print(X_test.shape)
# print(Y_train.shape)
# print(Y_test.shape)

In [None]:
# für die lineare Regression mit Gradientenabstieg empfiehlt es sich,
# die Daten zu standardisieren
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

sgd_regression_model = Pipeline([
        # TODO erst standardisieren,
        # TODO dann eine Regression rechnen
])


sgd_regression_model.fit(X_train, Y_train);

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

# eine Hilfsmethode, die zwei Metriken ausgibt:
# RMSE (root mean squared error)
# r2 (Anteil der erklärten Varianz)
def eval_model(model, X_train, X_test, Y_train, Y_test):
    y_train_predict = model.predict(X_train)
    rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))
    r2 = r2_score(Y_train, y_train_predict)

    print("Model performance (training)")
    print("--------------------------------------")
    print('RMSE is {}'.format(rmse))
    print('R2 score is {}'.format(r2))
    print("\n")

    # model evaluation for testing set
    y_test_predict = model.predict(X_test)
    rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))
    r2 = r2_score(Y_test, y_test_predict)

    print("Model performance (test)")
    print("--------------------------------------")
    print('RMSE is {}'.format(rmse))
    print('R2 score is {}'.format(r2))

In [None]:
# evaluieren wir das erste Model
eval_model(...) # TODO

In [None]:
# zum Vergleich trainieren wir noch einen RandomForestRegressor
# mit 1000 estimators
from sklearn.ensemble import RandomForestRegressor

rf = ... # TODO Objekt erzeugen
rf...    # TODO Model berechnen

# TODO Model evaluieren

In [None]:
# ... und noch einmal mit GradientBoosting
from sklearn.ensemble import GradientBoostingRegressor

gbr = ... # TODO Objekt erzeugen
gbr...    # TODO Model berechnen

# TODO Model evaluieren

In [None]:
# Bonus: Wir können betrachten, welche Features beim Gradient-Boosting
# wie wichtig sind
plt.plot(range(len(gbr.feature_importances_)), gbr.feature_importances_)

# TODO Passt die Ausgabe zu den Korrelationen?

In [None]:
# Bonus 2: Wir plotten einmal die Daten, und die 
# Vorhersagen des Gradient-Boosting-Modells
# Achse 1: wichtigstes Feature
# Achse 2: zweitwichtigstes Feature
# Achse 3: Hauspreis

from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt

%matplotlib notebook

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.set_xlabel('TODO')
ax.set_ylabel('TODO')
ax.set_zlabel('TODO')

# TODO
ax.scatter(data.data[...], data.data[...], data.target)
ax.scatter(data.data[...], data.data[...], gbr.predict(data.data))

plt.show()