# Praxisübung: Lineare Regression

## Bibliotheken importieren

In [19]:
import pandas as pd
from sklearn import linear_model, metrics
from sklearn.model_selection import train_test_split

## Daten einlesen und anzeigen
Wir gehen davon aus, dass sich die Daten in einem Unterverzeichnis namens "Daten" befinden. Zum einlesen benutzen wir die `read_csv()` Methode von Pandas.

In [20]:
df = pd.read_csv("Daten/advertising.csv")
df

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,12.0
3,151.5,41.3,58.5,16.5
4,180.8,10.8,58.4,17.9
...,...,...,...,...
195,38.2,3.7,13.8,7.6
196,94.2,4.9,8.1,14.0
197,177.0,9.3,6.4,14.8
198,283.6,42.0,66.2,25.5


## Auswahl der Features und der Labels
Wir wählen aus dem Dataframe spaltenweise aus, was als Features und was als Label interpretiert werden soll.

In [21]:
features = ["TV", "Radio"] # Liste von Features
X = df[features]
y = df.Sales

## Training-Test Split
Als nächstes teilen wir die Daten in Trainings- und Testdaten. scikit-learn stellt dazu im Untermodul `sklearn.model` die Funktion `train_test_split` bereit. Per default wählt es zuällig 25% der Daten als Testdaten aus. Wird der Parameter `random_state` auf eine feste Zahl gesetzt, wird garantiert, dass der Zufallsgenerator bei jedem Aufruf der Funktion dieselben 25% der Daten auswählt (macht es während der Modellentwicklung oft leichter, Fehler zu vermeiden).

In [22]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

## Modelltraining
Wir erstellen ein lineares Regressionsmodell. Wie alle Modelle in scikit-learn besitzt es eine `.fit`-Methode, mit der wir das Modell auf den Trainingsdaten trainieren.

In [23]:
m = linear_model.LinearRegression()
m.fit(X_train, y_train)

## Evaluation der Lösung
Wir bestimmen den $R^2$-Wert und den (root) mean squared error (RMSE) auf den Trainings- und Testdaten. Dazu bestimmen wir zunächst die Modellvorhersage `y_pred`. Modellvorhersagen in scikit-learn macht man mit der `.predict` Methode, die jedes Modell besitzt. Auf die Parameter $w$ kann man mittels `m.coef_` bzw. `m.intercept` zugreifen.

In [24]:
# Metriken auf den Trainingsdaten
y_pred = m.predict(X_train)
print(f"R^2 Trainingsdaten: {metrics.r2_score(y_train, y_pred)}.")
print(f"RMSE Trainingsdaten: {metrics.mean_squared_error(y_train, y_pred, squared=False)}.")

# Metriken auf den Testdaten
y_pred = m.predict(X_test)
print(f"R^2 Testdaten: {metrics.r2_score(y_test, y_pred)}.")
print(f"RMSE Testdaten: {metrics.mean_squared_error(y_test, y_pred, squared=False)}.")

# Gelernte Koeffizienten der Modellfunktion:
print(f"w0 = {m.intercept_}")
print(f"w = {m.coef_}")

R^2 Trainingsdaten: 0.8955275873177727.
RMSE Trainingsdaten: 1.68582486670777.
R^2 Testdaten: 0.9133183876478477.
RMSE Testdaten: 1.5350557940957992.
w0 = 4.8193142960357385
w = [0.05461317 0.10204696]


## ✏ Aufgaben
1. Schauen Sie sich den Beispielcode noch einmal an und versuchen Sie, jede Zeile nachzuvollziehen.

2. Öffnen Sie ein neues Jupyter Notebook und führen Sie eine lineare Regression für den Advertising Datensatz durch, bei der Sie alle drei Features `TV`, `Radio` und `Newspaper` verwenden. Führen Sie dazu nacheinander die folgenden Schritte aus:
    * Daten einlesen.
    * Features und Label auswählen.
    * Daten in Test- und Trainingsdaten aufteilen.
    * Erstellen und trainieren des Modells.
    * Evaluation des Modells. Ist das Modell besser als das Modell mit zwei Features?
    
    Versuchen Sie, dabei nicht in den Beispielcode oben zu schauen.

3. Ändern Sie die Aufteilung der Trainings- und Testdaten:
    * Entfernen Sie das Argument `random_state` bei der Methode `train_test_split`. 
    * Probieren Sie verschiedene Größen für die Testdaten aus: 1%, 10%, 90%, 99%. Führen Sie für jede der Werte den Split und das Training mehrmals aus. Wie verhalten sich die Metriken? Wie lässt sich das Verhalten erklären?

4. Eine beliebte Metrik für Regressionsprobleme ist der *mean absolute error (MAE)*.
    * Recherchieren Sie, wie der MAE mit `sklearn` berechnet wird und berechnen Sie ihn für Ihr Modell.
    * Geben Sie die mathematische Formel für den MAE an. Benutzen Sie dabei die Bezeichner aus der Vorlesung. Wann unterscheiden sich MAE und (Root-)MSE besonders?