# Praxisübung: Lineare Regression

## Bibliotheken importieren

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model, metrics
from sklearn.model_selection import train_test_split

## Daten einlesen und anzeigen
Wir gehen davon aus, dass sich die Daten in einem Unterverzeichnis namens "Daten" befinden. Zum einlesen benutzen wir die `read_csv()` Methode von Pandas.

In [None]:
df = pd.read_csv("Daten/advertising.csv")
df

## Auswahl der Features und der Labels
Wir wählen aus dem Dataframe spaltenweise aus, was als Features und was als Label interpretiert werden soll.

In [None]:
features = ["TV", "Radio"] # Liste von Features
X = df[features]
y = df.Sales

## Training-Test Split
Als nächstes teilen wir die Daten in Trainings- und Testdaten. scikit-learn stellt dazu im Untermodul `sklearn.model` die Funktion `train_test_split` bereit. Per default wählt es zuällig 25% der Daten als Testdaten aus. Wird der Parameter `random_state` auf eine feste Zahl gesetzt, wird garantiert, dass der Zufallsgenerator bei jedem Aufruf der Funktion dieselben 25% der Daten auswählt (macht es während der Modellentwicklung oft leichter, Fehler zu vermeiden).

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

## Modelltraining
Wir erstellen ein lineares Regressionsmodell. Wie alle Modelle in scikit-learn besitzt es eine `.fit`-Methode, mit der wir das Modell auf den Trainingsdaten trainieren.

In [None]:
m = linear_model.LinearRegression()
m.fit(X_train, y_train)

## Evaluation der Lösung
Wir bestimmen den $R^2$-Wert und den (root) mean squared error (RMSE) auf den Trainings- und Testdaten. Dazu bestimmen wir zunächst die Modellvorhersage `y_pred`. Modellvorhersagen in scikit-learn macht man mit der `.predict` Methode, die jedes Modell besitzt. Auf die Parameter $w$ kann man mittels `m.coef_` bzw. `m.intercept` zugreifen.

In [None]:
# Metriken auf den Trainingsdaten
y_pred = m.predict(X_train)
print(f"R^2 Trainingsdaten: {metrics.r2_score(y_train, y_pred)}.")
print(f"RMSE Trainingsdaten: {metrics.mean_squared_error(y_train, y_pred, squared=False)}.")

# Metriken auf den Testdaten
y_pred = m.predict(X_test)
print(f"R^2 Testdaten: {metrics.r2_score(y_test, y_pred)}.")
print(f"RMSE Testdaten: {metrics.mean_squared_error(y_test, y_pred, squared=False)}.")

# Gelernte Koeffizienten der Modellfunktion:
print(f"w0 = {m.intercept_}")
print(f"w = {m.coef_}")

## ✏ Aufgaben
1. Schauen Sie sich den Beispielcode noch einmal an.

2. Löschen Sie den Code und führen Sie eine lineare Regression für den Advertising Datensatz durch, bei der Sie alle drei Features `TV`, `Radio` und `Newspaper` verwenden. Führen Sie dazu nacheinander die folgenden Schritte aus:
    * Daten einlesen.
    * Features und Label auswählen.
    * Daten in Test- und Trainingsdaten aufteilen.
    * Erstellen und trainieren des Modells.
    * Evaluation des Modells. Ist das Modell besser als das Modell mit zwei Features?
    
3. Visualisieren Sie die Daten als Streuplots. Sie können dafür z.B. die Plot-Funktionalität von Pandas nutzen: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html