# Regressionsanalyse

In dieser Übung werden wir die in der Vorlesung kennengelernten Inhalte zur Regressionsanalyse direkt in R anwenden. Dafür werden wir uns zunächst eine einfache lineare Regression ansehen. Diese können wir mit Tools von `base` oder auch direkt in einer Grafik mit `ggplot2` umsetzen. 

Anschließend wollen wir die Decision Trees aus der vorhergehenden Übung mit der Regressionsanalyse verbinden. Wir werden uns ein Modell bauen, welches analog wie die klassifizierenden Decision Trees funktioniert, aber mit kontinuierlichen Variablen arbeiten kann! Wir erinnern uns – in der letzten Wochen hatten wir es mit Klassifizierungsproblemen zu tun. D.h., eine Zielvariable konnte nur eine begrenzte Anzahl an Kategorien annehmen (die Pilze konnten z.B. nur `edible` oder `poisonous` sein). Jetzt lernen wir ein Modell kennen, welches für numerische, kontinuierliche Variablen funktioniert.

Für die theoretischen Grundlagen der Regressionsanalyse sei an dieser Stelle wieder auf die Vorlesung verwiesen.

Um die Performance unseres Modells zu verbessern, werden wir am Ende statt der einfach Decision Trees mit `rpart` einen Random Forest-Algorithmus verwenden. Dazu später mehr.

In [None]:
# Zunächst laden wir wieder die Pakete aus der letzten Session sowie palmerpenguins für die lineare Regression mit ggplot2
pacman::p_load(
    tidyverse,
    tidymodels,
    vip,
    rpart.plot,
    palmerpenguins
    )

set.seed(123) # for reproducibility

# Set the default plot width for Jupyter Notebook display
options(repr.plot.width = 12, repr.plot.height = 8, digits = 4)

## Lineare Regression

Zunächst wollen wir eine einfache lineare Regression durchführen. Dafür können wir wieder den Datensatz der Antarktis-Pinguine `palmerpenguins` benutzen. Über die Pinguine des Datensatzes wurden verschiedene Parameter erhoben, wie beispielsweise die Flügellänge `flipper_length_mm` und das Körpergewicht `body_mass_g`. 

Aus der Biologie ließe sich an dieser Stelle eventuell ein erster Zusammenhang zwischen Flüggellänge und Körpergewicht vermuten. Durch eine größere Flügellänge könnte man vielleicht auf einen größeren Körperbau und damit auch auf einen größeres Körpergewicht schließen. Das ist eine gute Fragestellung für eine Regressionsanalyse. 

Wir vermuten erstmal einen linearen Zusammenhang zwischen Flüggellänge und Körpergewicht. Wie wir in der letzten Sitzung bereits kennengelernt haben, werden Datenanalyse-Modelle in R in der Regel durch eine Formel definiert, die eine Tilde `~` enthält. Die Tilde heißt soviel wie "wird vorhergesagt durch". Der Zusammenhang, den wir jetzt untersuchen, können wir also mit `flipper_length_mm ~ body_mass_g` definieren – wir vermuten, dass das Körpergewicht linear von der Flügellänge abhängt. 

In `base` können wir lineare Modell mithilfe der Funktion `lm()` (für *linear model*) fitten. Wir übergeben `lm()` als erstes Argument unsere Formel `body_mass_g ~ flipper_length_mm` und an zweiter Stelle den Datensatz `penguins`. Anschließend lassen wir uns die Ergebnisse des Modells mithilfe von `summary()` ausgeben.

In [None]:
lm(body_mass_g ~ flipper_length_mm, data = penguins) %>% 
    summary() 

Hui, da kommen erstmal viele Informationen auf einmal! Für uns sind zunächst einmal zwei Teile des Outputs interessant:

* Unter **Coefficients** können wir uns die Koeffizienten unseres Regressionsmodells ausgeben lassen. Unser Modell folgt der Formel $ \hat{y}_i = b_0 + b_1 * x_i $, wobei $\hat{y}$ die Vorhersage unserer Zielgröße `body_mass_g` und $x$ unsere Prädiktorvariable `flipper_length_mm` ist. Die anderen Parameter der Regressionsgleichung $b_0$ und $b_1$ unseres Modells werden in der Zusammenfassung unter Coefficients -> Estimate ausgegeben. Der Intercept ist $b_0$ (= vorhergesagter Wert für x = 0). Die Steigung der Regressionsgerade, also $b_1$ finden wird auch unter Estimates, in der Zeile neben der unabhängigen Variable `flipper_length_mm`. In dieser Form ist das ganze für uns natürlich eher schwierig interpretierbar, daher werden wir gleich kennenlernen, wie wir das lineare Modell visualisieren können.

* Die zweite für uns interessante Variable ist **(Multiple) R-squared**. $R^2$, oder auch R-squared, drückt aus, wie viel der Varianz in der abhängigen Variable (hier `body_mass_g`) statistisch gesehen durch die Varianz in der unabhängigen erklärt wird (hier also `flipper_length_mm`). Mithilfe von R-squared können wir die Güte des Regressionsmodells bewerten. `0.759` ist zunächst mal ein eher höheres R-squared, sodass wir von einem gewissen Zusammenhang zwischen `body_mass_g` und `flipper_length_mm` ausgehen können!

### In `tidymodels`

<img src="https://broom.tidymodels.org/logo.png" alt="rsample" width="100" align="right" /> In `tidymodels` können wir diese Werte auch anders extrahieren, und zwar mit `tidy()` und `glance()`. Daher werden wir ab dieser Stelle mit dem `tidymodels`-Ansatz weitermachen. `tidy()` und `glance()` funktionieren ziemlich analog zu `summary()`, geben die Ergebnisse aber in einem tidy-Format, also als `tibble` aus. Sie gehören beide zum Paket `broom`. 

In [None]:
lm(body_mass_g ~ flipper_length_mm, data = penguins) %>% 
    tidy()

lm(body_mass_g ~ flipper_length_mm, data = penguins) %>% 
    glance()

Auch hier interessieren uns erstmal nur die Maße `estimate` (die Schätzwerte für den linearen Zusammenhang `body_mass_g ~ flipper_length_mm`, `std.error` (die Standardabweichung) und das `r.squared` ($R^2$)

### Visualisierung

Der Übersichtlichkeit halber wollen wir das lineare Modell jetzt einmal visualisieren. Dazu kombinieren zwir zwei Geome. Zunächst visualisieren wir den Zusammenhang zwischen $x$ & $y$ mit einem Scatterplot und `geom_point()`. Wir plotten `flipper_length_mm` auf der x-Achse und `body_mass_g` auf der y-Achse. Für die Regressionsgerade hat `ggplot2` praktischerweise ein eigenes **geom** eingebaut, und zwar `geom_smooth()`. Diesem Geom geben wir unsere Formel mit `y ~ x` (die Variablen haben wir im Mapping gewissermaßen "umgetauft"). 
Der Code dafür sieht dann folgendermaßen aus:

In [None]:
penguins %>%
    drop_na() %>% # remove NA values to avoid warnings
    ggplot(mapping = aes(x = flipper_length_mm, y = body_mass_g)) +
    geom_point(size = 2) +
    geom_smooth(method = "lm", formula = y ~ x) +
    theme_minimal(base_size = 20)

Wir können hier unseren vermuteten linearen Zusammenhang ganz gut erkennen, oder? Mit steigender Flüggellänge wird auch das Körpergewicht tendenziell schwerer. In der Realität muss man allerdings aufpassen, wo man welche Zusammenhänge vermuten kann. Wir haben in unserem Datensatz ja 3 verschiedene Spezies abgebildet, und es ist nicht automatisch gegeben, dass der Zusammenhang für alle diese Spezies gleich ist. Daher ist es sinnvoll, nochmal ein lineares Modell zu visualisieren, welches eine Regression getrennt je nach Spezies erstellt. Das funktioniert mit `ggplot2` ziemlich einfach, dafür müssen wir einfach `aes()` ein zusätzliches Argument übergeben.

1. Was für eine Grafik erwartet ihr, wenn die Regression für jede einzelne Spezies ausgeführt wird?

In [None]:
penguins %>%
    drop_na() %>% # remove NA values
    ggplot(mapping = aes(x = flipper_length_mm, y = body_mass_g, color = species)) +
    geom_point(size = 2) +
    geom_smooth(method = "lm", formula = y ~ x) +
    theme_minimal(base_size = 20)

Voilà, wir bekommen jetzt einen Plot ausgegeben, bei dem wir pro Spezies ein eigenes lineares Modell abgebildet bekommen. Wenn wir uns wie weiter oben auch die genauen Koeffizienten und R-squared ausgeben lassen wollen, können wir das folgendermaßen machen.

2. Bevor ihr den Code ausführt, überlegt euch, was jede Zeile macht. Schlagt dafür gerne den Befehl `do()` einmal kurz nach!

In [None]:
penguins %>%
    drop_na() %>%
    group_by(species) %>%
    do(tidy(lm(body_mass_g ~ flipper_length_mm, data = .)))

penguins %>%
    drop_na() %>%
    group_by(species) %>%
    do(glance(lm(body_mass_g ~ flipper_length_mm, data = .))) 

3. Wie würdet ihr die Werte für `r.squared` interpretieren?

Natürlich können wir auch andere Zusammenhänge abbilden. Wir könnten als Formel auch `flipper_length_mm ~ body_mass_g` angeben, wenn wir ein umgekehretes Abhängigkeitsverhältnis vermuten würden. Man könnte über `+` auch noch weitere Vorhersagevariablen in das Modell einbeziehen. Wie genau man ein Regressionsmodell spezifiziert ist vor allem eine Frage von theoretischen oder sachlogischen Überlegungen. Weitere Informationen zu den Möglichkeiten zur Umsetzung in R findet ihr wie gewohnt in der Dokumentation von `lm()`.

Wir werden in dieser Übung zunächst nicht weiter auf `lm()` eingehen, sondern möchten jetzt die Decision Trees von letzter Woche mit der Regressionsanalyse verbinden.

# Regression mit Decision Trees

Eine Regression mit Decision Trees funktioniert ähnlich wie eine Klassifikation, zielt aber darauf ab, statt diskreten Kategorien kontinuierliche Werte zu prognostizieren. 

Wir möchten wieder die Beziehung zwischen Prädiktor- und Zielvariable ermitteln. Der Decision Tree teilt den Datensatz entlang der Prädiktorvariablen in immer homogenere Teilgruppen auf, um möglichst genau die Beziehung zur Zielvariable zu bestimmen. Nachdem das Modell trainiert wurde, können wir es wieder zur Vorhersage neuer Datenpunkte verwenden! Decision Trees für die Regressionsanalyse haben den Vorteil, auch nichtlineare Beziehungen zwischen Prädiktoren und Zielvariable abbilden zu können, anders als eine einfache lineare Regression.

Als erstes Beispiel schauen wir uns einen [Datensatz](https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset) von Hadi Fanaee-T aus dem [UCI Machine Learning Repository](http://archive.ics.uci.edu/) zum Thema Bike Sharing an.

> This dataset contains the hourly and daily count of rental bikes between years 2011 and 2012 in Capital bikeshare system with the corresponding weather and seasonal information.

## Daten explorieren und vorbereiten

Der Datensatz im [UCI Machine Learning Repository](http://archive.ics.uci.edu/) ist bereits soweit vorbereitet, dass alle kategorialen Variablen in numerische Variablen umkodiert wurden. Der Vollständigkeit halber gehen wir damit aber einen Schritt zurück, und tun erstmal so, als wäre das noch nicht passiert.

Der Datensatz liegt im Ordner `data/regression/bike_sharing.csv`. 

4. Ladet den Datensatz mit `read_csv()` und schaut ihn euch an. Was könnte unsere Zielvariable sein, welche Variablen die relevanten Prädiktoren? Falls die Variablenbezeichnungen uneindeutig sind, schaut im UCI Machine Learning Repository nach, welche Bedeutung sie haben?

Um den Datensatz besser zu explorieren, könntet ihr wieder eine visuelle Analyse vornehmen, bspw. mit `facet_wrap()`. Erinnert ihr euch dafür ans letzte Notebook.

5. Exploriert 1-2 Variablen mithilfe von `ggplot2`. Ihr könnt alternativ auch `facet_wrap()` benutzen, um bspw. alle numerischen Variablen zu visualisieren.

### Supervised Learning

<img src="https://rsample.tidymodels.org/logo.png" alt="rsample" width="100" align="right" /> In einem letzten Schritt der Vorbereitung teilen wir wie letzte Woche unseren Datensatz wieder in Trainings- und Testdaten auf. 

Sinnvollerweise müssen wir vor der Modellierung einige Variablen aus dem Datensatz entfernen. Die Variable `instant` ist lediglich ein Index, wir können sie also rausschmeißen. Die Variable `dteday` ist vom Typ `date` und daher können wir diese nicht in der Regressionsanalyse berücksichtigen. Abgesehen davon ist das Datum ja ebenfalls in den Variablen `yr` und `mnth` berücksichtigt.

Für eine Organisation, die Bike Sharing betreibt, ist vermutlich vor allem die Variable `cnt` interessant.

> cnt: count of total rental bikes including both casual and registered

Damit könnte eine Organisation beispielsweise eine Vorhersage darüber treffen, wieviele Fahrräder zu einem bestimmten Zeitpunkt gerade ausgeliehen sind. So könnte man beispielsweise besser planen zu welchen Zeiten besonders viele Fahrräder zur Verfügung stehen müssen. `cnt` ist in diesem Beispiel also unsere **Zielvariable**! Da `cnt` lediglich die Summe von `casual` (count of casual users) und `registered` (count of registered users) ist, müssen wir die Variablen `casual` und `registered` ebenfalls vorher rausnehmen, weil wir eine Vorhersage ja lediglich durch die Umgebungsvariablen wie bspw. die Wetterbedingungen treffen wollen.

`cnt` = `casual` + `registered`

In [None]:
data_split <- data %>%
    select(-instant, -dteday) %>%
    select(-casual, -registered) %>%
    initial_split(prop = 0.75)

train_data <- training(data_split)
test_data <- testing(data_split)

## Modell trainieren

### Pre-Processing mit `recipe`

<img src="https://recipes.tidymodels.org/logo.png" alt="recipe" width="100" align="right" /> Für das Modellieren gehen wir recht analog vor wie bei der Klassifikation mit Decision Trees. Allerdings wollen wir diese Woche das ganze noch etwas formalisieren. Im `tidymodels` Universum gibt es das Paket `recipe`. Mit `recipe` können wir analog zu `dplyr` Pipe-Sequenzen zum Pre-Processing des Modells einbauen. Das wird uns vor allem später beim Tuning des Modells helfen. Aber auch schon an dieser Stelle kann `recipe` nützlich sein, weil es den gesamten Prozess etwas formalisiert.

`recipe` benutzt mindestens zwei Funktionen. Innerhalb von `recipe()` geben wir wie gewohnt unsere Zielvariable mithilfe der Tilde `~` an. Das Rezept wird dann mit der Funktion `prep()` quasi "vorbereitet" bzw. geupdatet. Zwischen `recipe()` und `prep()` können wir alle Schritte des Pre-Processings schreiben, die unser Datensatz braucht. Dazu gleich mehr.

Wir können für unser Beispiel direkt ein einfaches Rezept erstellen:

In [None]:
bikes_recipe <- train_data %>%
    recipe(cnt ~ .) %>%
    prep() %>%
    print()

Auch hier benutzen wir wieder die Tilde, um die Beziehung unserer Zielvariablen zu definieren. `cnt ~ .` bedeutet hier einfach, dass wir `cnt` als Zielvariable (outcome) und alle anderen Variablen als Prädiktoren (predictor) definieren! 

Wir setzen an dieser Stelle tatsächlich noch gar nicht fest, was wir eigentlich für ein Modell verwenden wollen (also ob z.B. lineare Regression oder ein Decision Tree). 

Wenn wir unser `recipe` ausgeben, erhalten wir direkt einige Informationen über unseren Datensatz, nämlich die Anzahl der Ziel-/Prädiktorvariablen sowie die Größe des Trainingsdatensatzes.

Wir erinnern uns: Regressionsmodelle können lediglich mit numerischen Variablen arbeiten. Allerdings haben wir in unserem Datensatz auch einige Variablen von anderen Datentypen, nämlich `logical` (binäre Variablen, also `TRUE` und `FALSE`) und `factor` (Faktoren).

Da ein Regressionsmodell mit diesen anderen Datentypen nicht arbeiten kann, müssen wir diese Datentypen enkodieren, also in ein numerisches Format umwandeln. Mit `recipe` geht das ganz komfortabel, indem wir einfach einen Pre-Processing Schritt zwischen `recipe()` und `prep()` einfügen. Als erstes benutzen wir `step_mutate()` um alle Variablen vom Typ `logical` in Faktoren umzuwandeln. Das funktioniert analog zum `mutate()` in `dplyr`. 

Anschließend benutzen wir `step_dummy(all_nomimal_predictors)`. `step_dummy()` enkodiert alle Variablen, die übergeben werden. Das sind in diesem Fall alle kategorialen Variablen, die wir mit `all_nominal_predictors()` ausgewählt haben.

In [None]:
bikes_recipe <- train_data %>%
    recipe(cnt ~ .) %>%
    step_mutate(across(where(is.logical), as.factor)) %>% # Mutate logical variables to factors
    step_dummy(all_nominal_predictors()) %>%              # Encode categorical variables if needed
    prep() %>%
    print()

Wie sieht unser Datensatz jetzt aus? Um den durch pre-processed Datensatz auszugeben, können wir die Funktion `juice()` benutzen:

In [None]:
bikes_recipe %>% 
    juice() %>% 
    head(8)

Wie wir sehen, hat `recipe` alle Variablen im Datensatz in numerische Variablen umgewandelt.

Ein weiterer Schritt im Pre-Processing ist das Filtern von `NAs`. Das funktioniert in `recipe` mit der Funktion `step_impute_mean(all_numeric_predictors())`. Diese Funktion ersetzt jedes `NA` im Datensatz mit dem `mean` der dazugehörigen Variable.

In [None]:
bikes_recipe <- train_data %>%
    recipe(cnt ~ .) %>%
    step_mutate(across(where(is.logical), as.factor)) %>% # Mutate logical variables to factors
    step_dummy(all_nominal_predictors()) %>%              # Encode categorical variables if needed
    step_impute_mean(all_numeric_predictors()) %>%        # Impute missing values for numeric predictors
    prep() %>%
    print()

In der Regel gibt es bei einem Datensatz mit so vielen Variablen auch Korrelationen unter den Prädiktoren. Das liegt gerade bei Wetterdaten auf der Hand - die `season` (Jahreszeit) hat z.B. vermutlich einen Einfluss auf die Temperatur `temp`. Manche Modelle werden ungenauer durch stark korrelierende Prädiktoren. Decision Trees sind i.d.R. ziemlich robust gegenüber korrelierenden Prädiktoren, wir können diese der Vollständigkeit halber aber trotzdem ausschließen.

In `recipe` macht das die Funktion `step_corr(all_predictors())` automatisch für uns. Diese findet heraus, welche Prädiktoren stark miteinander korrelieren, und schließt diese aus dem Datensatz aus.

Analog können wir auch Prädiktoren ausschließen, die keine Varianz in den Daten haben. Prädiktoren ohne Varianz würden unser Modell nicht verbessern, aber unnötige Rechenleistung in Anspruch nehmen. In `recipe` machen wir das mit der Funktion `step_zv(all_predictors())`.

Unser fertiges Rezept sieht jetzt folgendermaßen aus:

In [None]:
bikes_recipe <- train_data %>%
    recipe(cnt ~ .) %>%
    step_mutate(across(where(is.logical), as.factor)) %>% # Mutate logical variables to factors
    step_dummy(all_nominal_predictors()) %>%              # Encode categorical variables if needed
    step_impute_mean(all_numeric_predictors()) %>%        # Impute missing values for numeric predictors
    step_corr(all_predictors()) %>%                       # Remove correlating predictors
    step_zv(all_predictors()) %>%                         # Remove zero-variance predictors
    prep() %>%
    print()

Der Output ist jetzt etwas länger geworden. Hinzugekommen sind die Schritte im Pre-Processing, die wir eingefügt haben. Diese werden unter Operations angezeigt.

* Wir haben alle Prädiktoren vom Datentyp `logical` in Faktoren umgewandelt
* Alle Faktoren wurden in numerische Variablen enkodiert
* Fehlende Werte (`NA`) haben wir ersetzt
* Korrelierende Variablen werden gefiltert
* ... und alle Prädiktoren ohne Varianz wurden herausgefiltert (das war bei uns tatsächlich nicht der Fall).

Unser Rezept ist relativ lang geworden, und die vielen verschiedenen Schritte des Pre-Processings können erstmal etwas unübersichtlich wirken. Tatsächlich kennt `recipe` noch eine [Vielzahl](https://recipes.tidymodels.org/reference/index.html) an weiteren Schritten. Falls ihr mal ein komplexeres Modell bauen werdet, lohnt es sich, mit dem Pre-Processing auseinander zu setzen. 

> Zwei typische weitere Operationen bei der Verwendung von kontinuierlichen numerischen Daten sind *Centering* und *Normalization*, in Kombination auch *Standardisation* genannt. Dabei werden die Datenpunkte zentriert, sodass der Mittelwert jedes Prädiktors 0 ist, und anschließend normalisiert (genormt), sodass jeder Prädiktor eine Standardabweichung von 1 hat. Die Prädiktor-Variablen werden so auf einen ähnlichen Wertebereich gebracht. Die Standardisierung von numerischen Daten verbessert viele Modelle. Decision Trees sind aufgrund ihres Splitting-Algorithmus allerdings unabhängig von Standardisierung, sodass wir diese an dieser Stelle weglassen können.

Jetzt sind wir fertig mit dem Pre-Processing. Das Tolle an `recipe` ist, dass wir dafür den ursprünglichen Datensatz `data` gar nicht verändern mussten! `recipe` merkt sich einfach, welche Operationen wir auf den Datensatz anwenden wollen und führt das ganze dann nur aus, wenn wir es zum Trainieren oder Testen benötigen. Außerdem könnten wir mit diesem Datensatz jetzt auch verschiedene Modelle trainieren! Wir haben also eine Art Kochrezept für die richtige Vorbereitung der Daten geschrieben.

### Modellauswahl

Im nächsten Schritt legen wir das Modell fest. Im Prinzip funktioniert das recht analog zu letzter Woche. Wir wollen wieder ein einfach `decision_tree()`-Modell trainieren, wieder mit der `rpart`-Engine. Diesmal wählen wir aber ein Regressionsmodell aus. Das könnt ihr einstellen, indem ihr `set_mode("regression") hinzufügt. 

6. Könnt ihr euch noch erinnern, wie ihr einen Decision Tree initialisiert? Speichert diesen in der Variable `bikes_model`.

### `workflows`

<img src="https://workflows.tidymodels.org/logo.png" alt="recipe" width="100" align="right" /> Wie bringen wir jetzt Pre-Processing und das Modell zusammen? Dafür gibt es in `tidymodels` das Paket `workflows`. `workflows` wird vor allem später interessant, wenn wir unser Modell auch finetunen wollen. So weit sind wir an dieser Stelle zwar noch nicht, trotzdem können wir hier bereits `workflows` benutzen. Im Prinzip macht `workflows` nichts anderes, als Pre-Processing und Modell hintereinanderzuschalten. Im Code sieht das dann auch recht einfach aus:

In [None]:
bikes_workflow <- workflow() %>%
    add_model(bikes_model) %>%
    add_recipe(bikes_recipe)

Wie unser Rezept können wir auch unseren Workflow ausgeben lassen. Dort kriegen wir dann übersichtlich alle wichtigen Informationen über Pre-Processing und Modell angezeigt:

In [None]:
bikes_workflow

### Training

Jetzt kann das eigentliche Training des Modells stattfinden. Dafür benutzen wir wieder `fit()`. Da wir Pre-Processing und Modell in unserem Workflow `bikes_workflow` gespeichert haben, ist der Code übersichtlich. Wir müssen lediglich die Trainingsdaten angeben:

In [None]:
bikes_fit <- bikes_workflow %>% 
    fit(data = train_data)

Um die Regeln des trainierten Decision Trees anzuzeigen, können wir `extract_fit_parsnip()` benutzen:

In [None]:
bikes_fit %>% 
    extract_fit_parsnip()

Fertig, das Modell ist trainiert!

## Modell evaluieren

<img src="https://parsnip.tidymodels.org/logo.png" alt="parsnip" width="100" align="right"/><img src="https://yardstick.tidymodels.org/logo.png" alt="yardstick" width="100" align="right"/> Für die Evaluation benutzen wir wieder Funktionen von `parsnip` und `yardstick`.

Mit `augment(test_data)` wenden wir das Modell auf die Testdaten an und übergeben die vorhergesagten Ergebnisse dann anschließend der Funktion `metrics()`.

Da wir diesmal eine Regressionsanalyse vorgenommen haben statt einem Klassifizierungsproblem, brauchen wir andere Metriken! `yardstick` ist schlau genug, um zu das Regressionsmodell zu erkennen, und wählt automatisch die entsprechenden Metriken aus.

In [None]:
bikes_fit %>% 
    augment(test_data) %>% 
    metrics(truth = cnt, estimate = .pred)

7. Recherchiert, was die Metriken `rmse`, `rsq` und `mae` bedeuten.

Unser Modell erreicht ein R-squared von etwa 0.7. Das bedeutet, dass etwa 70 Prozent der Varianz der Zielvariable von den Prädiktoren erklärt werden kann. Ein ganz guter Ausgangswert für eine Vorhersage, mit einem gleichzeitig großen Potential für Verbesserung!

### Variable importance

Wir können natürlich auch wieder Variable Importance berechnen, um den Einfluss der einzelnen Prädiktoren einzuschätzen:

In [None]:
bikes_fit %>% 
    extract_fit_parsnip() %>% # extract the model
    vi(scale = TRUE) %>%      # scale the most important variable to 100
    head(6)

Den größten Einfluss hat die Variable `hr`, welche für die Tagesuhrzeit steht. Auch ziemlich entscheidend ist die gefühlte Temperatur `atemp`. Das lässt sich beides relativ klar begründen – nachts fahren vermutlich weniger Menschen mit Bike Sharing als tagsüber, ebenso fahren mehr Menschen wenn es warm genug ist, und weniger Menschen, wenn es draußen kalt ist. 

In einem richtigen Anwendungsfall ist es sehr wichtig zu verstehen, welche Prädiktoren welchen Einfluss auf die Zielvariable haben.

Um die Variable Importance besser nachzuvollziehen, kann man auch an dieser Stelle nochmal versuchen, die einzelnen Variablen zu plotten. Z.B. können wir den durchschnittlichen Count an ausgeliehen Fahrrädern `cnt` pro Stunde darstellen:

In [None]:
data %>%
    select(hr, cnt) %>%
    group_by(hr) %>%
    summarise(cnt = mean(cnt)) %>%
ggplot(aes(x = hr, y = cnt)) +
    geom_line() +
    theme_minimal(base_size = 20)

Hier sehen wir bereits, dass die Tageszeit einen starken Einfluss auf `cnt` hat. Nachts gibt es einen Zeitraum, an dem fast gar keine Fahrräder ausgeliehen sind, außerdem gibt es zwei Peaks zu den Stoßzeiten um 8 und 17 Uhr.

Ebenso können wir die Abhängigkeit von `cnt` und `atemp` darstellen:

In [None]:
data %>%
    select(atemp, cnt) %>%
    group_by(atemp) %>%
    summarise(cnt = mean(cnt)) %>%
    ggplot(aes(x = atemp, y = cnt)) +
    geom_line() +
    theme_minimal(base_size = 20)

## Vorhersagen treffen

Wie bei den Pilzen müssen wir jetzt einen neuen `tibble` erstellen, den wir anschließend mithilfe von `predict()` vorhersagen können. Dabei ist zu beachten, dass einige der Prädiktorvariablen vorher bereits im Datensatz normalisiert worden waren! Das ist im Readme hinterlegt und im folgenden Code auch nochmal kommentiert.

In [None]:
vorhersage <- tibble(
    # Possible occurences for season: spring, summer, fall, winter
    season = "winter", 

    # Possible occurences for yr: 2011, 2012
    yr = 2011,
    
    mnth = 2, 
    hr = 11, 

    # TRUE or FALSE
    holiday = FALSE,

    weekday = 5,
    
    # TRUE or FALSE
    workingday = TRUE,
    
    # Possible occurences for weathersit
        # Clear, Few clouds, Partly cloudy, Partly cloudy
        # Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
        # Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
        # Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
    weathersit = "Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist", 
    
    # Celsius, normalised temperature through division by 41
    temp = 30 / 41, 
    
    # Celsius, normalised feeling temperature through division by 50
    atemp = 25 / 50, 
    
    # percentage, normalised through division by 100
    hum = 20 / 100, 
    
    # normalised through division 67
    windspeed = 35 / 67, 
)

Wir können mit unserem trainierten Workflow `bikes_fit` und `predict()` eine Vorhersage treffen:

In [None]:
bikes_fit %>% predict(vorhersage)

Voilà – das ist die Anzahl der Fahrräder, die laut unserem Modell bei den von uns definierten Umgebungsvariablen ausgeliehen werden. Wir können jetzt also Vorhersagen darüber treffen.

## Modell verbessern

Durch die Schritte im Pre-Processing haben wir unser Modell vermutlich schon minimal verbessert im Vergleich zu einem Modell ohne Pre-Processing. Hilfreich ist meistens eine größere Datenbasis. Tatsächlich sind die Decision Trees aber relativ beschränkt in ihrer Funktionsweise, sodass es sich vor allem lohnt, ein komplexeres Modell zu verwenden.

Ein Beispiel dafür sind sogenannte **Random Forests**, die in `tidymodels` in der Funktion [`rand_forest()`](https://parsnip.tidymodels.org/reference/rand_forest.html) abgebildet werden. Dieses Beispiel wird im nächsten Notebook behandelt.