![R-Kenntnis](../Pics/header.png "R-Kenntnis")

<div class="alert alert-block alert-info">

* **Titel:** Lösung zu den Übungen 04: Datenaufbereitung mit `dplyr`
* **Autor:** Prof. Dr. Denis Royer
* **Datum:** 19.10.2021 (Version 2.0)

</div>

# BI - R-Kenntnis Lösung zu den Übungen 04: Datenaufbereitung mit `dplyr`

<div class="alert alert-block alert-warning">
<b>Wichtig:</b> Bevor wir loslegen, müssen wir zunächst einmal ein paar vorbereitende Dinge erledigen:

* Die notwendigen Packages laden (bspw. `tidyverse`)
* Datensatz laden (siehe *Data/raw_bikeshare_data.csv*)
* Als weiteren Datensatz nutzen wir den Testdatensatz `starwars`

</div>


In [None]:
# Laden des Pakets tidyverse (lädt stringr, tibble, readr und dplyr)
library(tidyverse)

# Laden der Daten aus der Beispieldatei (nutzt readr)
# Wichtig Die Datei nicht vorher mit Excel öffnen!
bike <- read_csv("../Data/raw_bikeshare_data.csv")

In [None]:
# Darstellung der Zahlen auf 4 Stellen für die Optik :-)
options(digits=4)

## Übungen zum Pipe Syntax

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

**Basierend auf der Lösung von Übung 3:** 
* Wie sieht der Source Code für den Marketing Report im Pipe Syntax aus?
* Schreiben Sie hierzu die Lösungsschritte aus den Kapiteln 1.2 bis 1.4 aus der <a href="../Uebung 3/R-Kenntnis LSG Uebung 3.ipynb">Lösung zu Uebung 03</a> in ein einziges Pipe-Syntax Statement um, so dass der Marketing Bericht aus der ursprünglichen Aufgabenstellung entsteht.
* Am Ende soll die gleiche Tabelle als Ergebnis entsteht:

| season| sum(casual)| sum(revenue)|
|------:|-----------:|------------:|
|      1|          14|           70|
|      2|           4|           20|
    

<div class="alert alert-block alert-success">
<b>Lösungsansatz:</b></div>

In [None]:
report <- bike %>% 
          filter(registered == 0, season == 1 | season == 2) %>%
          mutate(revenue = casual * 5) %>%
          group_by(season) %>%
          summarise(sum(casual), sum(revenue))
report

## Übungen zu `filter()` und `select()`

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Basierend auf dem Datensatz `bike`:

1. Bilden Sie ein Subset mit den Tagen im Sommer und Herbst, an denen es keine "casual" Kunden gab.
2. Ziehen Sie durch eine zufällige Auswahl 50% des soeben erstellten Subsets und speichern Sie diese unter "fraction".
3. Extrahieren Sie aus dem Subset "fraction" nur die Spalten (Zusatz: Zeilen) 4 bis 8.

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 1:</b></div>

In [None]:
myFilter <- filter(bike, ((season == 2 | season == 3) & casual == 0) ) 
myFilter

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 2:</b></div>

In [None]:
# Zufälliges Auswählen der Daten aus bike.
# Es werden 50% (0.5) der Daten ausgewählt.
myFilter.fraction <- sample_frac(myFilter,0.5)
myFilter.fraction

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 3:</b></div>

In [None]:
# Auswahl der Spalten 4 bis 8
myFilter.fraction %>% select(4:8)
# Zusatz: Auswahl der Zeilen 4 bis 8
myFilter.fraction %>% slice(4:8)

## Übungen zu `group_by()` und `summarise()`
![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

1. Was macht das `group_by()` / `summarise()` Statement aus dem Starwars Beispiel oben? Sortieren Sie die Ausgabe einmal nach `mass` absteigend.
2. Gruppieren Sie die Daten aus `bike` nach den Wetterbedingungen und berechnen Sie die zugehörigen, durchschnittlichen Entleihungen für registrierte und casual Mieter.
3. Ähnlich wie die Gruppierung aus der vorherigen Aufgabe, soll dieses Mal eine wochenweise Gruppierung und Berechnung der durchschnittlichen Entleihungen für registrierte und casual Mieter berechnet werden. **Wichtig:** Sie müssen die Datumsangaben in der Spalte `datetime` einmal mit `lubridate` umwandeln und gruppieren (siehe Uebung 03). Die Funktion für die Umwandlung in Wochen heisst `week()`und erwartet ein Datum zur Berechnung.

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 1:</b></div>

Anbei noch mal das Beispiel:
```R
# Ein Beispiel mit dem Starwars Datensatz
starwars %>%
  group_by(species) %>%
  summarise(n = n(), mass = mean(mass, na.rm = TRUE)) %>%
  filter(n > 1, mass > 50)
```

Das `group_by()` und `summarise()` Statement filter den Starwars Datensatz folgendermaßen:

* Zunächst wird der Datsatz nach den Spezies gruppiert.
* Danach wird die Gruppierung aufsummiert (wie viele Individuen sind es pro Spezies) und das durchschnittliche Gewicht berechnet. Sollte es keinen Wert für eines der Individuen geben, so wird dieses bei der Mittelwertberechnung ausgelassen (Parameter `na.rm = TRUE`).
* Als letztes werden diejenigen Ergebnisse angezeigt, bei denen es **mehr** als ein Individuum pro Spezies gibt (also ab 2 Individuen pro Spezies) und wo das mittlere Gewicht prößer als 50kg ist.

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 2:</b></div>

In [None]:
bike %>%
   group_by(weather) %>%
   summarise(mean(casual, na.rm = TRUE),mean(registered, na.rm = TRUE))

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 3:</b></div>

In [None]:
# Laden des Package lubridate, für die Handhabung der
# Datumsangaben im Datensatz
library(lubridate)
# Umwandlung der Spalte datetime von einem String in einen POSIX 
# Zeitstempel, damit man die Angaben gleich Wochenweise zusammen-
# fassen kann.
bike$datetime <- mdy_hm(bike$datetime)

In [None]:
# Wochenweise Zusammenfassung der Daten
bike %>%
   group_by(week = week(datetime)) %>%
   summarise(mean(casual, na.rm = TRUE), mean(registered, na.rm = TRUE))

In [None]:
# Zusatz: Monatsweise Zusammenfassung der Daten
bike %>%
   group_by(month = month(datetime)) %>%
   summarise(mean(casual, na.rm = TRUE), mean(registered, na.rm = TRUE))

## Übungen zu `mutate()` 

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

1. Erstellen Sie eine neue Spalte `temp_f` in `bike`, welche die Temperatur (`bike$temp`) in Fahrenheit angibt. Nutzen Sie für die Umrechnung folgende Formel: Temperatur in °C * 1.8 + 32.
2. Erstellen Sie eine neue Spalte `per_casual`, der den Anteil in Prozent für die von "casual" Mieter angibt.

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 1:</b></div>

In [None]:
# Hinzufügen der Spalte temp_f mit der Temperaturangabe
# in Grad Fahrenheit
bike %>%
    mutate(temp_f = temp * 1.8 + 32)

<div class="alert alert-block alert-success">
<b>Lösungsansatz Teil 2:</b></div>

In [None]:
# Hinzufügen der Spalte per_casual mit dem
# prozentualen Anteil der casual Mieter
bike %>%
    mutate(per_casual = casual / count *100)