![R-Kenntnis](../Pics/header.png "R-Kenntnis")

<img src="https://img.shields.io/badge/--Kenntnis-blue?style=flat-square&logo=r&logoColor=white"/> <a href="https://ostfalia.de/w" target="_blank"><img src="https://img.shields.io/badge/Ostfalia-Fakultät%20W-blue?style=flat-square&logo=googlescholar&logoColor=white"/></a> <img src="https://img.shields.io/badge/Semester-WiSe2023%2F24-green?style=flat-square"/> <img src="https://img.shields.io/badge/Copyright-2020--24-orange?style=flat-square"/> <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/" target="_blank"><img src="https://img.shields.io/badge/License-by--nc--sa-red?style=flat-square"/></a> 

<div class="alert alert-block alert-info">
<img src="https://img.shields.io/badge/Information-Übung_04-blue?style=for-the-badge&logo=bookstack&logoColor=white">
    
* **Titel:** R-Kenntnis Übungen 04: Datenaufbereitung mit `dplyr`
* **Autor:** Prof. Dr. Denis Royer
* **Datum:** 30.09.2023 (Version 3.0)

</div>

![Header_Data](../Pics/header_data.png "Data")

<div class="alert alert-block alert-success">

# Überblick:    
## 04: Datenaufbereitung mit `dplyr`
- **Hauptfunktionen:** Das `dplyr` Paket in R bietet eine Sammlung von Funktionen zur Datenmanipulation, die das Laden, Bereinigen, Selektieren und Aggregieren von Daten in `data.frames` oder `tibbles` erleichtern.
  
- **Populäre Befehle:** Zu den zentralen Funktionen gehören `mutate()`, `select()`, `filter()`, `summarise()`, `arrange()` und `group_by()`.

- **Pipe Syntax:** Eine zusätzliche, für den Workflow hilfreiche Funktion ist die Pipe Syntax (`%>%`) aus dem `magrittr`-Paket, die den verschachtelten Aufruf von Funktionen in einer leserlichen Sequenz ermöglicht.

- **Vergleich mit Base R:** Die dplyr-Funktionen bieten oftmals eine intuitivere und effizientere Möglichkeit zur Datenmanipulation im Vergleich zu den Basisfunktionen von R.

- **Zusätzliche Features:** Das Paket beinhaltet auch Funktionen wie `arrange()`, `group_by()` und `summarise()` zur Sortierung und Gruppierung von Daten, sowie viele Hilfsfunktionen für detaillierte Datenselektion.

## Vermittelte Kompetenzen:

Durch die dplyr Übung können Anwender in R Datenmanipulationsaufgaben ohne komplexe Basis-R-Syntax meistern. Sie lernen, Datenflüsse mit der Pipe Syntax (%>%) zu organisieren und Tabellendaten effizient zu bearbeiten, um sie für Analysen und Visualisierungen vorzubereiten.    
</div>

# BI - R-Kenntnis Übungen 04: Datenaufbereitung mit `dplyr`

Bitte lesen Sie die folgenden Kapitel und die enthaltenen Hinweise ***sorgfältig*** durch. Die Aufgaben sind zum Teil in den Kapiteln enthalten.
    
<div class="alert alert-block alert-warning">
<b>WICHTIG:</b> 
    
*Die Schritte im Source Code bauen zum Teil aufeinander auf. Sollten Sie Ihre RStudio oder JupyterLab Session schließen oder neu starten, so müssen Sie ggf. den **Code erneut ausführen**, bzw. die **Packages neu laden**.*
    
</div>

<div class="alert alert-block alert-info">
<b>Hinweis:</b> Weitere Hinweise und Quellen finden Sie <a href="../index.ipynb">auf der zenteralen Übersicht zu den Übungen</a>. </div>

# Einleitung

In der Welt der Datenanalyse und des Data Science ist es von zentraler Bedeutung, über robuste Werkzeuge zur Datenmanipulation zu verfügen. Die `dplyr`-Bibliothek in R stellt genau ein solches Werkzeug dar, das es erlaubt, Daten effizient, intuitiv und elegant zu verarbeiten. In dieser Übung werden wir uns auf die Kernfunktionalitäten von `dplyr` konzentrieren, um die Komplexität der Basis-R-Syntax zu umgehen und einen strukturierten Datenfluss zu gewährleisten. Der Fokus liegt dabei nicht nur auf dem Erwerb von technischen Fähigkeiten, sondern auch auf dem Verständnis des dahinterliegenden Konzepts und dem effizienten Umgang mit Tabellendaten. Ich lade euch ein, mit mir gemeinsam in die faszinierende Welt der Datenmanipulation in R einzutauchen und die Vielseitigkeit und Stärke von `dplyr` zu entdecken.

# Vorbereitende Schritte für die Übung 04


<div class="alert alert-block alert-warning">
<b>Wichtig:</b> Bevor wir loslegen, müssen wir zunächst einmal ein paar vorbereitende Dinge erledigen:

* Die notwendigen Packages laden (bspw. `tidyverse`)
* Datensatz laden (siehe *Data/raw_bikeshare_data.csv*)
* Als weiteren Datensatz nutzen wir den Testdatensatz `starwars`

</div>


In [None]:
# Sofern Paket nicht installiert sind, soll sie installiert werden. 
# Die require() Funktion prüft ab, ob das Paket bereits installiert ist. 
# if(!require("tidyverse")) install.packages("tidyverse")
# Laden der Pakete tidyverse (lädt stringr, tibble, readr und dplyr) und DT
library(tidyverse)
library(DT)

In [None]:
# Laden der Daten aus der Beispieldatei (nutzt readr)
# Wichtig: Die Datei nicht 'vorher mit Excel öffnen!
bike.df <- read_csv("../Data/raw_bikeshare_data.csv")

Sind die Packages geladen und die Daten im Speicher, so können wir uns mit der Funktion `dplyr::glimpse()`einmal die Daten anschauen:

In [None]:
# Daten ansehen mit der dplyr::glimpse() Funktion
glimpse(bike.df)

In [None]:
# Die Ausgabe in "fancy" mit dem Package DT
# Mehr unter https://rstudio.github.io/DT/
DT::datatable(head(bike.df,n = 20))

In [None]:
# ... und noch der Starwars Datensatz:
glimpse(starwars)

In [None]:
# Die Ausgabe in "fancy" mit dem Package DT
# Mehr unter https://rstudio.github.io/DT/
DT::datatable(starwars)

# Das Paket `dplyr`

In einem Business Intelligence Projekt stellt die Aufbereitung der Daten (Data Preparation oder Data Manipulation) einen wichtigen Schritt dar, der vielfach auch mit hohen Aufwänden einhergeht. So müssen für die weiteren Schritte die Daten geladen, bereinigt und so selektiert werden, dass ein Modell die benötigten Daten bekommt.

In der Welt von ***R*** gibt es eine Reihe von Paketen, die bei der Data Preparation sehr gut helfen können. Ein sehr hilfreiches und häufig verwendetes Paket ist [`dplyr`](https://dplyr.tidyverse.org), welches zur `tidyverse`-Familie gehört.

Das Package `dplyr` stellt eine Sammlung von Befehlen zur Datenmanipulation zur Verfügung. Dem Paket liegt eine Grammatik zur Datenaufbereitung zugrunde (A Grammar of Data Manipulation). Es wurde von Hadley Wickham entwickelt und erfreut sich großer Beliebtheit in der ***R***-Community. `dplyr` erleichtert die Aufbereitung von Datensätzen, indem es einfach zu nutzende Funktionen für die üblichen Aufgaben bereitstellt wie z.B. für die Auswahl von Spalten (`select()`), nach gewissen Kriterien die Zeilen filtern (`filter()`) oder Werte zu aggregieren (`summarise()`). 

Der zu bearbeitende Datensatz muss als `data.frame` oder `tibble` (die `data.frame`-Variante im `tidyverse`) vorliegen, also einer **Tabelle mit mehreren Spalten und vielen Zeilen**.

<div class="alert alert-block alert-success">
<b>Hinweis:</b> In <a href="../Uebung 03/R-Kenntnis Uebung 03.ipynb">Uebung 03</a> konnten Sie schon erste Gehversuche mit <b>dplyr</b> unternehmen. Diese Übung vertieft Ihr Wissen zum Thema Datenaufbereitung und gibt Hinweise zu weiteren Themen.
</div>
    
<div class="alert alert-block alert-success">
<b>Tipp:</b> 

Als schnelle Referenz kann man das **`dplyr` Cheat Sheet** hier herunterladen: <https://github.com/rstudio/cheatsheets/blob/master/data-transformation.pdf>
    
![data-transformation-cheatsheet-thumbs](../Pics/data-transformation-cheatsheet-thumbs.png "dplyr Cheat Sheet")
    
</div>

## `dplyr` auf einen Blick

Die Idee von dplyr ist es, die wichtigsten Tools für die hierbei anfallenden Aufgaben möglichst einfach und intuitiv in einem Package bereitzustellen:

* dplyr ist eine umfangreiche Toolbox zur Inspektion und Manipulation von Daten.
* Funktionen/Syntax von dplyr lassen sich gleichermaßen auf Data Frames, Data Tables und sogar Datenbanken anwenden.
* dplyr hat eine deutlich höhere Performance als die Basis-Funktionen von R.
* dplyr kann ohne Probleme mit konventionellen Data Frames arbeiten.
    * Bei großen Daten empfiehlt es sich aber, diese mit Hilfe von `as_tibble()` in ein `dplyr`-spezifisches Format zu konvertieren: das sogenannte `tibble`.
    * Das `tibble` ist eine auf Leistung getrimmte Version eines `Data.Frames`.
* Die zentralen Verben (die Funktionen) von `dplyr` sind:
    * `dplyr::mutate()` fügt einem Datensatz neue (berechnete) Variablen hinzu
    * `dplyr::select()` selektiert Daten anhand ihrer Bezeichner aus einem Datensatz
    * `dplyr::filter()` selektiert Datensätze anhald ihrer Eigenschaften/Werte
    * `dplyr::summarise()` fasst Datensätze zu einzelnen Werten zusammen
    * `dplyr::arrange()` verändert die Reihung von Spalten in einem Datensatz
    * `dplyr::group_by()` gruppiert Datensätze

## Der Pipe Syntax `(%<%)` (`magrittr`-Package)
Das Zeichen „*Prozent – größer – Prozent*“ nennt sich Forward-Pipe und ist ein Konzept, welches die Lesbarkeit von R-Code erhöhen soll. Prinzipiell braucht man sie nicht, die Pipe hat sich aber als so praktisch erwiesen, dass sie heute vielfach verwendet wird. Insbesondere im `tidyverse`, also `dplyr`, `ggplot2` etc., ist sie nicht mehr wegzudenken.

**Aber was macht sie denn nun. Ganz einfach eigentlich:** 

* Statt $f(x, …)$ schreibt man nun `x %>% f(…)`. 
* Warum ist das so nützlich? Weil damit der verschachtelte Aufruf von Funktionen viel lesbarer wird. 
* Stellen Sie sich vor, wir wollen auf einen Datensatz df zuerst die Funktion f anwenden und auf das Ergebnis die Funktion g. 
* Dann wäre der normale Code `g(f(df))`. 
* Mit der magrittr-Pipe wäre dass `df  %>% f %>% ` und entspricht der Leserichtung von links nach rechts. 
* Kommen nun noch Parameter in Spiel, z.B. p1 und p2 für f sowie p3 für g, dann wäre der konventionelle R-Code `g(f(df,p1,p2),p3)`. 
* Mit der Pipe `df %>% f(p1,p2) %>% g(p3)`.

### Ein (konstruiertes) Beispiel:

```R
# Einmal auf konventionelle Art und Weise:
filter(summarise(group_by(filter(stats_test, !is.na(score)), interest), mw = mean(score)), mw > 30) 

# mit dem Pipe Syntax:
stats_test %>%
    filter(!is.na(score)) %>% 
    group_by(interest) %>% 
    summarise(mw = mean(score)) %>% 
    filter(mw > 30) 
```

Das ganze im Pipe-Syntax liest sich wie folgt:

```
Nimm die Tabelle „stats_test“ UND DANN
    filtere alle nicht-fehlenden Werte UND DANN
    gruppiere die verbleibenden Werte nach „interest“ UND DANN
    bilde den Mittelwert (pro Gruppe) für „score“ UND DANN
    liefere nur die Werte größer als 30 zurück.
```


### Die Geschichte des Pipe Syntax 
Diese Pipe wurde 2014 von Stefan Milton Bache mit dem Package `magrittr` in ***R*** (benannt nach dem Bild einer Pfeife von René Magritte) umgesetzt und von Hadley Wickham in das tidyverse integriert. Wenn man ein Paket aus dem tidyverse ladet, bekommt man automatisch die Pipe-Funktionalität dazu.

<div class="alert alert-block alert-success">
<b>Tipp:</b> 
    Der Shortcut in <b>R-Studio</b> für die Pipe lautet <b>Strg + Shift + M</b>.
</div>

### Übungen zum Pipe Syntax

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

**Basierend auf der Lösung von Übung 3:** 
* Wie sieht der Source Code für den Marketing Report im Pipe Syntax aus?
* Schreiben Sie hierzu die Lösungsschritte aus den Kapiteln 1.2 bis 1.4 aus der <a href="../Uebung 3/R-Kenntnis LSG Uebung 3.ipynb">Lösung zu Uebung 03</a> in ein einziges Pipe-Syntax Statement um, so dass der Marketing Bericht aus der ursprünglichen Aufgabenstellung entsteht.
* Am Ende soll die gleiche Tabelle als Ergebnis entsteht:

| season| sum(casual)| sum(revenue)|
|------:|-----------:|------------:|
|      1|          14|           70|
|      2|           4|           20|
    

In [None]:
# Hier kommt Ihr Source Code hin:



## Auswahl von Daten mit `filter()` und `select()`

Für die Datenanalyse brauchen wir oftmals nur einen Teil der Daten. Hier können die Funktionen `filter()` und `select()`sehr hilfreich sein:

* **Zeilen (Beobachtungen) extrahieren mit `filter()`** - Die Funktion `filter()` filtert Zeilen aus einem Dataframe. Die Zeilen, die zum Filterkriterium passen, bleiben im Datensatz.
* **Spalten (Variablen) extrahieren mit `select()`** - Die Funktion `select()` wählt Spalten aus einem Dataframe aus.

![dplyr_filter_select](../Pics/dplyr_filter_select.jpg "dplyr: Unterschiede filter() und select()")

<div class="alert alert-block alert-info">
<b> Wichtigster Unterschied zu den Base R Funktionen:</b> Es muss keine direkte Referenzierung auf den jeweiligen Datensatz erfolgen. Auf dem ersten Blick nicht viel Ersparnis, mit steigender Komplexität der Bedingungen ändert sich dies jedoch.</div>

In [None]:
# Filtern von Zeilen nach einem oder mehreren Kriterien
bike.filtered.df <- filter(bike.df, season == 1 & weather == 2) 
DT::datatable(bike.filtered.df)

In [None]:
# ... und zum Vergleich in Base R
bike.filtered2.df <- bike.df[(bike.df$season == 1 & bike.df$weather == 2), ]
DT::datatable(bike.filtered2.df)

In [None]:
# Selektiere name und alle Spalten, die die Zeichenkette
# "color" enthalten
starwars %>% 
  select(name, ends_with("color"))

In [None]:
starwars %>% 
  filter(species == "Droid")

### Weitere Funktionen

* `distinct()` - Entfernen von doppelten Zeilen 
* `sample_frac()` - Anteilige Zufallsstichprobe 
* `sample_n()` - Zufallsstichprobe von n Zeilen 
* `slice()` -  "Ausschneiden" von Zeilen nach deren Position 
* `top_n()` - Auswählen und sortieren der n ersten Zeilen

### Übungen zu `filter()` und `select()`

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Basierend auf dem Datensatz `bike`:

1. Bilden Sie ein Subset mit den Tagen im Sommer und Herbst, an denen es keine "casual" Kunden gab.
2. Ziehen Sie durch eine zufällige Auswahl 50% des soeben erstellten Subsets und speichern Sie diese unter "fraction".
3. Extrahieren Sie aus dem Subset "fraction" nur die Spalten 4 bis 8.
    

In [None]:
# Hier kommt Ihr Source Code hin:


## Hilfsfunktionen für `select()` und `filter()`

dplyr umfasst einige hilfreiche Funktionen, die die Auswahl mehrerer Spalten mit `select()` erleichtern. Diese Funktionen können aber auch in den anderen Befehlen wie `filter()` angewendet werden.

* `starts_with()` – Liefert die Spalten zurück, die mit der im Parameter angegebenen Zeichenkette anfangen.
* `ends_with()` – Wie `starts_with()`, nur analog für die Endung.
* `contains()` – Ebenfalls analog zu `starts_with()` und `ends_with()`. Hier muss der String im Spaltennamen enthalten sein.
* `matches()` – Auswahl der Spalten über einen regulären Ausdruck (regex).
* `num_range()` – Auswahl von Spaltennamen, welche durchnummeriert sind. Also zum Beispiel V01, V02, V03, …
* `one_of()` – Auswahl der Spalten, deren Namen per String-Vektor angegeben werden. Bei `select()` funktioniert das impliziert (siehe Abschnitt über Anführungszeichen).
* `everything()` – Alle Spalten.
* `last_col()` – Die letzte Spalte.

## Die Funktion `arrange()`

Der R-Befehl `arrange()` ordnet einen Datensatz entsprechend der Variablen, die als Parameter übergeben werden. Um eine umgekehrte Reihenfolge zu erhalten, gibt es die Funktion `desc()` (desc - decending). Bei numerischen Spalten geht auch einfach das Minus-Zeichen, aber für Strings und Faktoren braucht man `desc()`.

<div class="alert alert-block alert-success">
    <b>Merke:</b> Die Funktion <b>arrange()</b> sortiert die Zeilen eines Dataframes.
</div>

In [None]:
# Sortieren der Wetterangaben von 1..4
bike.df %>% arrange(weather)

In [None]:
# Sortieren der Wetterangaben von 4..1
bike.df %>% arrange(desc(weather))

In [None]:
# Da der Wert im Datensatz nummerisch ist, kann man 
# die Reihenfolge auch mit "-" umkehren. Dies geht, wie bereits gesagt,
# nicht bei Strings oder Faktoren.
bike.df %>% arrange(-weather)

In [None]:
# Einmal alle nach Gewicht absteigend sortieren und
# für die ersten 10 Ergebnisse Name und Gewicht anzeigen
starwars %>% 
  arrange(desc(mass)) %>%
  select(name,mass) %>%
  top_n(10)

## Die Funktionen `group_by()` und `summarise()`

Das Package `dplyr` beinhaltet auch die R-Funktion `summarise()`, mit welcher sich Daten aggregieren lassen, also z.B. eine Summe oder ein Mittelwert bilden.

Insbesondere in Kombination mit der dplyr-Funktion `group_by()` entfaltet `summarise()` seine Wirkung. `group_by()` funktioniert wie der SQL-Zusatz `group by()` zum select-Befehl. Man unterteilt damit den Datensatz in verschiedene Gruppen. Kombiniert man nun `summarise()` und `group_by()`, lassen sich bequem Aggregate in diesen Gruppen berechnen. Im Endeffekt ähnlich zur `aggregate()` Funktion von Base-R, nur komfortabler.

![group_by_summarise](../Pics/group_by_summarize.jpg "Zusammenspiel von group_by() und summarise() Funktion")

<div class="alert alert-block alert-success">
<b>Definition:</b> Gruppieren meint, einen Datensatz anhand einer diskreten Variablen (z.B. Geschlecht) so aufzuteilen, dass Teil-Datensätze entstehen - pro Gruppe ein Teil-Datensatz (z.B. Mann vs. Frau).</div>

<div class="alert alert-block alert-success">
<b>Merke:</b> 

* Mit `summarise()` kann man eine Spalte eines Dataframes zu einem Wert zusammenfassen.
* Mit `group_by()` teilt man einen Datensatz in Gruppen ein, entsprechend der Werte in eine oder mehrere Spalten.
    
</div>

Folgende Funktionen sind für die `summarise()` Funktion verfügbar:

* `first()`- Erstes Element des Vektors
* `last()` - Letztes Element des Vektors
* `nth()` - n tes Element des Vektors
* `n_distinct()` - Anzahld istinkte Elemente in einem Vektor
* `IQR()` - Interquartilsabstand
* `min()` - Minimum des Vektors
* `max()` - Maximum des Vektors
* `var()` - Varianz des Vektors
* `sd()` - Standardabweichung des Vektors
* `median()` - Median des Vektors


### Beispiele für die `group_by()` und `summarise()` Funktionen

In [None]:
# Ein Beispiel mit dem Starwars Datensatz
starwars %>%
  group_by(species) %>%
  summarise(n = n(), mass = mean(mass, na.rm = TRUE)) %>%
  filter(n > 1, mass > 50)

In [None]:
# ... und ein Beispiel aus dem bike Datensatz, welches
# die Casual Mieter pro Saison zusammenrechnet

bike.df %>%
   group_by(season) %>%
   summarise(sum(casual))

### Übungen zu `group_by()` und `summarise()`
![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

1. Was macht das `group_by()` / `summarise()` Statement aus dem Starwars Beispiel oben? Sortieren Sie die Ausgabe einmal nach `mass` absteigend.
2. Gruppieren Sie die Daten aus `bike` nach den Wetterbedingungen und berechnen Sie die zugehörigen, durchschnittlichen Entleihungen für registrierte und casual Mieter.
3. Ähnlich wie die Gruppierung aus der vorherigen Aufgabe, soll dieses Mal eine wochenweise Gruppierung und Berechnung der durchschnittlichen Entleihungen für registrierte und casual Mieter berechnet werden. **Wichtig:** Sie müssen die Datumsangaben in der Spalte `datetime` einmal mit `lubridate` umwandeln und gruppieren (siehe Uebung 03). Die Funktion für die Umwandlung in Wochen heisst `week()`und erwartet ein Datum zur Berechnung.

In [None]:
# Hier kommt Ihr Source Code hin:



## (Neue) Spalten berechnen mit der `mutate()` Funktion
Der R-Befehl mutate ergänzt einen Datensatz um eine oder mehrere Spalten. Der häufigste Fall ist die Berechnung aus anderen Spalten. Aber auch Ergänzung von Konstanten oder das Löschen einer Spalte kann man mit `mutate()` erreichen. Als Rückgabewert wird der „mutierte“ Datensatz zurückgegeben.

**Kurz gesagt:** Mit Hilfe der `mutate()`-Funktion lassen sich aus bestehenden Informationen neue Variablen erstellen.

### Beispiele für die `mutate()` Funktion

In [None]:
# Aus Uebung 03:
add_revenue <- mutate(bike.df, revenue = casual * 5)
head(add_revenue)

In [None]:
# Berechnung des BMI mittels der mutate() Funktion
starwars %>% 
  mutate(name, bmi = mass / ((height / 100)  ^ 2)) %>%
  select(name:mass, bmi) %>%
  top_n(10)

### Übungen zu `mutate()` 

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

1. Erstellen Sie eine neue Spalte `temp_f` in `bike`, welche die Temperatur (`bike$temp`) in Fahrenheit angibt. Nutzen Sie für die Umrechnung folgende Formel: Temperatur in °C * 1.8 + 32.
2. Erstellen Sie eine neue Spalte `per_casual`, der den Anteil in Prozent für die von "casual" Mieter angibt.


In [None]:
# Hier kommt Ihr Source Code hin:



# Exkurs: Daten Verbinden (join)

Häufig werden Daten dezentral in Form von verschiedenen Tabellen, Excel-Sheets, CSV-Dateien, Datenbanken usw. vorgehalten. Jede dieser Datenquellen kann relevante Informationen enthalten, die für die Analyse in einem gemeinsamen Datensatz vorliegen müssen. Datenquellen können über ein oder mehrere sog. Schlüsselattribute (auch Primärschlüssel genannt) verbunden werden.

In ***R*** wir das Verbinden von zwei Tabellen mittels `merge()` oder `join()` realisiert. Der R-Befehl `merge()` wird in Base-R bzw. `data.table` verwendet, `join()` kommt ursprünglich aus der Datenbanksprache SQL. In `dplyr` gibt es analog vier Varianten von `join()`:

* **inner join:** Es bleiben nur die Zeilen übrig, deren Identifikator in beiden Tabellen vorkommen.
* **left join:** Die zuerst genannte Tabelle (also die linke) bleibt vollständig erhalten. Gibt es kein Pendant in der zweiten Tabelle, wird mit NAs aufgefüllt.
* **right join:** Genau umgekehr zu left join. Die zweite Tabelle bleibt komplett erhalten. Werte, die keine Entsprechung in der ersten Tabelle haben, werden mit NAs aufgefüllt.
* **full (outer) join:** Sowohl die erste als auch die zweite Tabelle bleiben vollständig erhalten.

Mehr auch unter <https://databraineo.com/dplyr-left-join-inner-join-full-join-right-join-cheatsheet-2/>

![Join_Merge](../Pics/dplyr-left-join-inner-join-full-join-right-join-cheatsheet.jpg "Join und Merge")


In [None]:
# https://databraineo.com/ki-training-resources/r-programmierung/das-r-package-dplyr-eine-ausfuehrliche-anleitung-mit-vielen-beispielen/#pipe

table1 <- data.frame(ID=1:10,x=rnorm(10))
table2 <- data.frame(ID=5:14,y=rnorm(10))

In [None]:
a = inner_join(table1,table2)
a

In [None]:
b = left_join(table1,table2)
b

In [None]:
c = right_join(table1,table2)
c

In [None]:
d = full_join(table1,table2)
d

In [None]:
# zwei Spalten als Identifikatoren
table1 <- data.frame(ID1=1:10,ID2=c("rot","grün"),x=rnorm(10),stringsAsFactors = FALSE)
table2 <- data.frame(ID1=5:14,ID2=c("rot","schwarz"),y=rnorm(10),stringsAsFactors = FALSE)

In [None]:
a2 = inner_join(table1,table2)
a2

In [None]:
b2 = left_join(table1,table2)
b2

In [None]:
c2 = right_join(table1,table2)
c2

In [None]:
d2 = full_join(table1,table2)
d2

In [None]:
# Identifikatorwerte nicht eindeutig
table1 <- data.frame(ID1=1:10,x=paste("A",1:10),stringsAsFactors = FALSE)
table2 <- data.frame(ID1=rep(1:3,2),y=paste("B",1:6),stringsAsFactors = FALSE)

In [None]:
a3 = inner_join(table1,table2)
a3

In [None]:
b3 = left_join(table1,table2)
b3

In [None]:
c3 = right_join(table1,table2)
c3

In [None]:
d3 = full_join(table1,table2)
d3

# Quellen und Links

* **Gendron (2016)** – Gendron, J.: *Introduction to R for business intelligence learn how to leverage the power of R for business intelligence* Birmingham, UK: Packt Publishing, 2016.
* **Müller und Lenz (2013)** – Müller, R. M. und Jenz H.-J.: *Business Intelligence*, 1. Auflage, Springer Vieweg, 2013.
* **Sauer (2019)** – Sauer, S.: *Moderne Datenanalyse mit R*, Springer, DOI: <https://doi.org/10.1007/978-3-658-21587-3>, 2019.

**Links:**
* <https://databraineo.com/ki-training-resources/r-programmierung/das-r-package-dplyr-eine-ausfuehrliche-anleitung-mit-vielen-beispielen/>
* <https://sebastiansauer.github.io/Datenanalyse_mit_dplyr/>
* <https://databraineo.com/dplyr-left-join-inner-join-full-join-right-join-cheatsheet-2/>

# Lösungen

Die Lösungen zu den Übungen finden Sie in der *Datei <a href="R-Kenntnis LSG Uebung 04.ipynb">R-Kenntnis LSG Uebung 04.ipynb</a>*. Die Datei wird jeweils nach der Durchsprache der Übung bereitgestellt.

<div class="alert alert-block alert-info">
<b>Info:</b> Die Datei wird jeweils nach der Durchsprache der Übung bereitgestellt.</div>