# Tag 2. Kapitel 8. Daten-Manipulationen

## Lektion 40. Daten-Manipulationen mit dplyr

Wenn Sie mit Daten arbeiten, müssen Sie:

* Herausfinden was Sie vorhaben.
* Beschreiben Sie diese Aufgaben in Form eines Computerprogramms.
* Das Programm ausführen.

Das Paket **dplyr** macht diese Daten-Manipulationen Schritte schnell und einfach:

* Indem man mögliche Optionen einschränket, wird es für Sie leichter gemacht über Ihre Herausforderungen bei der Datenmanipulation nachzudenken.
* Es bietet einfache „Verben“ - Funktionen, die den häufigsten Datenbearbeitungsaufgaben entsprechen und Ihnen dabei helfen, Ihre Gedanken in Code zu übersetzen.
* Es werden effiziente Methoden verwendet, sodass Sie weniger Zeit auf den Computer warten müssen.

Wir werden die folgenden Funktionen behandeln:

* filter() (und slice())
* arrange()
* select() (und rename())
* distinct()
* mutate() (und transmute())
* summarise()
* sample_n() und sample_frac()

# Installation

Wir können `dplyr` installieren, indem wir folgendes ausführen:

In [1]:
install.packages('dplyr')

package 'dplyr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\dm_78\AppData\Local\Temp\Rtmp0UWRIf\downloaded_packages


In [3]:
# Ausführen durch
library(dplyr)

In [27]:
# Hilfe zu dplyr Paket
help(dplyr)

## Beispiel Datensatz

Wir können einige Flugdaten für unsere Beispiele verwenden. Wir laden dazu den nycflights12 Datensatz herunter:

In [5]:
install.packages("survival")

package 'survival' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\dm_78\AppData\Local\Temp\Rtmp0UWRIf\downloaded_packages


In [6]:
library(survival)

In [7]:
#Hilfe zum Datensatz aufrufen
help(ovarian)

In [8]:
# Statistische Werte je Spalte 
summary(ovarian)

     futime           fustat            age           resid.ds    
 Min.   :  59.0   Min.   :0.0000   Min.   :38.89   Min.   :1.000  
 1st Qu.: 368.0   1st Qu.:0.0000   1st Qu.:50.17   1st Qu.:1.000  
 Median : 476.0   Median :0.0000   Median :56.85   Median :2.000  
 Mean   : 599.5   Mean   :0.4615   Mean   :56.17   Mean   :1.577  
 3rd Qu.: 794.8   3rd Qu.:1.0000   3rd Qu.:62.38   3rd Qu.:2.000  
 Max.   :1227.0   Max.   :1.0000   Max.   :74.50   Max.   :2.000  
       rx         ecog.ps     
 Min.   :1.0   Min.   :1.000  
 1st Qu.:1.0   1st Qu.:1.000  
 Median :1.5   Median :1.000  
 Mean   :1.5   Mean   :1.462  
 3rd Qu.:2.0   3rd Qu.:2.000  
 Max.   :2.0   Max.   :2.000  

In [9]:
# Größe des Datensatzes ( Zeilen / Spalten)
dim(ovarian)

In [10]:
# Ungefilterte Daten 
head(ovarian) # erste 6 Zeilen

futime,fustat,age,resid.ds,rx,ecog.ps
59,1,72.3315,2,1,1
115,1,74.4932,2,1,1
156,1,66.4658,2,1,2
421,0,53.3644,2,2,1
431,1,50.3397,2,1,1
448,0,56.4301,1,1,2


In [11]:
tail(ovarian) # letzte 6 Zeilen

Unnamed: 0,futime,fustat,age,resid.ds,rx,ecog.ps
21,1227,0,59.589,1,2,2
22,268,1,74.5041,2,1,2
23,329,1,43.137,2,1,1
24,353,1,63.2192,1,2,2
25,365,1,64.4247,2,2,1
26,377,0,58.3096,1,2,1


## filter() 

`filter()` erlaubt es uns eine Auswahl an Zeilen eines Data Frame zu wählen. Das erste Argument ist dabei der Name des Data Frame. Das zweite und die nachfolgenden Argumente definieren, wie der Data Frame gefiltert werden soll:

Zum Beispiel können wir Patientendaten, die älter als 60 Jahre alt sind mit einer Kontrollzeit über 100 Tage wie folgt abrufen:

In [12]:
head(filter(ovarian,age > 60, futime > 100))

futime,fustat,age,resid.ds,rx,ecog.ps
115,1,74.4932,2,1,1
156,1,66.4658,2,1,2
477,0,64.1753,2,1,1
268,1,74.5041,2,1,2
353,1,63.2192,1,2,2
365,1,64.4247,2,2,1


Das ist wensentlich einfacher und lesbarer als der herkömmlcihe Weg über die Date Frame Auswahl (s. unten zum Vergleich):

In [13]:
head(ovarian[ovarian$age > 60 & ovarian$futime > 100, ])

Unnamed: 0,futime,fustat,age,resid.ds,rx,ecog.ps
2,115,1,74.4932,2,1,1
3,156,1,66.4658,2,1,2
9,477,0,64.1753,2,1,1
22,268,1,74.5041,2,1,2
24,353,1,63.2192,1,2,2
25,365,1,64.4247,2,2,1


## slice()

Wir können außerdem Zeilen durch `slice()` auswählen:

In [14]:
 slice(ovarian, 1:3) # erste 3 Zeilen auswählen

futime,fustat,age,resid.ds,rx,ecog.ps
59,1,72.3315,2,1,1
115,1,74.4932,2,1,1
156,1,66.4658,2,1,2


## arrange()

`arrange()` funktioniert wie filter(), allerdings werden die Zeilen nicht gefiltert oder ausgewählt, sondern neu geordnet. Es nimmt den Data Frame und eine Auswahl an Spaltennamen (oder kompliziertere Ausdrücke) und sortiert nach ihnen. Wenn wir mehr als einen Spaltennamen angeben wird jede weitere Spalte genutzt, um die Sortierung weiter herunterzubrechen.

In [15]:
head(arrange(ovarian, age, futime))

futime,fustat,age,resid.ds,rx,ecog.ps
1040,0,38.8932,2,1,2
803,0,39.2712,1,1,1
855,0,43.1233,1,1,2
329,1,43.137,2,1,1
1206,0,44.2055,2,2,1
1106,0,44.6,1,1,1


Für die absteigende Sortierung können wir `desc()` mit angeben:

In [16]:
head(arrange(ovarian, desc(age), futime))

futime,fustat,age,resid.ds,rx,ecog.ps
268,1,74.5041,2,1,2
115,1,74.4932,2,1,1
59,1,72.3315,2,1,1
156,1,66.4658,2,1,2
365,1,64.4247,2,2,1
477,0,64.1753,2,1,1


## select() 

Oft arbeiten wir mit großen Datensätzen mit vielen Spalten, von denen uns nur einige wenige interessieren. `select()` ermöglicht es uns einfach und schnell auf das benötigte Subset zuzugreifen:

In [17]:
head(select(ovarian,age,futime))

age,futime
72.3315,59
74.4932,115
66.4658,156
53.3644,421
50.3397,431
56.4301,448


## rename()

Um Spalten umzubenennen nutzen wir `rename()`:

In [19]:
head(ovarian)
head(rename(ovarian, alter = age ))

futime,fustat,age,resid.ds,rx,ecog.ps
59,1,72.3315,2,1,1
115,1,74.4932,2,1,1
156,1,66.4658,2,1,2
421,0,53.3644,2,2,1
431,1,50.3397,2,1,1
448,0,56.4301,1,1,2


futime,fustat,alter,resid.ds,rx,ecog.ps
59,1,72.3315,2,1,1
115,1,74.4932,2,1,1
156,1,66.4658,2,1,2
421,0,53.3644,2,2,1
431,1,50.3397,2,1,1
448,0,56.4301,1,1,2


## distinct()

Eine übliche Anwendung von select() ist es ein Set der Ausprägungen einer Variablen zu erhalten. Dazu bietet sich die `distinct()` Funktion an, welche unique Werte in einer Tabelle ausgibt.

In [20]:
distinct(select(ovarian,fustat))

fustat
1
0


In [21]:
rename(distinct(select(ovarian,fustat,rx)),zensiert=fustat,gruppe=rx)

zensiert,gruppe
1,1
0,2
0,1
1,2


## mutate() 

Neben der Auswahl von bereits existierenden Spalten ist es oft nützlich neue Spalten als Funktion bereits bestehender Spalten hinzuzufügen. Für diese Aufgabe gibt es `mutate()`:

In [22]:
head(mutate(ovarian, time_over_100 = futime > 100))

futime,fustat,age,resid.ds,rx,ecog.ps,time_over_100
59,1,72.3315,2,1,1,False
115,1,74.4932,2,1,1,True
156,1,66.4658,2,1,2,True
421,0,53.3644,2,2,1,True
431,1,50.3397,2,1,1,True
448,0,56.4301,1,1,2,True


## transmute()

Nutze `transmute()`, wenn du nur die neue Spalte willst:

In [23]:
head(transmute(ovarian, time_over_100 = futime > 100))

time_over_100
False
True
True
True
True
True


## summarise()

Wir können summarise() nutzen, um schnell eine Zeile aus einem ganzen Data Frame zu erzeugen, indem wir Aggregationsfunktionen verwenden. Denkt daran na.rm=TRUE einzugeben, wenn NA Werte (NULL/nicht vorhanden) entfernt werden sollen.

In [24]:
summarise(ovarian,avg_run_time=mean(futime,na.rm=TRUE))

avg_run_time
599.5385


## sample_n() und sample_frac()

Um ein zufälliges Subset an Zeilen aus dem Data Frame zu erhalten, können wir `sample_n()` (für eine bestimmte Anzahl) oder `sample_frac()` (für einen bestimmten Anteil) verwenden.

In [25]:
sample_n(ovarian,3) # 3 Sätze zurückgeben

futime,fustat,age,resid.ds,rx,ecog.ps
477,0,64.1753,2,1,1
431,1,50.3397,2,1,1
1129,0,53.9068,1,2,1


In [26]:
# 20% der Daten zurückgeben
sample_frac(ovarian, 20/100) 

futime,fustat,age,resid.ds,rx,ecog.ps
115,1,74.4932,2,1,1
59,1,72.3315,2,1,1
803,0,39.2712,1,1,1
1106,0,44.6,1,1,1
770,0,57.0521,2,2,1


# Zusammenfassung

Hoffentlich konntest du die Nutzung von `dplyr()` nachvollziehen und dir so viel Zeit sparen! Denke an `help()`, um weitere Informationen zu erhalten oder schaue in die [Dokumentation](https://cran.r-project.org/web/packages/dplyr/dplyr.pdf).

Herzlichen Glückwunsch! Sie sind mit Lektion 40. fertig!