# Guide zur Verwendung von tidyr

Wir kennen jetzt bereits `dplyr` und seine Funktionen. Zusätzlich können wir uns jetzt `tidyr` aneignen. Dies ist ein komplementäres Paket, das uns dabei hilft, ordentliche Datensätze zu erstellen. Was meinen wir überhaupt wenn wir "ordentlicher" Datensatz sagen?

Ordentliche Daten liegen vor, wenn jede Zeile eine eigene Beobachtung darstellt und jede Spalte eine Variable. Durch diese Organisation der Daten beinhaltet jede Zelle genau den Wert für eine Variable für eine Beobachtung. Durch diese Format können wir Daten leichter verstehen, analysieren und visualisieren.

Nach dieser Lektion könnt ihr euch auf folgendes Cheatsheet beziehen: [Data Wrangling](http://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf)

## Installation von tidyr

In [3]:
install.packages('tidyr',repos = 'http://cran.us.r-project.org')
# Evtl. data.table installieren
# install.packages("data.table")


The downloaded binary packages are in
	/var/folders/l_/ph09zg211515zffvzrp3bb680000gn/T//RtmpYSdguT/downloaded_packages

The downloaded binary packages are in
	/var/folders/l_/ph09zg211515zffvzrp3bb680000gn/T//RtmpYSdguT/downloaded_packages


In [4]:
library(tidyr)
library(data.table)

## Data.frames versus data.tables

Alle data.tables sind auch data.frames. Vereinfacht gesagt sind data.tables data.frames die extra Features bieten. 

data.frame ist in der Installation von R inbegriffen.

data.table ist ein Paket, dass data.frame erweitert. Zwei der wichtigsten Features sind Geschwindigkeit und saubere Syntax.

Jedoch ist die Syntax der data.table etwas unterschiedlich zur Standard R Syntax von data.frame. Diese Unterschiede können für ein untrainiertes Auge allerdings schwer zu erkennen sein. Wenn man mit einem Code-Abschnitt arbeitet, der nicht anzeigt, dass mit data.tables gearbeitet wird, und diesen auf einen Data Frame anwenden möchte, dann kann es zu Errors kommen.

Um einige der Unterschiede festzuhalten:

* viel schnellerer und sehr intuitive **by** Operationen
* Wir werden nicht ausversehen riesige Data Frames ausgeben, die wir mit Strg-C stoppen müssten. data.table verhindert solche Vorfälle
* schnellere und einfacheres Lesen von Datein mit **fread**
* das Paket beinhaltet weitere Funktionen wie %between% oder rbindlist
* und insgesamt einfach etwas schnellere Grundfunktionen

# Nutzung von tidyr

Wir werden einige der nützlichsten Funktionen in tidyr abdecken. Dazu gehören die folgenden:

* gather()
* spread()
* separate()
* unite()

## Beispiel Datensatz

Lass uns jetzt einige Daten erzeugen, die mit tidyr ordentlich gemacht werden müssen

In [5]:
firma <- c(1,1,1,2,2,2,3,3,3)
jr <- c(1998,1999,2000,1998,1999,2000,1998,1999,2000)
q1 <- runif(9, min=0, max=100)
q2 <- runif(9, min=0, max=100)
q3 <- runif(9, min=0, max=100)
q4 <- runif(9, min=0, max=100)

df <- data.frame(firma=firma,jahr=jr,Qtr1 = q1,Qtr2 = q2,Qtr3 = q3,Qtr4 = q4)

In [6]:
df

firma,jahr,Qtr1,Qtr2,Qtr3,Qtr4
1,1998,45.81679,6.564146,45.68513,6.01521
1,1999,96.45312,47.834034,57.780313,88.68066
1,2000,29.89811,28.0032922,19.319462,79.66156
2,1998,28.97594,30.4671809,67.268176,48.05431
2,1999,40.12531,68.9888144,1.082129,98.36393
2,2000,38.89573,37.28296,54.904525,91.60742
3,1998,22.8608,0.7061505,15.248059,59.53163
3,1999,70.005,47.6938799,3.270521,21.53235
3,2000,57.55397,55.3844282,10.215857,92.63946


# Gather() und Spread()

Manchmal vergleichen Leute diese Operationen mit Pivot-Tabellen in Excel. Schauen wir uns einige Beispiele an:

## gather()

Die `gather()` Funktion fasst mehrere Spalten in Key-Paar Werte zusammen. Der Data Frame von oben würde als "breit" bezeichnet werden, da jedes Quartal eine eigene Spalte bzw. variable hat. Um diese Zeitdimension neu zu ordnen können wir alle Quartalea in eine Spalte vereinen. Außerdem können wir dann alle Werte, die mit den einzelnen Quartalen asoziiert sind, in eine zweite Spalte schreiben.

In [9]:
# Unter Verwendung des Pipe Operators
head(df %>% gather(Quartal,Umsatz,Qtr1:Qtr4))

firma,jahr,Quartal,Umsatz
1,1998,Qtr1,45.81679
1,1999,Qtr1,96.45312
1,2000,Qtr1,29.89811
2,1998,Qtr1,28.97594
2,1999,Qtr1,40.12531
2,2000,Qtr1,38.89573


In [10]:
# Nur mit der Funktion
head(gather(df,Quartal,Umsatz,Qtr1:Qtr4))

firma,jahr,Quartal,Umsatz
1,1998,Qtr1,45.81679
1,1999,Qtr1,96.45312
1,2000,Qtr1,29.89811
2,1998,Qtr1,28.97594
2,1999,Qtr1,40.12531
2,2000,Qtr1,38.89573


## spread()

Ist das Gegenstück zu `gather()`:

In [11]:
aktien <- data.frame(
  zeit = as.Date('2009-01-01') + 0:9,
  X = rnorm(10, 0, 1),
  Y = rnorm(10, 0, 2),
  Z = rnorm(10, 0, 4)
)
aktien

zeit,X,Y,Z
2009-01-01,-0.3784216,-0.7887786,-0.7950164
2009-01-02,0.6067261,-1.7732903,2.8661297
2009-01-03,0.539117,1.924865,1.9106984
2009-01-04,1.4005695,1.8976738,5.5575219
2009-01-05,-1.6237364,-2.5621599,-3.0807817
2009-01-06,-0.4396712,0.8474223,-2.2599513
2009-01-07,-0.9416921,-1.0808142,-2.5973828
2009-01-08,-0.9662547,-3.3164229,-1.4892107
2009-01-09,-0.9727469,-0.1772311,-1.4763982
2009-01-10,0.1176239,2.1197402,-11.8534093


In [13]:
aktienm <- aktien %>% gather(aktie, preis, -zeit)

In [14]:
aktienm %>% spread(aktie, preis)

zeit,X,Y,Z
2009-01-01,-0.3784216,-0.7887786,-0.7950164
2009-01-02,0.6067261,-1.7732903,2.8661297
2009-01-03,0.539117,1.924865,1.9106984
2009-01-04,1.4005695,1.8976738,5.5575219
2009-01-05,-1.6237364,-2.5621599,-3.0807817
2009-01-06,-0.4396712,0.8474223,-2.2599513
2009-01-07,-0.9416921,-1.0808142,-2.5973828
2009-01-08,-0.9662547,-3.3164229,-1.4892107
2009-01-09,-0.9727469,-0.1772311,-1.4763982
2009-01-10,0.1176239,2.1197402,-11.8534093


In [15]:
aktienm %>% spread(zeit, preis)

aktie,2009-01-01,2009-01-02,2009-01-03,2009-01-04,2009-01-05,2009-01-06,2009-01-07,2009-01-08,2009-01-09,2009-01-10
X,-0.3784216,0.6067261,0.539117,1.400569,-1.623736,-0.4396712,-0.9416921,-0.9662547,-0.9727469,0.1176239
Y,-0.7887786,-1.7732903,1.924865,1.897674,-2.56216,0.8474223,-1.0808142,-3.3164229,-0.1772311,2.1197402
Z,-0.7950164,2.8661297,1.910698,5.557522,-3.080782,-2.2599513,-2.5973828,-1.4892107,-1.4763982,-11.8534093


# Separate und Unite

## separate()

Ausgehend von einer Regular Expression oder einem Vektor von Zeichenpositionen kann `separate()` eine einzelne Spalte in mehrere aufteilen:

In [16]:
df <- data.frame(x = c(NA, "a.x", "b.y", "c.z"))
df

x
""
a.x
b.y
c.z


In [17]:
df %>% separate(x, c("ABC", "XYZ"))

ABC,XYZ
,
a,x
b,y
c,z


## unite()

`unite()` ist üblicherweise die Funktion um mehrere Spalten zu einer zusammenzufassen:

In [18]:
head(mtcars)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225,105,2.76,3.46,20.22,1,0,3,1


In [19]:
unite_(mtcars, "vs.am", c("vs","am"),sep = '.')

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs.am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0.1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0.1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1.1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1.0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0.0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1.0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0.0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1.0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1.0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1.0,4,4


In [20]:
# separate() ist das Gegenstück zu unite()
mtcars %>%
  unite(vs_am, vs, am) %>%
  separate(vs_am, c("vs", "am"))

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


Hoffentlich kann dir tidyr dabei helfen deine Daten zu säubern!