## Vergelijking van 2 manieren van het opblazen van data frames

De ene manier gebruikt `rbind`, de andere de functies `adply` en `ldply` van de library `plyr`.

Eerst laden we natuurlijk de libraries:

In [1]:
library("jsonlite")
library("plyr")
library("dplyr")


Attaching package: ‘dplyr’

The following objects are masked from ‘package:plyr’:

    arrange, count, desc, failwith, id, mutate, rename, summarise,
    summarize

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



Dan maken we de data:

In [2]:
json <- as.character(toJSON(list(a=0:9, b=10:15)))
df <- data.frame(n = 1:4000, json)

Het data frame `df` heeft twee kolommen: een id (`n`) en de json die we willen opblazen:

In [3]:
df

n,json
1,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
2,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
3,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
4,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
5,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
6,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
7,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
8,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
9,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"
10,"{""a"":[0,1,2,3,4,5,6,7,8,9],""b"":[10,11,12,13,14,15]}"


### Methode 1

Dit is het meest parallel aan de manier die ook voor AVG-data wordt gebruikt:

In [4]:
start_time <- Sys.time()

blown_up1 <- apply(df, 1, FUN=function(rec){
  values <- rec[["json"]] %>% fromJSON()
  n <- rec[["n"]]
  lapply(names(values), FUN = function(index){
    data.frame(n, index, values[[index]], row.names = NULL)
  }) %>% do.call(rbind.data.frame, .)
}) %>%
  do.call(rbind.data.frame, .)

end_time <- Sys.time()
execution_time1 <- end_time - start_time

Het resultaat ziet er goed uit:

In [5]:
blown_up1

n,index,values..index..
1,a,0
1,a,1
1,a,2
1,a,3
1,a,4
1,a,5
1,a,6
1,a,7
1,a,8
1,a,9


In [6]:
cat(paste("De verwerkingstijd was:", execution_time1, "sec."))

De verwerkingstijd was: 16.2212669849396 sec.

### Methode 2

Dit maakt gebruik van de library `plyr`. De code is korter, en de uitvoer tijd (spoiler!) ook.

In [7]:
start_time <- Sys.time()

blown_up2 <- adply(df, 1, function(rec){
  ldply(fromJSON(as.character(rec[["json"]])), data.frame)
}, .expand = FALSE)

end_time <- Sys.time()
execution_time2 <- end_time - start_time

Ook hier ziet het resultaat er goed uit (al zijn de kolomnamen een beetje anders...)

In [8]:
blown_up2

X1,.id,X..i..
1,a,0
1,a,1
1,a,2
1,a,3
1,a,4
1,a,5
1,a,6
1,a,7
1,a,8
1,a,9


In [9]:
cat(paste("De verwerkingstijd was:", execution_time2, "sec."))

De verwerkingstijd was: 8.57081294059753 sec.

### Conclusie

Methode 2 werkt, zeker met grotere lijsten, sneller dan methode 1.
Om precies te zijn:

In [10]:
improvement <- round(as.numeric(execution_time1) / as.numeric(execution_time2), 3)
cat(paste("Methode 2 is", improvement, "keer zo snel als Methode 1"))

Methode 2 is 1.893 keer zo snel als Methode 1