# Big Dataframes in R

## Die verschiedenen Ansätze

In R gibt es zum Umgang mit großen Daten verschiedene Ansätze. Die üblichsten sind:

- SQL-Datenbanken
- SQLite
- hdf5-Dateien
- Das Paket data.table (insb. der Befehl fread)
- Das Paket bigmemory
- Das Paket ff

## SQL und SQLite

### Idee:
- Die Daten liege in einer Datenbank und nicht im Arbeitsspeicher.  

### Probleme:
- Die Verknüpfung mit einer SQL-Datenbank ist innerhalb des Firmennetzes nicht möglich.
- Ergbnisse werden in R (also im Memory) gespeichert, also sind nur Rechnungen möglich, die keine "zu großen" Ergebnisse haben
 - Da in SQL(-ite)-Datenbanken nicht einfach Spalten hinzugefügt werden können, wie bei einem Dataframe, müssen z. B. auch neu generierte Spalten als Vektoren im Arbeitsspeicher gespeichert werden.
 - Dazu reicht der Arbeitsspeicher oft nicht aus 

### Fazit:
- SQL und SQLite sind nicht geeignet

## hdf5-Dateien

### Idee:
- hdf5 ist ein Speicherformat
- Bei gleichem Inhalt sind hdf5-Datein i. d. R. kleiner als CSV-Datein.
- So könnten Datensätze, die eigentlich zu groß sind, kleiner werden.

### Problem:
- Beim Import der Daten nach R werden diese in einen Dataframe umgewandelt.
- Der Dataframe in R ist genau so groß, als wäre er aus einer CSV-Datei eingelsen worden.

### Fazit:
- hdf5-Dateien sind nicht geeignet

## Paket data.table (insb. Befehl fread)

### Idee:
- Der Befehl fread() ist ein Befehl zum einlesen einer CSV-Datei
- Dieser liest große Dateien schneller ein als read.csv() oder read.table()

### Problem:
- Genau wie z. B. read.table() lädt fread() die Daten in den Arbeitsspeicher
- Dadurch ist die Verwendung von Dateien, die größer sind als dieser, nicht möglich

### Fazit:
- Der Befehl fread() ist nicht geeignet für Dateien, die größer sind als der Arbeitsspeicher
- Er kann jedoch für das Einlesen sonstiger "großer" CSV-Dateien verwendet werden
 - Hier ist er deutlich schneller beim Datenimport mit read.table() oder read.csv()

In [2]:
file.size("taxi_hunderttausend.csv")

In [3]:
install.packages("data.table", repos="http://cran.rstudio.com/")


  There is a binary version available but the source version is later:
             binary   source needs_compilation
data.table 1.10.4-2 1.10.4-3              TRUE



installing the source package 'data.table'

"installation of package 'data.table' had non-zero exit status"

In [4]:
library(data.table)

fread.df <- fread(file = "taxi_hunderttausend.csv", header = TRUE, sep = ",", dec = ".")
head(fread.df)
print("Größe des Dataframes:")
object.size(fread.df)

Read 20.0% of 100000 rowsRead 60.0% of 100000 rowsRead 100000 rows and 22 (of 22) columns from 0.016 GB file in 00:00:05


No.,vendorid,pickup_datetime,dropoff_datetime,Store_and_fwd_flag,rate_code,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,...,Fare_amount,Extra,MTA_tax,Tip_amount,Tolls_amount,Ehail_fee,Improvement_surcharge,Total_amount,Payment_type,Trip_type
1,1,03/12/2015 09:26:05 AM,03/12/2015 09:33:58 AM,N,1,-73.95048,40.82673,-73.97156,40.7954,...,10.0,0.0,0.5,1,0,,0.3,11.8,1,1
2,1,05/29/2015 03:27:07 AM,05/29/2015 03:45:28 AM,N,1,-73.91412,40.82377,-73.97552,40.75171,...,23.0,0.5,0.5,0,0,,0.3,24.3,2,1
3,2,11/24/2015 08:07:46 PM,11/24/2015 08:31:35 PM,N,1,-73.95275,40.72718,-73.97131,40.69326,...,19.5,0.5,0.5,0,0,,0.3,20.8,2,1
4,2,12/18/2015 06:46:25 PM,12/18/2015 06:53:06 PM,N,1,-73.96027,40.72038,-73.95609,40.73299,...,6.5,1.0,0.5,2,0,,0.3,10.3,1,1
5,2,09/22/2015 06:32:36 PM,09/22/2015 06:34:44 PM,N,1,-73.82996,40.7137,-73.82336,40.71331,...,4.0,1.0,0.5,0,0,,0.3,5.8,2,1
6,2,05/15/2015 08:42:44 PM,05/15/2015 08:56:03 PM,N,1,-73.9641,40.71015,-73.99409,40.69523,...,13.5,0.5,0.5,0,0,,0.3,14.8,2,1


[1] "Größe des Dataframes:"


34336480 bytes

## Paket bigmemory

### Idee:
1. Ein eigenes Format in R, das eine effizientere Datenverarbeitung zulässt als herkömmliche Dataframes
2. Eine Schnittstelle für cloud computing 
 - Verarbeitung großer Daten (größer als der Arbeitsspeicher)

### Probleme:
- Das Format ermöglicht eine effizientere Datenverarbeitung und somit die Analyse von Dateien, die als Dataframes nicht analysiert werden könnten.
 - Die Datei muss jedoch kleiner sein als der Arbeitsspeicher.
- Ein Ausweg wäre die Nutzung von cloud computing.
 - Dies ist bei EY jedoch (noch) nicht möglich.
- Die big.matrix kann nur einen Typ von Vaiablen enthalten (z.B. numeric). 
 - Eine Kombination von z.B. numeric und character ist nicht möglich. 

### Fazit:
- Das Paket ist nicht geeignet für Dateien, die größer sind als der Arbeitsspeicher.
- Es kann jedoch für Dateien verwendet werden, die zwar noch kleiner sind als der Arbeitsspeicher, aber zu groß um sie mit read.csv() zu importieren.

In [5]:
install.packages("bigmemory", repos="http://cran.rstudio.com/")

package 'bigmemory' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\DEDACAT1\AppData\Local\Temp\RtmpYB6tpT\downloaded_packages


In [6]:
library(bigmemory)
bm <- read.big.matrix("taxi_hunderttausend.csv", sep = ",", header = TRUE)
head(bm)

Loading required package: bigmemory.sri
"Because type was not specified, we chose double based on the first line of data."

No.,vendorid,pickup_datetime,dropoff_datetime,Store_and_fwd_flag,rate_code,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,...,Fare_amount,Extra,MTA_tax,Tip_amount,Tolls_amount,Ehail_fee,Improvement_surcharge,Total_amount,Payment_type,Trip_type
,1,,,,1,-73.95048,40.82673,-73.97156,40.7954,...,10.0,0.0,0.5,1,0,,0.3,11.8,1,1
,1,,,,1,-73.91412,40.82377,-73.97552,40.75171,...,23.0,0.5,0.5,0,0,,0.3,24.3,2,1
,2,,,,1,-73.95275,40.72718,-73.97131,40.69326,...,19.5,0.5,0.5,0,0,,0.3,20.8,2,1
,2,,,,1,-73.96027,40.72038,-73.95609,40.73299,...,6.5,1.0,0.5,2,0,,0.3,10.3,1,1
,2,,,,1,-73.82996,40.7137,-73.82336,40.71331,...,4.0,1.0,0.5,0,0,,0.3,5.8,2,1
,2,,,,1,-73.9641,40.71015,-73.99409,40.69523,...,13.5,0.5,0.5,0,0,,0.3,14.8,2,1


## Paket ff

### Idee:
- Die Daten liegen nicht im Arbeitsspeicher sondern auf der Festplatte.
- In R wird eine Verknüpfung zu diesen Daten in Form eines ffdf-Objekts angelegt.
- Das ffdf-Objekt ist (außer bei kleinen Datensätzen) deutlich keiner als der Datensatz, hat bei sehr großen Dateien jedoch oftmals auch 1 bis 2 GB.
- Berechnungen mit ffdf-Objekten werden zeilenweise vorgenommen, sodass immer nur ein kleiner Teil des Datensatzes gleichzeitig im Arbeitsspeicher liegt.

![ff](ff.png)

### Probleme:
- Das Erstellen des ffdf-Objekts dauert sehr lange.
 - Beim aktuellen Laptop mit 8 GB RAM ca. 7 - 10 Minuten pro GB.
 - In Jupyter dauert dies noch einmal ca. 30 bis 50% länger als in RStudio.
- Berechnungen sind i. d. R. langsamer, als bei herkömmlichen CSV-Dateien.
 - Die Geschwindigkeit der Berechnungen hängt maßgeblich von der Geschwindigkeit der Festplatte ab.
- Berechnungen mit ffdf-Objekten funktionieren anders als mit CSV-Dateien.
- Die Größe der Daten ist auf ca. das fünffache des Arbeitsspeichers beschränkt.
- Die Datei wird in den temporären Ordner auf der Festplatte kopiert => so viel Platz muss noch frei sin 

### Fazit:
- Das Paket ist geeignet für Dateien, die größer sind als der Arbeitsspeicher.
 - Jedoch nur solange sie max. fünf mal so groß sind wie dieser!

### Umsetzung:
- Befehl read.table.ffdf()
 - Erstellt aus beliebigen CSV-Dateien ffdf-Objekte

In [7]:
install.packages("ff", repos="http://cran.rstudio.com/")

package 'ff' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\DEDACAT1\AppData\Local\Temp\RtmpYB6tpT\downloaded_packages


In [9]:
library(ff)
taxi <- read.table.ffdf (file = "taxi_hunderttausend.csv", VERBOSE = T, header = TRUE, sep = ",", dec = ".", na.strings = "NA", first.rows = 100000, next.rows = 0) 
head(taxi)

read.table.ffdf 1..100000 (100000)  csv-read=8.72sec ffdf-write=0.16sec
 csv-read=8.72sec  ffdf-write=0.16sec  TOTAL=8.88sec


ffdf (all open) dim=c(100000,6), dimorder=c(1,2) row.names=NULL
ffdf virtual mapping
                         PhysicalName VirtualVmode PhysicalVmode  AsIs
No.                               No.      integer       integer FALSE
vendorid                     vendorid      integer       integer FALSE
pickup_datetime       pickup_datetime      integer       integer FALSE
dropoff_datetime     dropoff_datetime      integer       integer FALSE
Store_and_fwd_flag Store_and_fwd_flag      integer       integer FALSE
rate_code                   rate_code      integer       integer FALSE
                   VirtualIsMatrix PhysicalIsMatrix PhysicalElementNo
No.                          FALSE            FALSE                 1
vendorid                     FALSE            FALSE                 2
pickup_datetime              FALSE            FALSE                 3
dropoff_datetime             FALSE            FALSE                 4
Store_and_fwd_flag           FALSE            FALSE                 

### Berechnungen mit ffdf-Objekten

Mit ffdf-Objekten können nicht alle Berechnungen durchgeführt werden, die mit Dataframes möglich sind. Für Berechnungen mit ffdf-Objekten gibt gibt es verschieden Möglichkeiten:

#### Möglichkeit 1: Umwandlung des ffdf-Objekts in ein tbl_ffdf-Objekt
- Mit diesem können die meisten Berechnungen wie gewohnt durchgeführt werden.
- Der Befehl tbl_ff() ist im Paket ffbase2 enthalten
 - Dieses ist jedoch (noch) nicht bei CRAN gelistet und muss von GitHub heruntergeladen werden.

In [None]:
install.packages("devtools", repos="http://cran.rstudio.com/")
library(devtools)
devtools::install_github("edwindj/ffbase2")

In [None]:
library(ffbase2)
taxitbl <- tbl_ffdf(taxi)
head(taxitbl)

Damit können dann übliche Rechenoperationen durchgeführt werden.

In [None]:
#Einfache Rechnungen
mean(taxitbl$vendorid)

#Oder z.B. auch Decision Trees
install.packages("party", repos="http://cran.rstudio.com/")
library(party)

tree <- ctree(Payment_type ~ Passenger_count + Trip_distance + Trip_type, data = taxitbl)
plot(tree)

#### Möglickeit 2: Verwendung von speziellen Befehlen und Paketen

Für ffdf-Objekte existieren spezielle Befehle in verschiedenen Paketen. Hier einige Beispiele: 
- ffbase ermöglicht es u.a. grundlegende Befehle wie gewohnt zu verwenden sowie Subsets zu bilden.
- Mit dem Befehl bigglm.ffdf aus dem Paket biglm können lineare Regression durchgeführt werden.
- In ffbase2 sind die meisten dplyr-Befehle für ffdf-Objekte umgesetzt.

In [None]:
install.packages("ffbase", repos="http://cran.rstudio.com/")
install.packages("biglm", repos="http://cran.rstudio.com/")

In [None]:
library(ffbase)
mean.ff(taxi$Tolls_amount)
sum.ff(taxi$Total_amount)

In [None]:
library(biglm)
summary(bigglm.ffdf(Pickup_latitude ~ Pickup_longitude, data = taxi))

#### Möglickeit 3: Analyse von Subsets als Dataframes

Wenn nur bestimmte Fälle (z.B. innerhalb eines Zeitraums) oder nur bestimmt Variablen von Interesse sind, sind diese Teildatensätze oftmals klein genug um sie als Dataframes analysieren zu können.

In [None]:
taxi_credit_card <- data.frame(taxi[taxi$Payment_type==1])
head(taxi_credit_card)
dim(taxi_credit_card)
object.size(taxi_credit_card)

## Zusammenfassung

### Nicht geeignet:
SQL-Datenbanken

SQLite

hdf5-Dateien

### Bedingt geeignet:
Paket data.table (insb. der Befehl fread)
- Schnellerer Import großer Dateien, die kleiner sind als der Arbeitsspeicher (z.B. 2 GB große CSV)

Paket Big Memory
- Import von Dateien, die kleiner sind als der Arbeitsspeicher, aber zu groß für read.csv()

### Geeignet:
Paket ff
- Import von Dateien die maximal fünf mal so groß sind wie der Arbeitsspeicher
- Jedoch: Lange Rechendauern und Analyse erst nach Umwandlung oder mit speziellen Befehlen  

## Dokumentationen
data.table: https://cran.r-project.org/web/packages/data.table/data.table.pdf

bigmemory: https://cran.r-project.org/web/packages/bigmemory/bigmemory.pdf

ff: https://cran.r-project.org/web/packages/ff/ff.pdf

ffbase: https://cran.r-project.org/web/packages/ffbase/ffbase.pdf

ffbase2: https://www.rdocumentation.org/packages/ffbase2/versions/0.2