# CSV Input und Output

CSV steht für *Comma-separated values* und ist einer der am weitest verbreiteten Arten wie mit Daten während des Kurses gearbeitet wird. Das grundsätzliche Dateiformat von CSV-Dateien beschreibt in der ersten Zeile die Spaltennamen (durch Komma getrennt). Die restlichen Zeilen beinhalten die Daten (ebenfalls durch Komma getrennt). Einer der einfachsten Wege, um CSV-Dateien zu lesen, ist die Verwendung von `read.csv()`, welches bereits in R beinhaltet ist. Später werden wir noch `fread` kennenlernen, welches ein wenig schneller arbeitet. Es ist allerdings wichtig alle Optionen zu kennen.

Durch die Nutzung von `read.csv()` müssen wir entweder den kompletten Dateipfad angeben oder die Daten im selben Verzeichnis wie das R Skript speichern. In den Kursunterlagen die wir bereitstellen befinden sich beide im selben Verzeichnis.

In [1]:
# Da wir das selbe Verzeichnis für Skript und Datei haben müssen wir nicht den Pfad übergeben
beispiel <- read.csv('beispiel.csv')

In [2]:
# Check structure
str(beispiel)

'data.frame':	3 obs. of  3 variables:
 $ Name  : Factor w/ 3 levels "Charlie","John",..: 2 1 3
 $ Orders: int  12 11 10
 $ Date  : Factor w/ 3 levels "12/05/2016","12/06/2016",..: 1 2 3


In [3]:
# Spaltennamen
colnames(beispiel)

In [4]:
df <- data.frame(beispiel)

In [5]:
head(df)

Name,Orders,Date
John,12,12/05/2016
Charlie,11,12/06/2016
Matilda,10,12/07/2016


Wir haben gesehen wie einfach es ist von CSV-Dateien zu lesen. Sollten wir andere Flatfile-Formate wie eine Tab getrennte Datei haben, so können wir das beim Aufruf von `read.csv` spezifizieren. Aus der Dokumentation:

    read.table(file, header = FALSE, sep = "", quote = "\"'",
           dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
           row.names, col.names, as.is = !stringsAsFactors,
           na.strings = "NA", colClasses = NA, nrows = -1,
           skip = 0, check.names = TRUE, fill = !blank.lines.skip,
           strip.white = FALSE, blank.lines.skip = TRUE,
           comment.char = "#",
           allowEscapes = FALSE, flush = FALSE,
           stringsAsFactors = default.stringsAsFactors(),
           fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)

In [6]:
help(read.csv)

## read.table

Die `read.table` Funktion ist die allgemeine Form von `read.csv`. Genaugenommen ist read.csv nur eine Abkürzung für read.table. Das macht die Nutzung etwas einfacher. Schauen wir uns das an:

In [7]:
read.table('beispiel.csv')

V1
"Name,Orders,Date"
"John,12,12/05/2016"
"Charlie,11,12/06/2016"
"Matilda,10,12/07/2016"


Wir müssen weitere Angaben wie z.B. das Trennzeichen machen, um das gewüsnchte Ergebnis zu erhalten.

In [8]:
read.table(file = 'beispiel.csv', sep = ',')

V1,V2,V3
Name,Orders,Date
John,12,12/05/2016
Charlie,11,12/06/2016
Matilda,10,12/07/2016


Toll! Jetzt kennen wir schon einmal zwei Methoden. In den meisten Fällen werden wir allerdings mit der `fread` Funktion arbeiten.

## fread
`fread()` verhält sich wie `read.table` ist aber schneller und umgänglicher!

Dazu wird das package install.packages("data.table") + library(data.table) benötigt.

In [9]:
fread('beispiel.csv')

ERROR: Error in fread("beispiel.csv"): could not find function "fread"


## Output zu CSV

Wir können außerdem Inhalte mit `write.csv` als Output erzeugen:

In [10]:
# Alternative
write.csv(df, file = "foo.csv")
fread('foo.csv')

ERROR: Error in fread("foo.csv"): could not find function "fread"


In [11]:
## Oder ohne Zeilennamen
write.csv(df, file = "foo.csv",row.names = FALSE)
fread('foo.csv')

ERROR: Error in fread("foo.csv"): could not find function "fread"


Soviel zum Schreiben und Lesen von CSV-Dateien. Wir werden als nächstes mit Excel-Dateien fortfahren.