# Kapitel 1.2 Daten Ein-/Ausgabe (Input/Output) in R

## Lektion 11.  CSV Input / Output

CSV steht für *Comma-separated values* (durch Kommas getrennte Werte) und ist eine der am häufigsten verwendeten Methoden für Ein-/Ausgabe von Daten in R. Das grundlegende Dateiformat von CSV-Dateien beschreibt in der ersten Zeile die Spaltennamen (durch Kommas getrennt). Die restlichen Zeilen enthalten die Daten (ebenfalls durch Komma getrennt). Eine der einfachsten Möglichkeiten zum Lesen von CSV-Dateien ist die Verwendung von **read.csv ()**, das bereits in R enthalten ist. Wir lernen später auch die Funktion **fread** kennen, die etwas schneller funktioniert. Es ist jedoch wichtig, alle Optionen zu kennen.

*Bemerkung: Bei Verwendung von **read.csv()** muss man entweder den vollständigen Dateipfad angeben oder die Daten im selben Verzeichnis wie das R-Skript speichern.*

In [1]:
# aus dem selben Verzeichnis lesen (ohne Pfad)
demo <- read.csv('demo.csv')

In [5]:
# Struktur checken
str(demo)

'data.frame':	3 obs. of  3 variables:
 $ Name   : Factor w/ 3 levels "Max","Niko","Uschi": 2 3 1
 $ Gewicht: int  70 49 87
 $ Datum  : Factor w/ 3 levels "01/01/2019","17/03/2019",..: 1 3 2


In [6]:
# Spaltennamen
colnames(demo)

In [7]:
# Data Frame ableiten
df <- data.frame(demo)

In [8]:
head(df)

Name,Gewicht,Datum
Niko,70,01/01/2019
Uschi,49,21/01/2019
Max,87,17/03/2019


Es ist also seher einfach, aus einer CSV-Dateien zu die Daten auszulesen. Wenn man andere CSV-Dateiformate bekommr, wie z. B. eine durch Tabulatoren oder Semikolon getrennte Datei, kann man dann den Aufruf von **read.csv** immer anpassen:

    read.table(file, header = FALSE, sep = "", quote = "\"'",
           dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
           row.names, col.names, as.is = !stringsAsFactors,
           na.strings = "NA", colClasses = NA, nrows = -1,
           skip = 0, check.names = TRUE, fill = !blank.lines.skip,
           strip.white = FALSE, blank.lines.skip = TRUE,
           comment.char = "#",
           allowEscapes = FALSE, flush = FALSE,
           stringsAsFactors = default.stringsAsFactors(),
           fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)

In [9]:
help(read.csv)

## read.table

Die `read.table` Funktion ist die allgemeine Form von `read.csv`. Genaugenommen ist read.csv nur eine Abkürzung für read.table. Das macht die Nutzung etwas einfacher. Schauen wir uns das an:

In [7]:
read.table('beispiel.csv')

V1
"Name,Orders,Date"
"John,12,12/05/2016"
"Charlie,11,12/06/2016"
"Matilda,10,12/07/2016"


Wir müssen weitere Angaben wie z.B. das Trennzeichen machen, um das gewüsnchte Ergebnis zu erhalten.

In [8]:
read.table(file = 'beispiel.csv', sep = ',')

V1,V2,V3
Name,Orders,Date
John,12,12/05/2016
Charlie,11,12/06/2016
Matilda,10,12/07/2016


Toll! Jetzt kennen wir schon einmal zwei Methoden. In den meisten Fällen werden wir allerdings mit der `fread` Funktion arbeiten.

## fread
`fread()` verhält sich wie `read.table` ist aber schneller und umgänglicher!

Dazu wird das package install.packages("data.table") + library(data.table) benötigt.

In [9]:
fread('beispiel.csv')

ERROR: Error in fread("beispiel.csv"): could not find function "fread"


## Output zu CSV

Wir können außerdem Inhalte mit `write.csv` als Output erzeugen:

In [10]:
# Alternative
write.csv(df, file = "foo.csv")
fread('foo.csv')

ERROR: Error in fread("foo.csv"): could not find function "fread"


In [11]:
## Oder ohne Zeilennamen
write.csv(df, file = "foo.csv",row.names = FALSE)
fread('foo.csv')

ERROR: Error in fread("foo.csv"): could not find function "fread"


Herzlichen Glückwunsch! Sie sind mit Lektion 11 fertig.