# Tag 1. Kapitel 3. Data Frames

## Lektion 20.1 Data Frame Operationen

Data Frames sind die Arbeitstiere von R, deshalb erstellen wir uns in dieser Lektion eine Art "Cheatsheet" der üblichsten Operationen. Dadurch wird diese Lektion extrem nützlich sein und uns im weiteren Verlauf des Kurses extrem viel Zeit sparen, da wir Data Frames bereits kennen und auf unser Cheatsheet zurückgreifen können. 

Wir werden uns eine Übersicht der folgenden typischen Operationen verschaffen:

* Data Frames erstellen
* Daten in Data Frames anpassen (editieren)
* Informationen über die Data Frames erhalten
* Bezug auf Zellen nehmen
* Bezug auf Zeilen nehmen
* Bezug auf Spalten nehmen
* Zeilen hinzufügen
* Spalten hinzufügen
* Spaltennamen definieren
* Merhere Zeilen auswählen
* Mehrere Spalten auswählen
* Mit fehlenden Werten umzugehen

# Data Frames erstellen

In [1]:
leer <- data.frame() # Leerer Data Frame
c1 <- 1:15 # Vektor von Zahlen
c2 <- letters[1:15] # Verktor von Zeichen
df <- data.frame(spalte.name.1=c1,spalte.name.2=c2)
df2 <- data.frame(c1,c2)

In [2]:
df
df2

spalte.name.1,spalte.name.2
1,a
2,b
3,c
4,d
5,e
6,f
7,g
8,h
9,i
10,j


c1,c2
1,a
2,b
3,c
4,d
5,e
6,f
7,g
8,h
9,i
10,j


In [154]:
# Erstellte Datensätze anpassen und ausgeben 
df <- edit(df) # läuft nur in R Studio (in R Studio ausprobieren)
df

ERROR: Error in edit(df): 'edit()' not yet supported in the Jupyter R kernel


# Information über Data Frames erhalten

In [155]:
# Zeilen und Spalten zählen
nrow(df)
ncol(df)

In [156]:
# Spalten Namen
colnames(df)

In [157]:
# Zeilen Namen (wobei auch nur der Index ausgegeben werden könnte)
rownames(df)

# Bezug auf Zellen nehmen

Wir können uns unter den Grundlagen die Verwendung von zwei Klammer-Paaren vorstellen, um eine einzelne Zelle abzufragen. Und für mehrere Zellen verwenden wir ein einfaches Klammer-Paar. Ein Beispiel:

In [158]:
vec <- df[[5, 2]] # Erhalte die Zelle durch [[Zeile,Spalte]]

dfneu <- df[1:5, 1:2] # Erhalte merhere Zeilen und Spalten für den neuen df

df[[2, 'spalte.name.1']] <- 99999 # Einer Zelle einen neuen Wert zuteilen

In [159]:
vec
df
dfneu

spalte.name.1,spalte.name.2
1,a
99999,b
3,c
4,d
5,e
6,f
7,g
8,h
9,i
10,j


spalte.name.1,spalte.name.2
1,a
2,b
3,c
4,d
5,e


# Bezug auf Zeilen nehmen

Wir nutzen üblicherweise die [Zeile,] Notation

In [160]:
# Gibt einen df zurück, nicht einen Vektor
zeilendf <- df[1:3, ]

In [161]:
zeilendf

spalte.name.1,spalte.name.2
1,a
99999,b
3,c


In [162]:
# Um eine Zeile zu einem Vektor zu machen schreiben wir folgendes
vzeile <- as.numeric(as.vector(df[1,]))

In [163]:
vzeile

# Bezug auf Spalten nehmen

Die meisten Spaltenbezüge geben einen Vektor zurück:

In [164]:
autos <- mtcars
head(autos)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225,105,2.76,3.46,20.22,1,0,3,1


In [165]:
spaltenv1 <- autos$mpg # Gibt einen Vektor zurück
spaltenv1

spaltenv2 <- autos[, 'mpg'] # Gibt einen Vektor zurück
spaltenv2

spaltenv3<- autos[, 1]
spaltenv3

spaltenv4 <- autos[['mpg']] # Gibt einen Vektor zurück
spaltenv4

In [166]:
# Wege um Data Frames zu erzeugen
mpgdf <- autos['mpg'] # Erzeugt einen df mit einer Spalte
head(mpgdf)

mpgdf2 <- autos[1] # Erzeugt einen df mit einer Spalte
head(mpgdf2)

Unnamed: 0,mpg
Mazda RX4,21.0
Mazda RX4 Wag,21.0
Datsun 710,22.8
Hornet 4 Drive,21.4
Hornet Sportabout,18.7
Valiant,18.1


Unnamed: 0,mpg
Mazda RX4,21.0
Mazda RX4 Wag,21.0
Datsun 710,22.8
Hornet 4 Drive,21.4
Hornet Sportabout,18.7
Valiant,18.1


# Zeilen hinzufügen

In [167]:
# Beide Argumente sind Data Frames
df2 <- data.frame(spalte.name.1=2000,spalte.name.2='neu' )
df2

# Nutze rbind, um eine neue Zeile zu erstellen!
dfneu <- rbind(df,df2)

spalte.name.1,spalte.name.2
2000,neu


In [168]:
dfneu

spalte.name.1,spalte.name.2
1,a
99999,b
3,c
4,d
5,e
6,f
7,g
8,h
9,i
10,j


# Spalten hinzufügen

In [169]:
df$neuespalte <- rep(NA, nrow(df)) # NA Spalte
df

spalte.name.1,spalte.name.2,neuespalte
1,a,
99999,b,
3,c,
4,d,
5,e,
6,f,
7,g,
8,h,
9,i,
10,j,


In [170]:
df[, 'kopie.con.spalte.2'] <- df$spalte.name.2 # Eine Spalte kopieren
df

spalte.name.1,spalte.name.2,neuespalte,kopie.con.spalte.2
1,a,,a
99999,b,,b
3,c,,c
4,d,,d
5,e,,e
6,f,,f
7,g,,g
8,h,,h
9,i,,i
10,j,,j


In [171]:
# Wir können auch Gleichungen verwenden
df[['spalte1.mal.zwei']] <- df$spalte.name.1 * 2
df

spalte.name.1,spalte.name.2,neuespalte,kopie.con.spalte.2,spalte1.mal.zwei
1,a,,a,2
99999,b,,b,199998
3,c,,c,6
4,d,,d,8
5,e,,e,10
6,f,,f,12
7,g,,g,14
8,h,,h,16
9,i,,i,18
10,j,,j,20


In [172]:
df3 <- cbind(df, df$spalte.name.1)
df3

spalte.name.1,spalte.name.2,neuespalte,kopie.con.spalte.2,spalte1.mal.zwei,df$spalte.name.1
1,a,,a,2,1
99999,b,,b,199998,99999
3,c,,c,6,3
4,d,,d,8,4
5,e,,e,10,5
6,f,,f,12,6
7,g,,g,14,7
8,h,,h,16,8
9,i,,i,18,9
10,j,,j,20,10


# Spaltennamen definieren

In [173]:
# Zweite Spalte umbenennen
colnames(df)[2] <- 'Name der zweiten Spalte'
df

# Wir können auch alle mit einem Vektor umbenennen
colnames(df) <- c('spalte.1', 'spalte.2', 'spalte.3', 'spalte.4' ,'spalte.5')
df

spalte.name.1,Name der zweiten Spalte,neuespalte,kopie.con.spalte.2,spalte1.mal.zwei
1,a,,a,2
99999,b,,b,199998
3,c,,c,6
4,d,,d,8
5,e,,e,10
6,f,,f,12
7,g,,g,14
8,h,,h,16
9,i,,i,18
10,j,,j,20


spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1,a,,a,2
99999,b,,b,199998
3,c,,c,6
4,d,,d,8
5,e,,e,10
6,f,,f,12
7,g,,g,14
8,h,,h,16
9,i,,i,18
10,j,,j,20


# Mehrere Zeilen auswählen

In [174]:
erste.zehn.zeilen <- df[1:10, ] # Gleich zu head(df, 10)
erste.zehn.zeilen

spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1,a,,a,2
99999,b,,b,199998
3,c,,c,6
4,d,,d,8
5,e,,e,10
6,f,,f,12
7,g,,g,14
8,h,,h,16
9,i,,i,18
10,j,,j,20


In [175]:
aulles.außer.zeile.zwei <- df[-2, ]
aulles.außer.zeile.zwei

Unnamed: 0,spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1,1,a,,a,2
3,3,c,,c,6
4,4,d,,d,8
5,5,e,,e,10
6,6,f,,f,12
7,7,g,,g,14
8,8,h,,h,16
9,9,i,,i,18
10,10,j,,j,20
11,11,k,,k,22


In [176]:
# Bedingte Auswahl
sub1 <- df[ (df$spalte.1 > 8 & df$spalte.5 > 10), ]
sub1

sub2 <- subset(df, spalte.1 > 8 & spalte.5 > 10)
sub2

Unnamed: 0,spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
2,99999,b,,b,199998
9,9,i,,i,18
10,10,j,,j,20
11,11,k,,k,22
12,12,l,,l,24
13,13,m,,m,26
14,14,n,,n,28
15,15,o,,o,30


Unnamed: 0,spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
2,99999,b,,b,199998
9,9,i,,i,18
10,10,j,,j,20
11,11,k,,k,22
12,12,l,,l,24
13,13,m,,m,26
14,14,n,,n,28
15,15,o,,o,30


# Mehrere Spalten wählen

In [177]:
df[, c(1, 2, 3)] # Die Spalten 1 bis 3 wählen

spalte.1,spalte.2,spalte.3
1,a,
99999,b,
3,c,
4,d,
5,e,
6,f,
7,g,
8,h,
9,i,
10,j,


In [178]:
df[, c('spalte.1', 'spalte.5')] # Nach Namen

spalte.1,spalte.5
1,2
99999,199998
3,6
4,8
5,10
6,12
7,14
8,16
9,18
10,20


In [179]:
df[, -1] # Alle Spalten außer die erste

spalte.2,spalte.3,spalte.4,spalte.5
a,,a,2
b,,b,199998
c,,c,6
d,,d,8
e,,e,10
f,,f,12
g,,g,14
h,,h,16
i,,i,18
j,,j,20


In [180]:
df[, -c(1, 3)] # Ohne Spalte 1 und 3

spalte.2,spalte.4,spalte.5
a,a,2
b,b,199998
c,c,6
d,d,8
e,e,10
f,f,12
g,g,14
h,h,16
i,i,18
j,j,20


# Mit fehlenden Werten umgehen

Mit felhenden Werten umgehen zu können ist eine wichtige Fähigkeit bei der Arbeit mit Data Frames!

In [181]:
any(is.na(df)) # Suche nach NA Werten

In [182]:
any(is.na(df$spalte.1)) # Suche nach NA Werten in einer Spalte

In [183]:
df2 <- data.frame(
    spalte.1=NA,
    spalte.2=NA,
    spalte.3=NA,
    spalte.4=NA,
    spalte.5=NA
    )

df
df2

spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1,a,,a,2
99999,b,,b,199998
3,c,,c,6
4,d,,d,8
5,e,,e,10
6,f,,f,12
7,g,,g,14
8,h,,h,16
9,i,,i,18
10,j,,j,20


spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
,,,,


In [184]:
df3 <- rbind(df, df2)
df3

spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1.0,a,,a,2.0
99999.0,b,,b,199998.0
3.0,c,,c,6.0
4.0,d,,d,8.0
5.0,e,,e,10.0
6.0,f,,f,12.0
7.0,g,,g,14.0
8.0,h,,h,16.0
9.0,i,,i,18.0
10.0,j,,j,20.0


In [185]:
# Die Zeilen mit fehlenden Werten löschen
df4 <- df3[!is.na(df3$spalte.1), ]
df4

spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1,a,,a,2
99999,b,,b,199998
3,c,,c,6
4,d,,d,8
5,e,,e,10
6,f,,f,12
7,g,,g,14
8,h,,h,16
9,i,,i,18
10,j,,j,20


In [186]:
# NAs mit etwas anderem ersetzen
df[is.na(df)] <- 0 # Für den gesamten df
df

spalte.1,spalte.2,spalte.3,spalte.4,spalte.5
1,a,0,a,2
99999,b,0,b,199998
3,c,0,c,6
4,d,0,d,8
5,e,0,e,10
6,f,0,f,12
7,g,0,g,14
8,h,0,h,16
9,i,0,i,18
10,j,0,j,20


In [187]:
df$spalte.3[is.na(df$spalte.3)] <- 999 # Für eine Spezielle Spalte

Herzlichen Glückwunsch! Sie sind mit 1. Teil der Lektion N° 20 fertig!

#### Bitte denkt daran, dieses Notebook als Referenz für spätere Lektionen und Aufgaben zu verwenden.