# Tag 1. Kapitel 3. Data Frames

## Lektion 19. Data Frame Auswahl und Indexierung

Wir haben bereits gesehen, wie wir die eingebauten Data Frames aufrufen und unsere eigenen durch `data.frame()` erstellen. Schauen wir uns noch einmal unsere Wetterdaten an. Anschließend können wir lernen, wie wir die Klammern-Notation zur Auswahl und Indexierung verwenden:

In [1]:
# Einige erfunden Wetterdaten
tage <- c('Mo','Di','Mi','Do','Fr')
temp <- c(22.2,21,23,24.3,25)
regen <- c(TRUE, TRUE, FALSE, FALSE, TRUE)

# Die Vektoren übergeben
df <- data.frame(tage,temp,regen)

In [2]:
df

tage,temp,regen
Mo,22.2,True
Di,21.0,True
Mi,23.0,False
Do,24.3,False
Fr,25.0,True


Wir können die Klammern-Notation verwenden, die wir von den Matrizen kennen:

    df[zeilen,spalten]

In [3]:
# Alles aus der ersten Zeile
df[1,]

tage,temp,regen
Mo,22.2,True


In [4]:
# Alles aus der ersten Spalte
df[,1]

In [9]:
# Daten von Freitag
df[5,]

Unnamed: 0,tage,temp,regen
5,Fr,25,True


## Auswahl durch Spaltennamen

Jetzt werden wir sehen, was so mächtig an den Data Frames ist. Wir können die Spaltennamen nutzen (anstatt uns Zahlen zu merken), um auf Daten zuzugreifen:

In [6]:
# Alle Regen-Werte
df[,'regen']

In [7]:
# Erste 5 Zeilen für tage und temp
df[1:5,c('tage','temp')]

tage,temp
Mo,22.2
Di,21.0
Mi,23.0
Do,24.3
Fr,25.0


Wenn wir alle Werte einer bestimmten Spalte erhalten wollen, können wir ein Dollarzeichen nach dem Namen des Data Frames nutzen:

    df.name$column.name

In [10]:
df$regen

In [11]:
df$tage

In [16]:
df$temp
class(df$temp)

Wir können außerdem die Klammern-Notation nutzen, um ein Data Frame Format der selben Informationen zu erhalten:

In [15]:
df['regen']
class(df['regen'])

regen
True
True
False
False
True


In [13]:
df['tage']

tage
Mo
Di
Mi
Do
Fr


In [21]:
df
df[c('regen', 'tage', 'temp')]
df[c('regen', 'tage')]

tage,temp,regen
Mo,22.2,True
Di,21.0,True
Mi,23.0,False
Do,24.3,False
Fr,25.0,True


regen,tage,temp
True,Mo,22.2
True,Di,21.0
False,Mi,23.0
False,Do,24.3
True,Fr,25.0


regen,tage
True,Mo
True,Di
False,Mi
False,Do
True,Fr


## Filtern mit einer Subset-Bedingung

Wir können die `subset()` Funktion verwenden, um ein Subset der Werte aus unserem Data Frame zu erhalten. Außerdem können wir eine Bedingung für dieses Subset definieren. Also zum Beispiel alle Daten für Tage an denen es geregnet hat. Schaut her:

In [22]:
subset(df,subset=regen==TRUE)

Unnamed: 0,tage,temp,regen
1,Mo,22.2,True
2,Di,21.0,True
5,Fr,25.0,True


Beachtet wie die Bedingung einen Vergleichsoperator genutzt hat. Im vorherigen Fall "==". Schnappen wir uns nun die Tage an denen die Temperatür über 23 lag:'

In [23]:
subset(df,subset= temp>23)

Unnamed: 0,tage,temp,regen
4,Do,24.3,False
5,Fr,25.0,True


Zu beachten gilt hier, dass wir den Spaltennamen nicht als Zeichen-String übergeben hab. *Subset* weiß, dass es sich dabei um einen Spaltennamen handelt.

In [27]:
# regen und wärmer als 23°
subset(df,subset=regen==TRUE & temp>23)

# regen oder wärmer als 23°
subset(df,subset=regen==TRUE | temp>23)

Unnamed: 0,tage,temp,regen
5,Fr,25,True


Unnamed: 0,tage,temp,regen
1,Mo,22.2,True
2,Di,21.0,True
4,Do,24.3,False
5,Fr,25.0,True


## Einen Data Frame sortieren

Wir können die Reihenfolge innerhalb unseres Data Frame sortieren indem wir `order()` verwenden. Wir übergeben dazu die Spalte nach der wir die Sortierung vornehmen möchten an die Funktion. Schauen wir uns dazu ein Beispiel an:

In [28]:
sortierte.temp <- order(df['temp'])

In [31]:
df[sortierte.temp,]
df[order(df['temp']),]

Unnamed: 0,tage,temp,regen
2,Di,21.0,True
1,Mo,22.2,True
3,Mi,23.0,False
4,Do,24.3,False
5,Fr,25.0,True


Unnamed: 0,tage,temp,regen
2,Di,21.0,True
1,Mo,22.2,True
3,Mi,23.0,False
4,Do,24.3,False
5,Fr,25.0,True


Schauen wir uns genauer an, was `sortierte.temp` ist.

In [18]:
sortierte.temp

Wir sehen: Es wir der Index der Elemente in bestimmter Reihenfolge abgefragt und gespeichert. Mit einem negativen Vorzeichen (-) können wir eine absteigende Reihenfolge aufrufen:

In [19]:
abst.temp <- order(-df['temp'])

In [22]:
df[abst.temp,]

Unnamed: 0,tage,temp,regen
5,Fr,25.0,True
4,Do,24.3,False
3,Mi,23.0,False
1,Mo,22.2,True
2,Di,21.0,True


Wir könnten auch die anderen bereits bekannten Notationen verwenden, die wir in dieser Lektion gelernt haben:

In [23]:
sort.temp <- order(df$temp)
df[sort.temp,]

Unnamed: 0,tage,temp,regen
2,Di,21.0,True
1,Mo,22.2,True
3,Mi,23.0,False
4,Do,24.3,False
5,Fr,25.0,True


Herzlichen Glückwunsch! Sie sind mit Lektion 19 fertig!