# Data Frame Grundlagen

Wir haben bereits Vektoren und deren zweidimensionales Gegenstück, die Matrizen, kennengelernt. Bevor wir uns abschließend mit Listen befassen schauen wir uns jetzt *Data Frames* an. Diese bilden das Hauptwerkzeug zur Datenanalyse in R! Matrizen sind dazu etwas zu beschränkt, da alle Elemente in ihnen nur einen Datentyp haben dürfen. Durch Data Frames können wir jetzt verschiedene Daten Typen zusammen speichern und bearbeiten.

R bietet seinerseits einige vorinstallierte Data Frames, die gut sind, um die Funktionalität kennenzulernen und etwas herumzuspielen. Es folgen einige Beispiele:

In [1]:
# Data Frame der US Staaten
state.x77

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad,Frost,Area
Alabama,3615,3624,2.1,69.05,15.1,41.3,20,50708
Alaska,365,6315,1.5,69.31,11.3,66.7,152,566432
Arizona,2212,4530,1.8,70.55,7.8,58.1,15,113417
Arkansas,2110,3378,1.9,70.66,10.1,39.9,65,51945
California,21198,5114,1.1,71.71,10.3,62.6,20,156361
Colorado,2541,4884,0.7,72.06,6.8,63.9,166,103766
Connecticut,3100,5348,1.1,72.48,3.1,56.0,139,4862
Delaware,579,4809,0.9,70.06,6.2,54.6,103,1982
Florida,8277,4815,1.3,70.66,10.7,52.6,11,54090
Georgia,4931,4091,2.0,68.54,13.9,40.6,60,58073


In [2]:
# US persönlich Ausgaben
USPersonalExpenditure

Unnamed: 0,1940,1945,1950,1955,1960
Food and Tobacco,22.2,44.5,59.6,73.2,86.8
Household Operation,10.5,15.5,29.0,36.5,46.2
Medical and Health,3.53,5.76,9.71,14.0,21.1
Personal Care,1.04,1.98,2.45,3.4,5.4
Private Education,0.341,0.974,1.8,2.6,3.64


In [3]:
# Frauen 
women

height,weight
58,115
59,117
60,120
61,123
62,126
63,129
64,132
65,135
66,139
67,142


Um eine Liste aller verfügbaren Data Frames zu erhalten können wir `data()` nutzen.

In [4]:
data()

## Mit Data Frames arbeiten

Bestimmt ist euch aufgefallen, dass der Staaten Data Frame sehr umfangreich ist. Wir können die Funktionen `head()` bzw. `tail()` verwenden, um die ersten bzw. letzten 6 Zeilen anzuzeigen. Schauen wir uns das an:

In [5]:
# Kurze Variablenzuweisung, um etwas Tippen zu sparen
states <- state.x77

In [6]:
head(states)

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad,Frost,Area
Alabama,3615,3624,2.1,69.05,15.1,41.3,20,50708
Alaska,365,6315,1.5,69.31,11.3,66.7,152,566432
Arizona,2212,4530,1.8,70.55,7.8,58.1,15,113417
Arkansas,2110,3378,1.9,70.66,10.1,39.9,65,51945
California,21198,5114,1.1,71.71,10.3,62.6,20,156361
Colorado,2541,4884,0.7,72.06,6.8,63.9,166,103766


In [7]:
tail(states)

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad,Frost,Area
Vermont,472,3907,0.6,71.64,5.5,57.1,168,9267
Virginia,4981,4701,1.4,70.08,9.5,47.8,85,39780
Washington,3559,4864,0.6,71.72,4.3,63.5,32,66570
West Virginia,1799,3617,1.4,69.48,6.7,41.6,100,24070
Wisconsin,4589,4468,0.7,72.48,3.0,54.5,149,54464
Wyoming,376,4566,0.6,70.29,6.9,62.9,173,97203


### Data Frames - Informationsübersicht

Wir können die `str()` Funktion nutzen, um mehr über die Struktur eines Data Frame zu erhalten. Wir erhalten bspw. Informationen über die Variablennamen und Datentypen, die der Data Frame beinhaltet. Zusätzlich können wir `summary()` nutzen, um eine schnelle statistische Auswertung zu erhalten. Für einen ersten Eindruck ist dies außerordentlich nützlich.

In [8]:
# Statistische Zusammenfassung
summary(states)

   Population        Income       Illiteracy       Life Exp    
 Min.   :  365   Min.   :3098   Min.   :0.500   Min.   :67.96  
 1st Qu.: 1080   1st Qu.:3993   1st Qu.:0.625   1st Qu.:70.12  
 Median : 2838   Median :4519   Median :0.950   Median :70.67  
 Mean   : 4246   Mean   :4436   Mean   :1.170   Mean   :70.88  
 3rd Qu.: 4968   3rd Qu.:4814   3rd Qu.:1.575   3rd Qu.:71.89  
 Max.   :21198   Max.   :6315   Max.   :2.800   Max.   :73.60  
     Murder          HS Grad          Frost             Area       
 Min.   : 1.400   Min.   :37.80   Min.   :  0.00   Min.   :  1049  
 1st Qu.: 4.350   1st Qu.:48.05   1st Qu.: 66.25   1st Qu.: 36985  
 Median : 6.850   Median :53.25   Median :114.50   Median : 54277  
 Mean   : 7.378   Mean   :53.11   Mean   :104.46   Mean   : 70736  
 3rd Qu.:10.675   3rd Qu.:59.15   3rd Qu.:139.75   3rd Qu.: 81162  
 Max.   :15.100   Max.   :67.30   Max.   :188.00   Max.   :566432  

In [9]:
# Struktur der Daten
str(states)

 num [1:50, 1:8] 3615 365 2212 2110 21198 ...
 - attr(*, "dimnames")=List of 2
  ..$ : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ...
  ..$ : chr [1:8] "Population" "Income" "Illiteracy" "Life Exp" ...


# Data Frames erstellen

*Hinweis: Teilweise verwenden Leute Dataframe als ein Wort. In R ist es jedoch üblich von zwei Worten "Data Frame" zu sprechen. Kein wirklich großer Unterschied, doch kann es sein, dass DataFrame sich auf Python/Pandas bezieht, wenn es jemand dementsprechend schreibt.*

Wir können Data Frames erstellen, indem wir die `data.frame()` Funktion verwenden und Vektoren als Argumente übergeben. Diese Vektoren werden dann in Spalten des Data Frame umgewandelt. Hier ist ein Beispiel:

In [10]:
# Einige erfunden Wetterdaten
tage <- c('Mo','Di','Mi','Do','Fr')
temp <- c(22.2,21,23,24.3,25)
regen <- c(TRUE, TRUE, FALSE, FALSE, TRUE)

In [12]:
# Die Vektoren übergeben
df <- data.frame(tage,temp,regen)

In [13]:
df

tage,temp,regen
Mo,22.2,True
Di,21.0,True
Mi,23.0,False
Do,24.3,False
Fr,25.0,True


In [14]:
# Struktur überprüfen
str(df)

'data.frame':	5 obs. of  3 variables:
 $ tage : Factor w/ 5 levels "Di","Do","Fr",..: 5 1 4 2 3
 $ temp : num  22.2 21 23 24.3 25
 $ regen: logi  TRUE TRUE FALSE FALSE TRUE


In [15]:
summary(df)

 tage        temp        regen        
 Di:1   Min.   :21.0   Mode :logical  
 Do:1   1st Qu.:22.2   FALSE:2        
 Fr:1   Median :23.0   TRUE :3        
 Mi:1   Mean   :23.1                  
 Mo:1   3rd Qu.:24.3                  
        Max.   :25.0                  

Soviel zu den Grundlagen. Als nächstes werden wir mehr über die Auswahl und Indexierung von Data Frame Elementen lernen!