# Tag 1. Kapitel 3. Data Frames

## Lektion 18. Data Frame Grundlagen

Wir haben bereits Vektoren und deren zweidimensionales Gegenstück, die Matrizen, kennengelernt. Bevor wir uns abschließend mit Listen befassen schauen wir uns jetzt *Data Frames* an. Diese bilden das Hauptwerkzeug zur Datenanalyse in R! Matrizen sind dazu etwas zu beschränkt, da alle Elemente in ihnen nur einen Datentyp haben dürfen. Durch Data Frames können wir jetzt verschiedene Daten Typen zusammen speichern und bearbeiten.

R bietet seinerseits einige vorinstallierte Data Frames, die gut sind, um die Funktionalität kennenzulernen und etwas herumzuspielen. Es folgen einige Beispiele:

In [1]:
# Data Frame der US Staaten
state.x77

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad,Frost,Area
Alabama,3615,3624,2.1,69.05,15.1,41.3,20,50708
Alaska,365,6315,1.5,69.31,11.3,66.7,152,566432
Arizona,2212,4530,1.8,70.55,7.8,58.1,15,113417
Arkansas,2110,3378,1.9,70.66,10.1,39.9,65,51945
California,21198,5114,1.1,71.71,10.3,62.6,20,156361
Colorado,2541,4884,0.7,72.06,6.8,63.9,166,103766
Connecticut,3100,5348,1.1,72.48,3.1,56.0,139,4862
Delaware,579,4809,0.9,70.06,6.2,54.6,103,1982
Florida,8277,4815,1.3,70.66,10.7,52.6,11,54090
Georgia,4931,4091,2.0,68.54,13.9,40.6,60,58073


In [2]:
# US persönlich Ausgaben
USPersonalExpenditure

Unnamed: 0,1940,1945,1950,1955,1960
Food and Tobacco,22.2,44.5,59.6,73.2,86.8
Household Operation,10.5,15.5,29.0,36.5,46.2
Medical and Health,3.53,5.76,9.71,14.0,21.1
Personal Care,1.04,1.98,2.45,3.4,5.4
Private Education,0.341,0.974,1.8,2.6,3.64


In [3]:
# Frauen 
women

height,weight
58,115
59,117
60,120
61,123
62,126
63,129
64,132
65,135
66,139
67,142


Um eine Liste aller verfügbaren Data Frames zu erhalten können wir `data()` nutzen.

In [4]:
data() # aktuelle geladene Datensätze anzeigen

In [5]:
sleep

extra,group,ID
0.7,1,1
-1.6,1,2
-0.2,1,3
-1.2,1,4
-0.1,1,5
3.4,1,6
3.7,1,7
0.8,1,8
0.0,1,9
2.0,1,10


Wir können auch Daten aus externen Datenpaketn laden. Z.B. so kann man bio-medizinische Daten aus dem "survival"-Paket laden:

In [6]:
install.packages('survival')

package 'survival' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\dm_78\AppData\Local\Temp\Rtmp6bbZNZ\downloaded_packages


In [7]:
library(survival)
data()

In [8]:
# Daten zur Stanford Herz-Transplantation 
heart

start,stop,event,age,year,surgery,transplant,id
0,50,1,-17.15537303,0.1232033,0,0,1
0,6,1,3.83572895,0.2546201,0,0,2
0,1,0,6.29705681,0.2655715,0,0,3
1,16,1,6.29705681,0.2655715,0,1,3
0,36,0,-7.73716632,0.4900753,0,0,4
36,39,1,-7.73716632,0.4900753,0,1,4
0,18,1,-27.21423682,0.6078029,0,0,5
0,3,1,6.59548255,0.7008898,0,0,6
0,51,0,2.86926762,0.7802875,0,0,7
51,675,1,2.86926762,0.7802875,0,1,7


In [9]:
ovarian

futime,fustat,age,resid.ds,rx,ecog.ps
59,1,72.3315,2,1,1
115,1,74.4932,2,1,1
156,1,66.4658,2,1,2
421,0,53.3644,2,2,1
431,1,50.3397,2,1,1
448,0,56.4301,1,1,2
464,1,56.937,2,2,2
475,1,59.8548,2,2,2
477,0,64.1753,2,1,1
563,1,55.1781,1,2,2


## Mit Data Frames arbeiten

Bestimmt ist euch aufgefallen, dass manche Daten sehr umfangreich sind. Wir können die Funktionen `head()` bzw. `tail()` verwenden, um die ersten bzw. letzten 6 Zeilen anzuzeigen. Schauen wir uns das an:

In [11]:
# Kurze Variablenzuweisung, um etwas Tippen zu sparen
ht <- heart
class(ht)

In [12]:
head(ht)

start,stop,event,age,year,surgery,transplant,id
0,50,1,-17.155373,0.1232033,0,0,1
0,6,1,3.835729,0.2546201,0,0,2
0,1,0,6.297057,0.2655715,0,0,3
1,16,1,6.297057,0.2655715,0,1,3
0,36,0,-7.737166,0.4900753,0,0,4
36,39,1,-7.737166,0.4900753,0,1,4


In [13]:
tail(ht)

Unnamed: 0,start,stop,event,age,year,surgery,transplant,id
167,0,21,1,1.83436,6.23408624,0,0,99
168,0,38,0,-12.939083,6.39561944,1,0,100
169,38,39,0,-12.939083,6.39561944,1,1,100
170,0,31,0,1.516769,6.41752225,0,0,101
171,0,11,0,-7.608487,6.47227926,0,0,102
172,0,6,1,-8.684463,-0.04928131,0,0,103


### Data Frames - Informationsübersicht

Wir können die `str()` Funktion nutzen, um mehr über die Struktur eines Data Frame zu erhalten. Wir erhalten bspw. Informationen über die Variablennamen und Datentypen, die der Data Frame beinhaltet. Zusätzlich können wir `summary()` nutzen, um eine schnelle statistische Auswertung zu erhalten. Für einen ersten Eindruck ist dies außerordentlich nützlich.

In [14]:
# Statistische Zusammenfassung
st <- state.x77
summary(st)

   Population        Income       Illiteracy       Life Exp    
 Min.   :  365   Min.   :3098   Min.   :0.500   Min.   :67.96  
 1st Qu.: 1080   1st Qu.:3993   1st Qu.:0.625   1st Qu.:70.12  
 Median : 2838   Median :4519   Median :0.950   Median :70.67  
 Mean   : 4246   Mean   :4436   Mean   :1.170   Mean   :70.88  
 3rd Qu.: 4968   3rd Qu.:4814   3rd Qu.:1.575   3rd Qu.:71.89  
 Max.   :21198   Max.   :6315   Max.   :2.800   Max.   :73.60  
     Murder          HS Grad          Frost             Area       
 Min.   : 1.400   Min.   :37.80   Min.   :  0.00   Min.   :  1049  
 1st Qu.: 4.350   1st Qu.:48.05   1st Qu.: 66.25   1st Qu.: 36985  
 Median : 6.850   Median :53.25   Median :114.50   Median : 54277  
 Mean   : 7.378   Mean   :53.11   Mean   :104.46   Mean   : 70736  
 3rd Qu.:10.675   3rd Qu.:59.15   3rd Qu.:139.75   3rd Qu.: 81163  
 Max.   :15.100   Max.   :67.30   Max.   :188.00   Max.   :566432  

In [19]:
summary(iris)
head(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [20]:
summary(ht)

     start             stop            event            age          
 Min.   :  0.00   Min.   :   1.0   Min.   :0.000   Min.   :-39.2142  
 1st Qu.:  0.00   1st Qu.:  17.0   1st Qu.:0.000   1st Qu.: -6.6468  
 Median :  0.00   Median :  45.5   Median :0.000   Median : -0.1136  
 Mean   : 15.51   Mean   : 201.3   Mean   :0.436   Mean   : -2.4840  
 3rd Qu.: 18.25   3rd Qu.: 181.5   3rd Qu.:1.000   3rd Qu.:  4.0459  
 Max.   :310.00   Max.   :1800.0   Max.   :1.000   Max.   : 16.4079  
      year             surgery       transplant       id        
 Min.   :-0.04928   Min.   :0.0000   0:103      Min.   :  1.00  
 1st Qu.: 1.66051   1st Qu.:0.0000   1: 69      1st Qu.: 28.00  
 Median : 3.75086   Median :0.0000              Median : 53.50  
 Mean   : 3.45329   Mean   :0.1686              Mean   : 53.06  
 3rd Qu.: 5.03491   3rd Qu.:0.0000              3rd Qu.: 78.25  
 Max.   : 6.47228   Max.   :1.0000              Max.   :103.00  

In [21]:
# Struktur der Daten
str(st)

 num [1:50, 1:8] 3615 365 2212 2110 21198 ...
 - attr(*, "dimnames")=List of 2
  ..$ : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ...
  ..$ : chr [1:8] "Population" "Income" "Illiteracy" "Life Exp" ...


In [22]:
str(ht)

'data.frame':	172 obs. of  8 variables:
 $ start     : num  0 0 0 1 0 36 0 0 0 51 ...
 $ stop      : num  50 6 1 16 36 39 18 3 51 675 ...
 $ event     : num  1 1 0 1 0 1 1 1 0 1 ...
 $ age       : num  -17.16 3.84 6.3 6.3 -7.74 ...
 $ year      : num  0.123 0.255 0.266 0.266 0.49 ...
 $ surgery   : num  0 0 0 0 0 0 0 0 0 0 ...
 $ transplant: Factor w/ 2 levels "0","1": 1 1 1 2 1 2 1 1 1 2 ...
 $ id        : num  1 2 3 3 4 4 5 6 7 7 ...


# Data Frames erstellen

*Hinweis: Teilweise verwenden Leute Dataframe als ein Wort. In R ist es jedoch üblich von zwei Worten "Data Frame" zu sprechen. Kein wirklich großer Unterschied, doch kann es sein, dass DataFrame sich auf Python/Pandas bezieht, wenn es jemand dementsprechend schreibt.*

Wir können Data Frames erstellen, indem wir die `data.frame()` Funktion verwenden und Vektoren als Argumente übergeben. Diese Vektoren werden dann in Spalten des Data Frame umgewandelt. Hier ist ein Beispiel:

In [29]:
# Einige erfunden Wetterdaten
tage <- c('Mo','Di','Mi','Do','Fr')
temp <- c(22.2,NA,NA,24.3,25)
regen <- c(TRUE, TRUE, FALSE, FALSE, TRUE)

In [30]:
# Die Vektoren übergeben
df <- data.frame(tage,temp,regen)

In [31]:
tage
temp
regen

df

tage,temp,regen
Mo,22.2,True
Di,,True
Mi,,False
Do,24.3,False
Fr,25.0,True


In [32]:
# Struktur überprüfen
str(df)

'data.frame':	5 obs. of  3 variables:
 $ tage : Factor w/ 5 levels "Di","Do","Fr",..: 5 1 4 2 3
 $ temp : num  22.2 NA NA 24.3 25
 $ regen: logi  TRUE TRUE FALSE FALSE TRUE


In [33]:
summary(df)

 tage        temp         regen        
 Di:1   Min.   :22.20   Mode :logical  
 Do:1   1st Qu.:23.25   FALSE:2        
 Fr:1   Median :24.30   TRUE :3        
 Mi:1   Mean   :23.83                  
 Mo:1   3rd Qu.:24.65                  
        Max.   :25.00                  
        NA's   :2                      

Herzlichen Glückwunsch! Sie sind mit Lektion 18. fertig!