# Daten in R

---

#### Quantitative Merkmale

Quantitative Merkmale werden in `R` mit der Klasse `numeric` beschrieben:

In [1]:
v = c(2, 1.1, 3, 2, 5)
class(v)

---

#### Nominale Merkmale

Nominale Merkmale werden in `R` mit der Klasse `factor` beschrieben:

In [2]:
w = c("Kassel", "Kassel", "Berlin", "Hamburg", "München")
#class(w)
w

`w` ist hier ein Vektor von `charactern`(= Buchstabenketten). 

`factor` sorgt für die Interpretation der Zeichenketten als nominale Merkmale. 

In [3]:
z = factor(w)

In [4]:
class(z)

In [5]:
z

---

#### Ordinale Merkmale

Ordinale Merkmale werden in `R`mit der Klasse `ordered` beschrieben:

In [6]:
u = c("gering", "mittel", "gering", "hoch", "hoch")
s = ordered(u)
s

Die Merkmale sind nicht in der Reihenfolge, die wir wollen. Dies lässt sich wie folgt ändern:

In [7]:
s = ordered(u, levels = c("gering", "mittel", "hoch"))
s

Alternativ:

In [8]:
s = ordered(u, levels = u[c(1,2,4)])
s

---

#### Multivariate Daten (= mehrere Merkmale)

Multivariate Daten werden in Tabellenform abgelegt. Dabei entspricht jede Zeile einem Einzelobjekt $e_j$, jede Spalte entspricht einem Merkmal.

Erinnerung:

In [9]:
print(v); print(s); print(z)

[1] 2.0 1.1 3.0 2.0 5.0
[1] gering mittel gering hoch   hoch  
Levels: gering < mittel < hoch
[1] Kassel  Kassel  Berlin  Hamburg München
Levels: Berlin Hamburg Kassel München


Die drei Merkmale $v,s,z$ können wie folgt in einer gemeinsamen Tabelle zusammengefasst werden:

In [10]:
tabelle = data.frame(v, s, z)
tabelle

v,s,z
<dbl>,<ord>,<fct>
2.0,gering,Kassel
1.1,mittel,Kassel
3.0,gering,Berlin
2.0,hoch,Hamburg
5.0,hoch,München


Zugriff auf Einträge der Tabelle funktioniert wie folgt:

In [11]:
tabelle[1, ]

Unnamed: 0_level_0,v,s,z
Unnamed: 0_level_1,<dbl>,<ord>,<fct>
1,2,gering,Kassel


In [12]:
tabelle[ ,2]

In [13]:
subset(tabelle,v<=2.5)

Unnamed: 0_level_0,v,s,z
Unnamed: 0_level_1,<dbl>,<ord>,<fct>
1,2.0,gering,Kassel
2,1.1,mittel,Kassel
4,2.0,hoch,Hamburg
