# Grafische Darstellung von Häufigkeitsverteilungen

Wir definieren drei Vektoren $v,z,s$, die jeweils quantitative, nominale und ordinale Merkmale enthalten

In [None]:
v = c(2, 1.1, 3, 2, 5)
z = factor(c("Kassel", "Kassel", "Berlin", "Hamburg", "München"))
s = ordered(c("gering", "mittel", "gering", "hoch", "hoch"), levels = c("gering", "mittel", "hoch"))

---

#### Häufigkeiten von Merkmalen

Die **absoluten** Häufigkeiten von $s$ werden wie folgt berechnet:

In [None]:
table(s)

Die **relativen** Häufigkeiten:

In [None]:
table(s) / length(s)

---

#### Balkendiagramme

Balkendiagramme visualisieren die Häufigkeiten von **qualitativen** (= nominal oder ordinal) Daten.

Die Höhen der Balken sind gegeben durch die absoluten bzw. relativen Häufigkeiten der Merkmalsausprägungen.

In [None]:
barplot(table(s), ylab = "absolute Häufigkeit")

Mit dem `mfrow`command können wir mehrere Plots nebeneinander darstellen

In [None]:
par(mfrow = c(1,2))
barplot(table(z), col = "steelblue", las = 2) 
barplot(table(s), col = "indianred", las = 2)

--- 

#### Stabdiagramme

Balkendiagramme visualisieren die Häufigkeiten von **quantitativen diskreten** (= quantitative Daten deren Wertebereich diskret ist) Daten.

Die Höhen der Stäbe sind gegeben durch die absoluten bzw. relativen Häufigkeiten der Merkmalsausprägungen. Die Stäbe sind genau über den Punkten auf der $x$-Achse positioniert, wo sich die Merkmalsausprägungen befinden.

In [None]:
plot(table(v)/length(v), type="h", xlim=c(1,6), ylab="relative Häufigkeit", main="Stabdiagramm")

---

#### Histogramme

Histogramm $=$ grafische Darstellung der Häufigkeitsverteilung **quantitativer stetiger** Daten.


Seien $\{x_1,\ldots,x_N\}$ quantitative stetige Daten.

Auf der $x$-Achse werden Intervalle $K_1,\ldots,K_n$ abgesteckt. 

Über dem Intervall $K_j$ wird ein Rechteck geplotted.

Flächeninhalt des Rechtecks über Intervall $K_j$ ist proportional zur relativen Häufigkeit $\frac{1}{N}\cdot \# \{i \mid x_i \in K_j\}$.

In [None]:
hist(v, xlab = "Einträge von v", ylab = "absolute Häufigkeit", main = "Histogramm", col = "steelblue")

`R` wähle die Intervall automatisch anhand der Daten. Wir können manuelle Intervalle mit dem Befehl `breaks`forcieren.

In [None]:
hist(v, xlab = "Einträge von v", ylab = "absolute Häufigkeit", main = "Histogramm", col = "steelblue", breaks = seq(0, 6, 0.5))

Für relative Häufigkeiten setzen wir `freq = FALSE`.

In [None]:
hist(v, xlab = "Einträge von v", ylab = "absolute Häufigkeit", main = "Histogramm", col = "steelblue", breaks = seq(0, 6, 0.5), freq = FALSE)

---

#### Empirische Verteilungsfunktion

Die empirische Verteilungsfunktion $F_N(x)$ für einen Satz quantitativer Daten $\{x_1,\ldots, x_N\}$ ist definiert als

$$ F_N(x) := \frac{1}{N} \cdot \# \{i \mid x_i<x\}.$$

$F_N(x)$ misst also wieviele Daten kleiner als $x$ sind. 

In `R` können wir die empirische Verteilungsfunktion mit dem Befehl `ecdf` erstellen. ("ecdf" steht für *empirical cumulative distribution function*).

In [None]:
x = c(0.5, 4.4, 2.1, 3.3)
F = ecdf(x)
plot(F, main = "empirische Verteilungsfunktion")

---