# Lage- und Streuparameter

Wir wollen die grundlegenden Kennzahlen zur Lage und Streuung einer Stichprobe anhand eines Beispiels verstehen.

Als Datensatz nehmen wir die Klimadaten des deutschen Wetterdienstes (DWD). Das package `rdwd` kann Daten vom DWD laden.

In [None]:
#install.packages("rdwd") # auskommentieren, falls rdwd noch nicht installiert
library(rdwd)

Die [Website des Packages](https://bookdown.org/brry/rdwd/) erklärt mit welchen Befehlen Daten geladen werden können. 

Wir untersuchen die jährlichen (`res = "annual"`) Klimadaten (`var = "kl"`) der Wetterstation in Potsdam.

In [None]:
# select a dataset (e.g. last year's daily climate data from Potsdam city):
link <- selectDWD("Potsdam", res="annual", var="kl", per="historical");
# Actually download that dataset, returning the local storage file name:
file <- dataDWD(link, read=FALSE);
# Read the file from the zip folder:
clim <- readDWD(file, varnames=TRUE);

---

Wir untersuchen nun zunächst die Variablen in `clim`.

In [None]:
str(clim)

---

Die Funktion `summary`liefert eine Zusammenfassung der wichtigsten Informationen.

In [None]:
summary(clim)

---

# Verteilung der Temperaturdaten

Im Folgenden wollen wir den Datensatz zur maximalen Lufttemperatur genauer untersuchen.

In [None]:
T = clim$JA_TX.Lufttemperatur_Max

Ein erster Überblick über die Daten liefert ein einfacher Plot. Wir plotten die Temperaturen `T` gegen das jeweilige Messdatum. Zudem stellen wir die Daten in einem Histogramm dar.

In [None]:
par(mfrow = c(1,2), mar=c(4,10,4,4))
options(repr.plot.width = 15)
plot(clim$MESS_DATUM, T, xlab = "Jahr der Messung", ylab = "max. Temperatur", las = 2, col = "steelblue", pch = 16)
hist(T, xlab = "max. Temperatur", ylab = "Häufigkeit", col = "steelblue")

---

### Rangwerte

Die Rangwerte von `T` lassen sich durch die Sortierfunktion `sort` erhalten.

In [None]:
plot(sort(T), ylab = "max. Temperatur", pch = 16, col = "steelblue")

---

### Quantile

Die Quantile der Daten sind

In [None]:
quantile(T)

Das Problem hier ist, dass `T` einträge vom Typ `NA` enthält. `NA` steht für *not available* und meint, dass der jeweilige Datenpunkt nicht verfügbar ist. Im Plot oben sehen wir eine grosse Lücke um das Jahr 1920.

Wir müssen die Daten zunächst filtern:

In [None]:
T_filtered = T[!is.na(T)]

Jetzt funktioniert die Berechnung der Quantile.

In [None]:
q = quantile(T_filtered)
q

Die Quartile erhalten wir dann wie folgt:

In [None]:
unteres_quartil = q[2]
oberes_quartil = q[4]

---

### Mittelwerte und Median

Der Mittelwert der Daten `T` ist:

In [None]:
m = mean(T_filtered)
m

Der Median der Daten ist

In [None]:
med = median(T_filtered)
med

---

### Standardabweichung und Varianz

Die Standardabweichung der Daten `T` ist:

In [None]:
s = sd(T_filtered)
s

Die Varianz ist

In [None]:
v = var(T_filtered)
v

Wir plotten Mittelwert, Median, Standardabweichung und die Quartile in einem Histogramm zusammen mit den Daten.

In [None]:
hist(T, xlab = "Temperatur", ylab = "Häufigkeit", col = "steelblue")
# mittelwert und median
lines(c(m,m), c(-1,18), col = "red", lw = 5)
lines(c(med,med), c(-1,18), col = "orange", lw = 5)
# quartile
lines(c(unteres_quartil,unteres_quartil), c(-1,18), col = "grey", lw = 5)
lines(c(oberes_quartil,oberes_quartil), c(-1,18), col = "grey", lw = 5)
#standardabweichung
lines(c(m-s,m+s), c(18,18), col = "black", lw = 5)
#text
text(15.5,16.5, label = 
    "Rot: Mittelwert.
    Orange: Median.
    Grau: Quartile.
    Schwarz: Mittelwert\n plus-minus Standardabweichung", 
    cex = 1.5)

---

### Boxplots

Eine Alternative Visualisierung der Kennzahlen sind Boxplots:

In [None]:
boxplot(T, horizontal = TRUE, col = "indianred")