/
time-space-preface.qmd
33 lines (19 loc) · 5.75 KB
/
time-space-preface.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
```{r echo = FALSE}
pacman::p_load(tidyverse, readxl, knitr, kableExtra, openxlsx)
```
# Zeitliche und räumliche Analysen
*Letzte Änderung am `r format(fs::file_info("time-space-preface.qmd")$modification_time, '%d. %B %Y um %H:%M:%S')`*
> *"Der Weltraum -- unendliche Weiten. Wir schreiben das Jahr 2200. Dies sind die Abenteuer des Raumschiffs Enterprise \[...\]. Viele Lichtjahre von der Erde entfernt, dringt die Enterprise in Galaxien vor, die nie ein Mensch zuvor gesehen hat." --- Prolog aus Raumschiff Enterprise*
Im Folgenden wollen wir uns einmal zwei etwas besondere Arten der statistischen Modellierung anschauen. Zum einen betrachten wir Zeitreihen (eng. *time series*) und zum anderen räumliche Daten (eng. *spatial data*). Beiden Arten von Daten ist gemein, dass wir eine etwas spezielle Korrelationstruktur und damit auch Varianzstruktur zwischen den Beobachtungen vorliegen haben. Zwei aufeinander folgende Jahre oder nebeneinander liegende Orte sind nun mal mehr korreliert als weiter entfernte Jahre oder Orte. Deshalb müssen wir hier etwas mehr modellieren, als wir es bei anderen Datentypen tuen würden. Die Methoden sind dir dann teilweise auch schon aus anderen Kapiteln bekannt. Wenn es der Sache dient, werde ich nochmal kurz auf die Methoden eingehen, sonst eben auf die passenden Kapitel verlinken. Sonst doppelt und dreifach sich hier alles, was dann auch weniger Sinn macht.
## Analyse von (pseudo) Zeitreihen
In dem folgenden Kapitel zu [Zeitreihen (eng. *time series*)](#sec-time-series) wollen wir uns mit dem verstreichen der Zeit beschäftigen. Was ja auch irgendwie zu erwarten war. Wir haben ganz einfach auf der $x$-Achse einer potenziellen Visualisierung die Zeit dargestellt. Wir wollen dann analysieren, ob es über den zeitlichen Verlauf einen Trend gibt oder wir ein gutes Modell für den Verlauf der Beobachtungen anpassen können. Hierbei unterscheide ich einmal zwischen einer "pseudo" Zeitreihenanalyse und der "standard" Zeitreihenanalyse, wie sie klassisch und statistisch verstanden wird. Nur weil wir einen Zeitraum auf der $x$-Achse darstellen, haben wir nicht unbedingt eine klassische Zeitreihe vorliegen. Deshalb schaue ich mir erstmal Fälle an, die wirken wir eine Zeitreihe aber im klassischen Sinne keine sind. Im nächsten Kapitel schauen wir uns dann "echte" Zeitreihen an und analysieren die Daten dann mit den entsprechenden R Paketen.
Prinzipiell ist ist die Analyse von Zeitreihen nicht so kompliziert, aber es gibt immer wieder Verwirrungen mit anderen Analysen, die auch eine *Zeit* messen. Wenn du die Zeit bis zu einem Ereignis misst, dann bist du bei den [Ereigniszeitanalysen](#sec-survival) richtig aufgehoben. Dann willst du auf jeden Fall nicht eine Zeitreihe analysieren. Es kann auch sein, dass du nur bestimmte Zeitpunkte vorliegen hast, an denen du immer wieder verschiedenen Beobachtungen in Gruppen misst. Das wäre dann eher ein Experiment mit Messwiederholung (eng. *repeated measurement*) und dort würden wir dann ein [gemischtes Modell](#sec-mixed) rechnen. Du merkst schon, so einfach ist es manchmal nicht zu erkennen, welche Analyse den nun passen würde. Wenn du noch mehr über die Analyse von Zeitreihen lesen willst, dann kann ich dir folgende Literatur empfehlen. @robert2006time liefert eine gute Übersicht über die Anwendung in R, ist aber schon etwas älter. Das Gleiche gilt dann auch für das Buch von @chan2008time und @cowpertwait2009introductory. Dennoch bilden alle drei Bücher die Grundlagen der Analysen von Zeitreihen super ab. Für eine Abschlussarbeit sollten die Quellen also allemal reichen.
::: callout-tip
## Welche Zeitanalyse soll es denn nun sein?
Wenn du dir unsicher bist, was denn nun sein soll, dann komm doch einfach bei mir in der statistischen Beratung vorbei. Dafür musst du mir nur eine Mail schreiben und du erhälst dann einen Termin für ein Onlineberatung.
:::
## Analyse von räumliche Daten
Mein Feld, das hat drei Ecken. Drei Ecken hat mein Feld. In dem folgenden Kapitel zu [räumlichen Daten (eng. *spatial data*)](#sec-spatial-data) wollen wir uns mit dem großen Feld von geologischen Daten beschäftigen. Wir haben also nicht nur Messwerte von Pflanzen oder Tieren, sondern wissen auch wo wir auf der Fläche diese Pflanzen oder Tiere beobachtet wurden. Da vermutlich räumlich nahe stehende Beobachtungen ähnlicher auf Umgebungsbedingungen reagieren als weit entfernte, müssen wir hier unsere Modelle anpassen. Wir berücksichtigen also die Positionen von Beobachtungen in unseren Modellen. Hier gibt es dann natürlich einiges an statistischen Modellen, so dass wir hier auch wieder nur eine Auswahl treffen. Manchmal reicht dann aber auch eine tolle Abbildung, auch hier kann dir dann im folgenden Kapitel geholfen werden. Auch hier ein kurzer Literaturabriss, später dann mehr. Wir haben einmal die Anwendung von der Analyse von räumlichen Daten von @bivand2008applied. Ein sehr ausführliches Buch, was auch einigermaßen aktuell ist, ist die Arbeit von @plant2018spatial. Wenn du also tiefer in das Feld einsteigen willst, dann ist das Buch von @plant2018spatial das richtige Buch für die Anwendung in den Agarwissenschaften.
## Das R Paket `plotly`
Für die Analyse von Zeitreihen und räumlichen Daten bietet sich im besonderen das R Paket `plotly` an. Nicht, dass es sich bei `plotly` um eine Analyse im Sinne eines statistischen Test handelt. Wir haben mit `plotly` aber die Möglichkeit unsere Daten sehr gut zu visualisieren, wie in `ggplot`, aber wir können uns auch einzelne Punkte in den Abbildungen anzeigen lassen. Mit der Funktion `ggplotly()` können wir sogar statische Abbildungen in `ggplot` in eine `plotly` Abbildung umwandeln. Mehr dazu dann in den folgenden Kapiteln sowie natürlich auf der Hilfeseite [Plotly R Open Source Graphing Library](https://plotly.com/r/).
## Referenzen {.unnumbered}