# Beleg 5 – Korrelation und lineare Regression

### Hinweise zum Dokument:



1. `Äquidistante Schrift (monospaced font)` zeigt Codefragmente oder Schlüsselsymbole in R an.
2. Texte in spitzen Klammern `< ... >` sind Platzhalter, die durch eigene Namen ersetzt werden sollen.
4. Eingerückte Texte mit dem Titel __Tipp__ beschreiben Hinweise, wie Tastenbefehle, die Ihnen bspw. die Arbeit mit Jupyter Notebooks erleichtern können.
5. Eingerückte Texte mit dem Titel __Hinweis__ enthalten weiterführende Hinweise, die Sie bei Interesse selbst weiterverfolgen können

6. Jupyter Codeblocks zeigen ausführbaren Code an. Ein Codeblock wird mit `strg + enter` ausgeführt (siehe *Kurze Einführung Jupyter Notebooks*)

7. Kommentare und Erklärungen zum R-Code werden wie in den R-Skripten selbst mit # gekennzeichnet 

## Korrelation und Koeffizienten
Eine Korrelation beschreibt einen (ungerichteten) Zusammenhang zwischen zwei oder mehreren Variablen. Mittels verschiedener Koeffizienten (Maße) kann dieser Zusammenhang beschrieben werden. Korrelationstests liefern Aussagen darüber, ob eine Beziehung zwischen den Variablen zufällig ist oder nicht.

### Rangkorrelationskoeffizient nach Spearman ($r_s$)

Der Rangkorrelationskoeffizient nach Spearman ist ein parameterfreier Korrelationskoeffizient, der auf ordinale und metrische Variablen angewendet werden kann. Er vergleicht paarweise Rangzahlen und bestimmt deren Differenzen, wobei geringe Rangdifferenzen auf einen positiven Zusammenhang („gemeinsames Wachsen“) und große Rangdifferenzen auf einen negativen Zusammenhang („gegenläufiges Wachsen“) hinweisen. Die Berechnung des Rangkorrelationskoeffizienten nach Spearman erfolgt über den Befehl `cor.test(<zuKorrelierendeDaten1>, <zuKorrelierendeDaten2>, method="spearman")`. Am Beispiel der DWD-Daten für die Messung der Lufttemperatur und der relativen Feuchte am 21.07.2016 sehen Befehl und Ausgabe von R wie folgt aus:

In [None]:
# Führen Sie diesen Codeblock aus!

data_20160721 <- read.csv(file = "../Daten/5_data 20160721.txt", header = TRUE)
cor.test(data_20160721$TT_TU, data_20160721$RF_TU, method="spearman")

Es besteht mit einer Irrtumswahrscheinlichkeit von 5% ein signifikanter negativer Zusammenhang zwischen der Temperatur und der relativen Feuchte, die am 21.07.2016 an sächsischen DWD-Stationen gemessen wurden; $p<0,05$ und $r_s=-0,73$.

### Rangkorrelationskoeffizient nach Kendall (τ)
Der Rangkorrelationskoeffizient nach Kendall ist Korrelationskoeffizient für ordinale und metrische Variablen. Die Rangzahlen in einer verbundenen Stichprobe werden jeweils paarweise verglichen und vereinfacht wird aus den Anzahlen der übereinstimmenden bzw. nicht übereinstimmenden Rangzahlen der ein parameterfreier Korrelationskoeffizient 𝜏 bestimmt. 
Die Berechnung des Rangkorrelationskoeffizienten nach Kendall erfolgt über den Befehl `cor.test(<zuKorrelierendeDaten1>, <zuKorrelierendeDaten2>, method="kendall")`.
Am Beispiel der DWD-Daten für die Messung der Lufttemperatur und der relativen Feuchte am 21.07.2016 sehen Befehl und Ausgabe von R wie folgt aus:

In [None]:
# Führen Sie diesen Codeblock aus!

cor.test(data_20160721$TT_TU, data_20160721$RF_TU, method="kendall")

Es besteht mit einer Irrtumswahrscheinlichkeit von 5% ein signifikanter negativer Zusammenhang zwischen der Temperatur und der relativen Feuchte, die am 21.07.2016 an sächsischen DWD-Stationen gemessen wurden, $p<0,05$ und $τ=-0,55$.

### Produkt-Moment-Korrelationskoeffizient nach Pearson ($r_{X,Y}$)
Der Produkt-Moment-Korrelationskoeffizient nach Pearson misst den (linearen) Zusammenhang zwischen zwei metrisch skalierten, verbundenen, bi-normalverteilten Zufallsvariablen. Er wird berechnet, indem die Kovarianz mit den Standardabweichungen normiert wird und nimmt Werte zwischen -1 (stark negative Korrelation) und 1 (stark positive Korrelation) an. Werte um die 0 bedeuten, dass kein (linearer) Zusammenhang zwischen den Variablen besteht. Dieser Korrelationskoeffizient setzt eine bivariate Normalverteilung voraus, wobei in der Praxis angenommen wird, dass diese vorliegt, wenn beide Variablen normalverteilt sind. Daher sollten zuvor beide Variablen die Annahme der Normalverteilung geprüft werden (siehe Beleg 4), z. B. mittels Shapiro-Wilk- Test (`shapiro.test()`) und/oder Kolmogorov-Smirnov-Test (`ks.test()`).

Anschließend kann die Berechnung in R ebenfalls mit dem Befehl `cor.test()` erfolgen, wobei als Methode (`method`) der Name „pearson“ angegeben werden muss.



## Einfache lineare Regression
Korrelationskoeffizienten geben den ungerichteten Zusammenhang (Stärke, Signifikanz) zwischen zwei statistischen Variablen an. Besteht ein signifikanter Zusammenhang, dann kann ggf. ein gerichteter Zusammenhang angenommen werden, d. h. eine Schätzung der einen (Y) auf Grundlage der anderen Zufallsvariable (X) erfolgen. Ein einfaches lineares Regressionsmodell ermöglicht eine solche Schätzung mittels einer Geradengleichung: $y_i* = f(x_i) = a + bx_i$, mit dem Regressionskoeffizienten b und der Regressionskonstante a.


### Regressionsmodell und -gleichung
In R wird ein einfaches lineares Regressionsmodell über den Befehl `lm(<Zielvariable> ~ <Prädiktorvariable>, data=<Datentabelle>)`berechnet. Der Zusammenhang zwischen der Prädiktorvariable (X) und der Antwortvariablen (Y) wird dabei mit dem Tilde-Zeichen (~) angegeben: Y~X („Y wird beeinflusst von X“). Die Regressionsgleichung sollte grundsätzlich immer in die kausale (verursachende) Richtung weisen (Beispiel: Abhängigkeit des Dürregrads (Y) des Bodens von der gefallenen Regenmenge (X), nicht umgekehrt).

Für den Zusammenhang zwischen Lufttemperatur und relativer Feuchte für die Messungen der DWD-Stationen am 21.07.2016 erzeugt der folgende R-Code ein solches Modell und speichert es in der Variablen dwd_model:

In [None]:
# Führen Sie diesen Codeblock aus!

dwd_model <- lm(RF_TU~TT_TU, data=data_20160721)

R speichert verschiedene Parameter in dem Modell-Objekt (hier `dwd_model`; Datentyp Liste), wie den Regressionskoeffizienten inklusive der Regressionskonstante (im Listenelement 'coefficients') oder die Abweichungen der Modellvorhersagen von den Daten (im Listenelement 'residuals'; auch Residuen genannt).
Mit dem Befehl `str(<Modell>)`können die Parameter eingesehen werden:

In [None]:
# Führen Sie diesen Codeblock aus!

str(dwd_model)

Eine Übersicht der wichtigsten Merkmale des Modells kann mit dem Befehl `summary(<Modell>)` in der Konsole ausgegeben werden (siehe nächste Ausgabe). Die Schätzer (Estimate) für die Regressionskonstante bzw. (bei multipler Regressionsanalyse) Regressionskoeffizienten lassen sich im Bereich „Coefficients“ (rote Markierung) ablesen. Die Regressionskonstante wird als „Intercept“ bezeichnet (y-Achsenabschnitt). Anschließend folgen die Regressionskoeffizienten für alle Prädiktorvariablen, in diesem Fall die Luftfeuchte (TT_TU). Es ergibt sich für die Schätzung der relativen Feuchte auf Basis des Lufttemperaturwertes das Modell y = 142,25 - 3,14 * x. Informationen zu den Abweichungen der tatsächlich gemessenen Daten von der Regressionsgeraden (Residuen) werden oberhalb, unter der Bezeichnung „Residuals“ aufgeführt.

In [None]:
# Führen Sie diesen Codeblock aus!

summary(dwd_model)

### Streudiagramm und Visualisierung
Ein Streudiagramm mit Regressionsgerade (die Linie, die sich aus der Geradengleichung ergibt) ist ein effizientes Werkzeug, um den Zusammenhang zwischen zwei Variablen visuell darzustellen. Die nächste Ausgabe zeigt den Zusammenhang zwischen Lufttemperatur und relativer Feuchte für die Messungen an sächsischen DWD-Stationen am 21.07.2016 und die Regressionsgerade des oben erstellten Modells (dwd_model). Die Messwerte der einzelnen Stationen sind als schwarze leere Kreise dargestellt, die Regressionsgerade ist als blaue Linie visualisiert. Die dünnen, rot gestrichelten Linien sind die Konfidenzintervalle (95%-Level). Sie beziehen sich auf die Genauigkeit, mit der das Modell erstellt wurde (d. h. „wie die blaue Regressionsgerade verläuft“). Die dickeren, orange gestrichelten Linien sind die Vorhersageintervalle. Sie beschreiben die Unsicherheiten des Modells in Bezug auf die vorhergesagten Werte. Diese liegen mit einer Wahrscheinlichkeit von 95% innerhalb des oberen und unteren Vorhersageintervalls.

Bei der Darstellung der Regressionsgeraden (und der Vorhersage- bzw. Konfidenzintervalle) ist darauf zu achten, dass diese nicht über den Wertebereich (Prädiktorvariable) der dem Modell zugrunde liegenden Daten hinausreicht, da das Modell strenggenommen nur in diesem Wertebereich „gilt“, d. h. zuverlässige Vorhersagen liefern kann (-> Interpolation zuverlässig, Extrapolation nicht zuverlässig). Deshalb wird zunächst mit dem Befehl `seq()` eine Sequenz von Werten innerhalb des Wertebereichs der Prädiktorvariablen erstellt (hier: Lufttemperatur) und mit Hilfe der `predict.lm()`-Funktion die entsprechenden Schätzwerte für die Zielvariable (hier: relative Feuchte) berechnet. Mit der `lines()`-Funktion können diese anschließend als Linie im Diagramm eingezeichnet werden. Die Darstellung der Vorhersage- (`interval="prediction"`) bzw. Konfidenzintervalle (`interval="confidence"`) erfolgt analog. Weitere Informationen zur `predict.lm()`-Funktion finden Sie mit der `help()`-Funktion oder im Internet.

In [None]:
# Führen Sie diesen Codeblock aus!

# Scatter plot of temperature and relative humidity 
plot(data_20160721$RF_TU~data_20160721$TT_TU, xlab="Lufttemperatur [°C]", ylab="rel. Luftfeuchte [%]", main="Messwerte am 21.07.2016")
# Draw regression line and prediction interval to existing plot 
new_temps <- seq(min(data_20160721$TT_TU, na.rm=T), max(data_20160721$TT_TU, na.rm=T), 0.1) 
preds <- predict.lm(dwd_model, newdata = data.frame(TT_TU = new_temps), interval= "prediction")
lines(new_temps, preds[,1], lwd=2, col="cornflowerblue") 
lines(new_temps, preds[,2], lwd=2, col="orange", lty=2) 
lines(new_temps, preds[,3], lwd=2, col="orange", lty=2)

# Draw confidence interval to plot existing plot
preds_c <- predict.lm(dwd_model, newdata = data.frame(TT_TU = new_temps), interval= "confidence")
lines(new_temps, preds_c[,2], lwd=1, col="red", lty=2)
lines(new_temps, preds_c[,3], lwd=1, col="red", lty=2)

Das Regressionsmodell kann auch genutzt werden, um Prognosen für bestimmte Werte der Prädiktorvariable zu berechnen. In R erfolgt eine solche Berechnung (für ein einfaches lineares Modell) mit Hilfe des Befehls `predict.lm()`. Für das Modell (`dwd_model`) zur Schätzung der relativen Feuchte (y*) auf Basis der an allen DWD-Stationen gemessenen Lufttemperaturwerte (x) am 21.07.2016 liefert der folgende Befehl eine Schätzung – inklusive des unteren (`lwr`) und oberen (`upr`) Vorhersageintervalls – für die drei Temperaturwerte 16,9°C, 19,6°C und 21,8°C:

In [None]:
# Führen Sie diesen Codeblock aus!

predict.lm(dwd_model, newdata=data.frame(TT_TU=c(16.9,19.6,21.8)), interval="prediction")

## Belegaufgabe (-> OPAL)

Lesen Sie die DWD-Messdaten mit stündlichen Messungen und Stationsinformationen für alle DWD-Stationen in Sachsen (Datei 5_Messdaten_mitStationsinformationen.txt) ein. Filtern Sie die Messdaten für Ihren entsprechenden Tag und entfernen Sie fehlerhafte Temperaturmessungen (- 999) und arbeiten Sie mit diesen Daten weiter.

| **Anfangsbuchstabe Nachname** 	| **Datum und Uhrzeit** 	|
|-------------------------------	|-----------------------	|
| A-C                           	| 12.07.2016 um 12 Uhr  	|
| D-F                           	| 26.07.2016 um 12 Uhr  	|
| G-I                           	| 29.07.2016 um 12 Uhr  	|
| J-L                           	| 03.08.2017 um 12 Uhr  	|
| M-O                           	| 07.08.2017 um 12 Uhr  	|
| P-R                           	| 11.08.2017 um 12 Uhr  	|
| S-U                           	| 15.01.2018 um 12 Uhr  	|
| V-Z                           	| 19.01.2018 um 12 Uhr  	|

>**Hinweis:** Das Messdatum ist in der Spalte `MESS_DATUM` als zusammengesetzte Zahl aus `<JahrMonatTagUhrzeit>` beschrieben (vorangegangene Übung).

Erstellen Sie ein Streudiagramm für die Lufttemperatur (y-Achse) und Stationshöhe (x- Achse).

Berechnen Sie die Rangkorrelationskoeffizienten nach Spearman und Kendall und ggf. auch den Produkt-Moment-Korrelationskoeffizient nach Pearson, um zu überprüfen, ob ein signifikanter Zusammenhang zwischen der Lufttemperatur und der Stationshöhe besteht. Prüfen Sie vor der Verwendung des Pearson Produkt-Moment- Korrelationskoeffizient, ob die Voraussetzungen zur Anwendung erfüllt sind.

>**Hinweis:** Aufgrund des kleinen Stichprobenumfangs sollten Sie den Shapiro-Wilk-Test einsetzen, den Sie aus dem letzten Beleg und der Vorlesung bereits kennen.

Interpretieren Sie die Ergebnisse in Form eines Antwortsatzes. Gehen Sie dabei auch auf das Streudiagramm ein.

>**Hinweis:** Geben Sie zur Interpretation der berechneten Korrelationskoeffizienten mindestens $r_s$ und 𝜏 und ggf. auch $r_{X,Y}$ sowie den jeweiligen p-Wert an. Geben Sie auch an, aus welchen Gründen Sie den Produkt-Moment-Korrelationskoeffizienten nach Pearson verwenden bzw. nicht verwendet haben.

Erstellen Sie ein einfaches lineares Regressionsmodell für den Zusammenhang zwischen Lufttemperatur (Zielvariable) und Stationshöhe (Prädiktorvariable).

Geben Sie die Regressionsgleichung und den größten Abweichungsbetrag zwischen Mess- und Schätzwert (= „Betrag des Residuums“) für das berechnete Modell in einem Antwortsatz an.

Zeichnen Sie die Regressionsgerade sowie das obere und untere Vorhersageintervall farbig in das oben erstellte Streudiagramm ein.
Berechnen Sie mit Hilfe der `predict()`-Funktion Schätzwerte für die Temperatur auf Basis von drei selbst gewählten Höhenwerten (Interpolation!).
Geben Sie bitte in einem Antwortsatz an, wie Sie die Qualität der geschätzten Werte (in Bezug auf die reale Werte) einschätzen?

Die Antwortsätze sind in einem PDF-Dokument zusammen mit einem Screenshot (bzw. Abbildung) des Streudiagramms (inkl. Regressionsgerade und Vorhersageintervalle) abzuspeichern.
Kommentieren Sie Ihr Skript sinnvoll in englischer oder deutscher Sprache. Laden Sie das R-Skript und das PDF-Dokument als ZIP-komprimierten Ordner in OPAL **(Namenskonvention: Nachname_Vorname_Belegnummer.zip)** bis zum **05.07.2022 (08:00 Uhr)** hoch.

