update to version 28, add changes from juergen

ResearchMethods-ZHAW · Dec 22, 2023 · a00be29 · a00be29
1 parent 89afcb9
commit a00be29
Show file tree

Hide file tree

Showing 3 changed files with 18 additions and 16 deletions.
diff --git a/Statistik_3.qmd b/Statistik_3.qmd
@@ -331,26 +331,28 @@ Varianten a bis c sind im Prinzip OK, man muss sich aber bewusst sein, dass gera
 Wenn man das minimal adäquate Modell gefunden hat, will man oft noch wissen, wie bedeutsam die einzelnen enthaltenen Variablen sind. Bedeutsamkeit/Relevanz haben wir weiter oben als $R^2$ (erklärte Varianz) ausgedrückt. Wir können uns also anschauen, **welche Anteile der erklärten Varianz auf welche Variablen zurückgehen**. Da unsere Variablen (auch nach einem Korrelationstest und Ausschluss der besonders hoch korrelierten) nicht völlig orthogonal = unabhängig voneinander sind, verhalten sich die Varianzen nicht additiv. Vielmehr ist die erklärte Varianz in einem Modell mit zwei Variablen meist niedriger als die Summe der Varianzen der beiden Einzelmodelle. In einer Varianzpartitionierung wird die Varianz jeder Variablen daher in eine unabhängige (*independent*, `I`) und eine gemeinsame (*joint*, `J`) Komponente zerlegt:
 
 ```{.r}
-library(hier.part)
+library(relaimpo)
 
-loyn.preds <- with(loyn, data.frame(YR.ISOL,ALT,GRAZE))
-hier.part(loyn$ABUND,loyn.preds,gof="Rsqu")
+lm_1 <- lm(ABUND~YR.ISOL+ AREA +  DIST + LDIST + GRAZE + ALT, data = loyn)
+
+metrics <- calc.relimp(lm_1, type = c("lmg", "first", "last","betasq", "pratt"))
+IJ <- cbind(I = metrics$lmg, J = metrics$first - metrics$lmg, Total = metrics$first)
+
+IJ
 ```
 
 ```{.default}
 $IJ
-                 I          J     Total
-YR.ISOL 0.11892853 0.13444049 0.2533690
-ALT     0.06960132 0.07926823 0.1488696
-GRAZE   0.30019854 0.16562324 0.4658218 
-$I.perc
-               I
-YR.ISOL 24.33428
-ALT     14.24131
-GRAZE   61.42441 
+                 I            J       Total
+YR.ISOL 0.11827368  0.135095338 0.253369016
+AREA    0.02359769  0.041923060 0.065520747
+DIST    0.02566349  0.030085610 0.055749104
+LDIST   0.01270789 -0.005112317 0.007595573
+GRAZE   0.25879164  0.207030145 0.465821782
+ALT     0.07275743  0.076112117 0.148869552
 ```
 
-Der grösste Teil (61%) der insgesamt erklärten Varianz dieses Drei-Parameter-Models wird hier also durch den Faktor Grazing erklärt.
+Der grösste Teil der Varianz wird in diesem Sechs-Parameter-Modell daher durch die Variable „grazing“ erklärt. Wenn den Wert für `GRAZE` in der Spalte `I` in Relation zur Summe aller Werte in `I` setzt, also 0.2588 / 0.5119 erhält man 0.5056; mithin werden gut die Hälfte der erklärten Varianz durch „grazing“ erkärt.
 
 ### Ergebnisdarstellung: partielle Regressionen und 3-D-Grafiken
 

diff --git a/Statistik_4.qmd b/Statistik_4.qmd
@@ -510,7 +510,7 @@ xmid    6.501      2.278   2.854  0.00614 **
 scal    9.880      3.152   3.135  0.00280 ** 
 ```
 
-Die grösste Herausforderung bei `nls` sind die **Startwerte**, da bei ungeeigneten Startwerten, das **Modell möglicherweise gar nicht konvergiert oder in einem lokalen Optimum hängen bleibt** und das globale Optimum nicht findet. Hier ist es wichtig, ein gutes Verständnis für die Funktionsparameter der jeweiligen Funktion zu haben und damit eine Erwartungshaltung, wie gross sie im Allgemeinen sind bzw. wie gross sie im konkreten Fall sein könnten. Für's Allgemeine können wir die Theorie und ähnliche Untersuchungen in der Literatur konsultieren. Für den *z*-Wert einer Artenzahl-Areal-Beziehung, die mit Potenzgesetz modelliert wird, sagt uns die Theorie, dass dieser zwischen 0 und 1 liegen muss, und empirische Ergebnisse zeigen, dass er meist zwischen 0.2 und 0.25 liegt. Wenn wir hier also einen Startwert für *z* von --1 oder 1000 eingeben würden, hätte `nls` vermutlich ein Problem und würde kein Ergebnis oder ein falsches Ergebnis ausspucken. Bei der logistischen Regression wissen wir, dass der Parameter Asym für den Sättigungswert steht. In unserem Fall wäre also die maximale tatsächliche Artenzahl ein brauchbarer Startwert, den wir mit Blick auf die Originaldaten (`summary` oder Scatterplot) ermitten können.
+Die grösste Herausforderung bei `nls` sind die **Startwerte**, da bei ungeeigneten Startwerten, das **Modell möglicherweise gar nicht konvergiert oder in einem lokalen Optimum hängen bleibt** und das globale Optimum nicht findet. Hier ist es wichtig, ein gutes Verständnis für die Funktionsparameter der jeweiligen Funktion zu haben und damit eine Erwartungshaltung, wie gross sie im Allgemeinen sind bzw. wie gross sie im konkreten Fall sein könnten. Für's Allgemeine können wir die Theorie und ähnliche Untersuchungen in der Literatur konsultieren. Für den *z*-Wert einer Artenzahl-Areal-Beziehung, die mit Potenzgesetz modelliert wird, sagt uns die Theorie, dass dieser zwischen 0 und 1 liegen muss, und empirische Ergebnisse zeigen, dass er meist zwischen 0.2 und 0.25 liegt. Wenn wir hier also einen Startwert für *z* von --1 oder 1000 eingeben würden, hätte `nls` vermutlich ein Problem und würde kein Ergebnis oder ein falsches Ergebnis ausspucken. Bei der logistischen Regression wissen wir, dass der Parameter `Asym` für den Sättigungswert steht. In unserem Fall wäre also die maximale tatsächliche Artenzahl ein brauchbarer Startwert, den wir mit Blick auf die Originaldaten (`summary` oder Scatterplot) ermitteln können. Wenn `nls` trotz sinnvoller Startwerte nicht konvergiert, kann man auch die maximale Zahl der Iterationsschritte über den voreingestellten Wert von 50 hinaus erhöhen mit dem Funktionsparameter `maxiter`, z.B. `nls.control(maxiter = 500)`.
 
 Wenn wir zwischen unterschiedlichen nicht-linearen Modellen auswählen wollen, dann kommen dafür nur die Informationskriterien in Frage, da eine ANOVA hier nicht funktioniert (diese funktioniert nur für geschachtelte Modelle). Wollen wir unsere beiden zuvor berechneten Modelle vergleichen, brauchen wir das Package `AICcmodavg`:
 

diff --git a/_quarto.yml b/_quarto.yml
@@ -6,10 +6,10 @@ book:
   title: Statistik mit R für Umweltwissenschaftler:innen
   subtitle: Master Modul "Research Methods"
   author: Jürgen Dengler mit Beiträgen von Gian-Andrea Egeler, Daniel Hepenstrick & Stefan Widmer
-  version: "27"
+  version: "28"
   repo-url: https://github.com/ResearchMethods-ZHAW/Statistik
   repo-actions: [edit, issue]
-  downloads: [pdf, docx]
+  downloads: [pdf]
   output-file: "Statistik_Script"
   sidebar: 
     logo: images/zhaw/zhaw_lsfm_iunr_schwarz.jpg