![R-Kenntnis](../Pics/header.png "R-Kenntnis")

<div class="alert alert-block alert-info">

* **Titel:** R-Kenntnis Lösung Übungen 07: Lineare Regression
* **Autor:** Prof. Dr. Denis Royer
* **Datum:** 28.11.2022 (Version 2.2)

</div>

![Header_Modelling](../Pics/header_modelling.png "Modelling")

# BI - R-Kenntnis Lösung Übungen 07: Lineare Regression

<div class="alert alert-block alert-warning">
<b>Wichtig:</b> Bevor wir loslegen, müssen wir zunächst einmal ein paar vorbereitende Dinge erledigen:

* Die notwendigen Packages laden (bspw. `tidyverse` und `ggplot2`)
* Den Datensatz laden (siehe *`Data/marketing.csv`*)

</div>

In [None]:
library(tidyverse)
library(ggplot2)

In [None]:
# Laden der Daten
marketing.raw <- read_csv("../Data/marketing.csv")
# Wir wollen nur die nummerischen Anteile des Datensatzes nutzen
# Dementsprechend kopieren wir uns diese Spalten aus den Rohdaten in einen neune
# Data Frame:
adverts.df <- marketing.raw[,1:5] # Spalten 1-5
# Erstellung des Linearen Modells
model1 <- lm(revenues ~ marketing_total, data = adverts.df)

# Lösung zum Bike Sharing LLC Marketing Anwendungsfall

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

***Frage:*** In Bezug auf die Ziele des Modellierens: Um welchen Typ des Modellieren handelt es sich bei der Linearen Regression?

***Antwort:*** Prädiktives Modellieren (Vorhersagen)

***Frage:*** Was für Rückschlüsse bezüglich der Unabhängigkeit kann man bei den hier vorliegenden Daten treffen?

***Antwort:*** Die Daten sind unabhängig, da die Daten an verschiedenen Orten (Firmen) erhoben worden sind und sich somit nicht gegenseitig beeinflussen.


In [None]:
par(mfrow = c(1, 2)) # 2 Spalten für die Grafiken anlegen
# Ausgabe der Residuen als Histogram
hist(model1$residuals, xlab = "Residuen", col = "gray",
     main = "Residuenverteilung")

# Ausgabe der Residuen als Q-Q Plot
qqnorm(model1$residuals, main = "Q-Q Plot der Residuen")
qqline(model1$residuals) 

***Frage:*** Was kann man anhand der 2 Plots bezüglich der Residuen für Rückschlüsse ableiten?

***Antwort:*** *Die Residuen sind normalverteilt, damit ist die Bedingung gegeben!*

Fälle wie (D) und (E) zeigen einen quadratischen/ logarithmischen Zusammenhang. Die Residuen streuen also nicht zufällig, sondern es ist eine klare Systematik erkennbar. Oft hängt diese Annahmenverletzung mit Problemen der Nichtlinearität (zwischen abhängiger und unabhängiger Variable) zusammen.

Für das Modell aus der SLR für die Variablen *Marketing gesamt* und *Umsätze* ergibt sich hierbei folgender Residuenplot:

In [None]:
# Plot der Residuen des Linearen Modells
plot(model1$fitted.values, 
     model1$residuals, 
     ylab = "Residuen",
     xlab = "Fitted Values", 
     main = "Verteilung der Residuen")

# Hinzufügen der Mittellinie und der 2 gestrichelten Linien
# über und unter der Mittelllinie als Korridor
abline(0, 0, lwd = 3)
abline(h = c(-6.5, 6.5), lwd = 3, lty = 3)

In [None]:
# Plot der Residuen des Linearen Modells
plot(model1$fitted.values, 
     model1$residuals, 
     ylab = "Residuen",
     xlab = "Fitted Values", 
     main = "Verteilung der Residuen")

# Hinzufügen der Mittellinie und der 2 gestrichelten Linien
# über und unter der Mittelllinie als Korridor
abline(0, 0, lwd = 3)
abline(h = c(-6.5, 6.5), lwd = 3, lty = 3)

**Frage:** Was fällt bei den p-Werten der beiden Tests auf und wie lässt sich dies interpretieren (siehe auch Hinweis in der roten Box)?

***Antwort:*** Der p-Wert der beiden Tests lässt die Vermutung zu, dass es sich um eine Ungleichheit der Varianzen handelt (Heteroskedastizität). Jedoch ist die Anzahl der Daten weit über 100 Beobachtunegn, wodurch die Tests nur bedingt aussagekräftig sind. Eine grafische Exploration ist hier sinnvoller und zielführender (siehe rote Box).

<div class="alert alert-block alert-danger">
<b>Hinweis - Achtung:</b> 
    
Analytische Tests verwerfen die Nullhypothese mit zunehmender Stichprobengröße häufiger, obwohl die Abweichungen marginal sind. Deswegen ist die grafische Methode (s.o.) häufig die bessere Wahl bei mehreren hundert Beobachtungen. Bei kleineren Stichproben gilt der Test jedoch als hinreichend zuverlässig.
</div>

***Frage:*** Welcher Typ von Varianz liegt beim Plot der Residuen aus dem Beispiel vor?

***Antwort:*** *Homoskedastizität ist erfüllt! Die Residuen verteilen sich ungefähr in einem gleichbleibend dickem horizontalen Band.*

***Frage:*** Welche Informationen gibt einen die `summary()` Funktion?

In [None]:
summary(model1)

***Antwort:*** *Die `summary()` Funktion gibt die Parametrisierung des Linearen Modells zurück*

# Übungen
## Aufgabe 1: Analyse und Transformation der Daten

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Analysieren Sie die folgenden Daten mit dem "*L.U.N.K.*" Ansatz: 

* Fällt Ihnen was bei den Daten auf und wie lassen sich die Ergebnisse aus den einzelnen Schritten des L.U.N.K. Ansatzes interpretieren?
* Wie kann man ggf. den Datensatz "*reparieren*"?

In [None]:
x0 <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
y0 <- c(1.00, 1.41, 1.73, 2.00, 2.24,
        2.45, 2.65, 2.83, 3.00, 3.16)

## Aufgabe 2: Ausreißer

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Ausreißer können große Einflüsse auf Lineare Modelle haben, wie auch im folgenden Beispielgrafik abgebildet:

In [None]:
# Datensatz 1 - Ausreißer beeinflust
x2 <- 1:20
y2 <- c(1:10, 4, 12:20)
fit2 <- lm(y2 ~ x2)

In [None]:
# Datensatz 2 - Ausreißer beeinflust nicht
x3 <- c(1:20, 30)
y3 <- c(0.4, 2.2, 2.2, 5.6, 5.3, 5.2, 7.5, 8.7, 9.6, 9.7, 12.5,
        12.4, 12.4, 11.8, 16.1, 16, 17, 18.9, 19.8, 20.6, 30.0)
fit3 <-lm(y3 ~ x3)

In [None]:
# Plot der Datensätze
par(mfrow = c(1, 2))
plot(x2, y2, pch = 19, main = "Ausreißer beeinflust")
abline(fit2)
plot(x3, y3, pch = 19, main = "Ausreißer beeinflust nicht")
abline(fit3)

**Analysieren Sie folgenden Datensatz:**

* Hat der Datensatz einen Ausreißer? Wenn ja welcher Datensatz?
* Was für einen Einfluss hat der Datensatz? Vergleichen Sie die Linearen Modelle und Ihre Kennzahlen.

In [None]:
x4 <- c(1:20)
y4 <- c(0.4, 2.2, 2.2, 5.6, 5.3, 5.2, 7.5, 8.7,
        9.6, 9.7, 12.5, 12.4, 12.4, 12.8, 16.1,
        16.0, 17.0, 11.5, 19.8, 20.6)

In [None]:
fit4 <- lm(y4 ~ x4)

plot(x4, y4, pch = 19, col = "blue")
abline(fit4)
summary(fit4)

x4_t <- x4[-18]
y4_t <-y4[-18]
fit4_t <- lm(y4_t ~ x4_t)
summary(fit4_t)

In [None]:
# Darstellung beider Linearen Regression zusammen
plot(x4, y4, pch = 19, col = "green")
abline(fit4, col="blue",lwd=2)
abline(fit4_t, col="red",lwd=2)

### Exkurs: Cooks Distanz

* Die Cooks Distanz (oft abgekürzt als Cooks D) ist das wichtigste Maß zur Bestimmung einflussreicher Datenpunkte in einem Regressionsmodell.
* In R kann einen Plot der Cook Distanz durch die grafische Ausgabe des Linearen Modells erhalten `plot(modell)`
* Die Ausgabe erzeugt 4 Grafiken – die letzte Grafik (Residuals vs. Leverage enthält die Cook Distanz – folgende Faustregel:
   * **Wert von 0,5** - Der Datenpunkt ist verdächtig
   * **Wert von 1,0** - Der Datenpunkt ist wahrscheinlich einflussreich
   * Sticht der Wert von allen übrigen Werten der Cook Distanz heraus, so ist er einflussreich!

In [None]:
# Nutzung des Cook Abstands (Cook's Range) zur Identifikation von 
# Werten im Datensatz mit hohem EInflus. Mehr unter:
# - <https://en.wikipedia.org/wiki/Cook%27s_distance>
# - <https://support.minitab.com/de-de/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/model-assumptions/ways-to-identify-outliers/>

# Ausgabe des Plots für die Cook's Distance mit dem Parameter
# "which" --> nur den 5. Graphen (das ist die Cook'S Distance) ausgeben
# https://stat.ethz.ch/R-manual/R-devel/library/stats/html/plot.lm.html 
plot(fit4,which=c(5))

# Ausgabe aller Plots für das lineare Modell fit4
par(mfrow = c(2, 2)) # 2 Spalten für die Grafiken anlegen
plot(fit4)
