# Lineare Regression

Einige Packages installieren bzw. laden...

In [None]:
if(!require("devtools")) install.packages("devtools")
if(!require("ggpubr")) install.packages("ggpubr")
if(!require("ggplot2")) install.packages("ggplot2")
if(!require("dplyr")) install.packages("dplyr")
if(!require("rio")) install.packages("rio")

Zuerst ein einfaches Beispiel für eine Lineare Regression. Wir erstellen ein Dataframe mit x- und y-Werten:

In [None]:
x <- c(25, 27, 29, 35, 40, 45, 46, 50, 55, 58)
y <- c(127, 125, 132, 140, 145, 152, 160, 165, 170, 175)

daten <- data.frame(x=x, y=y)
print(daten)

Wir plotten die Daten (Scatterplot) und zeichnen eine Regressionsgerade:

In [None]:
daten %>% ggplot(aes(x,y)) +
  geom_point() +
  geom_smooth(method="lm", se=F, color="red", size=2)

Nun erstellen wir ein konkretes Modell für die Lineare Regression mit Hilfe der Funktion *lm* (Linear Model). Wir geben die Koeffizienten aus, anschließend weitere Details zum Modell:

In [None]:
model <- lm(y~x, data=daten)
model
summary(model)

Wichtig ist. u.a. der Wert für $R^2$. Dieser kann mit der Formel, die im Unterricht besprochen wurde, auch manuell berechnet werden:

In [None]:
# Manuelle Berechnung von R-squared

# Ausgabe der Residuen (= y_i - y_hat)
model$residuals

r_sq <- 1 - sum(model$residuals^2) / sum( (daten$y-mean(daten$y))^2)
print(r_sq)

Wir ermitteln den Korrelationskoeffizienten r anhand der hergeleiteten Gleichung:

In [None]:

# Berechnung des Korrelationskoeffzienten r
# a) mit r
cor(x,y)

# b) Manuell
r <- cov(x,y) / (sd(x)*sd(y))
print(r)

# Bei einer abhängigen Variable ist R^2 = r^2
r^2

## Beispiel: Speiseeis-Umsatz

Wir laden einen Datensatz mit Umsatzzahlen (in Tsd. EUR) einer Supermarktkette in Abhängigkeit von der Außentemperatur:

In [None]:
eis <- read.csv("speiseeis_umsatz.csv")
head(eis)

Wir plotten die Daten und zeichnen wieder eine Regressionsgerade ein:

In [None]:
eis %>% ggplot(aes(Temperatur, Umsatz)) +
  geom_point() +
  geom_smooth(method="lm", se=F)

Wir erstellen ein Regressionsmodell und geben Infos zum Modell aus:

In [None]:
model <- lm(Umsatz~Temperatur, data=eis)
model

summary(model)
cor(eis)

## Noch ein Beispiel: Bierpreis auf dem Oktoberfest

Wir laden reale Daten (Quelle: Open Data Portal der Stadt München) bzgl. der Bierpreisentwicklung auf dem Oktoberfest:

In [None]:
#######################################################################################
# Beispiel: Bierpreis Oktoberfest
# Features:
# - jahr
# - dauer
# - besucher_gesamt (in Millionen)
# - besucher_tag (in 1000)
# - bier_preis (1 Liter)
# - bier_konsum (in Hektoliter)
# - hendl_preis
# - hendl_konsum

#######################################################################################
oktoberfest <- read.csv("oktoberfestgesamt.csv")
head(oktoberfest)


Auch hier gebe wir die Daten samt Regressionsgerade wieder grafisch aus:

In [None]:
oktoberfest %>% ggplot(aes(jahr, bier_preis)) + geom_point() +
  geom_smooth(method="lm", se=F)

Eine Lineare Regression scheint hier perfekt zu sein! Wir erstellen ein Modell und sagen den Bierpreis für das aktuelle Jahr voraus:

In [None]:
model.bier <- lm(bier_preis~jahr, data=oktoberfest)
model.bier
summary(model.bier)

# Vorhersage Bierpreis für 2020
print("Bierpreis vorhergesagt:")
predict(model.bier, data.frame(jahr=2020))

## Berechnung der Koeffizienten mit Hilfe der Linearen Algebra

Wir erstellen eine Funktion, die die Koeffizienten mit Hilfe der Linearen Algebra berechnet (Koeffizientenbestimmung eines überbestimmten Gleichungssystems mit Hilfe der Moore-Penrose-Pseudoinversen). Wir verwenden als Beispiel unsere Speiseeis-Daten und geben zum Vergleich nochmal die Koeffizienten unseres Modells aus, die die *lm*-Funktion berechnet hat:

In [None]:
# Funktion erstellen
koeff_lm <- function(x,y){
  x <- as.matrix(x)   #x in Matrix umwandeln
  x <- cbind(interercept=1, x)  # Spalte für beta_0 hinzufügen, auf 1 setzen
  solve(t(x) %*% x) %*% t(x) %*% y  # Lineares Gleichungssystem lösen
}

koeff_lm(eis$Temperatur, eis$Umsatz)

# Zum Vergleich: die Koeffizienten aus lm
model$coefficients

**ACHTUNG**: hohes r bedeutet nicht zwangläufig gutes Modell!!!
Beispiel: Datensatz von Francis Anscombe

In [None]:
data("anscombe")
anscombe
attach(anscombe)

anscombe %>% select_if(is.numeric) %>% cor() %>% corrplot::corrplot()

cor(x1, y1)
cor(x2, y2)
cor(x3, y3)
cor(x4, y4)

# ==> Alle x/x - Wertepaare haben das gleiche r
# Nun Plotten:

p1 <- anscombe %>% ggplot(aes(x1,y1)) + geom_point() + geom_smooth(method="lm", se=F)
p2 <- anscombe %>% ggplot(aes(x2,y2)) + geom_point() + geom_smooth(method="lm", se=F)
p3 <- anscombe %>% ggplot(aes(x3,y3)) + geom_point() + geom_smooth(method="lm", se=F)
p4 <- anscombe %>% ggplot(aes(x4,y4)) + geom_point() + geom_smooth(method="lm", se=F)



ggarrange(p1, p2, p3, p4 + rremove("x.text"), 
          labels = c("X1", "X2", "X3", "X4"),
          ncol = 2, nrow = 2)

## Nicht-lineare Daten

Was tun, wenn die Daten nicht linear sind? Beispiel mit der Anzahl der Transistoren auf einer gleichbleibenden Fläche. Laut Moorschem Gesetz verdoppelt sich die Anzahl ca. alle 2 Jahre. Das wäre exponentieller,  nicht linearer Wachstum! Wir laden die Daten und erstellen eine Grafik:

In [None]:
daten <- import("transistors.csv")
plot(daten$Year_after_1970, daten$Transistor_count)

Tatsächlich sieht das eher nach expontiellem Wachstum aus! Wir wollen dies nun in eine lineare Funktion überführen. Dazu logarithmieren wir die Daten für die Anzahl der Transistoren und fügen diese Daten dem Datensatz hinzu:

In [None]:
daten$Transistor_count.log <- log(daten$Transistor_count)
head(daten)

Wir plotten die Daten, nun aber die logarithmierten Daten auf der Y-Achse:

In [None]:
plot(daten$Year_after_1970, daten$Transistor_count.log)

Das sieht schon wesentlich "linearer" aus! Nun können wir auch eine Lineare Regression durchführen:

In [None]:
# Lineares Modell erstellen und Zusammenfassung ausgeben
model <- lm(Transistor_count.log~Year_after_1970, data=daten)
summary(model)