# Einfache lineare Regression: Einführung und Annahmen

Die einfache lineare Regression ist eine der am häufigsten verwendeten statistischen Methoden, um die Beziehung zwischen zwei Variablen zu verstehen. Sie ermöglicht es, den Zusammenhang zwischen einer unabhängigen Variable (Prädiktor) und einer abhängigen Variable (Ziel) zu analysieren und zu modellieren. Das Ziel ist es, eine lineare Funktion zu bestimmen, die am besten zu den Daten passt, wodurch Vorhersagen erleichtert und Erkenntnisse über die Daten gewonnen werden können.

## Welches Problem löst die lineare Regression?

In vielen realen Szenarien möchte man Vorhersagen machen oder besser verstehen, wie zwei Variablen miteinander zusammenhängen. Die lineare Regression hilft dabei, eine Reihe von Fragen zu beantworten, wie zum Beispiel:

1. **Vorhersagen treffen:**
   Wie stark beeinflusst eine unabhängige Variable (z. B. Geschwindigkeit beim Autofahren) die abhängige Variable (z. B. Anzahl der Unfälle)?

2. **Beziehung überprüfen:**
   Besteht überhaupt ein Zusammenhang zwischen den Variablen? Gibt es einen positiven, negativen oder keinen Zusammenhang?

3. **Quantifizierung des Einflusses:**
   Wie groß ist die Veränderung in der abhängigen Variable, wenn sich die unabhängige Variable um eine Einheit verändert?

4. **Optimierung von Entscheidungen:**
   In Anwendungsbereichen wie Wirtschaft, Technik oder Medizin können durch die Regression besser fundierte Entscheidungen getroffen und Prozesse verbessert werden.

Die einfache lineare Regression ist besonders nützlich, wenn schnelle Einsichten in Datensätze nötig sind oder erste Hypothesen aufgestellt werden sollen. Sie dient außerdem als Basis für fortgeschrittene Modellierungsmethoden wie Multiple Regression oder nichtlineare Modelle.

---

Im nächsten Schritt überprüfe



# Die vier Hauptbedingungen für eine einfache lineare Regression

1. **Linearität (Linearity)**: Es besteht eine lineare Beziehung zwischen den unabhängigen Variablen (Xi) und der abhängigen Variablen (Y).
   **Beispiel**: Wenn sich die Geschwindigkeit eines Fahrzeugs erhöht, sollte sich die Anzahl der Unfälle proportional ändern. Dies bedeutet, dass die Datenpunkte im Streudiagramm einer geraden Linie folgen.

2. **Normalverteilung (Normality)**: Die Fehler (Residuals) sind normal verteilt.
   **Beispiel**: Wenn man die Abweichungen (Residuals) zwischen den beobachteten und vorhergesagten Werten betrachtet, sollten diese in einem Histogramm die Glockenkurve einer Normalverteilung darstellen. Dies hilft dabei zu garantieren, dass das Modell konsistente Schätzungen liefert.

3. **Unabhängigkeit der Beobachtungen (Independent Observation)**: Jede Beobachtung im Datensatz ist voneinander unabhängig.
   **Beispiel**: Die Anzahl der Unfälle in einem Bundesstaat sollte keinen Einfluss auf die Anzahl der Unfälle in einem anderen Bundesstaat haben. Wenn Abhängigkeiten bestehen, können diese die Ergebnisse verzerren.

4. **Homoskedastizität (Homoscedasticity)**: Die Streuung der Fehler bleibt über alle Werte der unabhängigen Variablen konstant.
   **Beispiel**: Wenn man die Residualwerte gegenüber den vorhergesagten Werten (Fitted Values) plottet, sollten die Fehler gleichmäßig verteilt sein und keine erkennbare Struktur (z. B. Trichterform) zeigen. Dies stellt sicher, dass die Modellvorhersagen gleichmäßig zuverlässig sind.

---

Wir überprüfen diese vier Annahmen anhand des vorliegenden Datensatzes.

In [None]:
# import packages
import pandas as pd
import seaborn as sns

Seaborn bietet ein großes Set an Datensätzen an, die man sich anschauen kann (https://medium.com/@Aqsaumar48/seaborn-6ceda1a3d14a). Wir wählen in dem Fall den Datensatz für Autounfälle, also car_crashes.csv

Total: Total number of crashes.
Speeding: Crashes involving speeding.
Alcohol: Crashes involving alcohol.
Not Distracted: Percentage of drivers not distracted.
No Previous: Percentage of drivers with no previous crashes.
Ins_premium: Average insurance premium in the state.
Ins_losses: Total insurance losses in the state.

In [None]:
data = sns.load_dataset("car_crashes")
data.head(n=10)

Im Anschluss können wir prüfen, wie viele Einträge es gibt. Hier sind es 51 Zeilen und 8 Spalten.

In [None]:
data.shape
data.info()
# data['speeding'].value_counts()

Wichtig: Vor jeder Analyse prüfen, ob es Duplikate gibt

In [None]:
data.dropna()
data.reset_index(inplace=True, drop=True)

# Explorative Datenanalyse

Wir prüfen, ob es lineare Zusammenhänge zwischen unterschiedliche Variablen im Dataframe gibt. Hierzu erstellen wir ein Scatterplot. Seaborn bietet eine sehr hilfreiche Funktion, um alle relevanten Paare zu generieren.
Ausghend von der Matrix können wir einige lineare Zusammenhänge erkennen.

- alcohol + total
- speeding + total

In [None]:
sns.pairplot(data)

Schauen wir uns mal speeding genauer an und prüfen, ob es Ausreißer gibt. Alles was mehr als 3 Standardabweichungen vom Mittelwert entfernt ist, wäre für uns ein Ausreißer. Das schaut aber gut aus.

In [None]:
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt


data_speeding = data["speeding"]

z_scores = np.abs(stats.zscore(data_speeding))


# Histogramm plotten
plt.hist(z_scores, bins=10, edgecolor='black')
plt.title("Histogramm der Z-Scores")
plt.xlabel("Z-Score")
plt.ylabel("Häufigkeit")
plt.axvline(3, color='red', linestyle='dashed', linewidth=1.5, label='Grenzwert (z=3)')
plt.legend()
plt.show()


# Modell erstellen

Wir wählen eine einfache lineare Regression mit OLS. Wir möchten die Anzahl an Unfälle (abhängig) zu der Geschwindigkeit (unabhängig) ermitteln.

In [None]:
ols_data = data[["speeding", "total"]]
ols_formula = "total ~ speeding"

Interessant an der Stelle ist schon der niedriger R-Wert

In [None]:
# Import ols function
from statsmodels.formula.api import ols
OLS = ols(formula=ols_formula, data = ols_data)
model = OLS.fit()
model.summary()

In [None]:
sns.regplot(x = "speeding", y = "total", data = ols_data)

In [None]:
X = ols_data["speeding"]
fitted_values = model.predict(X)
fitted_values

residuals = model.resid
residuals

import matplotlib.pyplot as plt
fig = sns.histplot(residuals)
fig.set_xlabel("Residual Value")
fig.set_title("Histogram of Residuals")
plt.show()

In [None]:
import matplotlib.pyplot as plt
import statsmodels.api as sm
fig = sm.qqplot(model.resid, line = 's')
plt.show()

In [None]:
# Import matplotlib
import matplotlib.pyplot as plt
fig = sns.scatterplot(x=fitted_values, y=residuals)

# Add reference line at residuals = 0
fig.axhline(0)

# Set x-axis and y-axis labels
fig.set_xlabel("Fitted Values")
fig.set_ylabel("Residuals")

# Show the plot
plt.show()

In [None]:
from scipy.stats import shapiro
from statsmodels.stats.stattools import durbin_watson
import statsmodels.api as sm


# 1. Linearität: Scatterplot zwischen unabhängiger und abhängiger Variablen
sns.scatterplot(x=ols_data["speeding"], y=ols_data["total"])
plt.plot(ols_data["speeding"], fitted_values, color="red", label="Regression Line")
plt.title("Linearitätsprüfung: Scatterplot mit Regressionslinie")
plt.xlabel("Speeding")
plt.ylabel("Total")
plt.legend()
plt.show()

# 2. Normalverteilung der Residuen: Shapiro-Wilk-Test und Histogramm
shapiro_test = shapiro(residuals)
print(f"Shapiro-Wilk-Test p-Wert: {shapiro_test.pvalue}")
sns.histplot(residuals, kde=True, bins=10, edgecolor='black')
plt.title("Histogramm der Residuen")
plt.xlabel("Residuals")
plt.show()

# 3. Unabhängigkeit der Residuen: Durbin-Watson-Test zur Prüfung auf Autokorrelation
dw_test = durbin_watson(residuals)
print(f"Durbin-Watson-Statistik: {dw_test}")

# 4. Homoskedastizität: Streudiagramm der Residuen vs. vorhergesagte Werte
sns.scatterplot(x=fitted_values, y=residuals)
plt.axhline(0, color="red", linestyle="--")
plt.title("Homoskedastizitätsprüfung: Residuen vs Fitted Values")
plt.xlabel("Fitted Values")
plt.ylabel("Residuals")
plt.show()

Interpretation der Ergebnisse erfolgt basierend auf den Tests und Plots.


# Zusammenfassung

Die einfache lineare Regression erlaubt:
1. Das Verständnis der linearen Beziehung zwischen zwei Variablen.
2. Die Schätzung von Vorhersagen.

Die Evaluation der Hauptbedingungen sichert die Qualität der Ergebnisse.