# Lineare Regrssion

Lineare Regression ist eine der flexibelsten und am häufigsten verwendeten statistischen Methoden in Forschung und betrieblicher Praxis. Sie wird verwendet, um die Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu analysieren.

Lineare Regression wird verwendet für

1. Inferenz, d.h. zum Testen einer zuvor entwickelten Hypothese über die Beziehung zwischen interessierenden Variablen
2. Prognose, d.h. zur Schätzung des Wertes einer abhängigen Variable anhand der Werte unabhängiger Variablen
Der primäre Anwendungsfall für die lineare Regressionsanalyse ist die Analyse von kausalen Beziehungen.

Diese Beziehung kann ausgedrückt werden als

y=f(x)

In [1]:
import pandas as pd

link_to_csv = "https://www.statlearning.com/s/Advertising.csv"
df = pd.read_csv( link_to_csv
                 ,usecols=["TV", "radio", "newspaper","sales"])
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [2]:
import numpy as np
x = df["TV"]
xbar = np.mean(x)
y = df["sales"]
ybar = np.mean(y)

b1 = sum((x-xbar)*(y-ybar)) / sum((x - xbar)**2)
b0 = ybar - b1*xbar

print("b0:", b0, "und b1: ", b1)

b0: 7.032593549127704 und b1:  0.04753664043301969


In [3]:
import statsmodels.formula.api as smf

# Modell definieren und Daten übergeben
model = smf.ols("sales ~ TV", data=df)

# Modellschätzung (engl: "fitting")
model = model.fit()

paras = model.params # Modellparameter

print(paras)

Intercept    7.032594
TV           0.047537
dtype: float64


In [4]:
import statsmodels.formula.api as smf

# Modell definieren und Daten übergeben
model = smf.ols("sales ~ TV + newspaper + radio", data=df)

# Modellschätzung (engl: "fitting")
model = model.fit()

paras = model.params # Modellparameter

print(paras)

Intercept    2.938889
TV           0.045765
newspaper   -0.001037
radio        0.188530
dtype: float64
