# 4. Weitere Beispiele und Modelle zur Regression

## 4.1 Weiteres Bsp. zur multivariaten linearen Regression

Zunächst einmal möchten wir ein weiteres Bsp. der multivariaten linearen Regression behandeln, bei dem die Targetabhängigkeit wirklich in den Merkmalen enthalten ist. Das Beispiel stammt von https://www.scribbr.com/statistics/multiple-linear-regression/ und beschreibt die Abhängigkeit der Herzinfarktrate in 500 Städten der USA von den beiden Faktoren (1) Prozentzahl der Fahrradfahrer als Berufspendler in den Städten und (2) Die Prozentzahl der Raucher in den Städten.

In [10]:
# Bibliotheken importieren
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

In [11]:
# Daten einlesen
df = pd.read_csv('heart.data.csv')
df

Unnamed: 0.1,Unnamed: 0,biking,smoking,heart.disease
0,1,30.801246,10.896608,11.769423
1,2,65.129215,2.219563,2.854081
2,3,1.959665,17.588331,17.177803
3,4,44.800196,2.802559,6.816647
4,5,69.428454,15.974505,4.062224
...,...,...,...,...
493,494,47.660440,27.562464,11.294392
494,495,45.097203,21.385620,9.616762
495,496,8.279743,6.423720,13.495168
496,497,42.345863,20.741328,10.115865


# Daten als Skatterplot visualisieren


In [12]:
import plotly.express as px
#df1 = df['charges'].copy()*0.00+5
fig = px.scatter_3d(df, x='biking', y='smoking', z='heart.disease')
fig.show()

In [13]:
# Modellbildung
X = df[['biking','smoking']]
y = df['heart.disease']
model = LinearRegression() # y = c1*x1+c2*x2+d
model.fit(X,y)

# Gefittetes Modell
anstieg1 = model.coef_[0]
anstieg2 = model.coef_[1]
achsenabschnitt = model.intercept_
print(' y = '+str(anstieg1) + '*x1'+' + ' + str(anstieg2) + '*x2'+ ' + ' + str(achsenabschnitt))



 y = -0.20013305195862297*x1 + 0.17833391383818578*x2 + 14.984657987225848


In [14]:
y_pred = model.predict(X)
# Mittlerer Absoluter Fehler
mae = mean_absolute_error(y, y_pred)
# Bestimmtheitsmaß r^2
r2 = r2_score(y,y_pred)
print('R2 = '+str(r2)+', mae = '+str(mae))

R2 = 0.9796174523377278, mae = 0.5151773540003027


## Aufgabe: Bestimmen Sie aus diesem Modell die Herzinfarkrate in  einer Stadt mit biking = 40 und smoking = 25!

In [15]:
y_spec = model.predict([[40, 25]])
y_spec


X does not have valid feature names, but LinearRegression was fitted with feature names



array([11.43768375])

# 4.2 Das Konzept der Trainings- und Testdaten

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((398, 2), (100, 2), (398,), (100,))

In [8]:
# Modell aufsetzen und trainieren anhand der Trainingsdaten
model = LinearRegression()
model.fit(X_train, y_train)

In [9]:
# Evaluation des Modell anhand der Testdaten
y_test_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_test_pred)
r2 = r2_score(y_test, y_test_pred)
mae, r2

(0.5190984759033521, 0.9789570610490604)