# 3.1.5 Lineare Regression mit Scikit-Learn (praktische Umsetzung)

### 01 - Daten als *pandas.DataFrame* laden

In [1]:
import pandas as pd
from os.path import join

path = r'..\Data'
df = pd.read_csv(join(path, 'insurance.csv'))
df.head()

Unnamed: 0,age,bmi,children,charges
0,19,27.9,0,16884.924
1,18,33.77,1,1725.5523
2,28,33.0,3,4449.462
3,33,22.705,0,21984.47061
4,32,28.88,0,3866.8552


### 02 - X und y-Variablen separieren

In [2]:
X = df[['age', 'bmi', 'children']]
y = df['charges']
X.shape, y.shape

((1338, 3), (1338,))

### 03 - Trainings- und Testdaten separieren

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((1070, 3), (268, 3), (1070,), (268,))

### 04 - Lineares Regressionsmodell instanziieren und anlernen  

In [4]:
from sklearn.linear_model import LinearRegression

model = LinearRegression() # Instanziierung
model.fit(X_train, y_train) # Anlernen des Modells anhand der Trainingsdaten

# Abfrage der Parameter: Intercept und Koeffizienten (Gewichte)
model.intercept_.round(3), model.coef_.round(3)

(-7272.097, array([246.752, 333.175, 748.962]))

### 05 - Schätzungen mit anglerntem Modell erzeugen

In [5]:
##        age, bmi, numb of children
x_pred = [[50, 30,  1]]

y_pred = model.predict(x_pred)
print('estimated costs per year (insurance):', y_pred[0].round(2), 'US$')

estimated costs per year (insurance): 15809.69 US$


### 06 - Qualität des Modells anhand der Testdaten überprüfen
*Mittlerer absoluter Fehler* und *R-Quadrat* berechnen

In [6]:
from sklearn.metrics import mean_absolute_error, r2_score

# zuerst predictions mit dem anglernten Modell über Testdaten (x) durchführen 
y_test_pred = model.predict(X_test) 

# dann wahre mit geschätzten y-Werten vergleichen
mae = mean_absolute_error(y_test, y_test_pred)
r2 = r2_score(y_test, y_test_pred)

print('mittlerer absoluter Fehler:', mae.round(2), 'R-Quadrat:', r2.round(4))

mittlerer absoluter Fehler: 8799.75 R-Quadrat: 0.0789
