In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LinearRegression

# Wir laden unsere Daten
Hierfür benötigen wir ein Dataset

In [2]:
df = pd.read_csv('house_prices.csv')
df = df.drop(['id', 'date', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long'], axis=1)
df.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1690,7639
2,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,2720,8062
3,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1360,5000
4,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1800,7503


In [3]:
x = df.drop('price', axis=1)
y = df['price']

trainX, testX, trainY, testY = train_test_split(x, y, test_size = 0.2)

In [4]:
sc=StandardScaler()

scaler = sc.fit(trainX)

trainX_scaled = scaler.transform(trainX)
testX_scaled = scaler.transform(testX)

# Lineare Regression
Für das Beispiel verwenden wir eine Lineare Regression mit Trainingsdaten und wenden diese auf den Test Daten an

In [5]:
lm = LinearRegression()
lm.fit(trainX_scaled, trainY)

In [6]:
y_pred = lm.predict(testX_scaled)

In [7]:
df_results = pd.DataFrame({'Actual': testY, 'Predicted': y_pred})
df_results.head()

Unnamed: 0,Actual,Predicted
17373,670000.0,752558.7
13588,399000.0,220523.7
19708,1450000.0,1011899.0
19811,949990.0,953167.0
4052,439000.0,366662.7


# Berechnung des MSE
Die Berechnung machen wir zuerst manuell um die einzelnen Schritte zu erläutern. Der große Unterschied zum MAE liegt daran, dass wir hier den Fehler zum quadrat nehmen.

In [8]:
df_results['error'] = (df_results['Actual'] - df_results['Predicted']) ** 2
df_results.head()

Unnamed: 0,Actual,Predicted,error
17373,670000.0,752558.7,6815943000.0
13588,399000.0,220523.7,31853800000.0
19708,1450000.0,1011899.0,191932900000.0
19811,949990.0,953167.0,10093160.0
4052,439000.0,366662.7,5232680000.0


In [9]:
df_results['error_abs'] = df_results['error'].abs()
df_results.head()

Unnamed: 0,Actual,Predicted,error,error_abs
17373,670000.0,752558.7,6815943000.0,6815943000.0
13588,399000.0,220523.7,31853800000.0,31853800000.0
19708,1450000.0,1011899.0,191932900000.0,191932900000.0
19811,949990.0,953167.0,10093160.0,10093160.0
4052,439000.0,366662.7,5232680000.0,5232680000.0


In [10]:
sum_error_abs = df_results['error_abs'].sum()
sum_error_abs

250247754050356.8

In [11]:
no_observations = len(df_results)
no_observations

4323

In [12]:
mse = sum_error_abs / no_observations
mse

57887521177.50562

In [13]:
import math
rmse = math.sqrt(mse)
rmse

240598.25680479404

# In Python geht es viel schneller
Mit der sklearn Bibliothek kann man ganz einfach die metrics importieren und hierbei den Root Mean Squared Error berechnen. Das ganze geht mit dem Befehl <span style="background-color:lightgrey;">metrics.mean_squared_error(testY, y_pred, squared=False)</span>

In [14]:
from sklearn import metrics
print('Root Mean Squared Error:', metrics.mean_squared_error(testY, y_pred, squared=False))

Root Mean Squared Error: 240598.25680479404
