In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LinearRegression

# Wir laden unsere Daten
Hierfür benötigen wir ein Dataset

In [2]:
df = pd.read_csv('house_prices.csv')
df = df.drop(['id', 'date', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long'], axis=1)
df.head()

      price  bedrooms  bathrooms  sqft_living  sqft_lot  floors  waterfront   
0  221900.0         3       1.00         1180      5650     1.0           0  \
1  538000.0         3       2.25         2570      7242     2.0           0   
2  180000.0         2       1.00          770     10000     1.0           0   
3  604000.0         4       3.00         1960      5000     1.0           0   
4  510000.0         3       2.00         1680      8080     1.0           0   

   view  condition  grade  sqft_above  sqft_basement  sqft_living15   
0     0          3      7        1180              0           1340  \
1     0          3      7        2170            400           1690   
2     0          3      6         770              0           2720   
3     0          5      7        1050            910           1360   
4     0          3      8        1680              0           1800   

   sqft_lot15  
0        5650  
1        7639  
2        8062  
3        5000  
4        7503  


In [3]:
x = df.drop('price', axis=1)
y = df['price']

trainX, testX, trainY, testY = train_test_split(x, y, test_size = 0.2)

In [4]:
sc=StandardScaler()

scaler = sc.fit(trainX)

trainX_scaled = scaler.transform(trainX)
testX_scaled = scaler.transform(testX)

# Lineare Regression
Für das Beispiel verwenden wir eine Lineare Regression mit Trainingsdaten und wenden diese auf den Test Daten an

In [5]:
lm = LinearRegression()
lm.fit(trainX_scaled, trainY)

In [6]:
y_pred = lm.predict(testX_scaled)

In [7]:
df_results = pd.DataFrame({'Actual': testY, 'Predicted': y_pred})
df_results.head()

         Actual      Predicted
14981  169950.0  167790.666881
7737   817500.0  957276.029788
17940  610000.0  506513.497583
10067  325000.0  463461.660903
1528   555000.0  494190.917996


# Berechnung des MSE
Die Berechnung machen wir zuerst manuell um die einzelnen Schritte zu erläutern. Der große Unterschied zum MAE liegt daran, dass wir hier den Fehler zum quadrat nehmen.

In [8]:
import math

In [9]:
df_results['error'] = df_results['Actual'] - df_results['Predicted']
df_results.head()

         Actual      Predicted          error
14981  169950.0  167790.666881    2159.333119
7737   817500.0  957276.029788 -139776.029788
17940  610000.0  506513.497583  103486.502417
10067  325000.0  463461.660903 -138461.660903
1528   555000.0  494190.917996   60809.082004


In [10]:
df_results['error_abs'] = df_results['error'].abs()
df_results.head()

         Actual      Predicted          error      error_abs
14981  169950.0  167790.666881    2159.333119    2159.333119
7737   817500.0  957276.029788 -139776.029788  139776.029788
17940  610000.0  506513.497583  103486.502417  103486.502417
10067  325000.0  463461.660903 -138461.660903  138461.660903
1528   555000.0  494190.917996   60809.082004   60809.082004


In [11]:
df_results['actual_abs'] = df_results['Actual'].abs()
df_results.head()

         Actual      Predicted          error      error_abs  actual_abs
14981  169950.0  167790.666881    2159.333119    2159.333119    169950.0
7737   817500.0  957276.029788 -139776.029788  139776.029788    817500.0
17940  610000.0  506513.497583  103486.502417  103486.502417    610000.0
10067  325000.0  463461.660903 -138461.660903  138461.660903    325000.0
1528   555000.0  494190.917996   60809.082004   60809.082004    555000.0


In [12]:
df_results['percentage_error'] = (df_results['error_abs'] / df_results['actual_abs'])
df_results.head()

         Actual      Predicted          error      error_abs  actual_abs   
14981  169950.0  167790.666881    2159.333119    2159.333119    169950.0  \
7737   817500.0  957276.029788 -139776.029788  139776.029788    817500.0   
17940  610000.0  506513.497583  103486.502417  103486.502417    610000.0   
10067  325000.0  463461.660903 -138461.660903  138461.660903    325000.0   
1528   555000.0  494190.917996   60809.082004   60809.082004    555000.0   

       percentage_error  
14981          0.012706  
7737           0.170980  
17940          0.169650  
10067          0.426036  
1528           0.109566  


In [13]:
sum_error_abs = df_results['percentage_error'].sum()
sum_error_abs

1369.8646518583935

In [14]:
no_observations = len(df_results)
no_observations

4323

In [15]:
mape = sum_error_abs / no_observations
mape

0.3168782447046943

# In Python geht es viel schneller
Mit der sklearn Bibliothek kann man ganz einfach die metrics importieren und hierbei den Mean Squared Error berechnen. Das ganze geht mit dem Befehl <span style="background-color:lightgrey;">metrics.mean_squared_error(testY, y_pred)</span>

In [16]:
from sklearn import metrics
print('Mean Absolute Percentage Error:', metrics.mean_absolute_percentage_error(testY, y_pred))


Mean Absolute Percentage Error: 0.3168782447046943
