In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LinearRegression

# Wir laden unsere Daten
Hierfür benötigen wir ein Dataset

In [2]:
df = pd.read_csv('house_prices.csv')
df = df.drop(['id', 'date', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long'], axis=1)
df.head()

      price  bedrooms  bathrooms  sqft_living  sqft_lot  floors  waterfront   
0  221900.0         3       1.00         1180      5650     1.0           0  \
1  538000.0         3       2.25         2570      7242     2.0           0   
2  180000.0         2       1.00          770     10000     1.0           0   
3  604000.0         4       3.00         1960      5000     1.0           0   
4  510000.0         3       2.00         1680      8080     1.0           0   

   view  condition  grade  sqft_above  sqft_basement  sqft_living15   
0     0          3      7        1180              0           1340  \
1     0          3      7        2170            400           1690   
2     0          3      6         770              0           2720   
3     0          5      7        1050            910           1360   
4     0          3      8        1680              0           1800   

   sqft_lot15  
0        5650  
1        7639  
2        8062  
3        5000  
4        7503  


In [3]:
x = df.drop('price', axis=1)
y = df['price']

trainX, testX, trainY, testY = train_test_split(x, y, test_size = 0.2)

In [4]:
sc=StandardScaler()

scaler = sc.fit(trainX)

trainX_scaled = scaler.transform(trainX)
testX_scaled = scaler.transform(testX)

# Lineare Regression
Für das Beispiel verwenden wir eine Lineare Regression mit Trainingsdaten und wenden diese auf den Test Daten an

In [5]:
lm = LinearRegression()
lm.fit(trainX_scaled, trainY)

In [6]:
y_pred = lm.predict(testX_scaled)

In [7]:
df_results = pd.DataFrame({'Actual': testY, 'Predicted': y_pred})
df_results.head()

         Actual      Predicted
5996   255000.0  126958.773033
9419   400000.0  375218.409853
19957  840000.0  599045.682161
14501  171500.0  127026.066118
12638  379500.0  555089.113071


# Berechnung des MAE
Die Berechnung machen wir zuerst manuell um die einzelnen Schritte zu erläutern

In [8]:
df_results['error'] = df_results['Actual'] -df_results['Predicted']
df_results.head()

         Actual      Predicted          error
5996   255000.0  126958.773033  128041.226967
9419   400000.0  375218.409853   24781.590147
19957  840000.0  599045.682161  240954.317839
14501  171500.0  127026.066118   44473.933882
12638  379500.0  555089.113071 -175589.113071


In [9]:
df_results['error_abs'] = df_results['error'].abs()
df_results.head()

         Actual      Predicted          error      error_abs
5996   255000.0  126958.773033  128041.226967  128041.226967
9419   400000.0  375218.409853   24781.590147   24781.590147
19957  840000.0  599045.682161  240954.317839  240954.317839
14501  171500.0  127026.066118   44473.933882   44473.933882
12638  379500.0  555089.113071 -175589.113071  175589.113071


In [10]:
sum_error_abs = df_results['error_abs'].sum()
sum_error_abs

657173533.8676779

In [11]:
no_observations = len(df_results)
no_observations

4323

In [12]:
mae = sum_error_abs / no_observations
mae

152017.9351995554

# In Python geht es viel schneller
Mit der sklearn Bibliothek kann man ganz einfach die metrics importieren und hierbei den Mean Absolute Error berechnen. Das ganze geht mit dem Befehl <span style="background-color:lightgrey;">metrics.mean_absolute_error(testY, y_pred)</span>

In [13]:
from sklearn import metrics
print('Mean Absolute Error:', metrics.mean_absolute_error(testY, y_pred))

Mean Absolute Error: 152017.9351995554
