Der Vergleich mehrerer Machine-Learning-Modelle umfasst das systematische Trainieren, Bewerten und Analysieren der Leistung verschiedener Algorithmen auf demselben Datensatz. Ziel ist es, das Modell zu identifizieren, das für eine bestimmte Vorhersageaufgabe am besten geeignet ist. Diese Vorgehensweise ist von entscheidender Bedeutung, da die Wahl des Modells erheblichen Einfluss auf die Genauigkeit und Zuverlässigkeit der Vorhersagen hat.

Im folgenden Abschnitt werden wir die grundlegenden Schritte durchlaufen, um mehrere Machine-Learning-Modelle in Python für ein Regressionsproblem zu trainieren und zu vergleichen. Wir werden uns mit der Implementierung gängiger Algorithmen, der Durchführung von Leistungsanalysen sowie der Interpretation der Ergebnisse beschäftigen. Durch den Vergleich mehrerer Modelle möchten wir den effektivsten Algorithmus auswählen, der für das jeweilige Problem das optimale Gleichgewicht zwischen Genauigkeit, Komplexität und Leistung bietet
Diese Erkenntnisse sind nicht nur für die akademische Forschung, sondern auch für praktische Anwendungen in der Industrie von großer Bedeutung

# Machine Learning Modelle im Vergleich an einem Beispiel

In [None]:
# import library
import pandas as pd

In [None]:
data = pd.read_csv('Real_Estate.csv')

### EDA

In [None]:
# display the first few rows
data_head = data.head()

print(data_head)

             Transaction date  House age  Distance to the nearest MRT station  \
0  2012-09-02 16:42:30.519336       13.3                            4082.0150   
1  2012-09-04 22:52:29.919544       35.5                             274.0144   
2  2012-09-05 01:10:52.349449        1.1                            1978.6710   
3  2012-09-05 13:26:01.189083       22.2                            1055.0670   
4  2012-09-06 08:29:47.910523        8.5                             967.4000   

   Number of convenience stores   Latitude   Longitude  \
0                             8  25.007059  121.561694   
1                             2  25.012148  121.546990   
2                            10  25.003850  121.528336   
3                             5  24.962887  121.482178   
4                             6  25.011037  121.479946   

   House price of unit area  
0                  6.488673  
1                 24.970725  
2                 26.694267  
3                 38.091638  
4             

In [None]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 414 entries, 0 to 413
Data columns (total 7 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   Transaction date                     414 non-null    object 
 1   House age                            414 non-null    float64
 2   Distance to the nearest MRT station  414 non-null    float64
 3   Number of convenience stores         414 non-null    int64  
 4   Latitude                             414 non-null    float64
 5   Longitude                            414 non-null    float64
 6   House price of unit area             414 non-null    float64
dtypes: float64(5), int64(1), object(1)
memory usage: 22.8+ KB
None


In [None]:
print(data.isnull().sum())

Transaction date                       0
House age                              0
Distance to the nearest MRT station    0
Number of convenience stores           0
Latitude                               0
Longitude                              0
House price of unit area               0
dtype: int64


In [None]:
data.describe()

Unnamed: 0,House age,Distance to the nearest MRT station,Number of convenience stores,Latitude,Longitude,House price of unit area,Transaction year,Transaction month
count,414.0,414.0,414.0,414.0,414.0,414.0,414.0,414.0
mean,18.405072,1064.468233,4.2657,24.973605,121.520268,29.102149,2012.630435,6.381643
std,11.75767,1196.749385,2.880498,0.024178,0.026989,15.750935,0.483271,3.580855
min,0.0,23.38284,0.0,24.932075,121.473888,0.0,2012.0,1.0
25%,9.9,289.3248,2.0,24.952422,121.496866,18.422493,2012.0,3.0
50%,16.45,506.1144,5.0,24.974353,121.520912,30.39407,2013.0,6.0
75%,30.375,1454.279,6.75,24.994947,121.544676,40.615184,2013.0,10.0
max,42.7,6306.153,10.0,25.014578,121.565321,65.571716,2013.0,12.0


In [None]:
data

Unnamed: 0,Transaction date,House age,Distance to the nearest MRT station,Number of convenience stores,Latitude,Longitude,House price of unit area
0,2012-09-02 16:42:30.519336,13.3,4082.01500,8,25.007059,121.561694,6.488673
1,2012-09-04 22:52:29.919544,35.5,274.01440,2,25.012148,121.546990,24.970725
2,2012-09-05 01:10:52.349449,1.1,1978.67100,10,25.003850,121.528336,26.694267
3,2012-09-05 13:26:01.189083,22.2,1055.06700,5,24.962887,121.482178,38.091638
4,2012-09-06 08:29:47.910523,8.5,967.40000,6,25.011037,121.479946,21.654710
...,...,...,...,...,...,...,...
409,2013-07-25 15:30:36.565239,18.3,170.12890,6,24.981186,121.486798,29.096310
410,2013-07-26 17:16:34.019780,11.9,323.69120,2,24.950070,121.483918,33.871347
411,2013-07-28 21:47:23.339050,0.0,451.64190,8,24.963901,121.543387,25.255105
412,2013-07-29 13:33:29.405317,35.9,292.99780,5,24.997863,121.558286,25.285620


### Data Preprocessing

Die Vorverarbeitung:


1.   Date (string format) in ein datetime object konvertieren
2.   Die kontinuierlichen Features skalieren
3.   Datensatz in einen Trainings- und Testsatz teilen (80/20)



In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import datetime

# convert "Transaction date" to datetime and extract year and month
data['Transaction date'] = pd.to_datetime(data['Transaction date'])
data['Transaction year'] = data['Transaction date'].dt.year
data['Transaction month'] = data['Transaction date'].dt.month

# drop the original "Transaction date" as we've extracted relevant features
data = data.drop(columns=['Transaction date'])

# define features and target variable
X = data.drop('House price of unit area', axis=1)
y = data['House price of unit area']

# split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# scale the features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

X_train_scaled.shape

(331, 7)

In [None]:
X_test_scaled.shape

(83, 7)

Als nächstes vergleichen wir mehrere Modelle trainieren und ihre Leistung. Wir beginnen mit einigen häufig verwendeten Modellen für Regression Aufgaben:

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.metrics import mean_absolute_error, r2_score

# initialize the models
models = {
    "Linear Regression": LinearRegression(),
    "Decision Tree": DecisionTreeRegressor(random_state=42),
    "Random Forest": RandomForestRegressor(random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(random_state=42),
    "KNeighborsRegressor": KNeighborsRegressor(),
    "XGBRegressor": XGBRegressor()
}

# dictionary to hold the evaluation metrics for each model
results = {}

# train and evaluate each model
for name, model in models.items():
    # training the model
    model.fit(X_train_scaled, y_train)

    # making predictions on the test set
    predictions = model.predict(X_test_scaled)

    # calculating evaluation metrics
    rmse = mean_squared_error(y_test, predictions)**.5
    mae = mean_absolute_error(y_test, predictions)
    r2 = r2_score(y_test, predictions) # R_Squared

    # storing the metrics
    results[name] = {"RMSE": rmse, "MAE": mae, "R²": r2}

results_df = pd.DataFrame(results).T  # convert the results to a DataFrame for better readability
print(results_df)

                          RMSE        MAE        R²
Linear Regression    11.407382   9.748246  0.529615
Decision Tree        14.830404  11.760342  0.204962
Random Forest        11.648172   9.887601  0.509547
Gradient Boosting    12.039139  10.000117  0.476071
KNeighborsRegressor  11.859810   9.753909  0.491563
XGBRegressor         12.619621  10.511031  0.424329


In [None]:
# r² score 0.53

Die lineare Regression weist den niedrigsten MAE von 9,75 sowie den höchsten R²-Wert von 0,53 auf und erweist sich somit als das leistungsstärkste Modell

Summary:

Durch die systematische Analyse verschiedener Modelle streben wir an, den optimalen Algorithmus zu identifizieren, der für die jeweilige Fragestellung ein ausgewogenes Verhältnis zwischen Genauigkeit, Komplexität und Leistung bietet. In diesem Kontext zeigt die Analyse, dass die lineare Regression den niedrigsten MAE von 9,75 und den höchsten R²-Wert von 0,53 erzielt hat. Damit erweist sie sich als das leistungsstärkste Modell unter den untersuchten Ansätzen. Diese Ergebnisse legen nahe, dass die lineare Regression, trotz ihrer Einfachheit, für diesen Datensatz überraschend effektiv ist und ein vielversprechendes Werkzeug für die Vorhersage in diesem Kontext darstellt

**Zusätzlich noch ein Deep Learning Modell**

In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

In [None]:
X = data.drop('House price of unit area', axis=1)
y = data['House price of unit area']

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model=Sequential()
model.add(Dense(19,activation='relu'))
model.add(Dense(19,activation='relu'))
model.add(Dense(19,activation='relu'))
model.add(Dense(19,activation='relu'))
model.add(Dense(19,activation='relu'))
model.add(Dense(1)) #regression
model.compile(loss='mse', optimizer='adam')

In [None]:
model.fit(X_train,y_train,validation_data=(X_test,y_test),batch_size=128,epochs=150)

Epoch 1/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 145ms/step - loss: 30759.5352 - val_loss: 21092.2070
Epoch 2/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step - loss: 19189.4473 - val_loss: 13524.0059
Epoch 3/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 12291.2109 - val_loss: 8844.3818
Epoch 4/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 18ms/step - loss: 7769.2524 - val_loss: 5836.0107
Epoch 5/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step - loss: 5216.1387 - val_loss: 3880.5061
Epoch 6/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 3379.9600 - val_loss: 2749.2883
Epoch 7/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - loss: 2420.8369 - val_loss: 2034.1903
Epoch 8/150
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 1780.9028 - val_loss: 1560.0491
Ep

<keras.src.callbacks.history.History at 0x7932ab188b50>

In [None]:
model.summary()