# Decision Tree Regressor

In dit notebook zal een Decision Tree Regressor model gebruikt worden om de duur van een storing te voorspellen. Dit wordt gedaan met feature variabelen die gevonden en geprepareerd zijn in "DataPrep.ipynb"

In [None]:
# importeren gebruikte libraries
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from baseline import calculate_baseline
import matplotlib.pyplot as plt
import pandas as pd
import pickle
from math import sqrt

In [None]:
# inladen data (al geprepareerd in ander bestand)
model_df = pd.read_csv('data/model_df.csv', index_col=0, engine='pyarrow')
model_df.sample(5)

Er wordt een Decision Tree Regressor getraint met de features eerder geprepareerd. Eerst wordt er een test-train split gemaakt om het model mee te trainen en mee te testen. Daarna worden er modellen getraint met verschillende max_depths. Dit wordt geplot en in deze plots is te zien wat een goede depth is voor het model.

In [None]:
X = model_df.drop('anm_tot_fh', axis=1)
y = model_df['anm_tot_fh']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
depths = range(1, 16) 

rmse = []
r2 = []
# Train DTR model met verschillende max_depths
for depth in depths:
    regressor = DecisionTreeRegressor(max_depth=depth, criterion='squared_error', random_state=42)
    regressor.fit(X_train, y_train)
    predictions = regressor.predict(X_test)
    rmse.append(sqrt(mean_squared_error(y_test, predictions)))
    r2.append(r2_score(y_test, predictions))
    print(f"Depth {depth} done")

Hieronder wordt gekeken wat voor soort diepte goed is voor dit model. We pakken hier een max_depth van 10, omdat de grafiek hier afvlakt. Met een hogere max_depth zal het model snel overfit raken.

In [None]:
# Two plots side by side, first one showing RMSE and second one showing R2 score
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

ax1.plot(depths, rmse, marker='o', linestyle='-', color='b')
ax1.set_title('Depth vs. RMSE for Decision Tree Regressor')
ax1.set_xlabel('Max Depth')
ax1.set_ylabel('RMSE')
ax1.set_xticks(depths)
ax1.grid(True)

ax2.plot(depths, r2, marker='o', linestyle='-', color='b')
ax2.set_title('Depth vs. R2 for Decision Tree Regressor')
ax2.set_xlabel('Max Depth')
ax2.set_ylabel('R2')
ax2.set_xticks(depths)
ax2.grid(True)

plt.show()

Train het model met de gevonden max_depth. Het model wordt gepickled en opgeslagen zodat deze gerbuikt kan worden in de GUI. Daarna wordt het model vergeleken met de baseline.

In [None]:
max_depth = 10
regressor = DecisionTreeRegressor(max_depth=max_depth, criterion='squared_error', random_state=42)

regressor.fit(X_train, y_train)

y_pred = regressor.predict(X_test)

rmse = sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

y_pred = regressor.predict(X_test)

# pickle a regressor model and create new file if it doesn't exist
with open('models/DecisionTreeRegressor.pkl', 'wb') as file:
    pickle.dump(regressor, file)

print("Root Mean Squared Error: ", rmse)
print("R-squared (R2) Score: ", r2)

baseline_rmse, baseline_r2 = calculate_baseline(model_df)
print('Baseline RMSE: ', baseline_rmse)
print('Baseline R2: ', baseline_r2)

## Conclusie

Het model is met een minimaal verschil beter dan de baseline (de RMSE is een heel klein beetje lager en de R2 score is een heel klein beetje hoger).