In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error


In [3]:
df_camping_analysis = pd.read_csv('df_camping_analysis.csv', encoding='utf-8')
df_camping_analysis_no_outl = pd.read_csv('df_camping_analysis_no_outl.csv', encoding='utf-8')

### Train-Test-Split
die Aufteilung von Training- und Testdaten sollte immer vor der Standardisierung oder jeglicher anderen Form der Datenvorverarbeitung durchgeführt werden:
Vermeidung von Datenlecks: Wenn du die Standardisierung vor der Aufteilung durchführst, wird die Information aus den Testdaten in die Standardisierungsparameter (Mittelwert und Standardabweichung) einbezogen, was zu Datenlecks führt. Das Modell erhält somit indirekt Informationen über die Testdaten, was zu unrealistisch guten Ergebnissen führt.

Replizierbarkeit: Wenn die Standardisierung nach der Aufteilung durchgeführt wird, ist der Prozess besser replizierbar und die Ergebnisse sind realistisch, da die Standardisierung nur auf Basis der Trainingsdaten erfolgt und auf die Testdaten angewendet wird.

In [4]:
X = df_camping_analysis.drop(['Preis'],axis = 1)
y = df_camping_analysis['Preis']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
model_random = RandomForestRegressor(random_state= 42) #n_estimators=10,
model_random = model_random.fit(X_train, y_train)

In [10]:
y_test_pred = model_random.predict(X_test)
y_tain_pred = model_random.predict(X_train)

r2_test = model_random.score(X_test, y_test)
print('R2 Testdaten:', r2_test)
mse_rf = mean_squared_error(y_test, y_test_pred)
print(f'MSE Testdaten: {mse_rf}')

r2_train = model_random.score(X_train, y_train)
print('R2 Trainingsdaten:', r2_train)
mse_rf_train = mean_squared_error(y_train, y_tain_pred)
print(f'MSE Trainingsdaten: {mse_rf_train}')

R2 Testdaten: 0.5275759417319055
MSE Testdaten: 68.69293112500007
R2 Trainingsdaten: 0.9528289926421384
MSE Trainingsdaten: 10.65314471948758


# Datensatz exkl. Ausreisser
### Train-Test-Split

In [11]:
X_o = df_camping_analysis_no_outl.drop(['Preis'],axis = 1)
y_o = df_camping_analysis_no_outl['Preis']

X_train_o, X_test_o, y_train_o, y_test_o = train_test_split(X_o, y_o, test_size=0.2, random_state=42)

In [12]:
model_random_o = RandomForestRegressor(random_state= 42) #n_estimators=10,
model_random_o = model_random_o .fit(X_train_o , y_train_o )

In [13]:
y_test_pred_o = model_random_o.predict(X_test_o)
y_tain_pred_o = model_random_o.predict(X_train_o)

r2_test_o = model_random_o.score(X_test_o, y_test_o)
print('R2 Testdaten:', r2_test_o)
mse_rf_o = mean_squared_error(y_test_o, y_test_pred_o)
print(f'MSE Testdaten: {mse_rf_o}')

r2_train_o = model_random_o.score(X_train_o, y_train_o)
print('R2 Trainingsdaten:', r2_train_o)
mse_rf_train_o = mean_squared_error(y_train_o, y_tain_pred_o)
print(f'MSE Trainingsdaten: {mse_rf_train_o}')

R2 Testdaten: 0.5493890574761922
MSE Testdaten: 62.37349614189185
R2 Trainingsdaten: 0.9470140316282912
MSE Trainingsdaten: 6.437346574970989


In [None]:
feature_importances = model_random.feature_importances_
print('Feature Importance:', feature_importances)

In [None]:
importances = model_random.feature_importances_
for i, importance in enumerate(importances):
    print(f"Feature {i}: {importance}")

In [None]:
feature_names = ['sport_fields_result', 'watersports_facilities_result', 'rentals_sporting_goods_result', 'entertainment', 'playground', 'disco', 'wifi', 'TV lounge', 'tourist pitches', 'other accommodation', 'pitch at the waterfront','small pitch (<80 m2)', 'medium pitch  (~100 m2)', 'large pitch  (>110 m2)', 'easy access for disabled people', 'animals allowed', 'kitchen', 'BBQ area', 'open[%]', 'main season', 'low season', 'restaurant_bars_result', 'shopping_result', 'washing_result', 'star category', 'membership_result', 'hiking', 'water_side_result', 'activities', 'public_transport_result']

# Kombiniere Feature-Namen mit deren Wichtigkeiten
feature_importance_with_names = list(zip(feature_names, feature_importances))

# Sortiere nach Wichtigkeit absteigend
feature_importance_with_names_sorted = sorted(feature_importance_with_names, key=lambda x: x[1], reverse=True)

# Ausgabe der sortierten Feature-Importance mit Feature-Namen
for feature, importance in feature_importance_with_names_sorted:
    print(f"{feature}: {importance}")