## 3.Feature Engineering und Modell Training

In [12]:
# Module import
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('../data (clean)/df_clean.csv')
df.head()

Unnamed: 0,Marke,Modell,Baujahr,Getriebe,Kilometerstand,Kraftstoffart,Verbrauch (l/100km),Motorgröße (l),Preis (€),Steuer (€)
0,Audi,A1,2017,Manuell,25322,Benzin,4.25,1.4,14375.0,172.5
1,Audi,A6,2016,Automatik,58262,Diesel,3.66,2.0,18975.0,23.0
2,Audi,A1,2016,Manuell,48193,Benzin,4.25,1.4,12650.0,34.5
3,Audi,A4,2017,Automatik,41765,Diesel,3.5,2.0,19320.0,166.75
4,Audi,A3,2019,Manuell,3215,Benzin,4.74,1.0,19895.0,166.75


Da wir ein Modell zur Preisvorhersage erstellen möchten, wird die Spalte "Preis (€)" unsere Zielvariable sein. Die anderen Spalten können als Features verwendet werden. Einige davon sind kategorisch, wie z.B. Marke und Getriebe, und müssen entsprechend behandelt werden.

Hier ist ein Vorschlag für das Feature Engineering:

- Kategorische Variablen: Wir werden die Spalten "Marke", "Modell", "Getriebe" und "Kraftstoffart" in numerische Variablen umwandeln, indem wir One-Hot-Encoding verwenden.

- Numerische Variablen: Baujahr, Kilometerstand, Verbrauch, Motorgröße und Steuer (€) können als numerische Features verwendet werden.

In [13]:
# Kategorische Variablen, die in numerische umgewandelt werden müssen
categorical_columns = ['Marke', 'Modell', 'Getriebe', 'Kraftstoffart']

# Anwenden von One-Hot-Encoding auf die kategorischen Variablen
df_encoded = pd.get_dummies(df, columns=categorical_columns)

# Anzeigen der ersten Zeilen des transformierten DataFrames
df_encoded.head()


Unnamed: 0,Baujahr,Kilometerstand,Verbrauch (l/100km),Motorgröße (l),Preis (€),Steuer (€),Marke_Audi,Marke_Bmw,Marke_Ford,Marke_Hyundi,...,Modell_220,Modell_230,Getriebe_Automatik,Getriebe_Halbautomatisch,Getriebe_Manuell,Kraftstoffart_Andere,Kraftstoffart_Benzin,Kraftstoffart_Diesel,Kraftstoffart_Elektrisch,Kraftstoffart_Hybrid
0,2017,25322,4.25,1.4,14375.0,172.5,1,0,0,0,...,0,0,0,0,1,0,1,0,0,0
1,2016,58262,3.66,2.0,18975.0,23.0,1,0,0,0,...,0,0,1,0,0,0,0,1,0,0
2,2016,48193,4.25,1.4,12650.0,34.5,1,0,0,0,...,0,0,0,0,1,0,1,0,0,0
3,2017,41765,3.5,2.0,19320.0,166.75,1,0,0,0,...,0,0,1,0,0,0,0,1,0,0
4,2019,3215,4.74,1.0,19895.0,166.75,1,0,0,0,...,0,0,0,0,1,0,1,0,0,0


Als nächstes werden wir die numerischen Variablen skalieren, damit sie alle in einem ähnlichen Bereich liegen. Dies wird dazu beitragen, dass das Modell während des Trainings schneller konvergiert. Wir werden die Spalten "Baujahr", "Kilometerstand", "Verbrauch (l/100km)", "Motorgröße (l)" und "Steuer (€)" skalieren.

In [14]:
from sklearn.preprocessing import StandardScaler

# Spalten, die skaliert werden müssen
numeric_columns = ['Baujahr', 'Kilometerstand', 'Verbrauch (l/100km)', 'Motorgröße (l)', 'Steuer (€)']

# StandardScaler-Instanz erstellen
scaler = StandardScaler()

# Skalieren der numerischen Spalten
df_encoded[numeric_columns] = scaler.fit_transform(df_encoded[numeric_columns])

# Anzeigen der ersten Zeilen des skalierten DataFrames
df_encoded.head()


Unnamed: 0,Baujahr,Kilometerstand,Verbrauch (l/100km),Motorgröße (l),Preis (€),Steuer (€),Marke_Audi,Marke_Bmw,Marke_Ford,Marke_Hyundi,...,Modell_220,Modell_230,Getriebe_Automatik,Getriebe_Halbautomatisch,Getriebe_Manuell,Kraftstoffart_Andere,Kraftstoffart_Benzin,Kraftstoffart_Diesel,Kraftstoffart_Elektrisch,Kraftstoffart_Hybrid
0,-0.031973,-0.355371,-0.087267,-0.474325,14375.0,0.460867,1,0,0,0,...,0,0,0,0,1,0,1,0,0,0
1,-0.506393,0.616483,-0.262611,0.599879,18975.0,-1.626849,1,0,0,0,...,0,0,1,0,0,0,0,1,0,0
2,-0.506393,0.31941,-0.087267,-0.474325,12650.0,-1.466256,1,0,0,0,...,0,0,0,0,1,0,1,0,0,0
3,-0.031973,0.129759,-0.310161,0.599879,19320.0,0.38057,1,0,0,0,...,0,0,1,0,0,0,0,1,0,0
4,0.916867,-1.007611,0.058357,-1.190461,19895.0,0.38057,1,0,0,0,...,0,0,0,0,1,0,1,0,0,0


In [15]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

# Zielvariable und Features trennen
X = df_encoded.drop(columns=['Preis (€)'])
y = df_encoded['Preis (€)']


In [16]:
# Aufteilen der Daten in Trainings- und Testsets (80% Training, 20% Test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanz des Random Forest Regressors mit weniger Bäumen erstellen
rf_regressor_reduced = RandomForestRegressor(n_estimators=20, random_state=42)

# Trainieren des Modells
rf_regressor_reduced.fit(X_train, y_train)

# Feature-Importance aus dem Modell extrahieren
feature_importance_reduced = rf_regressor_reduced.feature_importances_

# Erstellen eines DataFrames, um die Feature-Importance anzuzeigen
feature_importance_df_reduced = pd.DataFrame({
    'Feature': X.columns,
    'Importance': feature_importance_reduced
})

# Sortieren der Features nach Bedeutung
feature_importance_df_reduced = feature_importance_df_reduced.sort_values(by='Importance', ascending=False)

# Anzeigen der Top 10 wichtigsten Features
feature_importance_df_reduced.head(10)

Unnamed: 0,Feature,Importance
211,Getriebe_Manuell,0.297441
3,Motorgröße (l),0.256933
0,Baujahr,0.239038
2,Verbrauch (l/100km),0.049647
1,Kilometerstand,0.045039
4,Steuer (€),0.008755
5,Marke_Audi,0.007456
9,Marke_Mercedes,0.005194
22,Modell_ A Class,0.004838
12,Marke_Vauxhall,0.004248


In [17]:
# Auswahl der gewünschten Features für die Feature-Matrix
selected_features = [
    'Getriebe_Manuell',
    'Motorgröße (l)',
    'Baujahr',
    'Verbrauch (l/100km)',
    'Kilometerstand'
]

# Auswahl der Zielvariable
target_variable = 'Preis (€)'

# Erstellen der Feature-Matrix (X) und der Zielvariable (y)
X = df_encoded[selected_features]
y = df_encoded[target_variable]

In [18]:
# Pfade für die CSV-Dateien
feature_matrix_path = '../model/feature_matrix.csv'
target_variable_path = '../model/target_variable.csv'

# Speichern der Feature-Matrix (X) als CSV
X.to_csv(feature_matrix_path, index=False)

# Speichern der Zielvariable (y) als CSV
y.to_csv(target_variable_path, index=False)