## 3. Feature Engineering

In [12]:
# Module import
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('../data (clean)/cleaned_data.csv')
df.head()

Unnamed: 0,Marke,Modell,Baujahr,Getriebe,Kilometerstand,Kraftstoffart,Verbrauch (l/100km),Motorgröße (l),Preis (€),Steuer (€)
0,Audi,A1,2017,Manuell,25322,Benzin,4.25,1.4,14375.0,172.5
1,Audi,A6,2016,Automatik,58262,Diesel,3.66,2.0,18975.0,23.0
2,Audi,A1,2016,Manuell,48193,Benzin,4.25,1.4,12650.0,34.5
3,Audi,A4,2017,Automatik,41765,Diesel,3.5,2.0,19320.0,166.75
4,Audi,A3,2019,Manuell,3215,Benzin,4.74,1.0,19895.0,166.75


In [13]:
df = df.drop(columns='Steuer (€)')

Da wir ein Modell zur Preisvorhersage erstellen möchten, wird die Spalte "Preis (€)" unsere Zielvariable sein. Die anderen Spalten können als Features verwendet werden. Einige davon sind kategorisch, wie z.B. Marke und Getriebe, und müssen entsprechend behandelt werden.

Hier ist ein Vorschlag für das Feature Engineering:

- Kategorische Variablen: Wir werden die Spalten "Marke", "Modell", "Getriebe" und "Kraftstoffart" in numerische Variablen umwandeln, indem wir One-Hot-Encoding verwenden.

- Numerische Variablen: Baujahr, Kilometerstand, Verbrauch, Motorgröße und Steuer (€) können als numerische Features verwendet werden.

In [14]:
# Importing necessary library for encoding
from sklearn.preprocessing import LabelEncoder

# Applying Label Encoding to the categorical columns
label_columns = ['Marke', 'Modell', 'Getriebe', 'Kraftstoffart']

# Creating a copy of the DataFrame for further processing
df_encoded = df.copy()


for column in label_columns:
    encoder = LabelEncoder()
    df_encoded[column] = encoder.fit_transform(df_encoded[column])

# Displaying the first few rows of the encoded DataFrame
df_encoded.head()


Unnamed: 0,Marke,Modell,Baujahr,Getriebe,Kilometerstand,Kraftstoffart,Verbrauch (l/100km),Motorgröße (l),Preis (€)
0,0,9,2017,2,25322,1,4.25,1.4,14375.0
1,0,14,2016,0,58262,2,3.66,2.0,18975.0
2,0,9,2016,2,48193,1,4.25,1.4,12650.0
3,0,12,2017,0,41765,2,3.5,2.0,19320.0
4,0,11,2019,2,3215,1,4.74,1.0,19895.0


In [15]:
# Calculating the age of the car
current_year = 2023
df_encoded['Alter'] = current_year - df_encoded['Baujahr']

# Separating the features and target variable
X = df_encoded.drop(columns=['Preis (€)'])
y = df_encoded['Preis (€)']

# Saving the feature matrix and target variable as CSV files
feature_matrix = '../model/feature_matrix.csv'
target_variable = '../model/target_variable.csv'


# Speichern der Feature-Matrix und der Zielvariable als CSV-Dateien
X.to_csv('../model/feature_matrix.csv', index=False)  # Feature-Matrix in 'feature_matrix.csv' speichern
y.to_csv('../model/target_variable.csv', index=False)  # Zielvariable in 'target_variable.csv' speichern

In [16]:
import pickle

# Dictionary to hold the LabelEncoder instances
encoders = {}

# Applying Label Encoding to the categorical columns and saving the encoders
for column in label_columns:
    encoder = LabelEncoder()
    df_encoded[column] = encoder.fit_transform(df_encoded[column])
    encoders[column] = encoder

# Save the encoders to a file in the 'model' folder
with open('../model/encoders.pkl', 'wb') as file:
    pickle.dump(encoders, file)
