<span style="color:DarkBlue;font-size:18px">Semesterabschließende schriftliche Ausarbeitung im Modul Machine Learning (SS2023)</span>

<span style="color:DarkBlue;font-size:32px">Preisvorhersage von Gebrauchtwagen </span>

<span style="color:DarkBlue;font-size:18px"> Bearbeitet von M.Sc. Onur Yilmaz</span>

### Inhaltsverzeichnis

#### [Einleitung](#Einleitung)
#### [1. Datenaufbereitung](#Datenaufbereitung)
##### [1.1. Daten extrahieren](#Daten-extrahieren)
##### [1.2. Daten bereinigen](#Daten-bereinigen)
##### [1.3. Daten transformieren](#Daten-transformieren)
#### [2. Explorative Datenanalyse](#Explorative-Datenanalyse)
#### [3. Feature Engineering](#Feature-Engineering)
#### [4. Modell Auswahl und Training](#Modell-Auswahl-und-Training)
#### [5. Modell Bewertung](#Modell-Bewertung)
#### [6. Streamlit](#Streamlit)
#### [Literaturverzeichnis](#Literaturverzeichnis)


### <a id="Einleitung"></a>**Einleitung**

In der vorliegenden semesterabschließenden Arbeit wird ein aufbereiteter Datensatz von 100.000 gebrauchten Autoanzeigen aus dem Vereinigten Königreich analysiert. Der Datensatz wurde von der Plattform Kaggle bezogen - https://www.kaggle.com/datasets/adityadesai13/used-car-dataset-ford-and-mercedes.

Das Hauptziel dieser Arbeit ist die Wahl und Implementierung eines geeigneten maschinellen Lernmodells zur Preisvorhersage von Gebrauchtwagen.

Die Arbeit gliedert sich in verschiedene Abschnitte, beginnend mit der Datenaufbereitung, gefolgt von der explorativen Datenanalyse und dem Feature Engineering. Anschließend wird das passende Modell ausgewählt und trainiert, bevor es bewertet wird. Zusätzlich wird die Implementierung in Streamlit durchgeführt, um eine interaktive Webanwendung zur Darstellung der Ergebnisse zu erstellen.

Der Datensatz ist in einzelne Dateien nach Autoherstellern unterteilt und enthält Informationen wie Preis, Getriebe, Kilometerstand, Kraftstoffart, Kfz-Steuer, Verbrauch in Meilen pro Gallone (mpg) und Motorgröße.

*Das gesamte Projekt kann aus dem folgenden Repository geklont werden: https://www.github.com/ONURYI*

### <a id="Datenaufbereitung"></a>**1. Datenaufbereitung**

#### <a id="Daten-extrahieren"></a>**1.1. Daten extrahieren**

Die Datenaufbereitung stellt im Prozess des maschinellen Lernens oft einen entscheidenden, aber zugleich zeitaufwendigen Schritt dar. Sie umfasst diverse Techniken zur Säuberung, Transformation und Organisation der Rohdaten, um sie in ein für die Analyse passendes Format zu überführen. Diese Etappe legt das solide Fundament für die Erstellung eines Modells, da sie die Qualität und Relevanz der Daten gewährleistet. Dies trägt maßgeblich zur Präzision und Leistungsfähigkeit des endgültigen Modells bei [2].

Im Kontext unseres Projektes verwenden wir folgende CSV-Dateien (CSV = Comma-Separated Values):

- audi.csv
- bmw.csv
- ford.csv
- hyundai.csv
- mercedes.csv
- skoda.csv
- toyota.csv
- vauxhall.csv
- vw.csv

Diese Dateien sind im Ordner **/data** gespeichert und werden nach dem Aufbereitungs- und Bereinigungsprozess im Ordner **/data (clean)** als einzige zusammengefasste CSV-Datei abgelegt.

Für diesen Abschnitt wird ausschließlich auf die weit verbreitete **Pandas-Bibliothek** zurückgegriffen, welche sich als leistungsfähiges Werkzeug zur Datenmanipulation und -analyse etabliert hat. Hierbei lesen wir die Daten aus und stellen die Daten als sog. **DataFrames** dar, da sie eine standardisierte, zweidimensionale Struktur bieten, die das Speichern, Manipulieren und Analysieren von tabellarischen Daten vereinfacht, wodurch die Datenanalyse und -verarbeitung insgesamt effizienter und übersichtlicher wird [3].

In [None]:
import pandas as pd

Wir lesen nun die ersten CSV-Files aus, uns erst einmal einen Überblick zu verschaffen:

In [None]:
df_audi =  pd.read_csv('../data/audi.csv')
df_ford  =  pd.read_csv('../data/ford.csv')

In [None]:
df_audi.head()

In [None]:
df_ford.head()

Der Befehl *df.shape* gibt uns Auskunft über die zugehörige Dimension unseres DataFrames. Die erste Zahl, gibt die Anzahl der Zeilen und die zweite Zahl, die Anzahl der Spalten (auch Variable oder Merkmale genannt) wieder.

In [None]:
print(df_audi.shape)
print(df_ford.shape)

Um schließlich einen umfassenden Datensatz zu erhalten, fassen wir diesen in einem DataFrame zusammen, wobei wir eine zusätzliche Spalte hinzugefügt haben, die als brand bezeichnet wird und die Marke des Modells enthält.

In [None]:
file_paths = [
    '../data/audi.csv',
    '../data/bmw.csv',
    '../data/ford.csv',
    '../data/hyundi.csv',
    '../data/mercedes.csv',
    '../data/skoda.csv',
    '../data/toyota.csv',
    '../data/vauxhall.csv',
    '../data/vw.csv',
]

all_dataframes = []

# Durchlaufe alle Dateipfade und lade die CSV-Dateien
for file_path in file_paths:
    df = pd.read_csv(file_path)
    brand = file_path.split('/')[-1].split('.')[0]  # Extrahiere die Marke aus dem Dateinamen
    df['brand'] = brand  # Füge eine Spalte mit der Marke hinzu
    # Ändere die Reihenfolge der Spalten, um "brand" an den Anfang zu setzen
    df = df[['brand'] + [col for col in df.columns if col != 'brand']]
    all_dataframes.append(df)

df = pd.concat(all_dataframes, ignore_index=True)

In [None]:
df.head()

In [None]:
df.shape

#### <a id="Daten-bereinigen"></a>**1.2. Daten bereinigen**

Um redundate Daten vorzubeugen müssen wir vorab unsere Daten auf Duplikate prüfen:

In [None]:
duplicate_count = df.duplicated().sum()
print(duplicate_count)

df = df.drop_duplicates()

df.shape

Insgesamt hat sich der Datensatz somit um 1457 Zeilen reduziert. 

Als nächsten Schritt prüfen wir den Datensatz anschließend auf fehlende Werte:

In [None]:
missing_values = df.isnull().sum()
missing_values[missing_values > 0]

Es gibt fehlende Werte in den Spalten tax, mpg, und tax(£). 

Gerade die Spalte tax(£) scheint in einem großen Teil des Datensatzes zu fehlen, weshalb wir die Spalte entfernen können, aufgrund fehlendem Informationsgehalt.


Die anderen Spalten könnten wir die fehlenden Werte mit geeigneten Methoden behandeln, wie z.B. durch das Ausfüllen mit dem Durchschnittswert oder Median.

In [None]:
df = df.drop(columns=['tax(£)'])
df['tax'].fillna(df['tax'].median(), inplace=True)
df['mpg'].fillna(df['mpg'].median(), inplace=True)

In [None]:
df.isnull().sum()

Nun nachdem wir geprüft haben, dass auch die Daten keine fehlenden Werte (**missing values**) mehr enthalten, müssen wir nun schauen das unsere Daten insgesamt plausibel sind.

In [None]:
print(df['year'].min())
print(df['year'].max())

Diese problematischen Zeilen müssen wir nun einmal filtern.

In [None]:
df = df[(df['year'] != 1970) & (df['year'] != 2060)]

In [None]:
df.shape

In [None]:
unique_values_counts = df['transmission'].value_counts()

print("Einzelne eindeutige Werte und ihre Häufigkeit:")
print(unique_values_counts)

In [None]:
unique_values_counts = df['fuelType'].value_counts()

print("Einzelne eindeutige Werte und ihre Häufigkeit:")
print(unique_values_counts)

#### <a id="Daten-transformieren"></a>**1.3. Daten transformieren**

Da es sich bei dem vorliegenden Datensatz um einen UK-Datensatz handelt, waren die Spalten und Zeilen ursprünglich für den englischsprachigen Raum konzipiert. Um jedoch eine bessere Interpretierbarkeit unserer Daten im deutschsprachigen Kontext zu gewährleisten, haben wir die Daten entsprechend transformiert. 

**Es ist wichtig zu betonen, dass die Konvertierung von Einheiten und die Abweichung von den Rohdaten problematisch sein können!**

Hierbei wurde [4] hinzugezogen um noch einmal auf die Richtigkeit der Funktionen zu überprüfen und nachzujustieren.

In [None]:
# Funktion Umrechnung von (mpg) zu (l/100km)
def mpg_to_l_per_100km(mpg):
    return 235.215 / mpg

# Funktion Umrechnung Meilen zu km
def miles_to_km(miles):
    return miles * 1.60934

In [None]:
df.columns = [
    'Marke', 'Modell', 'Baujahr', 'Preis (£)', 'Getriebe', 'Kilometerstand', 'Kraftstoffart', 'Steuer (£)', 'Verbrauch (l/100km)', 'Motorgröße (l)']

df['Getriebe'] = df['Getriebe'].map({'Manual': 'Manuell', 
                                     'Automatic': 'Automatik', 
                                     'Semi-Auto': 'Halbautomatisch'})

df['Kraftstoffart'] = df['Kraftstoffart'].map({'Petrol': 'Benzin', 
                                               'Diesel': 'Diesel', 
                                               'Hybrid': 'Hybrid',
                                               'Other': 'Andere',
                                               'Electric': 'Elektrisch'})

df['Kilometerstand'] = df['Kilometerstand'].apply(miles_to_km).astype(int)

df['Verbrauch (l/100km)'] = df['Verbrauch (l/100km)'].apply(mpg_to_l_per_100km).round(2)

df['Marke'] = df['Marke'].str.capitalize()

In [None]:
# Wechselkurs von Pfund zu Euro festlegen
exchange_rate = 1.15

# Umrechnung der Preise und Steuern von Pfund in Euro
df['Preis (€)'] = df['Preis (£)'] * exchange_rate
df['Steuer (€)'] = df['Steuer (£)'] * exchange_rate

df['Preis (€)']


# Entfernen der alten Spalten in Pfund
df.drop(columns=['Preis (£)', 'Steuer (£)'], inplace=True)

In [None]:
string_columns = ['Marke', 'Modell', 'Getriebe', 'Kraftstoffart']

# Leerzeichen in den ausgewählten Spalten entfernen
df[string_columns] = df[string_columns].apply(lambda x: x.str.replace(" ", ""))

In [None]:
df

Speichern unseres bereinigten Datensatzes in der Ordner **\data (clean)**:

In [None]:
df.to_csv('../data (clean)/df_clean.csv', index=False)

### <a id="Explorative-Datenanalyse"></a>**2. Explorative Datenanalyse**


### **Literaturverzeichnis**

[1] https://www.kaggle.com/datasets/adityadesai13/used-car-dataset-ford-and-mercedes (01.08.2023)

[2] Müller, A. C., & Guido, S. (2021). Introduction to Machine Learning with Python: A Guide for Data Scientists (2nd ed.). O'Reilly Media

[3] McKinney, W. (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (2nd ed.). O'Reilly Media.

[4] OpenAI. (2023). Persönliche Kommunikation mit OpenAI's GPT-3.5 Modell. (01.08.2023)
 

