# 1. Data Understanding & Data Correction

Im ersten Teil "Data Understanding & Data Correction" wird versucht, einen ersten Überblick über den Datensatz "Used Car Auction Prices" zu ermöglichen und Probleme innerhalb des Datensatzes in Bezug auf dessen Qualität zu identifizieren. Darüber hinaus wird der Datensatz innerhalb des Notebooks bereinigt, um die Vorbereitung für den folgenden Themenpunkt "Modeling" vorzubereiten.


# 1.1 Import Data & Packages

Im ersten Schritt werden die benötigten Python-Bibliotheken importiert, welche im Verlauf des Punktes "Data Understanding & Data Correction" benutzt werden. Besonders relevant ist dabei die Bibliothek Pandas, welche sowohl für den Import des Datensatzes, als auch für dessen Bereinigung verwendet wird. Für sämtliche Visualisierungen wird die Bibliothek Plotly (Graph Objects).

In [36]:
# Import der Python-Bibliotheken

import pandas as pd

import plotly.express as px
import plotly.graph_objects as go

Anschließend importieren wir mittels der Pandas-Bibliothek den Datensatz "Used Car Auction Prices", welcher als CSV-Datei vorliegt. Aufgrund der teilweise schlechten Qualität des vorliegenden Datensatzes nutzen wir innerhalb der (Pandas) Funktion "read_csv" den Parameter "error_bad_lines=False", um Zeilen zu überspringen, welche Fehler aufgrund von einer fehlerhaften Dateninserierung auslösen. Eine Erklärung, wie es zu den Fehlern kommt erläutere ich in einem späteren Unterpunkt. Zum anderen setzen wir den Parameter "warn_bad_lines=True", um eine Ausgabe der Fehlerdetails einsehen zu können.

In [37]:
# Import des Datensatzes

df = pd.read_csv("/Users/lukas/Documents/MLOPS/PL_2/car_prices.csv", error_bad_lines=False,warn_bad_lines=True)


The error_bad_lines argument has been deprecated and will be removed in a future version. Use on_bad_lines in the future.




The warn_bad_lines argument has been deprecated and will be removed in a future version. Use on_bad_lines in the future.



b'Skipping line 408163: expected 16 fields, saw 17\nSkipping line 417837: expected 16 fields, saw 17\nSkipping line 421291: expected 16 fields, saw 17\nSkipping line 424163: expected 16 fields, saw 17\n'
b'Skipping line 427042: expected 16 fields, saw 17\nSkipping line 427045: expected 16 fields, saw 17\nSkipping line 434426: expected 16 fields, saw 17\nSkipping line 444503: expected 16 fields, saw 17\nSkipping line 453796: expected 16 fields, saw 17\n'
b'Skipping line 461599: expected 16 fields, saw 17\nSkipping line 461614: expected 16 fields, saw 17\n'
b'Skipping line 492486: expected 16 fields, saw 17\nSkipping line 497010: expected 16 fields, saw 17\nSkipping line 497013: expected 16 fields, saw 17\nSkipping line 499085: expected 16 f

# 1.2 Data Overview

Innerhalb des Unterpunkts "Data Overview" erhalten wir einen ersten Überblick zum Datensatz.

Für den Überblick nutzen wir die Methode "head", um die ersten fünf Zeilen des Dataframes einzusehen.

In [38]:
df.head()

Unnamed: 0,year,make,model,trim,body,transmission,vin,state,condition,odometer,color,interior,seller,mmr,sellingprice,saledate
0,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg566472,ca,5.0,16639.0,white,black,"kia motors america, inc",20500,21500,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
1,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg561319,ca,5.0,9393.0,white,beige,"kia motors america, inc",20800,21500,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
2,2014,BMW,3 Series,328i SULEV,Sedan,automatic,wba3c1c51ek116351,ca,4.5,1331.0,gray,black,financial services remarketing (lease),31900,30000,Thu Jan 15 2015 04:30:00 GMT-0800 (PST)
3,2015,Volvo,S60,T5,Sedan,automatic,yv1612tb4f1310987,ca,4.1,14282.0,white,black,volvo na rep/world omni,27500,27750,Thu Jan 29 2015 04:30:00 GMT-0800 (PST)
4,2014,BMW,6 Series Gran Coupe,650i,Sedan,automatic,wba6b2c57ed129731,ca,4.3,2641.0,gray,black,financial services remarketing (lease),66000,67000,Thu Dec 18 2014 12:30:00 GMT-0800 (PST)


## Hintergrund zum Datensatz

Das Datenset "Used Car Auction Prices" basiert auf Daten, welche mittels Webscraping aus dem Internet im Jahr 2015 extrahiert wurden. Das Datenset wird seit diesem Zeitpunkt nicht mehr aktualisiert. Im Kontext des Webscrapings könnte die Durchführung der Datenextraktion ein Grund für die Importprobleme in Punkt 1.1 darstellen. Denn gegebenenfalls wurden spezielle zusätzliche Informationen für verschiedene Autos nicht korrekterweise gefiltert, welche letztendlich in eine zusätzliche Spalte inseriert wurden und somit den Fehler auslösen.

## Erklärung der Variablen

Zum besseren Verständnis ist hier eine kurze Übersicht der Variablen aufgeführt mit den jeweiligen Bedeutungen.

- Date : Produktionsjahr der Autos
- Make : Marke des Autos
- Model : Das Modell des Autos
- Trim : Die Ausführung des Autos
- Body : Die Karosseriebauform des Autos
- Transmission : Getriebearten des Autos
- VIN : Fahrzeugidentifikationsnummer
- State : Bundesstaat in welchem das Auto verkauft wird
- Condition : Zustand des Autos
- Odometer : Kilometerstand des Autos
- Color : Die (Außen-)Farbe des Autos
- Interior : Die Farbe der Inneneinrichtung
- Seller : Der Verkäufer des Autos
- mmr : Manhiem market record, ein Indikator für den (Markt-)Wert des Autos
- sellingprice : Der finale Verkaufspreis
- saledate : Das Verkaufsdatum

Aufgrund der Bedeutung der Variablen werden einige Variablen zur vermeintlich besseren Verwendung umbenannt.

In [39]:
# Spalten umnennen
df = df.rename(columns={"make":"brand","body":"type","sellingprice":"price","saledate":"date"})

Für weitere Detailinformationen nutzen wir die Methoden "info" und "describe", um zum einen, ein Überblick über die Datentypen und die "Non-null"-Werte zu schaffen und zum anderen erhalten wir mit der Methode "describe" einen Überblick über die nummerischen Werte des Datensatzes und deren Verteilung.

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 558811 entries, 0 to 558810
Data columns (total 16 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   year          558811 non-null  int64  
 1   brand         548510 non-null  object 
 2   model         548412 non-null  object 
 3   trim          548160 non-null  object 
 4   type          545616 non-null  object 
 5   transmission  493458 non-null  object 
 6   vin           558811 non-null  object 
 7   state         558811 non-null  object 
 8   condition     547017 non-null  float64
 9   odometer      558717 non-null  float64
 10  color         558062 non-null  object 
 11  interior      558062 non-null  object 
 12  seller        558811 non-null  object 
 13  mmr           558811 non-null  int64  
 14  price         558811 non-null  int64  
 15  date          558811 non-null  object 
dtypes: float64(2), int64(3), object(11)
memory usage: 68.2+ MB


In [41]:
df.describe()

Unnamed: 0,year,condition,odometer,mmr,price
count,558811.0,547017.0,558717.0,558811.0,558811.0
mean,2010.038696,3.424512,68323.195797,13769.324646,13611.262461
std,3.966812,0.949439,53397.752933,9679.874607,9749.656919
min,1982.0,1.0,1.0,25.0,1.0
25%,2007.0,2.7,28374.0,7100.0,6900.0
50%,2012.0,3.6,52256.0,12250.0,12100.0
75%,2013.0,4.2,99112.0,18300.0,18200.0
max,2015.0,5.0,999999.0,182000.0,230000.0


# 1.3 Data Correction

Für die spätere Verwendung des Datensatzes werden die Variablen "vin" und "mmr" nicht benötigt. Aus diesem Grund werden beide Variablen entfernt.

In [42]:
# Entfernen irrelevanter Spalten
df = df.drop(['vin','mmr'],axis=1)

Nun visualisieren wir die fehlenden Werte innerhalb eines Plots. Hierfür müssen zuerst die fehlenden Werte berechnet und in Prozent umgerechnet werden, um anschließend die kalkulierten Werte in die Visualisierung über zu geben.

In [43]:
# Missing Value prüfen

# Berechnungen zur Vorbereitung des folgenden Plots
mv_of_df = df.isna().sum()
len_df = len(df)
mv_p_df = 100*(mv_of_df / len_df)
mv_p_r_df = round(mv_p_df)
cn_of_df = df.columns.values.tolist()

In [44]:
# Visualisierungen für Missing Values

fig = go.Figure([go.Bar(x=cn_of_df, y=mv_p_r_df)])
fig.update_layout(
    xaxis_title="Variablen",
    yaxis_title="Fehlende Werte in %",
    plot_bgcolor="white")

fig.show()

In [45]:
df.count()

year            558811
brand           548510
model           548412
trim            548160
type            545616
transmission    493458
state           558811
condition       547017
odometer        558717
color           558062
interior        558062
seller          558811
price           558811
date            558811
dtype: int64

Aufgrund der großen Anzahl an Einträgen können die fehlenden Werte entfernt werden.

In [46]:
# Löschen der fehlenden Werte
df = df.dropna()  
df.count()

year            472336
brand           472336
model           472336
trim            472336
type            472336
transmission    472336
state           472336
condition       472336
odometer        472336
color           472336
interior        472336
seller          472336
price           472336
date            472336
dtype: int64

In [47]:
print(df.isna().sum()) # Prüfung ob Werte erfolgreich entfernt wurden

year            0
brand           0
model           0
trim            0
type            0
transmission    0
state           0
condition       0
odometer        0
color           0
interior        0
seller          0
price           0
date            0
dtype: int64


Anschließend prüfen wir den Dataframe noch auf Duplikate mit der Methode "duplicated".

In [48]:
duplicate_rows_df = df[df.duplicated()]
print("Anzahl doppelter Einträge: ", duplicate_rows_df.shape)

Anzahl doppelter Einträge:  (0, 14)


Nun werden die Ausprägungen der einzelnen Variablen ausgegeben, um mögliche Komplikationen mit Benennung von Marken o. ä. zu identifizieren.

In [49]:
for col in df:
    print("---------------")
    print(df[col].unique())

---------------
[2015 2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002
 2001 2000 1999 1998 1996 1995 1997 1994 1993 1992 1991 1990]
---------------
['Kia' 'BMW' 'Volvo' 'Nissan' 'Chevrolet' 'Audi' 'Ford' 'Cadillac' 'Acura'
 'Lexus' 'Hyundai' 'Buick' 'Infiniti' 'Jeep' 'Mercedes-Benz' 'Mitsubishi'
 'Mazda' 'MINI' 'Land Rover' 'Lincoln' 'Jaguar' 'Volkswagen' 'Toyota'
 'Subaru' 'Scion' 'Porsche' 'Dodge' 'FIAT' 'Chrysler' 'Ferrari' 'Honda'
 'GMC' 'Ram' 'smart' 'Bentley' 'Pontiac' 'Saturn' 'Maserati' 'Mercury'
 'HUMMER' 'Saab' 'Suzuki' 'Oldsmobile' 'Rolls-Royce' 'Isuzu' 'Plymouth'
 'Tesla' 'Aston Martin' 'Geo' 'Fisker' 'Daewoo' 'Lamborghini' 'Lotus']
---------------
['Sorento' '3 Series' 'S60' '6 Series Gran Coupe' 'Altima' 'M5' 'Cruze'
 'A4' 'Camaro' 'A6' 'Optima' 'Fusion' 'Q5' '6 Series' 'Impala' '5 Series'
 'A3' 'XC70' 'SQ5' 'S5' 'Suburban' 'ELR' 'V60' 'X6' 'ILX' 'K900' 'Malibu'
 'RX 350' 'Versa' 'Elantra' 'Versa Note' 'A8' 'X1' 'Enclave' 'TTS'
 '4 Series' 'MDX' 'Silverad

Insbesondere die Variablen "brand", "model" und "type" sind von der Problematik der unterschiedlichen Schreibweise betroffen. Deshalb wird im Folgenden alle Ausprägungen in Kleinschrift geändert. Dabei werden die Ausprägungen vor und nach Anpassung verglichen.

In [50]:
bu = df['brand'].unique()
mu = df['model'].unique()
tu = df['type'].unique()
print("Ausprägungen der Variable Brand:",bu.__len__())
print("Ausprägungen der Variable Model:",mu.__len__())
print("Ausprägungen der Variable Type:",tu.__len__())

Ausprägungen der Variable Brand: 53
Ausprägungen der Variable Model: 768
Ausprägungen der Variable Type: 85


In [51]:
# Ändere die Ausprägungen der Variablen, um Duplikate mit unterschiedlicher Rechtschreibung zu reduzieren. Dabei wird alles kleingeschrieben.

bu = df['brand'].unique()
mu = df['model'].unique()
tu = df['type'].unique()

df.brand = df.brand.str.lower()
df.model = df.model.str.lower()
df.type = df.type.str.lower()
df

Unnamed: 0,year,brand,model,trim,type,transmission,state,condition,odometer,color,interior,seller,price,date
0,2015,kia,sorento,LX,suv,automatic,ca,5.0,16639.0,white,black,"kia motors america, inc",21500,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
1,2015,kia,sorento,LX,suv,automatic,ca,5.0,9393.0,white,beige,"kia motors america, inc",21500,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
2,2014,bmw,3 series,328i SULEV,sedan,automatic,ca,4.5,1331.0,gray,black,financial services remarketing (lease),30000,Thu Jan 15 2015 04:30:00 GMT-0800 (PST)
3,2015,volvo,s60,T5,sedan,automatic,ca,4.1,14282.0,white,black,volvo na rep/world omni,27750,Thu Jan 29 2015 04:30:00 GMT-0800 (PST)
4,2014,bmw,6 series gran coupe,650i,sedan,automatic,ca,4.3,2641.0,gray,black,financial services remarketing (lease),67000,Thu Dec 18 2014 12:30:00 GMT-0800 (PST)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
558805,2011,bmw,5 series,528i,sedan,automatic,fl,3.9,66403.0,white,brown,lauderdale imports ltd bmw pembrok pines,22800,Tue Jul 07 2015 06:15:00 GMT-0700 (PDT)
558807,2012,ram,2500,Power Wagon,crew cab,automatic,wa,5.0,54393.0,white,black,i -5 uhlmann rv,30800,Wed Jul 08 2015 09:30:00 GMT-0700 (PDT)
558808,2012,bmw,x5,xDrive35d,suv,automatic,ca,4.8,50561.0,black,black,financial services remarketing (lease),34000,Wed Jul 08 2015 09:30:00 GMT-0700 (PDT)
558809,2015,nissan,altima,2.5 S,sedan,automatic,ga,3.8,16658.0,white,black,enterprise vehicle exchange / tra / rental / t...,11100,Thu Jul 09 2015 06:45:00 GMT-0700 (PDT)


In [52]:
bua = df['brand'].unique()
mua = df['model'].unique()
tua = df['type'].unique()

print("Ausprägungen der Variable Brand zuvor:",bu.__len__(),"danach:", bua.__len__())
print("Ausprägungen der Variable Model zuvor:",mu.__len__(),"danach:", mua.__len__())
print("Ausprägungen der Variable Type zuvor:",tu.__len__(),"danach:",tua.__len__())

Ausprägungen der Variable Brand zuvor: 53 danach: 53
Ausprägungen der Variable Model zuvor: 768 danach: 764
Ausprägungen der Variable Type zuvor: 85 danach: 45


Nun exportieren wir den angepassten Datensatz, um diesen in einem späteren Kapitel wiederverwenden zu können.

In [53]:
df.to_csv(r'/Users/lukas/Desktop/car_price_final.csv', index = False)

# 1.4 Data Exploration

Im Punkt "Data Exploration" werden die vorliegenden Daten genauer untersucht, da bisher nur ein geringes Wissen über deren Zusammenhänge und Verteilungen vorliegen.
Alle Visualisierungen werden mithilfe der Python-Bibliothek Plotly (Graph Objects & Express) dargestellt.

Aufgrund des hohen Ressourcenverbrauchs einzelner Visualisierungen wird im Folgenden ein Sample-Datenset erstellt, welches deutlich weniger Beobachtungswerte umfasst. Hierdurch kann die Datenvisualisierung effizienter umgesetzt werden.

In [54]:
#Erstellung des Sample-Dataframes
df_sample = df.sample(n=1000)

Nun erstellen wir für die Variable "year" ein Histogramm, um einen genauren Einblick über die Verteilungen innerhalb der Variable zu erhalten.

In [55]:
# Histogramm für Variable "year"
fig = go.Figure(data=[go.Histogram(x=df_sample["year"])])
fig.update_layout(
    xaxis_title="Jahre",
    yaxis_title="Anzahl der Autos",
    plot_bgcolor="white")
fig.show()

Die Variable "price" wird im Folgenden primär betrachtet, da u.a. der Preis im späteren Modell prognostiziert werden soll. Aus diesem Grund wird auch für die Variable "price" ein Histogramm erstellt.

In [56]:
# Histogramm für die Variable "price"
fig = go.Figure(data=[go.Histogram(x=df_sample["price"])])
fig.update_layout(
    xaxis_title="Preis",
    yaxis_title="Anzahl der Autos",
    plot_bgcolor="white")
fig.show()

Damit die Verhältnisse besser eingesehen werden können wird zusätzlich noch ein Boxplot erstellt.

In [57]:
# Boxplot für die Variable "price"
fig = go.Figure(data=[go.Box(y=df_sample["price"])])
fig.update_layout(
    xaxis_title="Preis",
    yaxis_title="Preis in USD",
    plot_bgcolor="white")
fig.show()

Nun verschaunlichen wir die Variablen "price" und "year" innerhalb eines Scatterplots, um mögliche Zusammenhänge der beiden Variablen erkennen zu können. Hierfür wird die Funktion "strip" verwendet, um die einzelnen Datenpunkte als "gejitterte" Markierungen innerhalb der einzelnen Jahren darzustellen. Eine alternative Visualisierung wäre beispielsweise ein Boxplot, welches u.a. bei der betrachtung weiterer Variablen verwendet wird.

In [60]:
# Visualisierung Jahr / Preis
fig = px.strip(df_sample, x="year", y="price", labels={"price":"Preis","year":"Jahr"})
fig.update_layout({
'plot_bgcolor': 'rgba(0, 0, 0, 0)',
'paper_bgcolor': 'rgba(0, 0, 0, 0)',
})
fig.show()

Da die "strip"-Funktion keine Möglichkeit zum aktuellen Zeitpunkt aufweist eine Trendlinie als Parameter hinzuzufügen wird im Folgenden eine weitere Visualisierung mit "scatter" durchgeführt.

In [61]:
# Visualisierung Jahr / Preis mit Trendlinie
fig = px.scatter(df_sample, x="year", y="price", trendline="ols", labels={"price":"Preis","year":"Jahr"})
fig.update_layout({
'plot_bgcolor': 'rgba(0, 0, 0, 0)',
'paper_bgcolor': 'rgba(0, 0, 0, 0)',
})
fig.show()

Anschließend wird noch eine Visualisierung mit der Ergänzung der Variable "transmission" dargestellt, um mögliche Unterschiede zwischen der Schaltung festzustellen.

In [81]:
# Visualisierung Jahr / Preis inkl. Schaltung
fig = px.strip(df_sample, x="year", y="price", color="transmission", labels={"price":"Preis","year":"Jahr"})
fig.update_layout({
'plot_bgcolor': 'rgba(0, 0, 0, 0)',
'paper_bgcolor': 'rgba(0, 0, 0, 0)',
})
fig.show()

Nun betrachten wir die Variable "brand" innerhalb eines Histogramms. Dabei sortieren wir die Marken nach der Häufigkeit mithilfe der Einstellung "categoryorder" für die x-Achse.

In [64]:
# Histogramm für die Variable "brand"
fig = go.Figure(data=[go.Histogram(x=df_sample["brand"])])
fig.update_layout(
    xaxis_title="Marke",
    xaxis={"categoryorder":"total descending"},
    yaxis_title="Anzahl der Autos",
    plot_bgcolor="white")

fig.show()

Für einen besseren Überblick über die einzelnen Marken und die jeweiligen Preise wird ein Boxplot erstellt.

In [70]:
# Boxplot für die Variable "price" und "brand"
fig = go.Figure(data=[go.Box(y=df_sample["price"], x=df_sample["brand"])])
fig.update_layout(
    xaxis_title="Marke",
    yaxis_title="Preis in USD",
    plot_bgcolor="white")
fig.show()

Des Weiteren stellen wir die Variable "condition" in einem Histogramm und später in Kombination mit der Variable "price" dar.

In [72]:
# Histogramm für die Variable "condition"
fig = go.Figure(data=[go.Histogram(x=df_sample["condition"])])
fig.update_layout(
    xaxis_title="Zustand",
    yaxis_title="Anzahl der Autos",
    plot_bgcolor="white")

fig.show()

In [82]:
# Visualisierung Zustand / Preis mit Trendlinie
fig = px.scatter(df_sample, x="condition", y="price", trendline="ols", labels={"price":"Preis","condition":"Zustand"})
fig.update_layout({
'plot_bgcolor': 'rgba(0, 0, 0, 0)',
'paper_bgcolor': 'rgba(0, 0, 0, 0)',
})
fig.show()

Zu guter Letzt wird die Variable "odometer" visualisiert. Neben einem Histogramm auch in Kombination mit den Variablen "condition" und "price".

In [75]:
# Histogramm für die Variable "odometer"
fig = go.Figure(data=[go.Histogram(x=df_sample["odometer"])])
fig.update_layout(
    xaxis_title="Meilenzähler",
    yaxis_title="Anzahl der Autos",
    plot_bgcolor="white")

fig.show()

In [76]:
# Visualisierung Zustand / Meilenzähler mit Trendlinie
fig = px.scatter(df_sample, x="condition", y="odometer", trendline="ols", labels={"price":"Preis","year":"Jahr"})
fig.update_layout({
'plot_bgcolor': 'rgba(0, 0, 0, 0)',
'paper_bgcolor': 'rgba(0, 0, 0, 0)',
})
fig.show()

In [77]:
# Visualisierung Meilenzähler / Preis mit Trendlinie
fig = px.scatter(df_sample, x="odometer", y="price", trendline="ols", labels={"price":"Preis","year":"Jahr"})
fig.update_layout({
'plot_bgcolor': 'rgba(0, 0, 0, 0)',
'paper_bgcolor': 'rgba(0, 0, 0, 0)',
})
fig.show()