In [33]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

"Automobile Data Set" from the following link: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data.

its normalized losses in use as compared to other cars. The second rating corresponds to the degree to which the auto is more risky than its price indicates. Cars are initially assigned a risk factor symbol associated with its price. Then, if it is more risky (or less), this symbol is adjusted by moving it up (or down) the scale. Actuarians call this process "symboling". A value of +3 indicates that the auto is risky, -3 that it is probably pretty safe. The third factor is the relative average loss payment per insured vehicle year. This value is normalized for all autos within a particular size classification (two-door small, station wagons, sports/specialty, etc…), and represents the average loss per car per year.

- symboling: -3, -2, -1, 0, 1, 2, 3
- normalized-losses: continuous from 65 to 256
- make: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo
- fuel-type: diesel, gas
- aspiration: std, turbo
- num-of-doors: four, two
- body-style: hardtop, wagon, sedan, hatchback, convertible
- drive-wheels: 4wd, fwd, rwd
- engine-location: front, rear
- wheel-base: continuous from 86.6 120.9
- length: continuous from 141.1 to 208.1
- width: continuous from 60.3 to 72.3
- height: continuous from 47.8 to 59.8
- curb-weight: continuous from 1488 to 4066
- engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor
- num-of-cylinders: eight, five, four, six, three, twelve, two
- engine-size: continuous from 61 to 326
- fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi
- bore: continuous from 2.54 to 3.94
- stroke: continuous from 2.07 to 4.17
- compression-ratio: continuous from 7 to 23
- horsepower: continuous from 48 to 288
- peak-rpm: continuous from 4150 to 6600
- city-mpg: continuous from 13 to 49
- highway-mpg: continuous from 16 to 54
- price: continuous from 5118 to 45400.

## Bronze Schicht

In [34]:
headers = ["risikoniveau","normalisierter-verlustwert","marke","kraftstofftyp","absaugung", "türnummern","körperform",
         "antriebsräder","motorstandort","radstand", "länge","breite","höhe","leergewicht","motortyp",
         "anzahl-der-zylinder", "motorgröße","kraftstoffsystem","bohrung","anschlag","verdichtungsverhältnis","pferdestärken",
         "spitzendrehzahl","stadt-mpg","autobahn-mpg","preis"]

raw_input_df = pd.read_csv('input/auto.csv', names = headers)
display(raw_input_df.head(10))

Unnamed: 0,risikoniveau,normalisierter-verlustwert,marke,kraftstofftyp,absaugung,türnummern,körperform,antriebsräder,motorstandort,radstand,...,motorgröße,kraftstoffsystem,bohrung,anschlag,verdichtungsverhältnis,pferdestärken,spitzendrehzahl,stadt-mpg,autobahn-mpg,preis
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


In [35]:
csv_file_path = './bronze/'
csv_file_name = 'auto_bronze.csv'

if not os.path.exists(csv_file_path):
    os.mkdir(csv_file_path)

raw_input_df.to_csv(csv_file_path + csv_file_name, index=False)

## Silber Schicht

Wie wir sehen können, sind mehrere Fragezeichen im Datenrahmen erschienen; das sind fehlende Werte, die unsere weitere Analyse behindern können.

Wie können wir also all diese fehlenden Werte identifizieren und mit ihnen umgehen?
Wie kann man mit fehlenden Daten arbeiten?

Schritte für die Arbeit mit fehlenden Daten:

Identifizieren fehlender Daten
Umgang mit fehlenden Daten
Korrektes Datenformat

In [36]:
bronze_df = pd.read_csv('bronze/auto_bronze.csv')

# Umwandlung von "?" in NaN
bronze_df.replace("?", np.nan, inplace = True)

In [37]:
# Fehlende Werte in jeder Spalte zählen
missing_data = bronze_df.isnull().sum()
missing_data.sort_values(inplace=True, ascending=False)
display(missing_data)

normalisierter-verlustwert    41
preis                          4
anschlag                       4
bohrung                        4
spitzendrehzahl                2
türnummern                     2
pferdestärken                  2
motortyp                       0
autobahn-mpg                   0
stadt-mpg                      0
verdichtungsverhältnis         0
kraftstoffsystem               0
motorgröße                     0
anzahl-der-zylinder            0
risikoniveau                   0
höhe                           0
breite                         0
länge                          0
radstand                       0
motorstandort                  0
antriebsräder                  0
körperform                     0
absaugung                      0
kraftstofftyp                  0
marke                          0
leergewicht                    0
dtype: int64

Wie geht man mit fehlenden Daten um?

Daten löschen
a. die gesamte Zeile löschen
b. die gesamte Spalte löschen
Daten ersetzen
a. durch Mittelwert ersetzen
b. Ersetzen durch Häufigkeit
c. Ersetzen auf der Grundlage anderer Funktionen

Ersetzen durch Mittelwert:

"normalisierte-Verluste": 41 fehlende Daten, durch Mittelwert ersetzen
"Schlaganfall": 4 fehlende Daten, durch Mittelwert ersetzen
"Bohrung": 4 fehlende Daten, ersetzen Sie diese durch den Mittelwert
"Pferdestärken": 2 fehlende Daten, durch Mittelwert ersetzen
"Spitzen-Drehzahl": 2 fehlende Daten, ersetze sie durch den Mittelwert

Ersetzen durch Häufigkeit:

"Anzahl der Türen": 2 fehlende Daten, ersetze sie durch "vier".
Grund: 84% der Limousinen sind viertürig. Da vier Türen am häufigsten vorkommen, ist es am wahrscheinlichsten, dass sie vorkommen.

Streiche die ganze Zeile:

"Preis": 4 fehlende Daten, einfach die ganze Zeile löschen
Grund: Der Preis ist das, was wir vorhersagen wollen. Jeder Dateneintrag ohne Preisdaten kann nicht für die Vorhersage verwendet werden; daher ist jede Zeile ohne Preisdaten für uns nicht nützlich

In [38]:
# Ersetzen durch Mittelwert
avg_normalisierter_verlustwert = bronze_df['normalisierter-verlustwert'].astype("float").mean(axis=0)
bronze_df['normalisierter-verlustwert'].replace(np.nan, avg_normalisierter_verlustwert, inplace=True)

avg_bohrung = bronze_df['bohrung'].astype('float').mean(axis=0)
bronze_df['bohrung'].replace(np.nan, avg_bohrung, inplace=True)

avg_anschlag = bronze_df["anschlag"].astype("float").mean(axis = 0)
bronze_df["anschlag"].replace(np.nan, avg_anschlag, inplace = True)

avg_pferdestaerken = bronze_df['pferdestärken'].astype('float').mean(axis=0)
bronze_df['pferdestärken'].replace(np.nan, avg_pferdestaerken, inplace=True)

avg_spitzendrehzahl = bronze_df['spitzendrehzahl'].astype('float').mean(axis=0)
bronze_df['spitzendrehzahl'].replace(np.nan, avg_spitzendrehzahl, inplace=True)

In [39]:
# Ersetzen durch Häufigkeit:

max_tuernummern = bronze_df['türnummern'].value_counts().idxmax()
print(max_tuernummern)
bronze_df['türnummern'].replace(np.nan, max_tuernummern, inplace=True)

four


In [40]:
# Streiche die ganze Zeile
bronze_df.dropna(subset=['preis'], axis=0, inplace=True)
bronze_df.reset_index(drop=True, inplace=True)

Correct data format

In [41]:
display(bronze_df.dtypes)

risikoniveau                    int64
normalisierter-verlustwert     object
marke                          object
kraftstofftyp                  object
absaugung                      object
türnummern                     object
körperform                     object
antriebsräder                  object
motorstandort                  object
radstand                      float64
länge                         float64
breite                        float64
höhe                          float64
leergewicht                     int64
motortyp                       object
anzahl-der-zylinder            object
motorgröße                      int64
kraftstoffsystem               object
bohrung                        object
anschlag                       object
verdichtungsverhältnis        float64
pferdestärken                  object
spitzendrehzahl                object
stadt-mpg                       int64
autobahn-mpg                    int64
preis                          object
dtype: objec

Wie wir oben sehen können, haben einige Spalten nicht den richtigen Datentyp. Numerische Variablen sollten den Typ "float" oder "int" haben, und Variablen mit Zeichenketten wie Kategorien sollten den Typ "object" haben. Bei den Variablen "Bohrung" und "Hub" handelt es sich beispielsweise um numerische Werte, die die Motoren beschreiben, so dass man erwarten sollte, dass sie vom Typ "float" oder "int" sind; sie werden jedoch als Typ "object" angezeigt.

In [44]:
bronze_df[['bohrung', 'anschlag']] = bronze_df[['bohrung', 'anschlag']].astype("float")
bronze_df[['normalisierter-verlustwert']] = bronze_df[['normalisierter-verlustwert']].astype("int64")
bronze_df[['preis']] = bronze_df[['preis']].astype("float")
bronze_df[['spitzendrehzahl']] = bronze_df[['spitzendrehzahl']].astype("float")

In [45]:
display(bronze_df.dtypes)

risikoniveau                    int64
normalisierter-verlustwert      int64
marke                          object
kraftstofftyp                  object
absaugung                      object
türnummern                     object
körperform                     object
antriebsräder                  object
motorstandort                  object
radstand                      float64
länge                         float64
breite                        float64
höhe                          float64
leergewicht                     int64
motortyp                       object
anzahl-der-zylinder            object
motorgröße                      int64
kraftstoffsystem               object
bohrung                       float64
anschlag                      float64
verdichtungsverhältnis        float64
pferdestärken                  object
spitzendrehzahl               float64
stadt-mpg                       int64
autobahn-mpg                    int64
preis                         float64
dtype: objec

TODO:

Data Standardization
Data Normalization
Binning
Indicator Variable (or Dummy Variable)

In [46]:
# export als Parquet

## Gold Schicht