# Label Encoding

Im letzten Abschnitt des Feature Engineerings besteht das Ziel darin, die Zeichenkettenvariablen in Ganzzahlen umzuwandeln, indem wir eine Zuordnung zwischen den eindeutigen Kategorien und numerischen Werten erstellen. Am Ende dieses Abschnitts soll ein Datensatz vorliegen, der ausschließlich Datentypen Integer/Float aufweist und keine fehlenden Werte enthält.

In [68]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', None)

# Read in the data
cars = pd.read_csv("Cars_Data_Explorer.csv", sep=";", index_col=0)
cars = cars.copy()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [69]:
cars.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70373 entries, 0 to 70372
Data columns (total 27 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Marke                       70373 non-null  object 
 1   Modell                      70373 non-null  object 
 2   Ort                         70373 non-null  object 
 3   Preis                       70373 non-null  float64
 4   Fahrzeugart                 70373 non-null  object 
 5   Karosserieform              70373 non-null  object 
 6   Kilometerstand              70373 non-null  int64  
 7   Fahrleistung p.a.           70373 non-null  float64
 8   Getriebe                    70373 non-null  object 
 9   Türen                       70373 non-null  float64
 10  Außenfarbe                  70373 non-null  object 
 11  Komfort                     70373 non-null  object 
 12  Sicherheit                  70373 non-null  object 
 13  Extras                      703

Transformation der Features: Konvertierung von teilweise qualitativen Daten zu ausschließlich quantitativen Daten zur Optimierung der Trainingsdaten für Machine Learning-Modelle.

In [70]:
# Label Encoding für ordinale Daten
from sklearn.preprocessing import LabelEncoder

# Feature Komfort
# Encoder einfügen
label_encoder_komfort = LabelEncoder()
classes_komfort = ["Hoch", "Mittel", 'Niedrig']
label_encoder_komfort.fit(classes_komfort)

# Wende Label Encoding auf die Spalte "Komfort" an
cars["Komfort"] = label_encoder_komfort.transform(cars["Komfort"])


# Feature Sicherheit
label_encoder_sicherheit = LabelEncoder()
sicherheit_classes = ["Hoch", "Mittel", "Niedrig"]
label_encoder_sicherheit.fit(sicherheit_classes)
cars["Sicherheit"] = label_encoder_sicherheit.transform(cars["Sicherheit"])

# Feature Extras
label_encoder_extras = LabelEncoder()
extras_classes = ["Hoch", "Mittel", "Niedrig"]
label_encoder_extras.fit(extras_classes)
cars["Extras"] = label_encoder_extras.transform(cars["Extras"])

# Feature Unterhaltung/Media
label_encoder_unterhaltung = LabelEncoder()
unterhaltung_classes = ["Hoch", "Mittel", "Niedrig"]
label_encoder_unterhaltung.fit(unterhaltung_classes)
cars["Unterhaltung/Media"] = label_encoder_unterhaltung.transform(cars["Unterhaltung/Media"])

# Feature Fahrzeugzustand
label_encoder_fahrzeugzustand = LabelEncoder()
fahrzeugzustand_classes = ['fahrtauglich, nicht repariert, kein Unfallauto', 'Repariert', 'UnfallfahrzeugRepariert','Unfallfahrzeug',
                            'Nicht fahrtauglich', 'RepariertNicht fahrtauglich', 'UnfallfahrzeugNicht fahrtauglich']

label_encoder_fahrzeugzustand.fit(fahrzeugzustand_classes)
cars["Fahrzeugzustand"] = label_encoder_fahrzeugzustand.transform(cars["Fahrzeugzustand"])


# Feature Schadstoffklasse (Keine --> bspw. E-Autos)
label_encoder_schadstoffklasse = LabelEncoder()
schadstoffklasse_classes = ['Keine', 'Euro 1', 'Euro 2', 'Euro 3', 'Euro 4', 'Euro 5', 'Euro 6', 'Euro 6c', 'Euro 6d', 'Euro 6d-TEMP']

label_encoder_schadstoffklasse.fit(schadstoffklasse_classes)
cars["Schadstoffklasse"] = label_encoder_schadstoffklasse.transform(cars["Schadstoffklasse"])

# Drop Ort
cars = cars.drop("Ort", axis=1)

In [52]:
cars["Fahrzeugzustand"]

0        6
1        6
2        6
3        6
4        6
        ..
70368    5
70369    6
70370    6
70371    6
70372    6
Name: Fahrzeugzustand, Length: 70373, dtype: int64

In [71]:
# One Hot Encoding für binäre und nominal  Daten


# Liste der Spalten für One-Hot-Encoding
columns_to_encode = ['Marke', 'Modell', 'Fahrzeugart', 'Karosserieform', 'Getriebe',
                      'Außenfarbe', 'Innenausstattung', 'Nichtraucherfahrzeug',
                      'Scheckheftgepflegt', 'Garantie','Farbe der Innenausstattung', 'Taxi oder Mietwagen']

# Führe One-Hot-Encoding für die ausgewählten Spalten durch
cars = pd.get_dummies(cars, columns=columns_to_encode, prefix=columns_to_encode)

In [72]:
cars.columns

Index(['Preis', 'Kilometerstand', 'Fahrleistung p.a.', 'Türen', 'Komfort',
       'Sicherheit', 'Extras', 'Erstzulassung', 'Unterhaltung/Media',
       'Hubraum',
       ...
       'Farbe der Innenausstattung_Gelb', 'Farbe der Innenausstattung_Grau',
       'Farbe der Innenausstattung_Grün', 'Farbe der Innenausstattung_Orange',
       'Farbe der Innenausstattung_Rot', 'Farbe der Innenausstattung_Schwarz',
       'Farbe der Innenausstattung_Sonstige',
       'Farbe der Innenausstattung_Weiß', 'Taxi oder Mietwagen_Ja',
       'Taxi oder Mietwagen_Nein'],
      dtype='object', length=644)

In [74]:
print(cars.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70373 entries, 0 to 70372
Columns: 644 entries, Preis to Taxi oder Mietwagen_Nein
dtypes: float64(5), int64(9), uint8(630)
memory usage: 50.3 MB
None


In [75]:
cars.to_csv('Cars_Data_Model.csv', index=True,  sep=";")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>