[link text](https://)<style>
    .gradient-background {
        background: linear-gradient(to right, #b3ffb3, #006600);
        padding: 10px;
        border-radius: 5px;
    }
</style>

<div class="gradient-background">
    <h1>Encoding, Skalierung</h1>
</div>
</div>

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("ber_data.csv")

In [None]:
df.rename(columns = {'Marka':'Marke', 'Seri':'Serie',
                              'Model':'Modell', 'Yıl':'Jahr','Kilometre':'Kilometer','Vites Tipi':'Getriebetyp','Yakıt Tipi':'Kraftstoffart','Kasa Tipi':'Karosserieart','Renk':'Farbe','Motor Hacmi':'Motorhubraum','Motor Gücü':'Motorleistung','Çekiş':'Antrieb','Ort. Yakıt Tüketimi':'Durchschnittlicher Kraftstoffverbrauch','Yakıt Deposu':'Kraftstofftank','Boya-değişen':'Lackwechsel','Fiyat':'Preis','Yaş':'Alter'}, inplace = True)

In [None]:
df.to_csv("bereinigung_deutsch.csv", index=False)

Es ist wichtig, dass kategoriale Daten kodiert werden, damit sie im Modellierungsprozess verwendet werden können. Der Kodierungsprozess wandelt kategoriale Daten in ein numerisches Format um und macht diese Daten für Modelle des maschinellen Lernens verständlich. Und wir haben One-Hot-Kodierung verwendet, um unsere kategorialen Daten zu transformieren, und für jeden Datentyp wurde eine separate Spalte erstellt.

In [None]:
df.columns

Index(['Unnamed: 0', 'Marke', 'Serie', 'Modell', 'Kilometer', 'Getriebetyp',
       'Kraftstoffart', 'Karosserieart', 'Farbe', 'Motorhubraum',
       'Motorleistung', 'Antrieb', 'Durchschnittlicher Kraftstoffverbrauch',
       'Kraftstofftank', 'Lackwechsel', 'Preis', 'Alter'],
      dtype='object')

 Wir verschlüsseln kategoriale Daten wie „Getriebetyp“, „Kraftstoffart“, Karosserieart“, „Farbe“, „Antrieb“, „Marke“.

In [None]:
x_encoded = df[['Getriebetyp', 'Kraftstoffart',
       'Karosserieart', 'Farbe' ,"Antrieb", "Marke"]]
#x_encoded = Serie', 'Modell', 'Kilometer', 'Getriebetyp', 'Kraftstoffart',
 #      'Karosserieart', 'Farbe', 'Motorhubraum', 'Motorleistung', 'Antrieb

Da für jeden eindeutigen Wert eine Spalte erstellt wird, verwenden wir die Funktion nunique, um die Anzahl der neu erstellten Spalten zu ermitteln und deren Anzahl herauszufinden. Insgesamt wurden aufgrund dieses Prinzips 63 weitere Spalten in unserem Datensatz erstellt.

In [None]:
x_encoded.nunique()

Getriebetyp       3
Kraftstoffart     5
Karosserieart    11
Farbe            25
Antrieb           5
Marke            14
dtype: int64

Damit unsere Modellierung konsistenter auf numerischen Merkmalen funktioniert und da die Referenzbereiche von Spalte zu Spalte stark variieren, müssen wir diese numerischen Daten normalisieren, bevor wir mit der Modellierung beginnen. Mithilfe von minmaxscaler machen wir diese nicht codierten Spalten skalar.

In [None]:
x_not_encoded = df[['Alter', 'Kilometer', 'Durchschnittlicher Kraftstoffverbrauch', 'Motorleistung', "Motorhubraum", "Preis"]]

In [None]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
scaler = MinMaxScaler()
# Normalize the dataset
normalized_data = scaler.fit_transform(x_not_encoded)
x_not_encoded = pd.DataFrame(normalized_data, columns=['Alter', 'Kilometer','Durchschnittlicher Kraftstoffverbrauch', 'Motorleistung', "Motorhubraum", "Preis"])

Wir kodieren die Spalten, die kodiert werden müssen, mit OneHotEncoder und der Funktion get_dummies(), die für jede Spalte eine Spalte erstellt und diesen Datenrahmen mit Nullen und Einsen füllt, basierend auf dem unkodierten Datensatz in den resultierenden Datenrahmen.

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Initialize OneHotEncoder
encoder = OneHotEncoder()

# Fit and transform the selected columns#
X_encoded = pd.get_dummies(x_encoded)

#Datenverbessurung
#X_encoded.drop(["Serie_Avensis"], axis=1, inplace=True)

Als Ergebnis dieser Operationen haben wir zwei separate Datenrahmen, die wir aus dem Hauptdatensatz erhalten haben.
Einer enthält codierte kategoriale Daten, während der andere normalisierte numerische Daten enthält.
Wir kombinieren diese beiden separaten Datenrahmen, um unsere Datenverarbeitung mit der Methode concat() fortzusetzen.

In [None]:
df = pd.concat([X_encoded, x_not_encoded, df["Marke"]], axis=1)

In [None]:
df.to_csv("bereinigten_deutsch_daten.csv", index=False)