In [1]:
import pandas as pd

# Daten laden
data = pd.read_csv("Used-Car-Data-Mining/data/vehicles.csv")

# Verteilung von `drive` pro `type` vor Imputation anzeigen
print("Verteilung von `drive` pro `type` vor Imputation:")
print(data.groupby(["type", "drive"]).size().unstack(fill_value=0))

# Verteilung von `drive` pro `type` berechnen
drive_distribution = data.groupby(["type", "drive"]).size().unstack(fill_value=0)

# Modus und prozentualen Anteil berechnen
mode_info = {}
for type_name in drive_distribution.index:
    # Modus (häufigster drive-Wert) für diesen type
    mode_drive = drive_distribution.loc[type_name].idxmax()
    # Gesamtanzahl der Einträge für diesen type
    total_count = drive_distribution.loc[type_name].sum()
    # Anzahl des Modus
    mode_count = drive_distribution.loc[type_name, mode_drive]
    # Prozentualer Anteil des Modus
    mode_percentage = (mode_count / total_count * 100) if total_count > 0 else 0
    # Speichern der Informationen
    mode_info[type_name] = {"mode": mode_drive, "percentage": mode_percentage}

# Modus von `drive` pro `type` für die Imputation
drive_mode_per_type = {type_name: info["mode"] for type_name, info in mode_info.items()}

# Fehlende Werte in `drive` imputieren
data["drive"] = data.apply(
    lambda row: drive_mode_per_type[row["type"]] if pd.isna(row["drive"]) and row["type"] in drive_mode_per_type else row["drive"],
    axis=1
)

# Ergebnisse speichern
data.to_csv("vehicles_imputed.csv", index=False)

# Verteilung nach Imputation anzeigen
print("\nVerteilung von `drive` pro `type` nach Imputation:")
print(data.groupby(["type", "drive"]).size().unstack(fill_value=0))

# Modus und prozentualen Anteil ausgeben
print("\nModus und prozentualer Anteil pro `type` (vor Imputation):")
for type_name, info in mode_info.items():
    print(f"{type_name}: Modus = {info['mode']}, Anteil = {info['percentage']:.1f}%")

Verteilung von `drive` pro `type` vor Imputation:
drive          4wd    fwd    rwd
type                            
SUV          44961  15175   3725
bus             13     51    289
convertible    455   1240   4536
coupe          729   3866  10738
hatchback     1031  10452    552
mini-van       174   3828    157
offroad        556     11     24
other         3544   4075   2991
pickup       27134   1773   4917
sedan         7837  47414  13216
truck        24905    480   7752
van            290   3438   3109
wagon         4436   4097    316

Verteilung von `drive` pro `type` nach Imputation:
drive          4wd    fwd    rwd
type                            
SUV          58384  15175   3725
bus             13     51    453
convertible    455   1240   6036
coupe          729   3866  14609
hatchback     1031  15015    552
mini-van       174   4494    157
offroad        574     11     24
other         3544  15575   2991
pickup       36820   1773   4917
sedan         7837  66003  13216
truck  