# Import Library

In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# Load Dataset

In [2]:
try:
    df = pd.read_csv('../data/car_prices.csv')
    print(f"Dataset berhasil dimuat. Ukuran awal: {df.shape}")
except FileNotFoundError:
    print("Error: File 'car_prices.csv' tidak ditemukan. Pastikan nama file dan path sudah benar.")

Dataset berhasil dimuat. Ukuran awal: (558837, 16)


# Hapus kolom yang tidak relevan

In [3]:
df_processed = df.drop(columns=['vin', 'saledate'])
print(f"Dataset setelah menghapus kolom 'vin' dan 'saledate': {df_processed.shape}")

Dataset setelah menghapus kolom 'vin' dan 'saledate': (558837, 14)


# Identifikasi kolom numerik dan kategorikal

In [4]:
numerical_cols = df_processed.select_dtypes(include=np.number).columns.tolist()
categorical_cols = df_processed.select_dtypes(include='object').columns.tolist()

print(f"\nKolom Numerik Awal: {numerical_cols}")
print(f"Kolom Kategorikal Awal: {categorical_cols}")


Kolom Numerik Awal: ['year', 'condition', 'odometer', 'mmr', 'sellingprice']
Kolom Kategorikal Awal: ['make', 'model', 'trim', 'body', 'transmission', 'state', 'color', 'interior', 'seller']


 # Imputasi nilai hilang

In [5]:
numerical_imputer = SimpleImputer(strategy='median')
categorical_imputer = SimpleImputer(strategy='most_frequent')

# Untuk kolom numerik

In [6]:
for col in numerical_cols:
    if df_processed[col].isnull().sum() > 0:
        df_processed[col] = numerical_imputer.fit_transform(df_processed[[col]])
        print(f"  - Kolom '{col}' diimputasi dengan median.")

  - Kolom 'condition' diimputasi dengan median.
  - Kolom 'odometer' diimputasi dengan median.
  - Kolom 'mmr' diimputasi dengan median.
  - Kolom 'sellingprice' diimputasi dengan median.


# Untuk kolom kategorikal

In [7]:
for col in categorical_cols:
    if df_processed[col].isnull().sum() > 0:
        df_processed[col] = categorical_imputer.fit_transform(df_processed[[col]]).flatten()
        print(f"  - Kolom '{col}' diimputasi dengan modus.")

  - Kolom 'make' diimputasi dengan modus.
  - Kolom 'model' diimputasi dengan modus.
  - Kolom 'trim' diimputasi dengan modus.
  - Kolom 'body' diimputasi dengan modus.
  - Kolom 'transmission' diimputasi dengan modus.
  - Kolom 'color' diimputasi dengan modus.
  - Kolom 'interior' diimputasi dengan modus.


In [8]:
print("\nJumlah nilai hilang setelah imputasi:")
print(df_processed.isnull().sum())


Jumlah nilai hilang setelah imputasi:
year            0
make            0
model           0
trim            0
body            0
transmission    0
state           0
condition       0
odometer        0
color           0
interior        0
seller          0
mmr             0
sellingprice    0
dtype: int64


# Simpan hasil preprocessing dasar

In [13]:
df_processed.to_csv('../data/base_processed_data.csv', index=False)
print(f"\nPreprocessing dasar selesai. Data disimpan ke '{'../data/base_processed_data.csv'}'")
print(f"Ukuran data yang disimpan: {df_processed.shape}")


Preprocessing dasar selesai. Data disimpan ke '../data/base_processed_data.csv'
Ukuran data yang disimpan: (558837, 14)
