# 5. Customer / Stakeholder Acceptance

## 5.1 Konklusi

Pesatnya pertumbuhan pasar mobil bekas di Arab Saudi, yang didorong oleh meningkatnya kebutuhan kendaraan pribadi dan percepatan digitalisasi melalui platform seperti **Syarah.com**, menimbulkan tantangan utama dalam penentuan harga mobil yang wajar akibat tingginya variasi kondisi kendaraan. Untuk menjawab tantangan tersebut, proyek ini bertujuan membangun **model machine learning berbasis regresi** yang mampu memprediksi harga wajar mobil bekas berdasarkan fitur penting seperti merek, tipe, tahun produksi, ukuran mesin, jarak tempuh, region, dan opsi kendaraan, sehingga dapat mendukung pengambilan keputusan bagi penjual, pembeli, dan platform secara objektif dan terukur. Keberhasilan model dievaluasi menggunakan metrik **MAE** dan **MAPE**, dengan target awal MAE tidak melebihi 20% dari median harga sebagai indikator akurasi yang relevan secara bisnis.

Proses menyeluruh dalam mengenali, mengevaluasi, dan menyiapkan dataset **Saudi Arabia Used Cars** dari Kaggle yang berisi lebih dari 8.000 data mobil bekas, mencakup fitur numerik dan kategorikal seperti harga, tahun, jarak tempuh, ukuran mesin, merek, tipe, region, dan spesifikasi kendaraan. Tahapan yang dilakukan meliputi pemahaman struktur data, analisis statistik deskriptif, identifikasi nilai unik dan *high-cardinality*, pemeriksaan *missing values* (dengan fokus utama pada **Engine_Size**), serta analisis distribusi dan normalitas variabel numerik seperti *Year, Mileage,* dan *Price* yang menunjukkan pola *right-skewed* dan keberadaan outlier signifikan. Data kemudian dibersihkan melalui imputasi yang konservatif, penghapusan kolom tidak relevan, penghapusan duplikat, serta penanganan outlier menggunakan metode **IQR** agar distribusi data lebih representatif dan stabil. Selanjutnya dilakukan konversi tipe data, *feature engineering* non-target seperti **Car_Age** dan **Mileage_per_Year.**

Proses pemodelan end-to-end untuk memprediksi harga mobil bekas menggunakan dataset yang telah dibersihkan, dimulai dari penentuan **target (Price)** dan fitur numerik serta kategorikal, pembagian data **trainâ€“test 80:20**, hingga pembangunan **pipeline preprocessing** yang memisahkan perlakuan fitur numerik (imputasi median dan *RobustScaler*) dan kategorikal (imputasi *most frequent* dan *One-Hot Encoding*) untuk mencegah data leakage. Beberapa algoritma regresi dievaluasi secara sistematis menggunakan **cross-validation** dengan metrik **MAE dan MAPE**, termasuk *Linear Regression*, *Random Forest*, *Gradient Boosting*, dan **XGBoost**, di mana XGBoost menunjukkan performa terbaik dan paling stabil secara akurasi serta efisiensi. Model terbaik kemudian ditingkatkan melalui **hyperparameter tuning (GridSearchCV)** yang menghasilkan penurunan MAE dan MAPE secara signifikan dibanding baseline, menandakan peningkatan kemampuan generalisasi. Selanjutnya, **SHAP analysis** digunakan untuk menginterpretasikan model, menunjukkan bahwa **Engine_Size, Year, Mileage, dan Car_Age** merupakan faktor paling dominan dalam menentukan harga, sementara beberapa merek dan tipe kendaraan memberikan kontribusi tambahan. Proses diakhiri dengan penyimpanan artefak **model final terlatih.**

Penerapan model terbaik hasil tahap modeling ke dalam bentuk yang siap digunakan secara operasional, dimulai dengan memuat **pipeline XGBoost terlatih** yang telah terintegrasi penuh dengan preprocessing numerik dan kategorikal secara end-to-end. Model dimuat dari artefak hasil tuning dan digunakan melalui fungsi **predict_price**, yang menerima satu input data kendaraan dalam bentuk dictionary, melakukan *feature engineering* deterministik seperti perhitungan **Car_Age** dan **Mileage_per_Year**, menyelaraskan skema fitur dengan data training, serta menangani fitur yang hilang secara otomatis sebelum menghasilkan prediksi. Contoh implementasi menunjukkan bahwa model mampu memberikan estimasi **harga wajar pasar** yang konsisten dan realistis berdasarkan karakteristik kendaraan, sekaligus meminimalkan risiko data leakage dan inkonsistensi preprocessing. Dengan pendekatan ini, model siap digunakan untuk evaluasi lanjutan, integrasi sistem, maupun deployment sebagai layanan prediksi harga mobil bekas berbasis machine learning yang andal dan berorientasi bisnis.

## 5.2 Limitasi

* Model memprediksi **harga listing**, bukan harga transaksi final, sehingga efek negosiasi belum tercermin.
* Informasi **kondisi teknis kendaraan terbatas**, sehingga kualitas aktual mobil belum sepenuhnya terwakili.
* Distribusi data **tidak seimbang** (merek, tahun, region dominan), sehingga performa pada kasus langka berpotensi lebih rendah.
* Model bersifat **statis dan asosiatif**, tanpa dimensi waktu atau analisis kausal.
* Deployment masih **tanpa monitoring dan retraining**, sehingga performa dapat menurun seiring waktu.

## 5.3 Rekomendasi

* Mengintegrasikan **data transaksi aktual dan histori negosiasi** untuk meningkatkan akurasi harga real-market.
* Menambahkan **fitur kondisi kendaraan yang lebih granular** (inspeksi, servis, kecelakaan) untuk representasi kualitas yang lebih baik.
* Melakukan **segment-based modeling** (per brand, region, atau price tier) untuk meningkatkan performa pada data tidak seimbang.
* Mengembangkan **time-aware modeling** (tren, inflasi, musiman) dan eksplorasi pendekatan kausal ringan.
* Menerapkan **monitoring model, data drift detection, dan retraining berkala** untuk menjaga performa pasca-deployment.