# Data Preparation

"Predicting Vehicle Prices" merupakan sebuah perangkat analisis data yang bertujuan untuk memprediksi harga kendaraan berdasarkan profil kendaraan yang telah tersedia.

Kumpulan data ini berisi rincian kendaraan seperti merek, tahun produksi, jarak tempuh, jenis bahan bakar, tipe seller, transmisi, jumlah kepemilikan mobil sebelumnya. Variabel target dalam kasus ini adalah harga kendaraan, yang merupakan variabel numerik yang mencerminkan nilai kendaraan tersebut.

Variabel-variabel fitur ini akan diproses dan digunakan untuk membangun model machine learning regresi. Model ini akan digunakan untuk memprediksi harga kendaraan berdasarkan karakteristik yang dimiliki oleh setiap kendaraan dalam dataset.

Dalam hal ini, kita akan berfokus pada pengukuran metrik bisnis yang sesuai dengan permasalahan ini. Salah satu metrik yang relevan adalah "Root Mean Squared Error (RMSE)" yang mengukur seberapa akurat model dalam memprediksi harga kendaraan. Selain itu, kita juga dapat menggunakan metrik bisnis lain seperti "Mean Absolute Error (MAE)" untuk memberikan gambaran yang lebih lengkap tentang seberapa baik model ini dalam memprediksi harga kendaraan.

Dengan menggunakan metrik bisnis ini, kita dapat mengukur seberapa baik model ini dalam melakukan prediksi harga kendaraan, yang dapat sangat bermanfaat dalam industri penjualan kendaraan seperti otomotif. Semakin rendah nilai RMSE atau MAE, semakin baik model ini dalam memprediksi harga kendaraan, yang dapat membantu perusahaan atau individu yang terlibat dalam penjualan kendaraan untuk membuat keputusan yang lebih baik.

# Importasi Library

Melakukan importasi library yang dibutuhkan saat proses data preparation

In [2]:
os.getcwd()

'C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\notebook_eksperimen\\1 - preparation'

In [1]:
#Import library untuk data preparation dan visualization
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# import warnings for ignore the warnings
import warnings 
warnings.filterwarnings("ignore")

# import pickle and json file for columns and model file
import pickle
import json
import joblib
import os

# Import train test split untuk splitting data
from sklearn.model_selection import train_test_split
#import util as util

In [3]:
params_dir = "config/config.yaml"

In [4]:
def load_params(param_dir):
    with open(param_dir, 'r') as file:
        params = yaml.safe_load(file)
        
    return params

In [5]:
#params = load_params(params_dir)

# Read Data - Data Collection

Predicting Vehicle Prices saat ini menggunakan data yang disadur dari kaggle dengan laman :
 * https://www.kaggle.com/datasets/nehalbirla/vehicle-dataset-from-cardekho?select=CAR+DETAILS+FROM+CAR+DEKHO.csvChurn 

In [6]:
#Read Vehicle Prices dengan pandas
vahicles_data = pd.read_csv("C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\1 - raw data\\car_dataset.csv")
vahicles_data.head()

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner
0,Maruti 800 AC,2007,60000,70000,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000,50000,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000,100000,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000,46000,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000,141000,Diesel,Individual,Manual,Second Owner


In [7]:
vahicles_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4340 entries, 0 to 4339
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   name           4340 non-null   object
 1   year           4340 non-null   int64 
 2   selling_price  4340 non-null   int64 
 3   km_driven      4340 non-null   int64 
 4   fuel           4340 non-null   object
 5   seller_type    4340 non-null   object
 6   transmission   4340 non-null   object
 7   owner          4340 non-null   object
dtypes: int64(3), object(5)
memory usage: 271.4+ KB


In [8]:
# melihat unique value pada kolom kategori

# Menggunakan loop untuk melihat unique value pada masing-masing kolom
for column in vahicles_data.columns:
    if vahicles_data[column].dtype == 'object':
        unique_values = vahicles_data[column].unique()
        print(f"Unique values for column {column}:")
        print(unique_values)
        print('\n')

Unique values for column name:
['Maruti 800 AC' 'Maruti Wagon R LXI Minor' 'Hyundai Verna 1.6 SX' ...
 'Mahindra Verito 1.5 D6 BSIII'
 'Toyota Innova 2.5 VX (Diesel) 8 Seater BS IV'
 'Hyundai i20 Magna 1.4 CRDi']


Unique values for column fuel:
['Petrol' 'Diesel' 'CNG' 'LPG' 'Electric']


Unique values for column seller_type:
['Individual' 'Dealer' 'Trustmark Dealer']


Unique values for column transmission:
['Manual' 'Automatic']


Unique values for column owner:
['First Owner' 'Second Owner' 'Fourth & Above Owner' 'Third Owner'
 'Test Drive Car']




In [9]:
vahicles_data["name"].nunique()

1491

Menghapus kolom yang tidak diperlukan dalam proses analisa

In [10]:
vahicles_data = vahicles_data.drop('name', axis=1)  # axis=1 berarti menghapus kolom, axis=0 akan menghapus baris

Sanity check

In [11]:
vahicles_data

Unnamed: 0,year,selling_price,km_driven,fuel,seller_type,transmission,owner
0,2007,60000,70000,Petrol,Individual,Manual,First Owner
1,2007,135000,50000,Petrol,Individual,Manual,First Owner
2,2012,600000,100000,Diesel,Individual,Manual,First Owner
3,2017,250000,46000,Petrol,Individual,Manual,First Owner
4,2014,450000,141000,Diesel,Individual,Manual,Second Owner
...,...,...,...,...,...,...,...
4335,2014,409999,80000,Diesel,Individual,Manual,Second Owner
4336,2014,409999,80000,Diesel,Individual,Manual,Second Owner
4337,2009,110000,83000,Petrol,Individual,Manual,Second Owner
4338,2016,865000,90000,Diesel,Individual,Manual,First Owner


# Data Definition

Data yang digunakan merupakan data yang menggambarkan karakteristik vehicle berdasarkan harga jualnya. adapun fitur karakteristik vehicle yang digunakan antara lain

Data berisi 4340 baris dan 7 kolom yaitu :

* year : Tahun saat mobil tersebut dibeli
* selling_price : Harga saat mobil tersebut dijual
* km_driven : Jarak tempuh yang sudah dilalui mobil tersebut
* fuel : Jenis bahan bakar mobil 
* seller_type : Tipe Penjual, perorangan atau dealer
* transmission : Jenis Transmisi oper gigi mobil, manual atau otomatis
* owner : Jumlah pemilik mobil sebelumnya.

# Data Validation

### Data Type

Mengecek tipe data apakah sudah sesuai dengan fitur dalam proses analisa

In [12]:
# Cek tipe data dengan menggunakan info()
vahicles_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4340 entries, 0 to 4339
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   year           4340 non-null   int64 
 1   selling_price  4340 non-null   int64 
 2   km_driven      4340 non-null   int64 
 3   fuel           4340 non-null   object
 4   seller_type    4340 non-null   object
 5   transmission   4340 non-null   object
 6   owner          4340 non-null   object
dtypes: int64(3), object(4)
memory usage: 237.5+ KB


### Check Nilai Null

Mengecek apakah data terdapat nilai null pada setiap kolom

In [13]:
#Menghitung nilai null pada kolom
vahicles_data.isnull().sum()

year             0
selling_price    0
km_driven        0
fuel             0
seller_type      0
transmission     0
owner            0
dtype: int64

### Melihat statistik deskriptif dan Range Data Numerikal

Cek statistika deskriptif

In [14]:
#Melihat statistika deskriptif dengan describe()
vahicles_data.describe()

Unnamed: 0,year,selling_price,km_driven
count,4340.0,4340.0,4340.0
mean,2013.090783,504127.3,66215.777419
std,4.215344,578548.7,46644.102194
min,1992.0,20000.0,1.0
25%,2011.0,208749.8,35000.0
50%,2014.0,350000.0,60000.0
75%,2016.0,600000.0,90000.0
max,2020.0,8900000.0,806599.0


### Melihat Dimensi Data

In [15]:
vahicles_data.shape

(4340, 7)

# Data Splitting

Melakukan spliting data untuk memisahkan set training, set validation dan set test yang terbagi atas variabel x dan y

In [16]:
# Pemisahan Variabel X dan Y
X = vahicles_data.drop(columns = "selling_price")
y = vahicles_data["selling_price"]

In [17]:
#Split Data 80% training 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.3,
                                                    random_state = 123)

In [18]:
# Split data train menjadi train dan validation set
X_test, X_valid, y_test, y_valid = train_test_split(X_test, y_test, 
                                                    test_size=0.4, 
                                                    random_state=123)

In [19]:
#Menggabungkan x train dan y train untuk keperluan EDA
train_set = pd.merge(X_train, y_train, left_index=True, right_index=True)
#Sanity Check Data
train_set

Unnamed: 0,year,km_driven,fuel,seller_type,transmission,owner,selling_price
791,2016,12000,Petrol,Individual,Manual,First Owner,350000
2704,2014,50000,Diesel,Individual,Manual,First Owner,1800000
1266,2012,130000,Diesel,Individual,Manual,Second Owner,190000
239,2012,100000,Diesel,Individual,Manual,Second Owner,220000
2929,2002,70000,Petrol,Individual,Manual,Second Owner,80000
...,...,...,...,...,...,...,...
1593,2016,40000,Diesel,Individual,Manual,First Owner,1000000
4060,2014,100000,Diesel,Individual,Manual,Second Owner,600000
1346,2010,100000,Diesel,Individual,Manual,Second Owner,200000
3454,2017,110000,Diesel,Individual,Automatic,First Owner,710000


## Final Result - Data Preparation

Ekspor Hasil data preparation dengan file pickle

In [20]:
joblib.dump(X_train, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\X_train.pkl")
joblib.dump(y_train, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\y_train.pkl")
joblib.dump(X_valid, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\X_valid.pkl")
joblib.dump(y_valid, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\y_valid.pkl")
joblib.dump(X_test, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\X_test.pkl")
joblib.dump(y_test, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\y_test.pkl")
joblib.dump(train_set, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\train_set.pkl") # Untuk Keperluan EDA

['C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\train_set.pkl']