# Data Preparation

"Predicting Vehicle Prices" merupakan sebuah perangkat analisis data yang bertujuan untuk memprediksi harga kendaraan berdasarkan profil kendaraan yang telah tersedia.

Kumpulan data ini berisi rincian kendaraan seperti merek, tahun produksi, jarak tempuh, jenis bahan bakar, tipe seller, transmisi, jumlah kepemilikan mobil sebelumnya. Variabel target dalam kasus ini adalah harga kendaraan, yang merupakan variabel numerik yang mencerminkan nilai kendaraan tersebut.

Variabel-variabel fitur ini akan diproses dan digunakan untuk membangun model machine learning regresi. Model ini akan digunakan untuk memprediksi harga kendaraan berdasarkan karakteristik yang dimiliki oleh setiap kendaraan dalam dataset.

Dalam hal ini, kita akan berfokus pada pengukuran metrik bisnis yang sesuai dengan permasalahan ini. Salah satu metrik yang relevan adalah "Root Mean Squared Error (RMSE)" yang mengukur seberapa akurat model dalam memprediksi harga kendaraan. Selain itu, kita juga dapat menggunakan metrik bisnis lain seperti "Mean Absolute Error (MAE)" untuk memberikan gambaran yang lebih lengkap tentang seberapa baik model ini dalam memprediksi harga kendaraan.

Dengan menggunakan metrik bisnis ini, kita dapat mengukur seberapa baik model ini dalam melakukan prediksi harga kendaraan, yang dapat sangat bermanfaat dalam industri penjualan kendaraan seperti otomotif. Semakin rendah nilai RMSE atau MAE, semakin baik model ini dalam memprediksi harga kendaraan, yang dapat membantu perusahaan atau individu yang terlibat dalam penjualan kendaraan untuk membuat keputusan yang lebih baik.

# Importasi Library

Melakukan importasi library yang dibutuhkan saat proses data preparation

In [1]:
#Import library untuk data preparation dan visualization
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# import warnings for ignore the warnings
import warnings 
warnings.filterwarnings("ignore")

# import pickle and json file for columns and model file
import pickle
import json
import joblib
import os

# Import train test split untuk splitting data
from sklearn.model_selection import train_test_split
#import util as util

In [2]:
os.getcwd()

'C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\notebook_eksperimen\\1 - preparation'

In [3]:
params_dir = "config/config.yaml"

In [4]:
def load_params(param_dir):
    with open(param_dir, 'r') as file:
        params = yaml.safe_load(file)
        
    return params

In [5]:
#params = load_params(params_dir)

# Read Data - Data Collection

Predicting Vehicle Prices saat ini menggunakan data yang disadur dari kaggle dengan laman :
 * https://www.kaggle.com/code/anandtalware/vehicle-sale-price-prediction-9-sept-2023/input?select=car+data.csv

In [6]:
#Read Vehicle Prices dengan pandas
vahicles_data = pd.read_csv("C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\1 - raw data\\car_data.csv")
vahicles_data.head()

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0
4,swift,2014,4.6,6.87,42450,Diesel,Dealer,Manual,0


In [7]:
vahicles_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Car_Name       301 non-null    object 
 1   Year           301 non-null    int64  
 2   Selling_Price  301 non-null    float64
 3   Present_Price  301 non-null    float64
 4   Kms_Driven     301 non-null    int64  
 5   Fuel_Type      301 non-null    object 
 6   Seller_Type    301 non-null    object 
 7   Transmission   301 non-null    object 
 8   Owner          301 non-null    int64  
dtypes: float64(2), int64(3), object(4)
memory usage: 21.3+ KB


In [8]:
# melihat unique value pada kolom kategori

# Menggunakan loop untuk melihat unique value pada masing-masing kolom
for column in vahicles_data.columns:
    if vahicles_data[column].dtype == 'object':
        unique_values = vahicles_data[column].unique()
        print(f"Unique values for column {column}:")
        print(unique_values)
        print('\n')

Unique values for column Car_Name:
['ritz' 'sx4' 'ciaz' 'wagon r' 'swift' 'vitara brezza' 's cross'
 'alto 800' 'ertiga' 'dzire' 'alto k10' 'ignis' '800' 'baleno' 'omni'
 'fortuner' 'innova' 'corolla altis' 'etios cross' 'etios g' 'etios liva'
 'corolla' 'etios gd' 'camry' 'land cruiser' 'Royal Enfield Thunder 500'
 'UM Renegade Mojave' 'KTM RC200' 'Bajaj Dominar 400'
 'Royal Enfield Classic 350' 'KTM RC390' 'Hyosung GT250R'
 'Royal Enfield Thunder 350' 'KTM 390 Duke ' 'Mahindra Mojo XT300'
 'Bajaj Pulsar RS200' 'Royal Enfield Bullet 350'
 'Royal Enfield Classic 500' 'Bajaj Avenger 220' 'Bajaj Avenger 150'
 'Honda CB Hornet 160R' 'Yamaha FZ S V 2.0' 'Yamaha FZ 16'
 'TVS Apache RTR 160' 'Bajaj Pulsar 150' 'Honda CBR 150' 'Hero Extreme'
 'Bajaj Avenger 220 dtsi' 'Bajaj Avenger 150 street' 'Yamaha FZ  v 2.0'
 'Bajaj Pulsar  NS 200' 'Bajaj Pulsar 220 F' 'TVS Apache RTR 180'
 'Hero Passion X pro' 'Bajaj Pulsar NS 200' 'Yamaha Fazer '
 'Honda Activa 4G' 'TVS Sport ' 'Honda Dream Yuga '
 'Baj

In [9]:
vahicles_data["Owner"].unique()

array([0, 1, 3], dtype=int64)

In [10]:
sorted(vahicles_data["Year"].unique())

[2003,
 2004,
 2005,
 2006,
 2007,
 2008,
 2009,
 2010,
 2011,
 2012,
 2013,
 2014,
 2015,
 2016,
 2017,
 2018]

In [11]:
vahicles_data["Car_Name"].nunique()

98

In [12]:
print(vahicles_data["Selling_Price"].min())
print(vahicles_data["Selling_Price"].max())

0.1
35.0


In [13]:
print(vahicles_data["Present_Price"].min())
print(vahicles_data["Present_Price"].max())

0.32
92.6


In [14]:
print(vahicles_data["Kms_Driven"].min())
print(vahicles_data["Kms_Driven"].max())

500
500000


Menghapus kolom yang tidak diperlukan dalam proses analisa

In [15]:
vahicles_data = vahicles_data.drop('Car_Name', axis=1)  # axis=1 berarti menghapus kolom, axis=0 akan menghapus baris

Sanity check

In [16]:
vahicles_data

Unnamed: 0,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner
0,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0
1,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0
2,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0
3,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0
4,2014,4.60,6.87,42450,Diesel,Dealer,Manual,0
...,...,...,...,...,...,...,...,...
296,2016,9.50,11.60,33988,Diesel,Dealer,Manual,0
297,2015,4.00,5.90,60000,Petrol,Dealer,Manual,0
298,2009,3.35,11.00,87934,Petrol,Dealer,Manual,0
299,2017,11.50,12.50,9000,Diesel,Dealer,Manual,0


# Data Definition

Data yang digunakan merupakan data yang menggambarkan karakteristik vehicle berdasarkan harga jualnya. adapun fitur karakteristik vehicle yang digunakan antara lain

Data berisi 301 baris dan 8 kolom yaitu :

* Year : Tahun saat mobil tersebut dibeli
* Selling_Price : Harga saat mobil tersebut dijual
* Present_Price : harga mobil bekas showroom saat ini
* Kms_driven : Jarak tempuh yang sudah dilalui mobil tersebut
* Fuel_Type : Jenis bahan bakar mobil 
* Seller_Type : Tipe Penjual, perorangan atau dealer
* Transmission : Jenis Transmisi oper gigi mobil, manual atau otomatis
* Owner : Jumlah pemilik mobil sebelumnya.

# Data Validation

### Data Type

Mengecek tipe data apakah sudah sesuai dengan fitur dalam proses analisa

In [17]:
# Cek tipe data dengan menggunakan info()
vahicles_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Year           301 non-null    int64  
 1   Selling_Price  301 non-null    float64
 2   Present_Price  301 non-null    float64
 3   Kms_Driven     301 non-null    int64  
 4   Fuel_Type      301 non-null    object 
 5   Seller_Type    301 non-null    object 
 6   Transmission   301 non-null    object 
 7   Owner          301 non-null    int64  
dtypes: float64(2), int64(3), object(3)
memory usage: 18.9+ KB


### Check Nilai Null

Mengecek apakah data terdapat nilai null pada setiap kolom

In [18]:
#Menghitung nilai null pada kolom
vahicles_data.isnull().sum()

Year             0
Selling_Price    0
Present_Price    0
Kms_Driven       0
Fuel_Type        0
Seller_Type      0
Transmission     0
Owner            0
dtype: int64

### Melihat statistik deskriptif dan Range Data Numerikal

Cek statistika deskriptif

In [19]:
#Melihat statistika deskriptif dengan describe()
vahicles_data.describe()

Unnamed: 0,Year,Selling_Price,Present_Price,Kms_Driven,Owner
count,301.0,301.0,301.0,301.0,301.0
mean,2013.627907,4.661296,7.628472,36947.20598,0.043189
std,2.891554,5.082812,8.644115,38886.883882,0.247915
min,2003.0,0.1,0.32,500.0,0.0
25%,2012.0,0.9,1.2,15000.0,0.0
50%,2014.0,3.6,6.4,32000.0,0.0
75%,2016.0,6.0,9.9,48767.0,0.0
max,2018.0,35.0,92.6,500000.0,3.0


### Melihat Dimensi Data

In [20]:
vahicles_data.shape

(301, 8)

# Data Splitting

Melakukan spliting data untuk memisahkan set training, set validation dan set test yang terbagi atas variabel x dan y

In [21]:
# Pemisahan Variabel X dan Y
X = vahicles_data.drop(columns = "Selling_Price")
y = vahicles_data["Selling_Price"]

In [22]:
#Split Data 80% training 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.25,
                                                    random_state = 123)

In [23]:
# Split data train menjadi train dan validation set
X_test, X_valid, y_test, y_valid = train_test_split(X_test, y_test, 
                                                    test_size=0.4, 
                                                    random_state=123)

In [24]:
#Menggabungkan x train dan y train untuk keperluan EDA
train_set = pd.merge(X_train, y_train, left_index=True, right_index=True)
#Sanity Check Data
train_set

Unnamed: 0,Year,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,Selling_Price
5,2018,9.83,2071,Diesel,Dealer,Manual,0,9.25
258,2015,13.60,25000,Petrol,Dealer,Manual,0,8.40
278,2016,8.40,4000,Petrol,Dealer,Manual,0,6.00
260,2016,13.60,29223,Petrol,Dealer,Manual,0,9.15
7,2015,8.61,33429,Diesel,Dealer,Manual,0,6.50
...,...,...,...,...,...,...,...,...
106,2014,3.45,16500,Petrol,Individual,Manual,1,1.35
83,2015,13.46,38000,Diesel,Dealer,Manual,0,12.50
17,2016,10.79,43000,Diesel,Dealer,Manual,0,7.75
230,2013,9.40,45000,Diesel,Dealer,Manual,0,6.15


## Final Result - Data Preparation

Ekspor Hasil data preparation dengan file pickle

In [25]:
joblib.dump(X_train, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\X_train.pkl")
joblib.dump(y_train, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\y_train.pkl")
joblib.dump(X_valid, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\X_valid.pkl")
joblib.dump(y_valid, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\y_valid.pkl")
joblib.dump(X_test, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\X_test.pkl")
joblib.dump(y_test, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\y_test.pkl")
joblib.dump(train_set, "C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\train_set.pkl") # Untuk Keperluan EDA

['C:\\Users\\hp\\Portofolio Data Science\\4 - Vehicle Price Prediction\\dataset\\2 - processed\\train_set.pkl']