In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import plotly.express as px
warnings.filterwarnings('ignore')

%matplotlib inline

# Import Dataset

Dataset yang kita gunakan adalah "Used Car Auction Prices" yang berasal dari Kaggle

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
dfcar = pd.read_csv('drive/My Drive/car_prices.csv', on_bad_lines="skip")
dfcar.sample(5)

Unnamed: 0,year,make,model,trim,body,transmission,vin,state,condition,odometer,color,interior,seller,mmr,sellingprice,saledate
494785,2012,Toyota,Prius v,Three,wagon,automatic,jtdzn3eu0c3131809,ca,2.5,26378.0,red,beige,dublin toyota,16800,15000,Wed Jun 03 2015 05:30:00 GMT-0700 (PDT)
474885,2014,Toyota,Tacoma,PreRunner,double cab,automatic,5tfjx4gnxex035801,tx,4.1,18964.0,white,gray,family toyota of burleson,24000,23700,Thu May 28 2015 04:00:00 GMT-0700 (PDT)
135842,2008,Land Rover,Range Rover Sport,HSE,SUV,automatic,salsk25478a151250,va,4.8,77584.0,black,black,blue knob auto sales inc,19550,20700,Thu Jan 15 2015 01:05:00 GMT-0800 (PST)
408277,2013,Audi,Q7,TDI Prestige quattro,SUV,automatic,wa1vmafe3dd003972,ca,3.7,14995.0,white,black,vw credit,50400,44200,Thu May 21 2015 05:30:00 GMT-0700 (PDT)
341970,2013,Kia,Optima,EX,Sedan,automatic,5xxgn4a7xdg158501,ga,3.5,35001.0,gray,beige,tdaf remarketing,16300,14600,Thu Feb 26 2015 02:00:00 GMT-0800 (PST)


### List fitur pada dataset adalah sebagai berikut :

1. Year : Tanggal produksi dari mobil.
2. Make : Merk dari mobil.
3. Model : Edisi dari tiap merk mobil.
4. Trim : Versi trim dari mobil.
5. Body : Tipe bentuk dari mobil.
6. Transmission : Transmisi yang digunakan pada mobil.
7. VIN : Vehicle Identification Number.
8. State : Negara bagian tempat mobil dijual.
9. Condition : Kondisi dari mobil pada saat dijual.
10. Odometer : Jarak tempuh mobil semenjak tanggal manufacture.
11. Color : Warna eksterior dari mobil.
12. Interior : Warna interior dari mobil.
13. Seller : Penjual dari mobil (Car dealers).
14. MMR : Manhiem Market Record, market yang memprediksi harga mobil.
15. Sellingprice : Nilai jual mobil.
16. Saledate : Tanggal mobil dijual.

# Data Exploration

In [None]:
dfcar.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 558811 entries, 0 to 558810
Data columns (total 16 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   year          558811 non-null  int64  
 1   make          548510 non-null  object 
 2   model         548412 non-null  object 
 3   trim          548160 non-null  object 
 4   body          545616 non-null  object 
 5   transmission  493458 non-null  object 
 6   vin           558811 non-null  object 
 7   state         558811 non-null  object 
 8   condition     547017 non-null  float64
 9   odometer      558717 non-null  float64
 10  color         558062 non-null  object 
 11  interior      558062 non-null  object 
 12  seller        558811 non-null  object 
 13  mmr           558811 non-null  int64  
 14  sellingprice  558811 non-null  int64  
 15  saledate      558811 non-null  object 
dtypes: float64(2), int64(3), object(11)
memory usage: 68.2+ MB


1. Total dari data ada 558811 entry
2. Tipe dari data int, float dan object, dan terlihat sudah sesuai dengan kolomnya
3. Terdapat nilai Null pada beberapa fitur

In [None]:
dfcar.isnull().sum()

year                0
make            10301
model           10399
trim            10651
body            13195
transmission    65353
vin                 0
state               0
condition       11794
odometer           94
color             749
interior          749
seller              0
mmr                 0
sellingprice        0
saledate            0
dtype: int64

Terdapat 9 fitur yang memiliki data Null, dan jumlahnya terhitung banyak terutama di fitur transmission. Perlu diadakan tindak lanjut di Data Cleaning

In [None]:
dfcar.duplicated().sum()

0

Dataset tidak memiliki data duplikat sehingga tidak diperlukan penanganan.

In [None]:
# Mengkategorikan fitur sesuai dari tipe data
num = ['year', 'condition', 'odometer', 'mmr', 'sellingprice']
cat = ['make', 'model', 'trim', 'body', 'transmission', 'vin', 'state', 'color', 'interior', 'seller', 'saledate']

# Membatasi angka setelah koma hingga hanya 3 angka
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [None]:
dfcar[num].describe()

Unnamed: 0,year,condition,odometer,mmr,sellingprice
count,558811.0,547017.0,558717.0,558811.0,558811.0
mean,2010.039,3.425,68323.196,13769.325,13611.262
std,3.967,0.949,53397.753,9679.875,9749.657
min,1982.0,1.0,1.0,25.0,1.0
25%,2007.0,2.7,28374.0,7100.0,6900.0
50%,2012.0,3.6,52256.0,12250.0,12100.0
75%,2013.0,4.2,99112.0,18300.0,18200.0
max,2015.0,5.0,999999.0,182000.0,230000.0


1. Condition hanya memiliki value antara 1-5.
2. Value dari odometer terlihat memiliki jarak yang jauh antara min dan max.
3. MMR dan sellingprice memiliki nilai yang hampir mirip.

In [None]:
dfcar[cat].describe()

Unnamed: 0,make,model,trim,body,transmission,vin,state,color,interior,seller,saledate
count,548510,548412,548160,545616,493458,558811,558811,558062,558062,558811,558811
unique,96,973,1975,86,2,550296,38,20,17,14264,3745
top,Ford,Altima,Base,Sedan,automatic,wbanv13588cz57827,fl,black,black,nissan-infiniti lt,Tue Feb 10 2015 01:30:00 GMT-0800 (PST)
freq,93554,19349,55817,199437,475914,5,82945,110970,244325,19693,5334


1. Ford merupakan brand yang paling populer diantara 96 total brand lain.
2. Selain itu, mobil tipe sedan juga termasuk yang paling favorit.
3. Transmisi automatic lebih dicari customer dibanding manual dengan jumlah lebih dari 90%
4. Warna hitam tetap mendominasi baik di eksterior maupun interior.