# Raw Data Processing

Analysis một số đặc tính cơ bản của dữ liệu xe thu thập từ web BonBanh.com

## Load dữ liệu

In [1]:
import pandas as pd


df = pd.read_json('./items.jl', lines=True)

### Flatten trường json và gán vào dataframe ban đầu

In [2]:
info_df = pd.json_normalize(df['info'])

### Loại bỏ một số trường chưa sử dụng

In [3]:
df = df.drop(
    ['info', 'image_urls', 'description'], 
    axis=1
)
df = df.astype({
    'model_year': 'Int64'
})

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41613 entries, 0 to 41612
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   url         41613 non-null  object        
 1   brand       41613 non-null  object        
 2   serie       41137 non-null  object        
 3   model_year  41037 non-null  Int64         
 4   price_vnd   41613 non-null  int64         
 5   date        41613 non-null  datetime64[ns]
dtypes: Int64(1), datetime64[ns](1), int64(1), object(3)
memory usage: 1.9+ MB


In [5]:
info_df.keys()

Index(['Xuất xứ:', 'Tình trạng:', 'Dòng xe:', 'Số Km đã đi:',
       'Màu ngoại thất:', 'Màu nội thất:', 'Số cửa:', 'Số chỗ ngồi:',
       'Động cơ:', 'Hệ thống nạp nhiên liệu:', 'Hộp số:', 'Dẫn động:',
       'Tiêu thụ nhiên liệu:', 'Túi khí cho người lái:',
       'Túi khí cho hành khách phía trước:',
       'Túi khí cho hành khách phía sau:', 'Túi khí hai bên hàng ghế:',
       'Túi khí treo phía trên 2 hàng ghế trước và sau:',
       'Chống bó cứng phanh (ABS):', 'Phân bố lực phanh điện tử (EBD)',
       'Trợ lực phanh khẩn cấp (EBA)', 'Tự động cân bằng điện tử (ESP)',
       'Điều khiển hành trình', 'Hỗ trợ cảnh báo lùi',
       'Hệ thống kiểm soát trượt', 'Chốt cửa an toàn:', 'Khóa cửa tự động',
       'Khóa cửa điện điều khiển từ xa', 'Khóa động cơ:',
       'Hệ thống báo trộm ngoại vi', 'Đèn sương mù',
       'Đèn cảnh báo thắt dây an toàn', 'Đèn phanh phụ thứ 3 lắp cao',
       'Thiết bị định vị', 'Cửa sổ nóc', 'Kính chỉnh điện', 'Tay lái trợ lực',
       'Điều hòa trước', 'Đi

In [6]:
info_df.rename({
    'Xuất xứ:': 'origin',
    'Tình trạng:': 'status',
    'Dòng xe:': 'category',
    'Số Km đã đi:': 'used_distance',
    'Màu ngoại thất:': 'out_color',
    'Màu nội thất:': 'in_color',
    'Số cửa:': 'num_door',
    'Số chỗ ngồi:': 'num_seat',
    'Động cơ:': 'engine',
    'Hệ thống nạp nhiên liệu:': 'fueling_system_type', 
    'Hộp số:': 'gear_type', 
    'Dẫn động:': 'drive_type',
    'Tiêu thụ nhiên liệu:': 'energy_consumption',
    'Túi khí cho người lái:': 'airbag_driver',
    'Túi khí cho hành khách phía trước:': 'airbag_front',
    'Túi khí cho hành khách phía sau:': 'airbag_back',
    'Túi khí hai bên hàng ghế:': 'airbag_side',
    'Túi khí treo phía trên 2 hàng ghế trước và sau:': 'airbag_up',
    'Chống bó cứng phanh (ABS):': 'abs', 
    'Phân bố lực phanh điện tử (EBD)': 'ebd',
    'Trợ lực phanh khẩn cấp (EBA)': 'eba',
    'Tự động cân bằng điện tử (ESP)': 'esp',
    'Điều khiển hành trình': 'reverse_cruise_control_panel',
    'Hỗ trợ cảnh báo lùi': 'support_reverse_warning',
    'Hệ thống kiểm soát trượt': 'sliding_control_system',
    'Chốt cửa an toàn:': 'safety_door_latch',
    'Khóa cửa tự động': 'automatic_door_lock',
    'Khóa cửa điện điều khiển từ xa': 'electric_door_lock_remote_control',
    'Khóa động cơ:': 'engine_lock',
    'Hệ thống báo trộm ngoại vi': 'peripheral_burglar_alarm_system',
    'Đèn sương mù': 'fog_lights',
    'Đèn cảnh báo thắt dây an toàn': 'warning_lights_seatbelt',
    'Đèn phanh phụ thứ 3 lắp cao': 'high_mounted_3rd_auxiliary_brake_light',
    'Thiết bị định vị': 'positioning_devices',
    'Cửa sổ nóc': 'roof_window',
    'Kính chỉnh điện': 'power_windows',
    'Tay lái trợ lực': 'power_steering',
    'Điều hòa trước': 'front_air_conditioner', 
    'Điều hòa sau': 'back_air_conditioner', 
    'Hỗ trợ xe tự động': 'automatic_vehicle_assistance', 
    'Sấy kính sau': 'drying_rear_glass',
    'Quạt kính phía sau': 'rear_glass_fan',
    'Kính mầu': 'colored_glass',
    'Màn hình LCD': 'lcd',
    'Dài x Rộng x Cao': 'size',
    'Chiều rộng cơ sở trước/sau': 'base_width',
    'Chiều dài cơ sở': 'base_length',
    'Trọng lượng không tải': 'weight',
    'Dung tích bình nhiên liệu': 'fuel_capacity',
    'Kiểu động cơ:': 'engine_type',
    'Dung tích xi lanh :': 'cylinder_capacity', 
    'Phanh': 'break', 
    'Giảm sóc:': 'shock_down',
    'Lốp xe': 'tire',
    'Vành mâm xe': 'wheel_rims'
}, axis=1, inplace=True)

In [7]:
info_df.describe()

Unnamed: 0,airbag_driver,airbag_front,airbag_back,airbag_side,airbag_up,abs,ebd,eba,esp,reverse_cruise_control_panel,...,roof_window,power_windows,power_steering,front_air_conditioner,back_air_conditioner,automatic_vehicle_assistance,drying_rear_glass,rear_glass_fan,colored_glass,lcd
count,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,...,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0,41613.0
mean,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
std,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Drop tất cả các cột sau đây do đều giá trị là 0 (giá trị không nhập gì)

In [8]:
info_df.mean()

  info_df.mean()


airbag_driver                             0.0
airbag_front                              0.0
airbag_back                               0.0
airbag_side                               0.0
airbag_up                                 0.0
abs                                       0.0
ebd                                       0.0
eba                                       0.0
esp                                       0.0
reverse_cruise_control_panel              0.0
sliding_control_system                    0.0
safety_door_latch                         0.0
automatic_door_lock                       0.0
electric_door_lock_remote_control         0.0
engine_lock                               0.0
peripheral_burglar_alarm_system           0.0
fog_lights                                0.0
high_mounted_3rd_auxiliary_brake_light    0.0
positioning_devices                       0.0
roof_window                               0.0
power_windows                             0.0
power_steering                    

In [9]:
info_df.drop([
    'airbag_driver', 'airbag_front', 'airbag_back', 'airbag_side', 'airbag_up', 'abs', 'ebd', 'eba', 'esp',
    'reverse_cruise_control_panel', 'support_reverse_warning', 'sliding_control_system', 'safety_door_latch',
    'automatic_door_lock', 'electric_door_lock_remote_control', 'engine_lock', 'peripheral_burglar_alarm_system',
    'fog_lights', 'warning_lights_seatbelt', 'high_mounted_3rd_auxiliary_brake_light', 'positioning_devices',
    'roof_window', 'power_windows', 'power_steering', 'front_air_conditioner', 'back_air_conditioner',
    'automatic_vehicle_assistance', 'drying_rear_glass', 'rear_glass_fan', 'colored_glass', 'lcd'
], axis=1, inplace=True)

In [10]:
info_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41613 entries, 0 to 41612
Data columns (total 24 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   origin               41613 non-null  object
 1   status               41613 non-null  object
 2   category             41613 non-null  object
 3   used_distance        41613 non-null  object
 4   out_color            41613 non-null  object
 5   in_color             41613 non-null  object
 6   num_door             41613 non-null  object
 7   num_seat             41613 non-null  object
 8   engine               1271 non-null   object
 9   fueling_system_type  8026 non-null   object
 10  gear_type            41613 non-null  object
 11  drive_type           41613 non-null  object
 12  energy_consumption   41613 non-null  object
 13  size                 41613 non-null  object
 14  base_length          41613 non-null  object
 15  base_width           41613 non-null  object
 16  weig

#### Drop các giá trị không nhập gì

In [11]:
info_df.drop([
    'engine', 'fueling_system_type', 'break', 'shock_down', 'tire', 'wheel_rims', 'engine_type',
], axis=1, inplace=True)

#### Thử nghiệm các trường category còn lại

In [12]:
info_df['base_length'].value_counts()

 mm        40343
2700 mm       64
3220 mm       62
2600 mm       57
2385 mm       56
           ...  
2950 mm        1
2820 mm        1
3061 mm        1
2521 mm        1
3760 mm        1
Name: base_length, Length: 162, dtype: int64

In [13]:
info_df['base_width'].value_counts()

 (mm)             41310
1540/1540 (mm)       21
1475/1460 (mm)       19
1520/1510 (mm)       17
1545/1555 (mm)       17
                  ...  
1474/1465 (mm)        1
1420/1530 (mm)        1
1809/1809 (mm)        1
1650/1645 (mm)        1
1864/1705 (mm)        1
Name: base_width, Length: 81, dtype: int64

In [14]:
info_df['weight'].value_counts()

0 (kg)       40743
1290 (kg)       46
1795 (kg)       34
2140 (kg)       26
992 (kg)        21
             ...  
1410 (kg)        1
1045 (kg)        1
1945 (kg)        1
2395 (kg)        1
4455 (kg)        1
Name: weight, Length: 240, dtype: int64

In [15]:
info_df['fuel_capacity'].value_counts()

0 (lít)       40527
80 (lít)        150
45 (lít)        111
42 (lít)         53
35 (lít)         52
              ...  
6 (lít)           1
89 (lít)          1
1950 (lít)        1
803 (lít)         1
38 (lít)          1
Name: fuel_capacity, Length: 70, dtype: int64

Drop các trường đó do null - hoặc bằng 0 quá nhiều

In [16]:
info_df.drop(['base_length', 'base_width', 'weight', 'fuel_capacity','size'], axis=1, inplace=True)

In [17]:
info_df

Unnamed: 0,origin,status,category,used_distance,out_color,in_color,num_door,num_seat,gear_type,drive_type,energy_consumption,cylinder_capacity
0,Lắp ráp trong nước,Xe đã dùng,Sedan,0 Km,Đen,Màu khác,4 cửa,5 chỗ,Số tự động,FWD - Dẫn động cầu trước,L/100Km,
1,Lắp ráp trong nước,Xe mới,SUV,0 Km,Ghi,Màu khác,5 cửa,5 chỗ,Số tự động,FWD - Dẫn động cầu trước,L/100Km,2.5 L
2,Lắp ráp trong nước,Xe đã dùng,Sedan,2 Km,Trắng,Kem,5 cửa,5 chỗ,Số tự động,RFD - Dẫn động cầu sau,6\tL/100Km,
3,Nhập khẩu,Xe mới,Bán tải / Pickup,0 Km,Bạc,-,4 cửa,5 chỗ,Số tay,RFD - Dẫn động cầu sau,L/100Km,1.9 L
4,Lắp ráp trong nước,Xe đã dùng,SUV,0 Km,Đỏ,Trắng,5 cửa,7 chỗ,Số tự động,AWD - 4 bánh toàn thời gian,7\tL/100Km,2.2 L
...,...,...,...,...,...,...,...,...,...,...,...,...
41608,Lắp ráp trong nước,Xe đã dùng,Truck,0 Km,Xanh,-,2 cửa,3 chỗ,Số tay,4WD - Dẫn động 4 bánh,L/100Km,
41609,Lắp ráp trong nước,Xe đã dùng,Sedan,0 Km,Đen,Ghi,4 cửa,5 chỗ,Số tay,FWD - Dẫn động cầu trước,L/100Km,1.3 L
41610,Nhập khẩu,Xe đã dùng,Bán tải / Pickup,0 Km,Cam,Nhiều màu,4 cửa,5 chỗ,Số tự động,4WD - Dẫn động 4 bánh,L/100Km,3.2 L
41611,Nhập khẩu,Xe đã dùng,Sedan,"58,000 Km",Trắng,Đỏ,4 cửa,5 chỗ,Số tự động,RFD - Dẫn động cầu sau,8\tL/100Km,2.7 L


In [18]:
info_df['used_distance'] = info_df['used_distance'].str[:-3]
info_df['used_distance'] = info_df['used_distance'].str.replace(',', '')

info_df['num_door'] = info_df['num_door'].str[:-3]
info_df['num_seat'] = info_df['num_seat'].str[:-3]


info_df['energy_consumption'] = info_df['energy_consumption'].str.split().apply(lambda x: " ".join(x))
info_df['energy_consumption'] = info_df['energy_consumption'].str[:-7]
info_df['cylinder_capacity'] = info_df['cylinder_capacity'].str[:-2]

info_df = info_df.astype({
    'used_distance': int,
    'num_door': int,
    'num_seat': int,
    'cylinder_capacity': float
})

In [19]:
info_df['energy_consumption'].value_counts()
info_df.drop('energy_consumption', axis=1, inplace=True)

## Save dữ liệu tiền xử lý

In [75]:
result = pd.concat([df, info_df], axis=1)

In [76]:
result.to_csv('preprocessed_data.csv', index=False)

Unnamed: 0,url,brand,serie,model_year,price_vnd,date,origin,status,category,used_distance,out_color,in_color,num_door,num_seat,gear_type,drive_type,cylinder_capacity
0,https://bonbanh.com/xe-ford-focus--2018-4191017,Ford,Focus,2018,478,2022-01-15,Lắp ráp trong nước,Xe đã dùng,Sedan,0,Đen,Màu khác,4,5,Số tự động,FWD - Dẫn động cầu trước,
1,https://bonbanh.com/xe-mazda-cx5-signature-pre...,Mazda,CX5,2021,999,2022-01-15,Lắp ráp trong nước,Xe mới,SUV,0,Ghi,Màu khác,5,5,Số tự động,FWD - Dẫn động cầu trước,2.5
2,https://bonbanh.com/xe-kia-cerato-1.6-2018-419...,Kia,Cerato,2018,510,2022-01-15,Lắp ráp trong nước,Xe đã dùng,Sedan,2,Trắng,Kem,5,5,Số tự động,RFD - Dẫn động cầu sau,
3,https://bonbanh.com/xe-isuzu-dmax-ls-1.9l-4x2-...,Isuzu,Dmax,2021,580,2022-01-15,Nhập khẩu,Xe mới,Bán tải / Pickup,0,Bạc,-,4,5,Số tay,RFD - Dẫn động cầu sau,1.9
4,https://bonbanh.com/xe-kia-sorento-signature-2...,Kia,Sorento,2021,1230,2022-01-15,Lắp ráp trong nước,Xe đã dùng,SUV,0,Đỏ,Trắng,5,7,Số tự động,AWD - 4 bánh toàn thời gian,2.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41608,https://bonbanh.com/xe-hoa-mai-2008-2648761,Hãng khác,,,65,2019-07-25,Lắp ráp trong nước,Xe đã dùng,Truck,0,Xanh,-,2,3,Số tay,4WD - Dẫn động 4 bánh,
41609,https://bonbanh.com/xe-toyota-corolla-j-1.3-mt...,Toyota,Corolla,2002,155,2019-06-13,Lắp ráp trong nước,Xe đã dùng,Sedan,0,Đen,Ghi,4,5,Số tay,FWD - Dẫn động cầu trước,1.3
41610,https://bonbanh.com/xe-ford-ranger-wildtrak-3....,Ford,Ranger,2016,675,2019-08-22,Nhập khẩu,Xe đã dùng,Bán tải / Pickup,0,Cam,Nhiều màu,4,5,Số tự động,4WD - Dẫn động 4 bánh,3.2
41611,https://bonbanh.com/xe-chrysler-300c-2.7-v6-20...,Chrysler,300C,2008,555,2020-07-05,Nhập khẩu,Xe đã dùng,Sedan,58000,Trắng,Đỏ,4,5,Số tự động,RFD - Dẫn động cầu sau,2.7
