## 0. Import một số thư viện cần thiết

In [1]:
import pandas as pd
import numpy as np

In [2]:
PATH = 'D:/motorcycle price prediction/data/moto_crawl.csv'
SAVE_PATH = 'D:/motorcycle price prediction/data/moto_cleaned.csv'

## 1. Tạo dataframe từ dữ liệu thô với các header tương ứng

In [3]:
# Tạo các header tương ứng với các cột thuộc tính
headers = ["Hang_xe", "Nam_dang_ky", "Tinh_trang_xe", 
          "Dung_tich_xe", "Dong_xe", "So_km_da_di"
          ,"Loai_xe", "Gia_xe"]

df = pd.read_csv(PATH, names=headers)

# Hiển thị 10 dòng đầu của dataframe
df.head(10)

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,2018,Đãsửdụng,Null,AirBlade,38000,Tayga,26.000.000đ
1,Honda,2020,Đãsửdụng,100-175cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,2024,Đãsửdụng,100-175cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,1999,Đãsửdụng,100-175cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,2025,Mới,Null,Dòngkhác,0,Tayga,14.990.000đ
5,Honda,2020,Đãsửdụng,100-175cc,Vision,9000,Tayga,28.500.000đ
6,Honda,2017,Đãsửdụng,Null,Winner,5000,Xesố,6.950.000đ
7,Honda,2023,Đãsửdụng,100-175cc,Lead,7000,Tayga,49.800.000đ
8,Honda,2004,Đãsửdụng,Null,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,2014,Đãsửdụng,100-175cc,Liberty,20000,Tayga,13.000.000đ


In [4]:
# Kiểm tra số chiều của bộ dữ liệu ban đầu
df.shape

(19297, 8)

In [5]:
# Kiểm tra kiểu dữ liệu của các thuộc tính
df.dtypes

Hang_xe          object
Nam_dang_ky      object
Tinh_trang_xe    object
Dung_tich_xe     object
Dong_xe          object
So_km_da_di      object
Loai_xe          object
Gia_xe           object
dtype: object

In [6]:
# Kiểm tra dữ liệu bị trùng
df.duplicated().sum()

943

In [7]:
# Xóa các dòng có dữ liệu bị trùng
df = df.drop_duplicates(keep='first')

# Số chiều của bộ dữ liệu sau khi xóa các dữ liệu trùng
df.shape

(18354, 8)

In [8]:
# Thay đổi các giá trị từ Null sang NaN
df = df.replace("Null", np.nan)

df.head(10)

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,2018,Đãsửdụng,,AirBlade,38000,Tayga,26.000.000đ
1,Honda,2020,Đãsửdụng,100-175cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,2024,Đãsửdụng,100-175cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,1999,Đãsửdụng,100-175cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,2025,Mới,,Dòngkhác,0,Tayga,14.990.000đ
5,Honda,2020,Đãsửdụng,100-175cc,Vision,9000,Tayga,28.500.000đ
6,Honda,2017,Đãsửdụng,,Winner,5000,Xesố,6.950.000đ
7,Honda,2023,Đãsửdụng,100-175cc,Lead,7000,Tayga,49.800.000đ
8,Honda,2004,Đãsửdụng,,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,2014,Đãsửdụng,100-175cc,Liberty,20000,Tayga,13.000.000đ


In [9]:
# Kiểm tra các giá trị null
df.isna().sum()

Hang_xe             0
Nam_dang_ky         0
Tinh_trang_xe       0
Dung_tich_xe     4635
Dong_xe             0
So_km_da_di       169
Loai_xe             0
Gia_xe              0
dtype: int64

## 2. Làm sạch dữ liệu với cột Hang_xe

In [10]:
# Xem các hãng xe có trong bộ dữ liệu
print(f'Tổng số hãng xe: {len(set(df["Hang_xe"]))}')

hang_xe = list(set(df["Hang_xe"]))

print(f'Các loại xe:')

for i, xe in enumerate(hang_xe):
    print(i + 1, xe)

Tổng số hãng xe: 38
Các loại xe:
1 Honda
2 Brixton
3 Piaggio
4 Bazan
5 Kymco
6 Yamaha
7 MotoGuzzi
8 Hãngkhác
9 Kengo
10 Halim
11 Victory
12 Hyosung
13 Ducati
14 Detech
15 Vento
16 RegalRaptor
17 RoyalEnfield
18 HarleyDavidson
19 Peugeot
20 Suzuki
21 Daelim
22 BMW
23 Aprilia
24 Sanda
25 Triumph
26 Visitor
27 Kawasaki
28 SYM
29 GPX
30 EuroReibel
31 Taya
32 Benelli
33 MVAgusta
34 Sachs
35 KTM
36 RebelUSA
37 VinFast
38 Nioshima


In [11]:
# Xem giá trị "Hãngkhác" trong các loại xe
df[df["Hang_xe"] == "Hãngkhác"]

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
38,Hãngkhác,2018,Đãsửdụng,50-100cc,Dòngkhác,1000,Xesố,2.500.000đ
166,Hãngkhác,2019,Đãsửdụng,Dưới50cc,Dòngkhác,10000,Tayga,7.600.000đ
240,Hãngkhác,2021,Đãsửdụng,,Dòngkhác,22222,Tayga,8.800.000đ
288,Hãngkhác,2008,Đãsửdụng,100-175cc,Dòngkhác,36852,Xesố,5.200.000đ
348,Hãngkhác,2019,Đãsửdụng,Dưới50cc,Dòngkhác,7000,Xesố,8.800.000đ
...,...,...,...,...,...,...,...,...
19105,Hãngkhác,2016,Đãsửdụng,,Dòngkhác,1234,Xesố,8.600.000đ
19201,Hãngkhác,2023,Đãsửdụng,,Dòngkhác,100000,Xesố,11.000.000đ
19204,Hãngkhác,2012,Đãsửdụng,100-175cc,Dòngkhác,2,Taycôn/Moto,16.800.000đ
19218,Hãngkhác,2006,Đãsửdụng,50-100cc,Dòngkhác,12345,Xesố,4.500.000đ


Các giá trị "Hãngkhác" đều có dòng không rõ, giá trị dao động của chúng có thể tùy thuộc vào các trường dữ liệu khác, và cũng chiếm một số lượng khá lớn (426 dòng), do đó ta sẽ không loại bỏ chúng, mà chỉ thay tên thành "Hãng khác"

In [12]:
df['Hang_xe'] = df['Hang_xe'].replace(["Hãngkhác"], "Hãng khác")

## 3. Làm sạch dữ liệu với cột Nam_dang_ky

Với cột Nam_dang_ky, ta có thể tạo thêm một cột mới chứa thông tin về tuổi của xe tính đến thời điểm hiện tại bằng cách lấy năm hiện tại (2025) trừ đi năm đăng ký xe

In [13]:
# Xem các năm đăng ký xe có trong bộ dữ liệu
print("Các năm đăng ký: ")

years = list(set(df['Nam_dang_ky']))

for i, year in enumerate(years):
    print(f'{i + 1}. {year}')

Các năm đăng ký: 
1. 2010
2. 1986
3. 1992
4. 1987
5. 2015
6. 2014
7. 1983
8. 2025
9. 1988
10. 2002
11. 2012
12. 1990
13. 1994
14. 1997
15. 1982
16. 1991
17. 2004
18. 1985
19. 1989
20. 2005
21. 1993
22. 1999
23. 1984
24. 1995
25. 2003
26. 1996
27. trướcnăm1980
28. 2018
29. 2022
30. 2000
31. 2009
32. 2024
33. 2008
34. 2007
35. 1998
36. 2020
37. 2011
38. 2001
39. 1981
40. 2013
41. 2021
42. 2016
43. 2023
44. 2006
45. 2019
46. 2017


Để quy về tuổi của xe, ta cần chuyển kiểu dữ liệu của cột năm đăng ký xe về kiểu dữ liệu số nguyên int

In [14]:
# Chuẩn hóa dữ liệu 'trướcnăm1980' thành 1980
df['Nam_dang_ky'] = df['Nam_dang_ky'].replace(['trướcnăm1980'], '1980')

years = list(set(df['Nam_dang_ky']))

for i, year in enumerate(years):
    print(f'{i + 1}. {year}')

1. 2010
2. 1986
3. 1992
4. 1987
5. 2015
6. 2014
7. 1983
8. 2025
9. 1988
10. 2002
11. 2012
12. 1990
13. 1994
14. 1997
15. 1982
16. 1991
17. 2004
18. 1985
19. 1989
20. 2005
21. 1993
22. 1999
23. 1984
24. 1995
25. 2003
26. 1996
27. 2018
28. 2022
29. 2000
30. 2009
31. 2024
32. 2008
33. 1980
34. 2007
35. 1998
36. 2020
37. 2011
38. 2001
39. 1981
40. 2013
41. 2021
42. 2016
43. 2023
44. 2006
45. 2019
46. 2017


In [15]:
# Thêm cột Tuoi_xe từ cột Nam_dang_ky
THIS_YEAR = 2025

df["Nam_dang_ky"] = df["Nam_dang_ky"].astype(int)

df.insert(1,'Tuoi_xe', THIS_YEAR - df["Nam_dang_ky"])
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đãsửdụng,,AirBlade,38000,Tayga,26.000.000đ
1,Honda,5,2020,Đãsửdụng,100-175cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,1,2024,Đãsửdụng,100-175cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,26,1999,Đãsửdụng,100-175cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,0,2025,Mới,,Dòngkhác,0,Tayga,14.990.000đ
5,Honda,5,2020,Đãsửdụng,100-175cc,Vision,9000,Tayga,28.500.000đ
6,Honda,8,2017,Đãsửdụng,,Winner,5000,Xesố,6.950.000đ
7,Honda,2,2023,Đãsửdụng,100-175cc,Lead,7000,Tayga,49.800.000đ
8,Honda,21,2004,Đãsửdụng,,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,11,2014,Đãsửdụng,100-175cc,Liberty,20000,Tayga,13.000.000đ


## 4. Làm sạch dữ liệu với cột Tinh_trang_xe

In [16]:
# Xem các tình trạng xe có trong bộ dữ liệu
df["Tinh_trang_xe"].value_counts()

Tinh_trang_xe
Đãsửdụng    18167
Mới           187
Name: count, dtype: int64

In [17]:
# Xem các xe có tình trạng sử dụng là mới
df[df["Tinh_trang_xe"].apply(lambda x : "Mới" in x)]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
4,VinFast,0,2025,Mới,,Dòngkhác,0,Tayga,14.990.000đ
36,VinFast,1,2024,Mới,,KlaraS,0,Tayga,42.900.000đ
41,Honda,1,2024,Mới,Trên175cc,WinnerX,,Tayga,38.850.000đ
42,VinFast,0,2025,Mới,,KlaraS,0,Tayga,42.900.000đ
124,Honda,1,2024,Mới,Trên175cc,Winner,,Taycôn/Moto,35.250.000đ
...,...,...,...,...,...,...,...,...,...
18472,Hãng khác,3,2022,Mới,Dưới50cc,Dòngkhác,,Xesố,10.000.000đ
18612,Yamaha,1,2024,Mới,100-175cc,Exciter,,Taycôn/Moto,43.000.000đ
18656,Honda,0,2025,Mới,100-175cc,Wave,,Xesố,17.500.000đ
18998,Honda,13,2012,Mới,,SH,22000,Tayga,240.000.000đ


In [18]:
# Thay thế số km đã đi được của các xe này thành 0
df['So_km_da_di'] = np.where(df['Tinh_trang_xe'].apply(lambda x: "Mới" in x)\
                             , 0, df['So_km_da_di'])

df[df["Tinh_trang_xe"].apply(lambda x : "Mới" in x)]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
4,VinFast,0,2025,Mới,,Dòngkhác,0,Tayga,14.990.000đ
36,VinFast,1,2024,Mới,,KlaraS,0,Tayga,42.900.000đ
41,Honda,1,2024,Mới,Trên175cc,WinnerX,0,Tayga,38.850.000đ
42,VinFast,0,2025,Mới,,KlaraS,0,Tayga,42.900.000đ
124,Honda,1,2024,Mới,Trên175cc,Winner,0,Taycôn/Moto,35.250.000đ
...,...,...,...,...,...,...,...,...,...
18472,Hãng khác,3,2022,Mới,Dưới50cc,Dòngkhác,0,Xesố,10.000.000đ
18612,Yamaha,1,2024,Mới,100-175cc,Exciter,0,Taycôn/Moto,43.000.000đ
18656,Honda,0,2025,Mới,100-175cc,Wave,0,Xesố,17.500.000đ
18998,Honda,13,2012,Mới,,SH,0,Tayga,240.000.000đ


In [19]:
# Thay đổi dữ liệu từ 'Đãsửdụng' thành 'Đã sử dụng'
df['Tinh_trang_xe'] = df['Tinh_trang_xe'].replace(['Đãsửdụng' ], 'Đã sử dụng')
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đã sử dụng,,AirBlade,38000,Tayga,26.000.000đ
1,Honda,5,2020,Đã sử dụng,100-175cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,1,2024,Đã sử dụng,100-175cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,26,1999,Đã sử dụng,100-175cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,0,2025,Mới,,Dòngkhác,0,Tayga,14.990.000đ
5,Honda,5,2020,Đã sử dụng,100-175cc,Vision,9000,Tayga,28.500.000đ
6,Honda,8,2017,Đã sử dụng,,Winner,5000,Xesố,6.950.000đ
7,Honda,2,2023,Đã sử dụng,100-175cc,Lead,7000,Tayga,49.800.000đ
8,Honda,21,2004,Đã sử dụng,,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,11,2014,Đã sử dụng,100-175cc,Liberty,20000,Tayga,13.000.000đ


## 5. Làm sạch dữ liệu với cột Dung_tich_xe

In [20]:
# Xem các dung tích xe có trong bộ dữ liệu
motor_caps = list(set(df['Dung_tich_xe']))

print("Phân loại dung tích xe:")

for i, cap in enumerate(motor_caps):
    print(f"Loại {i + 1}: {cap}")

Phân loại dung tích xe:
Loại 1: Dưới50cc
Loại 2: 100-175cc
Loại 3: 50-100cc
Loại 4: Khôngbiếtrõ
Loại 5: Trên175cc
Loại 6: nan


In [21]:
df["Dung_tich_xe"].value_counts()

Dung_tich_xe
100-175cc      11743
50-100cc         796
Dưới50cc         649
Trên175cc        509
Khôngbiếtrõ       22
Name: count, dtype: int64

Ta sẽ tách các cụm từ ra thành các từ rõ ràng như 100 - 175 cc, Trên 175 cc, 50 - 100 cc, Dưới 50 cc, Không biết rõ 

In [22]:
# Thay đổi dữ liệu từ 'Dưới50cc', '50-100cc', '100-175cc', 'Trên175cc', 'Khôngbiếtrõ' thành 'Dưới 50cc', '50 - 100cc', '100 - 175cc', 'Trên 175cc', 'Không biết rõ'
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['Dưới50cc'], 'Dưới 50 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['50-100cc'], '50 - 100 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['100-175cc'], '100 - 175 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['Trên175cc'], 'Trên 175 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['Khôngbiếtrõ'], 'Không biết rõ')
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đã sử dụng,,AirBlade,38000,Tayga,26.000.000đ
1,Honda,5,2020,Đã sử dụng,100 - 175 cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,1,2024,Đã sử dụng,100 - 175 cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,26,1999,Đã sử dụng,100 - 175 cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,0,2025,Mới,,Dòngkhác,0,Tayga,14.990.000đ
5,Honda,5,2020,Đã sử dụng,100 - 175 cc,Vision,9000,Tayga,28.500.000đ
6,Honda,8,2017,Đã sử dụng,,Winner,5000,Xesố,6.950.000đ
7,Honda,2,2023,Đã sử dụng,100 - 175 cc,Lead,7000,Tayga,49.800.000đ
8,Honda,21,2004,Đã sử dụng,,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,11,2014,Đã sử dụng,100 - 175 cc,Liberty,20000,Tayga,13.000.000đ


In [23]:
# Kiểm tra giá trị null của dung tích xe
df[df['Dung_tich_xe'].isnull()].shape

(4635, 9)

Nhận thấy, số lượng giá trị null của dung tích xe là quá lớn (4635), nên ta sẽ thay thế giá trị null bằng "Không biết rõ" đối với các giá trị rỗng của dung tích xe

In [24]:
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace([np.nan], 'Không biết rõ')

# Kiểm tra lại giá trị null sau khi đã được thay bằng giá trị "Không biết rõ"
df[df['Dung_tich_xe'].isnull()].shape

(0, 9)

In [25]:
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đã sử dụng,Không biết rõ,AirBlade,38000,Tayga,26.000.000đ
1,Honda,5,2020,Đã sử dụng,100 - 175 cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,1,2024,Đã sử dụng,100 - 175 cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,26,1999,Đã sử dụng,100 - 175 cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,0,2025,Mới,Không biết rõ,Dòngkhác,0,Tayga,14.990.000đ
5,Honda,5,2020,Đã sử dụng,100 - 175 cc,Vision,9000,Tayga,28.500.000đ
6,Honda,8,2017,Đã sử dụng,Không biết rõ,Winner,5000,Xesố,6.950.000đ
7,Honda,2,2023,Đã sử dụng,100 - 175 cc,Lead,7000,Tayga,49.800.000đ
8,Honda,21,2004,Đã sử dụng,Không biết rõ,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,11,2014,Đã sử dụng,100 - 175 cc,Liberty,20000,Tayga,13.000.000đ


## 6. Làm sạch dữ liệu với cột Dong_xe

In [26]:
# Xem các dòng xe có trong bộ dữ liệu
models = list(set(df["Dong_xe"]))

print("Các dòng xe:")
for i, model in enumerate(models):
    print(f"Dòng xe {i + 1}: {model}")

Các dòng xe:
Dòng xe 1: Wolf
Dòng xe 2: Elegant
Dòng xe 3: LX
Dòng xe 4: Cub
Dòng xe 5: Demon150GR
Dòng xe 6: Z900
Dòng xe 7: Sprint
Dòng xe 8: Giorno
Dòng xe 9: PX
Dòng xe 10: ADV150
Dòng xe 11: RnineT
Dòng xe 12: StreetScramber
Dòng xe 13: R
Dòng xe 14: RC200
Dòng xe 15: 67
Dòng xe 16: AirBlade
Dòng xe 17: JockeyFi
Dòng xe 18: Cello
Dòng xe 19: Amigo
Dòng xe 20: ADV160
Dòng xe 21: Touring
Dòng xe 22: RSV4RR
Dòng xe 23: Django
Dòng xe 24: Vulcan
Dòng xe 25: LegendGentleman200
Dòng xe 26: Smash
Dòng xe 27: Xbike
Dòng xe 28: Elite
Dòng xe 29: VThunderXL
Dòng xe 30: KlaraS
Dòng xe 31: Scrambler
Dòng xe 32: Angela
Dòng xe 33: W800
Dòng xe 34: Multistrada
Dòng xe 35: Beverly
Dòng xe 36: Liberty
Dòng xe 37: FatBoy
Dòng xe 38: Evo200
Dòng xe 39: Legend150S
Dòng xe 40: ZX10R
Dòng xe 41: Venus
Dòng xe 42: PG-1
Dòng xe 43: Goebel
Dòng xe 44: R1200
Dòng xe 45: Star
Dòng xe 46: Z650
Dòng xe 47: Blade
Dòng xe 48: VespaS125
Dòng xe 49: FX125
Dòng xe 50: Janus
Dòng xe 51: Revo
Dòng xe 52: CBR
Dòng x

In [27]:
# Thay đổi dữ liệu từ 'Dòngkhác'  thành 'Dòng khác'
df['Dong_xe'] = df['Dong_xe'].replace(['Dòngkhác'], "Dòng khác")

# Số chiều của dữ liệu dòng xe
df.shape

(18354, 9)

## 7. Làm sạch dữ liệu với cột So_km_da_di

In [28]:
# Kiểm tra và xoá các giá trị null của số km đã đi
df[df['So_km_da_di'].isnull()].shape
df = df[df['So_km_da_di'].notna()]

# Ép kiểu dữ liệu sang kiểu int
df['So_km_da_di'] = df['So_km_da_di'].astype(int)

df['So_km_da_di'].dtypes

dtype('int32')

In [29]:
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đã sử dụng,Không biết rõ,AirBlade,38000,Tayga,26.000.000đ
1,Honda,5,2020,Đã sử dụng,100 - 175 cc,MSX125,10000,Taycôn/Moto,20.000.000đ
2,Yamaha,1,2024,Đã sử dụng,100 - 175 cc,XSR,340,Taycôn/Moto,79.000.000đ
3,Honda,26,1999,Đã sử dụng,100 - 175 cc,Wave,123456,Xesố,22.500.000đ
4,VinFast,0,2025,Mới,Không biết rõ,Dòng khác,0,Tayga,14.990.000đ
5,Honda,5,2020,Đã sử dụng,100 - 175 cc,Vision,9000,Tayga,28.500.000đ
6,Honda,8,2017,Đã sử dụng,Không biết rõ,Winner,5000,Xesố,6.950.000đ
7,Honda,2,2023,Đã sử dụng,100 - 175 cc,Lead,7000,Tayga,49.800.000đ
8,Honda,21,2004,Đã sử dụng,Không biết rõ,Dylan,3000,Tayga,35.000.000đ
9,Piaggio,11,2014,Đã sử dụng,100 - 175 cc,Liberty,20000,Tayga,13.000.000đ


In [30]:
# Kiểm tra các giá trị của số km để đảm bảo không bị âm
df[df["So_km_da_di"] < 0]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe


## 8. Làm sạch dữ liệu với cột Loai_xe

In [33]:
# Xem các loại xe có trong bộ dữ liệu
df["Loai_xe"]

0              Tayga
1        Taycôn/Moto
2        Taycôn/Moto
3               Xesố
4              Tayga
            ...     
19291    Taycôn/Moto
19292    Taycôn/Moto
19293           Xesố
19295    Taycôn/Moto
19296    Taycôn/Moto
Name: Loai_xe, Length: 18354, dtype: object

In [34]:
# Thay đổi dữ liệu từ 'Tayga', 'Taycôn/Moto', 'Xesố' thành 'Tay ga', 'Tay côn/Moto', 'Xe số'
df['Loai_xe'] = df['Loai_xe'].replace(['Tayga'], 'Tay ga')
df['Loai_xe'] = df['Loai_xe'].replace(['Taycôn/Moto'], 'Tay côn/Moto')
df['Loai_xe'] = df['Loai_xe'].replace(['Xesố'], 'Xe số')

df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đã sử dụng,Không biết rõ,AirBlade,38000,Tay ga,26.000.000đ
1,Honda,5,2020,Đã sử dụng,100 - 175 cc,MSX125,10000,Tay côn/Moto,20.000.000đ
2,Yamaha,1,2024,Đã sử dụng,100 - 175 cc,XSR,340,Tay côn/Moto,79.000.000đ
3,Honda,26,1999,Đã sử dụng,100 - 175 cc,Wave,123456,Xe số,22.500.000đ
4,VinFast,0,2025,Mới,Không biết rõ,Dòng khác,0,Tay ga,14.990.000đ
5,Honda,5,2020,Đã sử dụng,100 - 175 cc,Vision,9000,Tay ga,28.500.000đ
6,Honda,8,2017,Đã sử dụng,Không biết rõ,Winner,5000,Xe số,6.950.000đ
7,Honda,2,2023,Đã sử dụng,100 - 175 cc,Lead,7000,Tay ga,49.800.000đ
8,Honda,21,2004,Đã sử dụng,Không biết rõ,Dylan,3000,Tay ga,35.000.000đ
9,Piaggio,11,2014,Đã sử dụng,100 - 175 cc,Liberty,20000,Tay ga,13.000.000đ


## 9. Làm sạch dữ liệu với cột Gia_xe

In [35]:
# Kiểm tra và loại bỏ các giá trị null của giá xe
df = df[df['Gia_xe'].notna()]

# Thay đổi các giá trị trong giá xe (loại bỏ ký tự đ ở cuối, bỏ các dấu .) và chuyển kiểu dữ liệu sang float
df["Gia_xe"] = df['Gia_xe'].apply(lambda x: x[:-1])
df["Gia_xe"] = df['Gia_xe'].apply(lambda x: x.replace('.', ''))
df['Gia_xe'] = df['Gia_xe'].astype(float)

df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Honda,7,2018,Đã sử dụng,Không biết rõ,AirBlade,38000,Tay ga,26000000.0
1,Honda,5,2020,Đã sử dụng,100 - 175 cc,MSX125,10000,Tay côn/Moto,20000000.0
2,Yamaha,1,2024,Đã sử dụng,100 - 175 cc,XSR,340,Tay côn/Moto,79000000.0
3,Honda,26,1999,Đã sử dụng,100 - 175 cc,Wave,123456,Xe số,22500000.0
4,VinFast,0,2025,Mới,Không biết rõ,Dòng khác,0,Tay ga,14990000.0
5,Honda,5,2020,Đã sử dụng,100 - 175 cc,Vision,9000,Tay ga,28500000.0
6,Honda,8,2017,Đã sử dụng,Không biết rõ,Winner,5000,Xe số,6950000.0
7,Honda,2,2023,Đã sử dụng,100 - 175 cc,Lead,7000,Tay ga,49800000.0
8,Honda,21,2004,Đã sử dụng,Không biết rõ,Dylan,3000,Tay ga,35000000.0
9,Piaggio,11,2014,Đã sử dụng,100 - 175 cc,Liberty,20000,Tay ga,13000000.0


In [36]:
# Kiểm tra số chiều của bộ dữ liệu sau khi làm sạch
df.shape

(18354, 9)

In [37]:
# Kiểm tra bộ dữ liệu sau khi làm sạch
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18354 entries, 0 to 19296
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Hang_xe        18354 non-null  object 
 1   Tuoi_xe        18354 non-null  int32  
 2   Nam_dang_ky    18354 non-null  int32  
 3   Tinh_trang_xe  18354 non-null  object 
 4   Dung_tich_xe   18354 non-null  object 
 5   Dong_xe        18354 non-null  object 
 6   So_km_da_di    18354 non-null  int32  
 7   Loai_xe        18354 non-null  object 
 8   Gia_xe         18354 non-null  float64
dtypes: float64(1), int32(3), object(5)
memory usage: 1.2+ MB


In [38]:
# Kiểm tra các giá trị null sau khi làm sạch
df.isna().sum()

Hang_xe          0
Tuoi_xe          0
Nam_dang_ky      0
Tinh_trang_xe    0
Dung_tich_xe     0
Dong_xe          0
So_km_da_di      0
Loai_xe          0
Gia_xe           0
dtype: int64

In [39]:
# Kiểm tra các giá trị trùng lặp sau khi làm sạch
df.duplicated().sum()

0

## 10. Lưu lại dữ liệu đã được làm sạch vào một file mới

In [38]:
df.to_csv(SAVE_PATH, index=False, encoding='utf-8-sig')