# LÀM SẠCH DỮ LIỆU THÔ (DATA CLEANING)

<center>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSHMqFayILkk4y15yfzfZZtqbXceznpPyZ03Q&usqp=CAU" />
</center>



Trong một quy trình xây dựng một hệ thống học máy, làm sạch dữ liệu là bước thứ 3 sau khi dự án đã được lên ý tưởng và dữ liệu thô đã được thu thập.

Việc làm sạch dữ liệu thô giúp cho dữ liệu được cập nhật một cách chính xác, rõ ràng, minh bạch, đảm bảo nguồn dữ liệu của chúng ta không bị hỏng, không bị thiếu trước khi được đưa vào quy trình phân tích, hay chuẩn hóa trước khi đưa vào xây dựng mô hình Học máy. 

Vì vậy có thể khẳng định, làm sạch dữ liệu là một quy trình hết sức quan trọng. Nếu không được làm sạch, sẽ dẫn đến việc báo cáo của chúng ta bị sai lệch, tệ hơn nữa là mô hình học máy đưa ra kết quả không đáng tin cậy. Ảnh hưởng xấu tới quá trình ra quyết định. Do đó, cần phải thực hiện công việc làm sạch dữ liệu một cách triệt để, đảm bảo đủ các tính chất cần thiết của một "bộ dữ liệu sạch".


## 0. Khai báo các thư viện cần thiết

Ta khai báo các thư viện cần thiết sau để phục vụ cho quá trình làm sạch dữ liệu

In [106]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Các biến đường dẫn được thay đổi tùy thuộc vào local
PATH = r"/home/duyanh/Documents/VS_WorkSpace/projects/programming_for_DS_v1/data/moto_raw.csv"

SAVE_PATH = r'/home/duyanh/Documents/VS_WorkSpace/projects/programming_for_DS_v1/data/moto_cleaned.csv'

%matplotlib inline

## 1. Tạo dataframe từ dữ liệu thô với các header tương ứng

Ta tiến hành tạo ra một danh sách chứa tên của các cột thuộc tính, sau đó sử dụng thư viện *pandas* tiến hành đọc file có đuôi csv đã được chuẩn bị từ bước trước *(Data Preparation)*

In [107]:
headers = ["Hang_xe", "Nam_dang_ky", "Tinh_trang_xe", 
          "Dung_tich_xe", "Dong_xe", "So_km_da_di"
          ,"Loai_xe", "Gia_xe"]

df = pd.read_csv(PATH, names=headers)

# Lấy ra 10 dòng đầu tiên của cột dữ liệu
df.head(10)

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,1996,Đãsửdụng,Null,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,2014,Đãsửdụng,100-175cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,2013,Đãsửdụng,100-175cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,2015,Đãsửdụng,100-175cc,Exciter,37,Xesố,26.500.000đ
4,Honda,1999,Đãsửdụng,100-175cc,Dream,25,Xesố,25.000.000đ
5,Honda,2019,Đãsửdụng,100-175cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,2013,Đãsửdụng,Null,Sirius,30,Xesố,7.800.000đ
7,Honda,2019,Đãsửdụng,Null,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,2020,Đãsửdụng,100-175cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,2018,Đãsửdụng,Null,Nvx,46000,Tayga,26.000.000đ


Trước tiên, ta cần phải xóa các cột có dữ liệu trùng

In [108]:
# Số chiều của dữ liệu ban đầu
print(df.shape)

df = df.drop_duplicates(keep='first')

# Số chiều của dữ liệu sau khi loại bỏ các dữ liệu trùng
print(df.shape)

(43473, 8)
(12484, 8)


Khi cào bộ dữ liệu này, các dữ liệu trống đang được gán giá trị là Null, tuy nhiên ta cần chuyển đổi chúng sang NaN để có thể làm việc được với thư viên pandas



In [109]:
# Thay đổi các value từ "Null" sang NaN
df = df.replace("Null", np.nan)

df.head(10)

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,1996,Đãsửdụng,,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,2014,Đãsửdụng,100-175cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,2013,Đãsửdụng,100-175cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,2015,Đãsửdụng,100-175cc,Exciter,37,Xesố,26.500.000đ
4,Honda,1999,Đãsửdụng,100-175cc,Dream,25,Xesố,25.000.000đ
5,Honda,2019,Đãsửdụng,100-175cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,2013,Đãsửdụng,,Sirius,30,Xesố,7.800.000đ
7,Honda,2019,Đãsửdụng,,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,2020,Đãsửdụng,100-175cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,2018,Đãsửdụng,,Nvx,46000,Tayga,26.000.000đ


## 2. "Làm sạch" dữ liệu với cột hãng xe

Ta sẽ xem số loại hãng xe có trong bộ dữ liệu

In [110]:
print(f'Tổng số hãng xe: {len(set(df["Hang_xe"]))}')

hang_xe = list(set(df["Hang_xe"]))

print(f'Các loại xe:')

for i, xe in enumerate(hang_xe):
    print(i + 1, xe)

Tổng số hãng xe: 39
Các loại xe:
1 Daelim
2 Suzuki
3 Triumph
4 KTM
5 Piaggio
6 Hyosung
7 Kymco
8 EuroReibel
9 Brixton
10 Keeway
11 Victory
12 GPX
13 MVAgusta
14 RebelUSA
15 Lambretta
16 RegalRaptor
17 Ducati
18 BMW
19 Sachs
20 nan
21 Yamaha
22 Hãngkhác
23 Bazan
24 Sanda
25 Detech
26 Taya
27 Benelli
28 Aprilia
29 Kawasaki
30 Halim
31 Kengo
32 Peugeot
33 SYM
34 HarleyDavidson
35 Visitor
36 Nioshima
37 Honda
38 RoyalEnfield
39 Vento


<p> Nhận thấy, trong số các hãng xe, có xuất hiện giá trị rỗng, nên ta sẽ loại đi các hàng có hãng xe là rỗng. </p>

Việc bỏ các giá trị rỗng của hãng xe là hết sức cần thiết, bởi đây có thể xem là thuộc tính rất quan trọng, cần phải có khi bán xe máy cũ

In [111]:
df[df['Hang_xe'].isnull()].shape

(11, 8)

Có 11 dòng không có giá trị về hãng xe
Rõ ràng, khi xây dựng mô hình dự đoán giá của xe máy, hãng xe là thuộc tính bắt buộc phải có, nên ta sẽ loại những hàng mà hãng xe của nó có giá trị rỗng (np.nan)

In [112]:
# Xóa đi những dòng mã hãng xe có giá trị rỗng
df = df[df['Hang_xe'].notna()]

# Kiểm tra xem đã xóa hết chưa
df[df['Hang_xe'].isnull()]

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe


In [113]:
# Số chiều của dữ liệu sau khi đã loại bỏ các dữ liệu với giá trị rỗng của hãng xe


df.shape    # Đã giảm đi 11 hàng

(12473, 8)

Trong các giá trị của hãng xe, ta nhận thấy có giá trị "hãngkhác"
Ta sẽ xem qua giá trị hãng khác

In [114]:
df[df["Hang_xe"] == "Hãngkhác"]

Unnamed: 0,Hang_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
127,Hãngkhác,2011,Đãsửdụng,50-100cc,Dòngkhác,55,Xesố,4.500.000đ
185,Hãngkhác,1999,Đãsửdụng,50-100cc,Dòngkhác,12000,Xesố,11.000.000đ
425,Hãngkhác,2012,Đãsửdụng,100-175cc,Dòngkhác,2222,Xesố,5.900.000đ
581,Hãngkhác,2009,Đãsửdụng,50-100cc,Dòngkhác,25000,Xesố,5.900.000đ
582,Hãngkhác,2002,Đãsửdụng,,Dòngkhác,10000,Tayga,1.200.000đ
...,...,...,...,...,...,...,...,...
42532,Hãngkhác,2012,Đãsửdụng,100-175cc,Dòngkhác,200000,Xesố,3.900.000đ
42534,Hãngkhác,2012,Đãsửdụng,Dưới50cc,Dòngkhác,99999,Xesố,2.800.000đ
43275,Hãngkhác,2004,Đãsửdụng,100-175cc,Dòngkhác,55555,Xesố,2.200.000đ
43279,Hãngkhác,2009,Đãsửdụng,100-175cc,Dòngkhác,25000,Xesố,2.900.000đ


Các giá trị hãng xe khác đều có dòng không rõ, giá trị dao động của chúng có thể tùy thuộc vào các trường dữ liệu khác, và cũng chiếm một số lượng đáng kể, do đó ta sẽ không loại bỏ chúng, mà chỉ thay thế lại tên thành "Hãng khác"

In [115]:
df['Hang_xe'] = df['Hang_xe'].replace(["Hãngkhác"], "Hãng khác")

## 3. "Làm sạch" dữ liệu với cột năm đăng ký

<p>
Với cột năm đăng ký xe, ta có thể tạo thêm một cột mới chứa thông tin về tuổi của xe tính đến thời điểm hiện tại bằng cách lấy năm hiện tại (2023) trừ đi năm đăng ký xe

---


</p>

Nhưng trước đó, ta sẽ kiểm tra dữ liệu của cột năm đăng ký xe



In [116]:
print("Các năm đăng ký: ")

years = list(set(df['Nam_dang_ky']))

for i, year in enumerate(years):
    print(f'{i + 1}. {year}')

Các năm đăng ký: 
1. 1987
2. 1994
3. 2015
4. 2016
5. 2008
6. 2000
7. 1997
8. 2022
9. 2010
10. 1992
11. 2011
12. 1983
13. 1986
14. 2014
15. 1990
16. 2018
17. 1993
18. 2019
19. 2001
20. 2013
21. 2002
22. 1982
23. 1996
24. 2004
25. 1999
26. 1981
27. 2020
28. 2007
29. 1989
30. 1995
31. 2006
32. 1988
33. 1984
34. 2009
35. 2012
36. 2003
37. 2021
38. 1991
39. 2005
40. trướcnăm1980
41. 2017
42. 1985
43. 1998


Để quy về tuổi của xe, ca cần chuyển kiểu dữ liệu của cột năm đăng ký xe về kiểu dữ liệu số nguyên int, do đó, ta cần chuẩn hóa dữ liệu 'trướcnăm1980' về thành 1980

In [117]:
df['Nam_dang_ky'] = df['Nam_dang_ky'].replace(['trướcnăm1980'], '1980')


years = list(set(df['Nam_dang_ky']))

for i, year in enumerate(years):
    print(f'{i + 1}. {year}')

1. 1987
2. 1994
3. 2015
4. 2016
5. 2008
6. 2000
7. 1980
8. 1997
9. 2022
10. 2010
11. 1992
12. 2011
13. 1983
14. 1986
15. 2014
16. 1990
17. 2018
18. 1993
19. 2019
20. 2001
21. 2013
22. 2002
23. 1982
24. 1996
25. 2004
26. 1999
27. 1981
28. 2020
29. 2007
30. 1989
31. 1995
32. 2006
33. 1988
34. 1984
35. 2009
36. 2012
37. 2003
38. 2021
39. 1991
40. 2005
41. 2017
42. 1985
43. 1998


Bây giờ, ta sẽ thêm cột tuổi của xe vào ngay sau cột năm đăng ký

In [118]:
THIS_YEAR = 2023

df["Nam_dang_ky"] = df["Nam_dang_ky"].astype(int)

df.insert(1,'Tuoi_xe', THIS_YEAR - df["Nam_dang_ky"])
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đãsửdụng,,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,9,2014,Đãsửdụng,100-175cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,10,2013,Đãsửdụng,100-175cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,8,2015,Đãsửdụng,100-175cc,Exciter,37,Xesố,26.500.000đ
4,Honda,24,1999,Đãsửdụng,100-175cc,Dream,25,Xesố,25.000.000đ
5,Honda,4,2019,Đãsửdụng,100-175cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,10,2013,Đãsửdụng,,Sirius,30,Xesố,7.800.000đ
7,Honda,4,2019,Đãsửdụng,,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,3,2020,Đãsửdụng,100-175cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,5,2018,Đãsửdụng,,Nvx,46000,Tayga,26.000.000đ


## 4. "Làm sạch" dữ liệu với cột tình trạng xe


Trước tiên, ta sẽ xem xem cột tình trạng xe có bao nhiêu loại dữ liệu

In [119]:
df["Tinh_trang_xe"].value_counts()

Đãsửdụng    12378
Mới            95
Name: Tinh_trang_xe, dtype: int64

Ta sẽ xem qua về các dữ liệu những xe có tình trạng sử dụng là mới

In [120]:
df[df["Tinh_trang_xe"].apply(lambda x : "Mới" in x)]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
529,Honda,1,2022,Mới,100-175cc,Vision,,Tayga,29.900.000đ
728,Honda,1,2022,Mới,100-175cc,AirBlade,,Tayga,47.000.000đ
2628,Honda,1,2022,Mới,100-175cc,AirBlade,,Tayga,41.700.000đ
5381,Yamaha,13,2010,Mới,Trên175cc,Nouvo,,Tayga,6.500.000đ
8582,Honda,1,2022,Mới,,Vision,,Tayga,4.999.999đ
...,...,...,...,...,...,...,...,...,...
41623,Yamaha,1,2022,Mới,,Mio,,Tayga,2.000.000đ
41681,Honda,1,2022,Mới,,Winner,,Taycôn/Moto,38.000.000đ
42604,Honda,6,2017,Mới,100-175cc,Winner,,Taycôn/Moto,22.000.000đ
42658,Honda,2,2021,Mới,,Vario,,Tayga,38.000.000đ


Ta sẽ thay thế số km đã đi được của các xe này về thành 0

In [121]:
df['So_km_da_di'] = np.where(df['Tinh_trang_xe'].apply(lambda x: "Mới" in x)\
                             , 0, df['So_km_da_di'])


# Ta có thể chạy lại câu lệnh phía trên câu lệnh này một lần nữa để xem sự thay đổi.

Ta sẽ thay đổi dữ liệu từ 'Đãsửdụng' về thành 'Đã sử dụng'

In [122]:
df['Tinh_trang_xe'] = df['Tinh_trang_xe'].replace(['Đãsửdụng' ], 'Đã sử dụng')
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đã sử dụng,,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,9,2014,Đã sử dụng,100-175cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,10,2013,Đã sử dụng,100-175cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,8,2015,Đã sử dụng,100-175cc,Exciter,37,Xesố,26.500.000đ
4,Honda,24,1999,Đã sử dụng,100-175cc,Dream,25,Xesố,25.000.000đ
5,Honda,4,2019,Đã sử dụng,100-175cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,10,2013,Đã sử dụng,,Sirius,30,Xesố,7.800.000đ
7,Honda,4,2019,Đã sử dụng,,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,3,2020,Đã sử dụng,100-175cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,5,2018,Đã sử dụng,,Nvx,46000,Tayga,26.000.000đ


## 5. "Làm sạch" dữ liệu với cột dung tích xe


Tương tự như tình trạng xe, trước tiên, ta cũng sẽ xem xem cột dung tích xe có bao nhiêu loại dữ liệu


In [123]:
motor_caps = list(set(df['Dung_tich_xe']))

print("Phân loại dung tích xe:")

for i, cap in enumerate(motor_caps):
    print(f"Loại {i + 1}: {cap}")

Phân loại dung tích xe:
Loại 1: 100-175cc
Loại 2: Dưới50cc
Loại 3: nan
Loại 4: Khôngbiếtrõ
Loại 5: 50-100cc
Loại 6: Trên175cc


In [124]:
df["Dung_tich_xe"].value_counts()

100-175cc      7607
50-100cc        628
Trên175cc       400
Dưới50cc        209
Khôngbiếtrõ      30
Name: Dung_tich_xe, dtype: int64

Ta sẽ tách các cụm từ ra thành các từ rõ ràng như 100-175 cc, Trên 175 cc, 50 - 100 cc, Dưới 50 cc, Không biết rõ 

In [125]:
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['100-175cc'], '100 - 175 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['Trên175cc'], 'Trên 175 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['50-100cc'], '50 - 100 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['Dưới50cc'], 'Dưới 50 cc')
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace(['Khôngbiếtrõ'], 'Không rõ')
df.head(10)


Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đã sử dụng,,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,9,2014,Đã sử dụng,100 - 175 cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,10,2013,Đã sử dụng,100 - 175 cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,8,2015,Đã sử dụng,100 - 175 cc,Exciter,37,Xesố,26.500.000đ
4,Honda,24,1999,Đã sử dụng,100 - 175 cc,Dream,25,Xesố,25.000.000đ
5,Honda,4,2019,Đã sử dụng,100 - 175 cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,10,2013,Đã sử dụng,,Sirius,30,Xesố,7.800.000đ
7,Honda,4,2019,Đã sử dụng,,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,3,2020,Đã sử dụng,100 - 175 cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,5,2018,Đã sử dụng,,Nvx,46000,Tayga,26.000.000đ


Đếm dữ liệu rỗng của dung tích xe


In [126]:
df[df['Dung_tich_xe'].isnull()].shape

(3599, 9)

Do số lượng dữ liệu rỗng của dung tích xe là quá lớn, nên ta sẽ thay thế giá trị rỗng bằng "Không rõ" đối với các giá trị rỗng của dung tích xe

In [127]:
df['Dung_tich_xe'] = df['Dung_tich_xe'].replace([np.nan], 'Không rõ')

# Kiểm tra lại số lượng dung tích xe có giá trị rỗng sau khi đã được 
# thay bằng giá trị "Không rõ"
df[df['Dung_tich_xe'].isnull()].shape


(0, 9)

In [128]:
df.head(10)


Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đã sử dụng,Không rõ,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,9,2014,Đã sử dụng,100 - 175 cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,10,2013,Đã sử dụng,100 - 175 cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,8,2015,Đã sử dụng,100 - 175 cc,Exciter,37,Xesố,26.500.000đ
4,Honda,24,1999,Đã sử dụng,100 - 175 cc,Dream,25,Xesố,25.000.000đ
5,Honda,4,2019,Đã sử dụng,100 - 175 cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,10,2013,Đã sử dụng,Không rõ,Sirius,30,Xesố,7.800.000đ
7,Honda,4,2019,Đã sử dụng,Không rõ,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,3,2020,Đã sử dụng,100 - 175 cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,5,2018,Đã sử dụng,Không rõ,Nvx,46000,Tayga,26.000.000đ


##6. "Làm sạch" cột dữ liệu dòng xe

Cũng hoàn toàn giống với các trường dữ liệu khác, ta sẽ xem xem có bao nhiêu dòng xe khác nhau trong bộ dữ liệu này

In [129]:
models = list(set(df["Dong_xe"]))

print("Các dòng xe:")
for i, model in enumerate(models):
    print(f"Dòng xe {i + 1}: {model}")

Các dòng xe:
Dòng xe 1: Future
Dòng xe 2: EN
Dòng xe 3: Nouvo
Dòng xe 4: CandyHi
Dòng xe 5: KPR
Dòng xe 6: F3
Dòng xe 7: Angela
Dòng xe 8: Spacy
Dòng xe 9: Duke200
Dòng xe 10: Cruiser
Dòng xe 11: Vision
Dòng xe 12: FatBob
Dòng xe 13: TFX
Dòng xe 14: RFS
Dòng xe 15: Best
Dòng xe 16: Attila
Dòng xe 17: Demon150GN
Dòng xe 18: K-Pipe
Dòng xe 19: Stinger
Dòng xe 20: Raider
Dòng xe 21: Star
Dòng xe 22: Z1000
Dòng xe 23: Yass
Dòng xe 24: Intruder
Dòng xe 25: Dream
Dòng xe 26: Fly
Dòng xe 27: Bonus
Dòng xe 28: FZ
Dòng xe 29: Amici
Dòng xe 30: Vario
Dòng xe 31: Blade
Dòng xe 32: TuonoV41100FactoryABS
Dòng xe 33: PanigaleV4
Dòng xe 34: Exciter
Dòng xe 35: EZ
Dòng xe 36: Husky
Dòng xe 37: Smash
Dòng xe 38: Monkey
Dòng xe 39: Phoenix
Dòng xe 40: Mio
Dòng xe 41: Cello
Dòng xe 42: SandaBoss
Dòng xe 43: RnineT
Dòng xe 44: Espero
Dòng xe 45: Dylan
Dòng xe 46: YB125
Dòng xe 47: SH
Dòng xe 48: CB
Dòng xe 49: FX125
Dòng xe 50: @
Dòng xe 51: StreetTwin
Dòng xe 52: Z800
Dòng xe 53: 67
Dòng xe 54: Taurus
Dò

Do số lượng dòng xe khá lớn (196 dòng xe), nên ta sẽ chạy lệnh để kiểm tra có giá trị rỗng trong dòng xe không

In [130]:
df[df["Dong_xe"].isnull()]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
23269,Honda,6,2017,Đã sử dụng,100 - 175 cc,,21000,Tayga,58.800.000đ
24680,Yamaha,1,2022,Đã sử dụng,Không rõ,,519,Xesố,18.000.000đ
32795,Hãng khác,1,2022,Mới,Dưới 50 cc,,0,Tayga,20.500.000đ
40352,Keeway,3,2020,Đã sử dụng,Không rõ,,9200,Taycôn/Moto,90.000.000đ
40889,Honda,19,2004,Đã sử dụng,Trên 175 cc,,17189,Taycôn/Moto,12.345.678đ
42184,Benelli,6,2017,Đã sử dụng,Không rõ,,18000,Taycôn/Moto,14.500.000đ


Cũng tương tự với hãng xe, dòng xe là một trong những thuộc tính quan trọng cần phải biết, cùng với đó, số lượng dữ liệu rỗng cũng không phải quá lớn (Quan sát bằng mắt thường ta đếm được chỉ có lượng nhỏ) nên ta sẽ loại bỏ đi những hàng này

In [131]:
df = df[df["Dong_xe"].notna()]

# Đồng thời cũng thay đổi lại khoảng cách từ
df['Dong_xe'] = df['Dong_xe'].replace(['Dòngkhác'], "Dòng khác")

df.shape



(12467, 9)

## 7. "Làm sạch" cột dữ liệu về số km đã đi

Ta sẽ ép kiểu các giá trị của số km đã đi sang kiểu int, đồng thời, loại đi các giá trị rỗng, do số km là giá trị định lượng nên không thể tìm được giá trị thay thế nên cần loại bỏ.

In [132]:
df = df[df['So_km_da_di'].notna()]
df['So_km_da_di'] = df['So_km_da_di'].astype(int)

df['So_km_da_di'].dtypes

dtype('int64')

In [133]:
df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đã sử dụng,Không rõ,Sport/Xipo,1234,Taycôn/Moto,25.500.000đ
1,Piaggio,9,2014,Đã sử dụng,100 - 175 cc,Vespa,11000,Tayga,32.500.000đ
2,Yamaha,10,2013,Đã sử dụng,100 - 175 cc,Exciter,25,Taycôn/Moto,27.500.000đ
3,Yamaha,8,2015,Đã sử dụng,100 - 175 cc,Exciter,37,Xesố,26.500.000đ
4,Honda,24,1999,Đã sử dụng,100 - 175 cc,Dream,25,Xesố,25.000.000đ
5,Honda,4,2019,Đã sử dụng,100 - 175 cc,Cub,585869,Xesố,3.300.000đ
6,Yamaha,10,2013,Đã sử dụng,Không rõ,Sirius,30,Xesố,7.800.000đ
7,Honda,4,2019,Đã sử dụng,Không rõ,Winner,1000,Taycôn/Moto,16.500.000đ
8,Honda,3,2020,Đã sử dụng,100 - 175 cc,Vario,1,Tayga,40.500.000đ
9,Yamaha,5,2018,Đã sử dụng,Không rõ,Nvx,46000,Tayga,26.000.000đ


Một yếu tố nữa cũng cần kiểm tra, dù nó rất hiếm xảy ra, đó là ta sẽ kiểm tra xem các giá trị của số km đảm bảo không bị âm

In [134]:
df[df["So_km_da_di"] < 0]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe


## 8. "Làm sạch" dữ liệu về loại xe

Với dữ liệu này, ta sẽ xem các loại xe và tìm các giá trị rỗng, tùy thuộc vào giá trị các loại xe mà ta sẽ quyết định cách thức xử lý giá trị rỗng

In [135]:
# Ta đếm số loại xe

df["Loai_xe"]

0        Taycôn/Moto
1              Tayga
2        Taycôn/Moto
3               Xesố
4               Xesố
            ...     
43319           Xesố
43370           Xesố
43386           Xesố
43471    Taycôn/Moto
43472          Tayga
Name: Loai_xe, Length: 12226, dtype: object

In [136]:
# Xem các giá trị rỗng:
df[df["Loai_xe"].isnull()]

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe


May mắn rằng không tồn tại giá trị rỗng tại Loại xe, cuối cùng ta sẽ phân tách các từ của loại xe

In [137]:
df['Loai_xe'] = df['Loai_xe'].replace(['Tayga'], 'Tay ga')
df['Loai_xe'] = df['Loai_xe'].replace(['Xesố'], 'Xe số')
df['Loai_xe'] = df['Loai_xe'].replace(['Taycôn/Moto'], 'Tay côn')
df.head(10)



Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đã sử dụng,Không rõ,Sport/Xipo,1234,Tay côn,25.500.000đ
1,Piaggio,9,2014,Đã sử dụng,100 - 175 cc,Vespa,11000,Tay ga,32.500.000đ
2,Yamaha,10,2013,Đã sử dụng,100 - 175 cc,Exciter,25,Tay côn,27.500.000đ
3,Yamaha,8,2015,Đã sử dụng,100 - 175 cc,Exciter,37,Xe số,26.500.000đ
4,Honda,24,1999,Đã sử dụng,100 - 175 cc,Dream,25,Xe số,25.000.000đ
5,Honda,4,2019,Đã sử dụng,100 - 175 cc,Cub,585869,Xe số,3.300.000đ
6,Yamaha,10,2013,Đã sử dụng,Không rõ,Sirius,30,Xe số,7.800.000đ
7,Honda,4,2019,Đã sử dụng,Không rõ,Winner,1000,Tay côn,16.500.000đ
8,Honda,3,2020,Đã sử dụng,100 - 175 cc,Vario,1,Tay ga,40.500.000đ
9,Yamaha,5,2018,Đã sử dụng,Không rõ,Nvx,46000,Tay ga,26.000.000đ


## 9. "Làm sạch" dữ liệu về giá

Giá trị của giá xe phải đảm bảo không được phép rỗng, bởi đó là yếu tố quan trọng nhất, là output của mô hình học máy.

Ta sẽ tiến hành kiểm tra xem có giá trị rỗng trong giá xe hay không và sẽ loại bỏ nếu có, đồng thời thay đổi thay đổi về format của các giá trị trong giá xe (Cụ thể, bỏ ký tự đ ở cuối, bỏ các dấu .) sau đó chuyển đổi kiểu dữ liệu cho chúng sang float.

In [138]:
# Loại bỏ giá trị rỗng ngay nếu có
df = df[df['Gia_xe'].notna()]

# Format lại và chuyển kiểu dữ liệu
df["Gia_xe"] = df['Gia_xe'].apply(lambda x: x[:-1])
df["Gia_xe"] = df['Gia_xe'].apply(lambda x: x.replace('.', ''))
df['Gia_xe'] = df['Gia_xe'].astype(float)


df.head(10)

Unnamed: 0,Hang_xe,Tuoi_xe,Nam_dang_ky,Tinh_trang_xe,Dung_tich_xe,Dong_xe,So_km_da_di,Loai_xe,Gia_xe
0,Suzuki,27,1996,Đã sử dụng,Không rõ,Sport/Xipo,1234,Tay côn,25500000.0
1,Piaggio,9,2014,Đã sử dụng,100 - 175 cc,Vespa,11000,Tay ga,32500000.0
2,Yamaha,10,2013,Đã sử dụng,100 - 175 cc,Exciter,25,Tay côn,27500000.0
3,Yamaha,8,2015,Đã sử dụng,100 - 175 cc,Exciter,37,Xe số,26500000.0
4,Honda,24,1999,Đã sử dụng,100 - 175 cc,Dream,25,Xe số,25000000.0
5,Honda,4,2019,Đã sử dụng,100 - 175 cc,Cub,585869,Xe số,3300000.0
6,Yamaha,10,2013,Đã sử dụng,Không rõ,Sirius,30,Xe số,7800000.0
7,Honda,4,2019,Đã sử dụng,Không rõ,Winner,1000,Tay côn,16500000.0
8,Honda,3,2020,Đã sử dụng,100 - 175 cc,Vario,1,Tay ga,40500000.0
9,Yamaha,5,2018,Đã sử dụng,Không rõ,Nvx,46000,Tay ga,26000000.0


Ta xem lại số chiều của bộ dữ liệu sau khi làm sạch

In [139]:
df.shape

(12216, 9)

## 10. Lưu lại dữ liệu đã được làm sạch vào một file mới

In [140]:


df.to_csv(SAVE_PATH, index=False)

Ta đã kết thúc quá trình làm sạch nguồn dữ liệu

Quá trình làm sạch dữ liệu ở trên có thể được bổ sung ở các bước tiếp theo của dự án nếu cần thiết.