# Tách, trích xuất dữ liệu

In [1]:
from src import extract_data, load_data
import os
import pickle
import pandas as pd
from IPython.display import display

### Hàm trích xuất dữ liệu từ các file HTML và lưu trong thư mục data/clean

In [2]:
def extract(model: str):
    raw_data = load_data(os.path.join("data", "raw", f"bonbanh.{model}.pkl"))
    clean_data = []
    for e in raw_data:
        clean_data.append(extract_data(e))
    df = pd.DataFrame(clean_data)
    display(df.head())
    df.to_pickle(os.path.join("data", "clean", f"bonbanh.{model}.pkl"))

In [3]:
# extract('audi')
# extract('bentley')
# extract('bmw')
# extract('chevrolet')
# extract('daewoo')
# extract('ford')
# extract('honda')
# extract('hyundai')
# extract('isuzu')
# extract('jeep')
# extract('kia')
# extract('landrover')
# extract('lexus')
# extract('mazda')
# extract('mercedes_benz')
# extract('mg')
# extract('mini')
# extract('mitsubishi')
# extract('nissan')
# extract('peugeot')
# extract('porsche')
# extract('subaru')
# extract('suzuki')
# extract('toyota')
# extract('vinfast')
# extract('volkswagen')
# extract('volvo')

### Gộp tất cả dữ liệu sau khi trích xuất thành 1 DataFrame

In [4]:
def merge_data(folder_path):
    data_df = pd.DataFrame()
    files = os.listdir(folder_path)
    sorted_files = sorted(files)

    for file_name in sorted_files:
        if file_name.startswith("bonbanh"):
            file_path = os.path.join(folder_path, file_name)
            with open(file_path, "rb") as f:
                content = pickle.load(f)
                if isinstance(content, pd.DataFrame):
                    data_df = pd.concat([data_df, content], ignore_index=True)
                    print(f"{file_name}: {content.shape[0]}")

    data_df.drop(columns=["Mô tả"], axis=1, inplace=True)
    return data_df


FOLDER_PATH = os.path.join("data", "clean")
cars = merge_data(FOLDER_PATH)

bonbanh.audi.pkl: 315
bonbanh.bentley.pkl: 65
bonbanh.bmw.pkl: 682
bonbanh.chevrolet.pkl: 554
bonbanh.daewoo.pkl: 248
bonbanh.ford.pkl: 3155
bonbanh.honda.pkl: 1352
bonbanh.hyundai.pkl: 3475
bonbanh.isuzu.pkl: 120
bonbanh.jeep.pkl: 89
bonbanh.kia.pkl: 2900
bonbanh.landrover.pkl: 411
bonbanh.lexus.pkl: 1177
bonbanh.mazda.pkl: 2147
bonbanh.mercedes_benz.pkl: 3329
bonbanh.mg.pkl: 376
bonbanh.mini.pkl: 113
bonbanh.mitsubishi.pkl: 1474
bonbanh.nissan.pkl: 300
bonbanh.peugeot.pkl: 275
bonbanh.porsche.pkl: 429
bonbanh.subaru.pkl: 212
bonbanh.suzuki.pkl: 343
bonbanh.toyota.pkl: 5860
bonbanh.vinfast.pkl: 969
bonbanh.volkswagen.pkl: 361
bonbanh.volvo.pkl: 150


# Làm sạch dữ liệu

### Thông tin cơ bản

In [5]:
cars.head()

Unnamed: 0,URL,Tình trạng chung,Tên xe,Giá,Tỉnh,Mã xe,Năm sản xuất,Tình trạng,Số Km đã đi,Xuất xứ,Kiểu dáng,Hộp số,Động cơ,Màu ngoại thất,Màu nội thất,Số chỗ ngồi,Số cửa,Dẫn động
0,https://bonbanh.com/xe-audi-a8-l-55-tfsi-quatt...,Xe cũ,Audi A8 L 55 TFSI Quattro - 2020,2950000000,TP HCM,5596529,2020,Xe đã dùng,"30,000 Km",Nhập khẩu,Sedan,Số tự động,Xăng 3.0 L,Đen,Đen,5 chỗ,4 cửa,AWD - 4 bánh toàn thời gian
1,https://bonbanh.com/xe-audi-a6-2.0-tfsi-2014-5...,Xe cũ,Audi A6 2.0 TFSI - 2014,560000000,Hà Nội,5555194,2014,Xe đã dùng,"94,000 Km",Nhập khẩu,Sedan,Số tự động,Xăng 2.0 L,Xanh,Nâu,5 chỗ,4 cửa,FWD - Dẫn động cầu trước
2,https://bonbanh.com/xe-audi-a4-2.0-tfsi-2016-5...,Xe cũ,Audi A4 2.0 TFSI - 2016,690000000,TP HCM,5464113,2016,Xe đã dùng,"50,000 Km",Nhập khẩu,Sedan,Số tự động,Xăng 2.0 L,Đen,Đen,5 chỗ,4 cửa,FWD - Dẫn động cầu trước
3,https://bonbanh.com/xe-audi-q3-2.0-quattro-201...,Xe cũ,Audi Q3 2.0 Quattro - 2016,699000000,Hà Nội,5532313,2016,Xe đã dùng,"76,000 Km",Nhập khẩu,Crossover,Số tự động,Xăng 2.0 L,Xanh,Đen,5 chỗ,5 cửa,AWD - 4 bánh toàn thời gian
4,https://bonbanh.com/xe-audi-a4-2.0-tfsi-2017-5...,Xe cũ,Audi A4 2.0 TFSI - 2017,799000000,TP HCM,5346160,2017,Xe đã dùng,0 Km,Nhập khẩu,Sedan,Số tự động,Xăng 2.0 L,Đen,Nâu,5 chỗ,4 cửa,FWD - Dẫn động cầu trước


In [6]:
cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30881 entries, 0 to 30880
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   URL               30881 non-null  object
 1   Tình trạng chung  30881 non-null  object
 2   Tên xe            30881 non-null  object
 3   Giá               30881 non-null  object
 4   Tỉnh              30881 non-null  object
 5   Mã xe             30881 non-null  object
 6   Năm sản xuất      30881 non-null  object
 7   Tình trạng        30881 non-null  object
 8   Số Km đã đi       24600 non-null  object
 9   Xuất xứ           30881 non-null  object
 10  Kiểu dáng         30881 non-null  object
 11  Hộp số            30881 non-null  object
 12  Động cơ           30881 non-null  object
 13  Màu ngoại thất    30881 non-null  object
 14  Màu nội thất      30881 non-null  object
 15  Số chỗ ngồi       30881 non-null  object
 16  Số cửa            30881 non-null  object
 17  Dẫn động    

In [7]:
cars.nunique()

URL                 30514
Tình trạng chung        2
Tên xe               4743
Giá                  2194
Tỉnh                   63
Mã xe               30514
Năm sản xuất           36
Tình trạng              2
Số Km đã đi          1780
Xuất xứ                 2
Kiểu dáng              10
Hộp số                  2
Động cơ                89
Màu ngoại thất         18
Màu nội thất           18
Số chỗ ngồi            21
Số cửa                  7
Dẫn động                5
dtype: int64

### Xóa các dữ liệu trùng lặp

In [8]:
cars = cars.drop_duplicates()
cars = cars.drop_duplicates(subset=['Mã xe'])

### Xóa cột URL, Mã xe, Tình trạng chung

In [9]:
cars.drop(columns=["URL"], axis=1, inplace=True)
cars.drop(columns=["Mã xe"], axis=1, inplace=True)

### Tách cột Tên xe thành Tên hãng xe và Tên dòng xe

In [10]:
def cut_year(name):
    if "-" in name:
        name = name.rsplit("-", 1)[0]
    return name.strip()

cars["Tên xe"] = cars["Tên xe"].apply(cut_year)
cars["Tên hãng xe"] = cars["Tên xe"].apply(
    lambda x: " ".join(x.split(" ")[:2]) if "Mercedes" in x else x.split(" ")[0].lower()
)
cars["Tên dòng xe"] = cars["Tên xe"].apply(
    lambda x: (
        " ".join(x.split(" ")[2:]) if "Mercedes" in x else " ".join(x.split(" ")[1:])
    )
)

### Chia cột Giá theo đơn vị triệu đồng

In [11]:
cars["Giá"] = cars["Giá"].astype(float) / 1000000

### Chuyển kiểu dữ liệu của Năm sản xuất sang int

In [12]:
cars["Năm sản xuất"] = cars["Năm sản xuất"].astype(int)

### Thay thế  Tình trang: "Xe đã dùng" -> "cũ", "Xe mới" -> "mới"

In [13]:
cars["Tình trạng"].value_counts()

Tình trạng
Xe đã dùng    24310
Xe mới         6204
Name: count, dtype: int64

In [14]:
cars = cars.replace("Xe đã dùng", "cũ")
cars = cars.replace("Xe mới", "mới")

### Chuyển đổi kiểu dữ liệu của cột 'Số Km đã đi' thành float

In [15]:
cars["Số Km đã đi"] = cars["Số Km đã đi"].str.replace(" Km", "").str.replace(",", "")
cars["Số Km đã đi"] = cars["Số Km đã đi"].fillna(0)
cars["Số Km đã đi"] = cars["Số Km đã đi"].astype(float) / 1000

### Tách cột động cơ thành 2 cột: Loại động cơ và Dung tích

In [16]:
cars["Loại động cơ"] = cars["Động cơ"].apply(lambda x: x.split(" ")[0])
cars["Dung tích"] = cars["Động cơ"].apply(
    lambda x: float(x.split(" ")[-2]) if len(x.split(" ")) > 1 else None
)

### Chuyển kiểu dữ liệu của 2 cột Số chỗ ngồi và số cửa thành int

In [17]:
cars["Số chỗ ngồi"] = cars["Số chỗ ngồi"].str.split(" ").str[0].astype(int)
cars["Số cửa"] = cars["Số cửa"].str.split(" ").str[0].astype(int)

### Rút gọn cột Dẫn động

In [18]:
cars['Dẫn động'].value_counts()

Dẫn động
FWD - Dẫn động cầu trước       16275
RFD - Dẫn động cầu sau          6733
AWD - 4 bánh toàn thời gian     5398
4WD - Dẫn động 4 bánh           2107
-                                  1
Name: count, dtype: int64

In [19]:
cars = cars[cars["Dẫn động"] != "-"]
cars["Dẫn động"] = cars["Dẫn động"].apply(lambda x: str(x).split()[0])

### Xử lý các dữ liệu không hợp lệ

Gán giá trị 0 cho cột 'Số Km đã đi' nếu cột 'Tình trạng' là 'Xe mới'

In [20]:
cars.loc[cars['Tình trạng'] == 'Xe mới', 'Số Km đã đi'] = 0

Xóa dữ liệu không hợp lệ: Xe đã dùng nhưng Số Km đã đi là 0

In [21]:
rows_to_drop = cars[(cars['Tình trạng'] == 'cũ') & (cars['Số Km đã đi'] == 0)].index
cars = cars.drop(rows_to_drop)

Xóa dữ liệu có Dung tích không xác định

In [22]:
nan_count = cars["Dung tích"].isna().sum()
print("Số lượng giá trị NaN trong cột 'Dung tích':", nan_count)

Số lượng giá trị NaN trong cột 'Dung tích': 278


In [23]:
cars.dropna(subset=["Dung tích"], inplace=True)

### Sắp xếp lại dữ liệu, xóa các cột không cần thiết

In [24]:
new_order = [
    "Tên hãng xe", "Năm sản xuất", 
    "Tỉnh", "Số Km đã đi",  "Xuất xứ", "Kiểu dáng", 
    "Hộp số", "Màu ngoại thất", "Màu nội thất", "Số chỗ ngồi",
    "Số cửa", "Dẫn động", "Loại động cơ", "Dung tích", "Giá",
]
cars = cars.reindex(columns=new_order)
cars.reset_index(drop=True, inplace=True)

In [25]:
# Tìm những hàng có ít nhất một cột có giá trị là '-'
rows_with_dash = cars.isin(['-']).any(axis=1)

# Xóa những hàng này khỏi DataFrame
cars = cars.drop(rows_with_dash[rows_with_dash].index)

In [26]:
print(cars.shape)
cars.head()

(25582, 15)


Unnamed: 0,Tên hãng xe,Năm sản xuất,Tỉnh,Số Km đã đi,Xuất xứ,Kiểu dáng,Hộp số,Màu ngoại thất,Màu nội thất,Số chỗ ngồi,Số cửa,Dẫn động,Loại động cơ,Dung tích,Giá
0,audi,2020,TP HCM,30.0,Nhập khẩu,Sedan,Số tự động,Đen,Đen,5,4,AWD,Xăng,3.0,2950.0
1,audi,2014,Hà Nội,94.0,Nhập khẩu,Sedan,Số tự động,Xanh,Nâu,5,4,FWD,Xăng,2.0,560.0
2,audi,2016,TP HCM,50.0,Nhập khẩu,Sedan,Số tự động,Đen,Đen,5,4,FWD,Xăng,2.0,690.0
3,audi,2016,Hà Nội,76.0,Nhập khẩu,Crossover,Số tự động,Xanh,Đen,5,5,AWD,Xăng,2.0,699.0
4,audi,2016,Hà Nội,90.0,Nhập khẩu,SUV,Số tự động,Trắng,Kem,5,5,AWD,Xăng,2.0,739.0


# Lưu dữ liệu sau khi làm sạch

In [27]:
FOLDER_PATH = os.path.join("data", "train")

cars.to_pickle(os.path.join(FOLDER_PATH, 'cars.pkl')) 
cars.to_csv(os.path.join(FOLDER_PATH, "cars.csv"), index=False)
cars.to_excel(os.path.join(FOLDER_PATH, 'cars.xlsx'), index=False)