In [9]:
import os
import pickle
import pandas as pd
# Đường dẫn đến thư mục chứa các file .pkl
folder_path = 'data/clean'

# Duyệt qua tất cả các file trong thư mục
for filename in os.listdir(folder_path):
    # Kiểm tra nếu file có phần mở rộng là .pkl
    if filename.endswith('.pkl'):
        file_path = os.path.join(folder_path, filename)
        
        # Mở và đọc file .pkl
        with open(file_path, 'rb') as f:
            data = pickle.load(f)
        
        # In ra độ dài của dữ liệu
        print(f'Độ dài của file {filename} là: {len(data)}')


Độ dài của file data.pkl là: 30881
Độ dài của file bonbanh.nissan.pkl là: 300
Độ dài của file bonbanh.isuzu.pkl là: 120
Độ dài của file bonbanh.volkswagen.pkl là: 361
Độ dài của file bonbanh.kia.pkl là: 2900
Độ dài của file bonbanh.mitsubishi.pkl là: 1474
Độ dài của file bonbanh.mercedes_benz.pkl là: 3329
Độ dài của file bonbanh.volvo.pkl là: 150
Độ dài của file bonbanh.peugeot.pkl là: 275
Độ dài của file bonbanh.hyundai.pkl là: 3475
Độ dài của file bonbanh.suzuki.pkl là: 343
Độ dài của file bonbanh.chevrolet.pkl là: 554
Độ dài của file bonbanh.ford.pkl là: 3155
Độ dài của file bonbanh.daewoo.pkl là: 248
Độ dài của file bonbanh.mini.pkl là: 113
Độ dài của file bonbanh.landrover.pkl là: 411
Độ dài của file bonbanh.vinfast.pkl là: 969
Độ dài của file bonbanh.toyota.pkl là: 5860
Độ dài của file bonbanh.lexus.pkl là: 1177
Độ dài của file bonbanh.mg.pkl là: 376
Độ dài của file bonbanh.jeep.pkl là: 89
Độ dài của file bonbanh.honda.pkl là: 1352
Độ dài của file bonbanh.subaru.pkl là: 212
Độ dà

In [10]:
# Đọc file data.pkl
df = pd.read_pickle('data/clean/data.pkl')

# Xóa các hàng chứa dữ liệu thiếu
df = df.dropna()

# Đếm dữ liệu bị thiếu
print(df.isnull().sum())

# Hàm để cắt phần năm từ tên xe
def cut_year(name):
    if '-' in name:
        name = name.rsplit('-', 1)[0]
    return name.strip()

# Cắt phần năm từ cột tên xe
df['Tên xe'] = df['Tên xe'].apply(cut_year)

# Tách tên hãng xe và tên dòng xe từ cột tên xe
df['Tên hãng xe'] = df['Tên xe'].apply(lambda x: x.split(' ')[0])
df['Tên dòng xe'] = df['Tên xe'].apply(lambda x: ' '.join(x.split(' ')[1:]))

# Xóa các hàng trùng lặp
df = df.drop_duplicates()

# Định nghĩa thứ tự mới của các cột
new_order = ['Tên hãng xe', 'Tên dòng xe', 'Năm sản xuất', 'Giá'] + [c for c in df.columns if c not in ['Tên hãng xe', 'Tên dòng xe','Năm sản xuất', 'Giá']]

# Sắp xếp lại các cột theo thứ tự mới
df = df.reindex(columns=new_order)

# Xóa các cột 'URL' 'Mã xe', 'Tình trạng chung', 'Mô tả'
df = df.drop(['URL','Tên xe', 'Mã xe', 'Tình trạng chung', 'Mô tả'], axis=1)

# Chuyển đổi kiểu dữ liệu của cột 'Giá xe' thành float
df['Giá'] = df['Giá'].astype(float)

# Giảm giá trị của cột 'Giá xe' về đơn vị triệu đồng
df['Giá'] = df['Giá'] / 1000000

# Loại bỏ phần ' km' và chuyển đổi kiểu dữ liệu của cột 'Số Km đã đi'
df['Số Km đã đi'] = df['Số Km đã đi'].str.replace(' Km', '').str.replace(',', '').astype(float)

# Gán giá trị 0 cho cột 'Số Km đã đi' nếu cột 'Tình trạng' là 'Xe mới'
df.loc[df['Tình trạng'] == 'Xe mới', 'Số Km đã đi'] = 0

# Xóa những hàng sai "Số km đã đi"
# Lọc ra những hàng cần xóa
rows_to_drop = df[(df['Tình trạng'] == 'Xe đã dùng') & (df['Số Km đã đi'] == 0)].index

# Xóa các hàng tương ứng
df = df.drop(rows_to_drop)

# Lưu dataframe vào file data.pkl
df.to_pickle('data/clean/data.pkl')

# In ra 5 hàng đầu tiên
print(df.head().to_string())

URL                 0
Tình trạng chung    0
Tên xe              0
Giá                 0
Tỉnh                0
Mã xe               0
Năm sản xuất        0
Tình trạng          0
Số Km đã đi         0
Xuất xứ             0
Kiểu dáng           0
Hộp số              0
Động cơ             0
Màu ngoại thất      0
Màu nội thất        0
Số chỗ ngồi         0
Số cửa              0
Dẫn động            0
Mô tả               0
dtype: int64
  Tên hãng xe                Tên dòng xe Năm sản xuất    Giá    Tỉnh  Tình trạng  Số Km đã đi             Xuất xứ           Kiểu dáng      Hộp số      Động cơ Màu ngoại thất Màu nội thất Số chỗ ngồi Số cửa                  Dẫn động
0      Nissan       Navara VL 2.5 AT 4WD         2017  485.0  Hà Nội  Xe đã dùng      60000.0           Nhập khẩu  Bán tải / Pickup  Số tự động   Dầu  2.5 L           Xanh          Ghi       5 chỗ  4 cửa     4WD - Dẫn động 4 bánh
1      Nissan        Navara EL Premium R         2018  464.0  TP HCM  Xe đã dùng     130000.0           N

In [11]:
# from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# # Khởi tạo các đối tượng mã hóa
# le = LabelEncoder()
# ohe = OneHotEncoder()

# # Danh sách các cột cần mã hóa
# cols_to_encode = ['Tình trạng', 'Xuất xứ', 'Kiểu dáng', 'Hộp số', 'Động cơ', 'Màu ngoại thất', 'Màu nội thất', 'Số chỗ ngồi', 'Số cửa', 'Dẫn động']

# # Vòng lặp qua từng cột cần mã hóa
# for col in cols_to_encode:
#     # Mã hóa nhãn (Label Encoding)
#     df[col + '_encoded'] = le.fit_transform(df[col])
    
#     # Mã hóa one-hot (One-Hot Encoding)
#     one_hot = ohe.fit_transform(df[[col]]).toarray()
#     # Tạo DataFrame cho các cột one-hot
#     one_hot_df = pd.DataFrame(one_hot, columns=[f"{col}_{c}" for c in le.classes_])
#     # Nối DataFrame one-hot với DataFrame gốc
#     df = pd.concat([df, one_hot_df], axis=1)

# # In ra dataframe
# print(df.to_string())


In [12]:
# Lưu dataframe vào file Excel
df.to_excel('data/clean/data.xlsx')

# Lấy số lượng cột của DataFrame
num_columns = df.shape[1]

# In ra số lượng cột
print("Số lượng cột của DataFrame: ", num_columns)

Số lượng cột của DataFrame:  16


In [13]:
print(len(df))

20480


In [14]:
from sklearn.model_selection import train_test_split

# Giả sử df là DataFrame của bạn và 'Giá' là cột mục tiêu
X = df.drop('Giá', axis=1)  # Tất cả các cột trừ cột 'Giá'
y = df['Giá']  # Chỉ cột 'Giá'

# Chia dữ liệu thành tập huấn luyện và tập kiểm thử
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# In ra kích thước của tập huấn luyện và tập kiểm thử
print("Kích thước tập huấn luyện:", X_train.shape)
print("Kích thước tập kiểm thử:", X_test.shape)


Kích thước tập huấn luyện: (16384, 15)
Kích thước tập kiểm thử: (4096, 15)


In [15]:
print(df.isnull().sum())

Tên hãng xe       0
Tên dòng xe       0
Năm sản xuất      0
Giá               0
Tỉnh              0
Tình trạng        0
Số Km đã đi       0
Xuất xứ           0
Kiểu dáng         0
Hộp số            0
Động cơ           0
Màu ngoại thất    0
Màu nội thất      0
Số chỗ ngồi       0
Số cửa            0
Dẫn động          0
dtype: int64
