# **Car Price Prediction**

**Mục tiêu:**
Xây dựng Pipeline học máy truyền thống cho vấn đề trên.

1.  **EDA (Exploratory Data Analysis):**
    *   Thống kê mô tả dữ liệu, trực quan hóa để hiểu rõ các biến.
    *   Phát hiện dữ liệu thiếu, giá trị ngoại lai và xu hướng phân phối.

2.  **Tiền xử lý dữ liệu (Data Preprocessing):**
    *   Làm sạch dữ liệu, xử lý các giá trị bị thiếu.
    *   Mã hóa dữ liệu phân loại (One-Hot Encoding, Label Encoding).
    *   Chuẩn hóa dữ liệu số (StandardScaler, MinMaxScaler).
    *   Chia tập dữ liệu thành tập huấn luyện (train) và tập kiểm tra (test).

3.  **Trích xuất và lựa chọn đặc trưng (Feature Engineering & Selection):**
    *   Tạo ra các đặc trưng mới có ý nghĩa hơn từ dữ liệu gốc (ví dụ: tuổi của xe).
    *   Lựa chọn những đặc trưng quan trọng nhất để đưa vào mô hình.

4.  **Huấn luyện mô hình (Model Training):**
    *   Áp dụng các thuật toán học máy phù hợp cho bài toán **hồi quy (regression)** như:
        *   Logistic Regression
        *   SVM
        *   Random Forest

5.  **Đánh giá mô hình (Model Evaluation):**
    *   Sử dụng các chỉ số đánh giá cho bài toán hồi quy:
        *   Accuracy
        *   Precision
        *   Recall
        *   F1-score

**Yêu cầu:**
* Các nhóm không được chọn trùng tập dữ liệu.
* Tập dữ liệu phải có missing value để sinh viên thực hành kỹ thuật imputation.
* Tập dữ liệu phải có categorical value để sinh viên thực hành các kỹ thuật
encoding.
* Số lượng mẫu (sample size) đủ lớn để pipeline có ý nghĩa; việc lựa chọn cụ thể
nên được thảo luận trực tiếp với giảng viên trên lớp.

**Nhiệm vụ:** mỗi nhóm phải xây dựng một pipeline học máy truyền thống cho
dữ liệu dạng bảng. Pipeline này phải được thiết kế sao cho cho phép cấu hình các kỹ
thuật và tham số ở từng bước. Ví dụ:
* Scaling: có thể lựa chọn MinMaxScaler hoặc StandardScaler; nếu chọn MinMaxScaler,
sinh viên cần cấu hình feature_range.
* Giảm số chiều: có thể lựa chọn PCA với các mức giữ lại phương sai khác nhau
(90%, 95%, ...).
* Mô hình: có thể lựa chọn Logistic Regression, SVM, Random Forest và so sánh
kết quả.

Kết quả cuối cùng cần bao gồm: báo cáo phân tích EDA, mô tả pipeline, các tham
số đã thử nghiệm, và so sánh hiệu quả giữa các cấu hình.

## **1. Thiết lập môi trường và Tải dữ liệu**



### **1.1 Import thư viện và cấu hình Kaggle API từ Secrets**

In [55]:
import os
import pandas as pd
from google.colab import userdata
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style("whitegrid")
print("Các thư viện đã được import và cấu hình.")

# Tự động cấu hình Kaggle API
os.environ['KAGGLE_USERNAME'] = 'nguyenk512'
os.environ['KAGGLE_KEY'] = '187454a718c857637f7319f39e33b509'

Các thư viện đã được import và cấu hình.


### **1.2 Tải, giải nén và đọc dữ liệu**

In [56]:
!pip install kaggle --quiet
!kaggle datasets download -d deepcontractor/car-price-prediction-challenge -p ./data

# Thêm cờ -o để tự động ghi đè file cũ, tránh bị hỏi và gây lỗi
!unzip -o -q ./data/car-price-prediction-challenge.zip -d ./data

# Đọc file 'train.csv' (đây là file dữ liệu huấn luyện)
try:
    df = pd.read_csv('./data/car_price_prediction.csv')
    print("\nĐọc dataset thành công!")
except FileNotFoundError:
    print("\nLỗi: Không tìm thấy dataset. Vui lòng kiểm tra lại kết quả lệnh 'ls' ở trên.")

Dataset URL: https://www.kaggle.com/datasets/deepcontractor/car-price-prediction-challenge
License(s): CC0-1.0
car-price-prediction-challenge.zip: Skipping, found more recently modified local copy (use --force to force download)

Đọc dataset thành công!


## **2. EDA (Exploratory Data Analysis) và Tiền xử lí (Data Preprocessing)**

### **2.1 Tổng quan dữ liệu**

#### **Thông tin tổng quan về các cột**

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19237 entries, 0 to 19236
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                19237 non-null  int64  
 1   Price             19237 non-null  int64  
 2   Levy              19237 non-null  object 
 3   Manufacturer      19237 non-null  object 
 4   Model             19237 non-null  object 
 5   Prod. year        19237 non-null  int64  
 6   Category          19237 non-null  object 
 7   Leather interior  19237 non-null  object 
 8   Fuel type         19237 non-null  object 
 9   Engine volume     19237 non-null  object 
 10  Mileage           19237 non-null  object 
 11  Cylinders         19237 non-null  float64
 12  Gear box type     19237 non-null  object 
 13  Drive wheels      19237 non-null  object 
 14  Doors             19237 non-null  object 
 15  Wheel             19237 non-null  object 
 16  Color             19237 non-null  object

#### **Kiểm tra missing value**

In [58]:
df.isna().sum()

Unnamed: 0,0
ID,0
Price,0
Levy,0
Manufacturer,0
Model,0
Prod. year,0
Category,0
Leather interior,0
Fuel type,0
Engine volume,0


#### **Kiểm tra trùng lặp dữ liệu**

In [59]:
print("Dữ liệu bị trùng lặp: ", df.duplicated().sum())
print("Tỉ lệ dữ liệu bị trùng lặp: ", df.duplicated().sum() * 100 / len(df), "%")
df.drop_duplicates(inplace=True)
print("\nDữ liệu sau khi loại bỏ trùng lặp: ")
df.shape

Dữ liệu bị trùng lặp:  313
Tỉ lệ dữ liệu bị trùng lặp:  1.6270728284035971 %

Dữ liệu sau khi loại bỏ trùng lặp: 


(18924, 18)

### **2.2 Thống kê mô tả cơ bản**



#### **2.2.1 Phân tích các biến số (Numerical Variables)**


In [60]:
df.describe(include="number")

Unnamed: 0,ID,Price,Prod. year,Cylinders,Airbags
count,18924.0,18924.0,18924.0,18924.0,18924.0
mean,45575380.0,18587.44,2010.914236,4.580216,6.568379
std,937546.8,192135.6,5.665749,1.200223,4.322323
min,20746880.0,1.0,1939.0,1.0,0.0
25%,45695010.0,5331.0,2009.0,4.0,4.0
50%,45771910.0,13172.0,2012.0,4.0,6.0
75%,45801740.0,22063.0,2015.0,4.0,12.0
max,45816650.0,26307500.0,2020.0,16.0,16.0


#### **2.2.2 Phân tích các biến phân loại (Categorical Variables)**


In [61]:
df.describe(include="object")

Unnamed: 0,Levy,Manufacturer,Model,Category,Leather interior,Fuel type,Engine volume,Mileage,Gear box type,Drive wheels,Doors,Wheel,Color
count,18924,18924,18924,18924,18924,18924,18924,18924,18924,18924,18924,18924,18924
unique,559,65,1590,11,2,7,107,7687,4,3,3,2,16
top,-,HYUNDAI,Prius,Sedan,Yes,Petrol,2,0 km,Automatic,Front,04-May,Left wheel,Black
freq,5709,3729,1069,8600,13731,9944,3856,714,13282,12695,18032,17471,4944


In [62]:


# Lấy danh sách các cột dạng phân loại
categorical_cols = df.select_dtypes(include=['object']).columns

print("\n--- Bảng tần suất cho các biến phân loại (Hiển thị tất cả) ---")

def display_full_value_counts(col_name):
    """
    Hàm này nhận vào tên một cột và hiển thị bảng tần suất đầy đủ,
    chi tiết và đẹp mắt cho tất cả các giá trị duy nhất trong cột đó.
    """
    nunique = df[col_name].nunique()
    print(f"--- Bảng tần suất chi tiết cho cột: '{col_name}' ---")
    print(f"Tổng số giá trị duy nhất: {nunique}\n")

    # 1. Lấy bảng tần suất
    value_counts_df = df[col_name].value_counts().to_frame(name='Tần suất')

    # 2. Thêm cột Tỷ lệ (%)
    value_counts_df['Tỷ lệ (%)'] = (df[col_name].value_counts(normalize=True) * 100).round(2)

    # 3. Hiển thị toàn bộ bảng bằng display()
    # Môi trường notebook sẽ tự động thêm thanh cuộn cho bảng dài
    with pd.option_context('display.max_rows', 20):
        display(value_counts_df)

    print("Các giá trị duy nhất: ")
    print(df[col].unique())
    print("="*70 ,"\n")
# Lặp qua từng cột phân loại để hiển thị bảng tần suất
for col in categorical_cols:
   display_full_value_counts(col)


--- Bảng tần suất cho các biến phân loại (Hiển thị tất cả) ---
--- Bảng tần suất chi tiết cho cột: 'Levy' ---
Tổng số giá trị duy nhất: 559



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Levy,Unnamed: 1_level_1,Unnamed: 2_level_1
-,5709,30.17
765,482,2.55
891,453,2.39
639,403,2.13
640,398,2.10
...,...,...
2308,1,0.01
4860,1,0.01
1641,1,0.01
1045,1,0.01


Các giá trị duy nhất: 
['1399' '1018' '-' '862' '446' '891' '761' '751' '394' '1053' '1055'
 '1079' '810' '2386' '1850' '531' '586' '1249' '2455' '583' '1537' '1288'
 '915' '1750' '707' '1077' '1486' '1091' '650' '382' '1436' '1194' '503'
 '1017' '1104' '639' '629' '919' '781' '530' '640' '765' '777' '779' '934'
 '769' '645' '1185' '1324' '830' '1187' '1111' '760' '642' '1604' '1095'
 '966' '473' '1138' '1811' '988' '917' '1156' '687' '11714' '836' '1347'
 '2866' '1646' '259' '609' '697' '585' '475' '690' '308' '1823' '1361'
 '1273' '924' '584' '2078' '831' '1172' '893' '1872' '1885' '1266' '447'
 '2148' '1730' '730' '289' '502' '333' '1325' '247' '879' '1342' '1327'
 '1598' '1514' '1058' '738' '1935' '481' '1522' '1282' '456' '880' '900'
 '798' '1277' '442' '1051' '790' '1292' '1047' '528' '1211' '1493' '1793'
 '574' '930' '1998' '271' '706' '1481' '1677' '1661' '1286' '1408' '1090'
 '595' '1451' '1267' '993' '1714' '878' '641' '749' '1511' '603' '353'
 '877' '1236' '1141' '397' '784'

Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Manufacturer,Unnamed: 1_level_1,Unnamed: 2_level_1
HYUNDAI,3729,19.71
TOYOTA,3606,19.06
MERCEDES-BENZ,2043,10.80
FORD,1088,5.75
CHEVROLET,1047,5.53
...,...,...
LAMBORGHINI,1,0.01
PONTIAC,1,0.01
SATURN,1,0.01
ASTON MARTIN,1,0.01


Các giá trị duy nhất: 
['LEXUS' 'CHEVROLET' 'HONDA' 'FORD' 'HYUNDAI' 'TOYOTA' 'MERCEDES-BENZ'
 'OPEL' 'PORSCHE' 'BMW' 'JEEP' 'VOLKSWAGEN' 'AUDI' 'RENAULT' 'NISSAN'
 'SUBARU' 'DAEWOO' 'KIA' 'MITSUBISHI' 'SSANGYONG' 'MAZDA' 'GMC' 'FIAT'
 'INFINITI' 'ALFA ROMEO' 'SUZUKI' 'ACURA' 'LINCOLN' 'VAZ' 'GAZ' 'CITROEN'
 'LAND ROVER' 'MINI' 'DODGE' 'CHRYSLER' 'JAGUAR' 'ISUZU' 'SKODA'
 'DAIHATSU' 'BUICK' 'TESLA' 'CADILLAC' 'PEUGEOT' 'BENTLEY' 'VOLVO' 'სხვა'
 'HAVAL' 'HUMMER' 'SCION' 'UAZ' 'MERCURY' 'ZAZ' 'ROVER' 'SEAT' 'LANCIA'
 'MOSKVICH' 'MASERATI' 'FERRARI' 'SAAB' 'LAMBORGHINI' 'ROLLS-ROYCE'
 'PONTIAC' 'SATURN' 'ASTON MARTIN' 'GREATWALL']

--- Bảng tần suất chi tiết cho cột: 'Model' ---
Tổng số giá trị duy nhất: 1590



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Model,Unnamed: 1_level_1,Unnamed: 2_level_1
Prius,1069,5.65
Sonata,1067,5.64
Camry,929,4.91
Elantra,910,4.81
E 350,534,2.82
...,...,...
Vito Exstralong,1,0.01
Versa SE,1,0.01
Fusion HYBRID SE,1,0.01
C30,1,0.01


Các giá trị duy nhất: 
['RX 450' 'Equinox' 'FIT' ... 'E 230 124' 'RX 450 F SPORT' 'Prius C aqua']

--- Bảng tần suất chi tiết cho cột: 'Category' ---
Tổng số giá trị duy nhất: 11



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Category,Unnamed: 1_level_1,Unnamed: 2_level_1
Sedan,8600,45.44
Jeep,5378,28.42
Hatchback,2799,14.79
Minivan,633,3.34
Coupe,528,2.79
Universal,361,1.91
Microbus,299,1.58
Goods wagon,229,1.21
Pickup,51,0.27
Cabriolet,35,0.18


Các giá trị duy nhất: 
['Jeep' 'Hatchback' 'Sedan' 'Microbus' 'Goods wagon' 'Universal' 'Coupe'
 'Minivan' 'Cabriolet' 'Limousine' 'Pickup']

--- Bảng tần suất chi tiết cho cột: 'Leather interior' ---
Tổng số giá trị duy nhất: 2



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Leather interior,Unnamed: 1_level_1,Unnamed: 2_level_1
Yes,13731,72.56
No,5193,27.44


Các giá trị duy nhất: 
['Yes' 'No']

--- Bảng tần suất chi tiết cho cột: 'Fuel type' ---
Tổng số giá trị duy nhất: 7



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Fuel type,Unnamed: 1_level_1,Unnamed: 2_level_1
Petrol,9944,52.55
Diesel,4001,21.14
Hybrid,3539,18.7
LPG,885,4.68
CNG,469,2.48
Plug-in Hybrid,85,0.45
Hydrogen,1,0.01


Các giá trị duy nhất: 
['Hybrid' 'Petrol' 'Diesel' 'CNG' 'Plug-in Hybrid' 'LPG' 'Hydrogen']

--- Bảng tần suất chi tiết cho cột: 'Engine volume' ---
Tổng số giá trị duy nhất: 107



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Engine volume,Unnamed: 1_level_1,Unnamed: 2_level_1
2,3856,20.38
2.5,2246,11.87
1.8,1743,9.21
1.6,1446,7.64
1.5,1289,6.81
...,...,...
5.4 Turbo,1,0.01
0.3 Turbo,1,0.01
5.2,1,0.01
5.8,1,0.01


Các giá trị duy nhất: 
['3.5' '3' '1.3' '2.5' '2' '1.8' '2.4' '4' '1.6' '3.3' '2.0 Turbo'
 '2.2 Turbo' '4.7' '1.5' '4.4' '3.0 Turbo' '1.4 Turbo' '3.6' '2.3'
 '1.5 Turbo' '1.6 Turbo' '2.2' '2.3 Turbo' '1.4' '5.5' '2.8 Turbo' '3.2'
 '3.8' '4.6' '1.2' '5' '1.7' '2.9' '0.5' '1.8 Turbo' '2.4 Turbo'
 '3.5 Turbo' '1.9' '2.7' '4.8' '5.3' '0.4' '2.8' '3.2 Turbo' '1.1' '2.1'
 '0.7' '5.4' '1.3 Turbo' '3.7' '1' '2.5 Turbo' '2.6' '1.9 Turbo'
 '4.4 Turbo' '4.7 Turbo' '0.8' '0.2 Turbo' '5.7' '4.8 Turbo' '4.6 Turbo'
 '6.7' '6.2' '1.2 Turbo' '3.4' '1.7 Turbo' '6.3 Turbo' '2.7 Turbo' '4.3'
 '4.2' '2.9 Turbo' '0' '4.0 Turbo' '20' '3.6 Turbo' '0.3' '3.7 Turbo'
 '5.9' '5.5 Turbo' '0.2' '2.1 Turbo' '5.6' '6' '0.7 Turbo' '0.6 Turbo'
 '6.8' '4.5' '0.6' '7.3' '0.1' '1.0 Turbo' '6.3' '4.5 Turbo' '0.8 Turbo'
 '4.2 Turbo' '3.1' '5.0 Turbo' '6.4' '3.9' '5.7 Turbo' '0.9' '0.4 Turbo'
 '5.4 Turbo' '0.3 Turbo' '5.2' '5.8' '1.1 Turbo']

--- Bảng tần suất chi tiết cho cột: 'Mileage' ---
Tổng số giá trị duy nhất: 7687



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Mileage,Unnamed: 1_level_1,Unnamed: 2_level_1
0 km,714,3.77
200000 km,181,0.96
150000 km,159,0.84
160000 km,120,0.63
180000 km,117,0.62
...,...,...
21178 km,1,0.01
110539 km,1,0.01
388495 km,1,0.01
57590 km,1,0.01


Các giá trị duy nhất: 
['186005 km' '192000 km' '200000 km' ... '140607 km' '307325 km'
 '186923 km']

--- Bảng tần suất chi tiết cho cột: 'Gear box type' ---
Tổng số giá trị duy nhất: 4



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Gear box type,Unnamed: 1_level_1,Unnamed: 2_level_1
Automatic,13282,70.19
Tiptronic,3065,16.2
Manual,1844,9.74
Variator,733,3.87


Các giá trị duy nhất: 
['Automatic' 'Tiptronic' 'Variator' 'Manual']

--- Bảng tần suất chi tiết cho cột: 'Drive wheels' ---
Tổng số giá trị duy nhất: 3



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Drive wheels,Unnamed: 1_level_1,Unnamed: 2_level_1
Front,12695,67.08
4x4,3969,20.97
Rear,2260,11.94


Các giá trị duy nhất: 
['4x4' 'Front' 'Rear']

--- Bảng tần suất chi tiết cho cột: 'Doors' ---
Tổng số giá trị duy nhất: 3



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Doors,Unnamed: 1_level_1,Unnamed: 2_level_1
04-May,18032,95.29
02-Mar,768,4.06
>5,124,0.66


Các giá trị duy nhất: 
['04-May' '02-Mar' '>5']

--- Bảng tần suất chi tiết cho cột: 'Wheel' ---
Tổng số giá trị duy nhất: 2



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Wheel,Unnamed: 1_level_1,Unnamed: 2_level_1
Left wheel,17471,92.32
Right-hand drive,1453,7.68


Các giá trị duy nhất: 
['Left wheel' 'Right-hand drive']

--- Bảng tần suất chi tiết cho cột: 'Color' ---
Tổng số giá trị duy nhất: 16



Unnamed: 0_level_0,Tần suất,Tỷ lệ (%)
Color,Unnamed: 1_level_1,Unnamed: 2_level_1
Black,4944,26.13
White,4407,23.29
Silver,3729,19.71
Grey,2343,12.38
Blue,1376,7.27
Red,622,3.29
Green,321,1.7
Orange,252,1.33
Brown,185,0.98
Carnelian red,177,0.94


Các giá trị duy nhất: 
['Silver' 'Black' 'White' 'Grey' 'Blue' 'Green' 'Red' 'Sky blue' 'Orange'
 'Yellow' 'Brown' 'Golden' 'Beige' 'Carnelian red' 'Purple' 'Pink']



In [63]:
# Replace Value (-) in Levy Column with 0
df["Levy"] = df["Levy"].replace("-", 0)

# Convert it into Numeric Type
df["Levy"] = pd.to_numeric(df["Levy"])

df["Mileage"] = df["Mileage"].str.split(" ").str[0]

df["Mileage"] = pd.to_numeric(df["Mileage"])

df["Doors"]  # Ambiguous Values -> Drop it

df.drop("Doors", axis=1, inplace=True)

df["Engine volume"] = df["Engine volume"].str.split().str[0]

df["Engine volume"] = pd.to_numeric(df["Engine volume"])