# HỌC MÁY - BÀI THỰC HÀNH 1

In [1]:
import pandas as pd

# Đọc dữ liệu từ file CSV
df = pd.read_csv('cars.csv')
df.head()

Unnamed: 0,Car_ID,Brand,Model,Year,Kilometers_Driven,Fuel_Type,Transmission,Owner_Type,Mileage,Engine,Power,Seats,Price
0,1,Toyota,Corolla,2018,50000,Petrol,Manual,First,15,1498,108,5,800000
1,2,Honda,Civic,2019,40000,Petrol,Automatic,Second,17,1597,140,5,1000000
2,3,Ford,Mustang,2017,20000,Petrol,Automatic,First,10,4951,395,4,2500000
3,4,Maruti,Swift,2020,30000,Diesel,Manual,Third,23,1248,74,5,600000
4,5,Hyundai,Sonata,2016,60000,Diesel,Automatic,Second,18,1999,194,5,850000


## Các phương pháp tiền xử lí


### 1. Phương pháp One-hot Encoding (+ min max scaling)

In [2]:
# Sử dụng OneHotEncoder cho các cột categorical
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import seaborn as sns
import matplotlib.pyplot as plt

categorical_columns = df.select_dtypes(include=['object']).columns.tolist()
numerical_cols = df.select_dtypes(include=['int64']).columns.tolist()
encoder = OneHotEncoder(sparse_output=False)

# One-Hot Encoding cho các cột phân loại
one_hot_encoded = encoder.fit_transform(df[categorical_columns])
one_hot_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out(categorical_columns))

# Chuẩn hóa Min-Max cho các cột số
scaler = MinMaxScaler()
scaled_numerical_cols = scaler.fit_transform(df[numerical_cols])
scaled_numerical_cols_df = pd.DataFrame(scaled_numerical_cols, columns=numerical_cols)

# Thêm các cột đã mã hóa vào dataframe
# df_encoded = pd.concat([df, one_hot_df], axis=1)
# df_encoded = df_encoded.drop(categorical_columns, axis=1)

# Kết hợp các cột đã mã hóa và đã chuẩn hóa
df_encoded = pd.concat([scaled_numerical_cols_df, one_hot_df], axis=1)

print(df_encoded.head())

     Car_ID  Year  Kilometers_Driven   Mileage    Engine     Power     Seats  \
0  0.000000   0.4                0.8  0.333333  0.126265  0.121951  0.333333   
1  0.010101   0.6                0.6  0.466667  0.151316  0.219512  0.333333   
2  0.020202   0.2                0.2  0.000000  1.000000  0.996951  0.000000   
3  0.030303   0.8                0.4  0.866667  0.063006  0.018293  0.333333   
4  0.040404   0.0                1.0  0.533333  0.253036  0.384146  0.333333   

      Price  Brand_Audi  Brand_BMW  ...  Model_X5  Model_XUV300  Model_Yaris  \
0  0.098592         0.0        0.0  ...       0.0           0.0          0.0   
1  0.154930         0.0        0.0  ...       0.0           0.0          0.0   
2  0.577465         0.0        0.0  ...       0.0           0.0          0.0   
3  0.042254         0.0        0.0  ...       0.0           0.0          0.0   
4  0.112676         0.0        0.0  ...       0.0           0.0          0.0   

   Fuel_Type_Diesel  Fuel_Type_Petrol 

## Lý do sử dụng:
### One-hot Encoding: Chuyển đổi đặc trưng phân loại thành dạng số
### Min-Max Scaling: Đảm bảo dữ liệu đồng nhất

In [3]:
X = df_encoded.drop('Price', axis=1)
y = df_encoded['Price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

r2 = r2_score(y_true=y_test, y_pred=y_pred)
print(f"R^2: {r2}")

R^2: 0.8834484964053672


### 2. Phương pháp tiêu chuẩn hóa 

In [4]:
from sklearn.preprocessing import StandardScaler

# lọc 
df_numeric = df.drop(df.select_dtypes(['object']), axis=1)

scaler = StandardScaler()
df_standardized = df_numeric.copy()

# Áp dụng StandardScaler để chuẩn hóa các cột số, dựa trên thông tin từ df_standardized
df_standardized[numerical_cols] = scaler.fit_transform(df_standardized[numerical_cols])

print(df_standardized)

      Car_ID      Year  Kilometers_Driven   Mileage    Engine     Power  \
0  -1.714816 -0.334681           2.407540 -0.671057 -0.568704 -0.654590   
1  -1.680173  0.523475           1.305691 -0.063766 -0.411098 -0.236739   
2  -1.645531 -1.192836          -0.898007 -2.189286  4.928417  3.093011   
3  -1.610888  1.381631           0.203842  1.758109 -0.966700 -1.098556   
4  -1.576245 -2.050992           3.509389  0.239880  0.228880  0.468385   
..       ...       ...                ...       ...       ...       ...   
95  1.576245  0.523475          -0.677637 -0.367411  0.150872  0.429211   
96  1.610888 -1.192836           1.085321 -1.278349  1.432420  0.168054   
97  1.645531 -0.334681          -0.236898  0.239880 -0.570296 -0.484838   
98  1.680173  0.523475          -0.457267 -0.063766 -0.570296 -0.589300   
99  1.714816  1.381631          -1.118377  0.847172 -1.044708 -0.954920   

       Seats     Price  
0  -0.308149 -0.777693  
1  -0.308149 -0.576739  
2  -1.647929  0.930419  

## Lý do sử dụng:
### Đưa dữ liệu về cùng thang đo.
### Cải thiện tốc độ hội tụ của thuật toán học máy.
### Cải thiện hiệu suất

In [5]:
X = df_standardized.drop('Price', axis=1)
y = df_standardized['Price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
print(f"R^2: {r2}")

R^2: 0.7737448402382852


In [6]:
correlation_matrix = df_standardized.corr()

correlation_with_price = correlation_matrix['Price'].sort_values(ascending=False)
print(correlation_with_price)

Price                1.000000
Power                0.856620
Engine               0.714465
Car_ID               0.037105
Seats               -0.000027
Kilometers_Driven   -0.051104
Year                -0.232687
Mileage             -0.595252
Name: Price, dtype: float64


## Những tri thức rút ra từ bộ dữ liệu
### - Công suất động cơ (Power): Xe có công suất lớn hơn thường có giá cao hơn.
### - Dung tích động cơ(Engine): Xe có dung tích động cơ lớn thường có giá cao hơn.

## Các đặc trưng ảnh hưởng đến giá xe nhất
### - Power: 0.856620 / 1 
### - Engine: 0.714465 / 1

# Kết luận
### Phương pháp tiền xử lí tốt nhất là One-hot Encoding + Min-max Scaling với Mô hình hồi quy tuyến tính (r^2 = 0.8834484964053672)