In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

In [17]:
df = pd.read_excel("CarPrice.xlsx")
df

Unnamed: 0,ยี่ห้อ,ปีที่ออกขายครั้งแรก,ราคาขายมือสอง,กิโลเมตรที่ขับไปแล้ว,ประเภทเชื้อเพลิง,ประเภทผู้ขายรถ,ประเภทเกียร์,จำนวนเจ้าของรถในอดีต
0,Suzuki,2007,60000,70000.0,เบนซิน,เจ้าของขายเอง,Manual,3.0
1,Suzuki,2007,135000,50000.0,เบนซิน,เจ้าของขายเอง,Manual,1.0
2,Hyundai Verna 1.6 SX,2012,600000,100000.0,ดีเซล,เจ้าของขายเอง,Manual,1.0
3,Mitsubishi,2017,250000,46000.0,เบนซิน,เจ้าของขายเอง,Manual,1.0
4,Honda,2014,450000,141000.0,ดีเซล,เจ้าของขายเอง,Manual,2.0
...,...,...,...,...,...,...,...,...
504,,,,,,,,
505,,,,,,,,
506,,,,,,,,
507,,,,,,,,


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 509 entries, 0 to 508
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ยี่ห้อ                501 non-null    object 
 1   ปีที่ออกขายครั้งแรก   502 non-null    object 
 2   ราคาขายมือสอง         502 non-null    object 
 3   กิโลเมตรที่ขับไปแล้ว  501 non-null    float64
 4   ประเภทเชื้อเพลิง      501 non-null    object 
 5   ประเภทผู้ขายรถ        501 non-null    object 
 6   ประเภทเกียร์          501 non-null    object 
 7   จำนวนเจ้าของรถในอดีต  501 non-null    float64
dtypes: float64(2), object(6)
memory usage: 31.9+ KB


# ตัด NaN

In [19]:
df = df.dropna(axis=0)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 501 entries, 0 to 500
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ยี่ห้อ                501 non-null    object 
 1   ปีที่ออกขายครั้งแรก   501 non-null    object 
 2   ราคาขายมือสอง         501 non-null    object 
 3   กิโลเมตรที่ขับไปแล้ว  501 non-null    float64
 4   ประเภทเชื้อเพลิง      501 non-null    object 
 5   ประเภทผู้ขายรถ        501 non-null    object 
 6   ประเภทเกียร์          501 non-null    object 
 7   จำนวนเจ้าของรถในอดีต  501 non-null    float64
dtypes: float64(2), object(6)
memory usage: 35.2+ KB


# เพิ่ม Feature อายุของรถ

In [20]:
df = df.copy()
df['อายุของรถ'] = 2025 - df['ปีที่ออกขายครั้งแรก']
df

Unnamed: 0,ยี่ห้อ,ปีที่ออกขายครั้งแรก,ราคาขายมือสอง,กิโลเมตรที่ขับไปแล้ว,ประเภทเชื้อเพลิง,ประเภทผู้ขายรถ,ประเภทเกียร์,จำนวนเจ้าของรถในอดีต,อายุของรถ
0,Suzuki,2007,60000,70000.0,เบนซิน,เจ้าของขายเอง,Manual,3.0,18
1,Suzuki,2007,135000,50000.0,เบนซิน,เจ้าของขายเอง,Manual,1.0,18
2,Hyundai Verna 1.6 SX,2012,600000,100000.0,ดีเซล,เจ้าของขายเอง,Manual,1.0,13
3,Mitsubishi,2017,250000,46000.0,เบนซิน,เจ้าของขายเอง,Manual,1.0,8
4,Honda,2014,450000,141000.0,ดีเซล,เจ้าของขายเอง,Manual,2.0,11
...,...,...,...,...,...,...,...,...,...
496,Ford,2019,700000,12586.0,เบนซิน,เต๊นท์รถ,Manual,1.0,6
497,Fiat,2018,650000,38083.0,ดีเซล,เต๊นท์รถ,Manual,1.0,7
498,Ford,2012,400000,55328.0,ดีเซล,เต๊นท์รถ,Manual,2.0,13
499,Ford,2012,425000,81632.0,ดีเซล,เต๊นท์รถ,Manual,1.0,13


# Encode

In [21]:
df_encoded = pd.get_dummies(df, columns=['ยี่ห้อ', 'ประเภทเกียร์', 'ประเภทเชื้อเพลิง', 'ประเภทผู้ขายรถ'])

# Sampling

In [22]:
X = df_encoded.drop('ราคาขายมือสอง', axis=1)
y = df_encoded['ราคาขายมือสอง']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Attempt 1: DecisionTreeRegressor + GridSearchCV

In [23]:
from sklearn.tree import DecisionTreeRegressor

In [24]:
parameters_grid = {
    'max_depth': [5,10,15,20,25,30],
    'min_samples_split': [5,10,15,20,25,30]
}

grid = GridSearchCV(DecisionTreeRegressor(), param_grid=parameters_grid, cv=5)
grid.fit(X_train, y_train)
print(grid.best_params_)
print(grid.best_score_)

{'max_depth': 20, 'min_samples_split': 30}
0.5558711094399773


In [25]:
grid.score(X_test, y_test)

0.5949067962884151

# Attempt 2: RandomForestRegressor + GridSearchCV

In [26]:
from sklearn.ensemble import RandomForestRegressor

In [34]:
parameters_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 3, 5],
}

grid = GridSearchCV(RandomForestRegressor(random_state=42), parameters_grid, cv=5)
grid.fit(X_train, y_train)
print(grid.best_params_)
print(grid.best_score_)

{'max_depth': 7, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
0.5806413602415855


In [35]:
grid.score(X_test, y_test)

0.6884071704305917

# Attempt 3: GradiantBoostingRegressor + GridSearchCV

In [38]:
from sklearn.ensemble import GradientBoostingRegressor

In [40]:
parameters_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 3, 5],
    'subsample': [0.8, 1.0]
}

grid = GridSearchCV(GradientBoostingRegressor(random_state=42), parameters_grid, cv=5)
grid.fit(X_train, y_train)
print(grid.best_params_)
print(grid.best_score_)

{'learning_rate': 0.2, 'max_depth': 3, 'min_samples_leaf': 3, 'min_samples_split': 10, 'n_estimators': 100, 'subsample': 1.0}
0.6537260313775732


In [42]:
grid.score(X_test, y_test)

0.7370552654798392