In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, confusion_matrix, r2_score
from sklearn.metrics import mean_absolute_error
from sklearn import preprocessing
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import RandomForestRegressor
from IPython.display import Image

In [6]:
car1 = pd.read_csv('./car_year2.csv')

In [7]:
car1

Unnamed: 0,mileage,mpg,engineSize,price,brand_bmw,brand_cclass,brand_focus,brand_ford,brand_hyundi,brand_merc,...,year_2017,year_2018,year_2019,year_2020,transmission_Manual,transmission_Other,transmission_Semi-Auto,fuelType_Hybrid,fuelType_Other,fuelType_Petrol
0,15735,55.4,1.4,12500,0,0,0,0,0,0,...,1,0,0,0,1,0,0,0,0,1
1,29946,55.4,1.4,11000,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
2,1998,49.6,1.0,17300,0,0,0,0,0,0,...,0,0,1,0,1,0,0,0,0,1
3,32260,58.9,1.4,13900,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,76788,61.4,2.0,13250,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57502,65000,48.0,2.0,4995,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
57503,41850,58.9,2.0,12495,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
57504,58000,58.9,2.0,8950,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
57505,92640,48.0,2.0,2995,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0


# 데이터셋 분리

In [8]:
x = car1.drop("price", axis = 1)
y = car1["price"]

In [9]:
# 기본값은 70 : 30 비율
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.70, random_state=1)

In [10]:
x_train.shape, y_train.shape

((40254, 41), (40254,))

In [11]:
x_test.shape, y_test.shape

((17253, 41), (17253,))

# 변수


파라미터 명	설명
n_estimators	- 결정트리의 갯수를 지정
- Default = 10
- 무작정 트리 갯수를 늘리면 성능 좋아지는 것 대비 시간이 걸릴 수 있음
min_samples_split	- 노드를 분할하기 위한 최소한의 샘플 데이터수
→ 과적합을 제어하는데 사용
- Default = 2 → 작게 설정할 수록 분할 노드가 많아져 과적합 가능성 증가
min_samples_leaf	- 리프노드가 되기 위해 필요한 최소한의 샘플 데이터수
- min_samples_split과 함께 과적합 제어 용도
- 불균형 데이터의 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 작게 설정 필요
max_features	- 최적의 분할을 위해 고려할 최대 feature 개수
- Default = 'auto' (결정트리에서는 default가 none이었음)
- int형으로 지정 →피처 갯수 / float형으로 지정 →비중
- sqrt 또는 auto : 전체 피처 중 √(피처개수) 만큼 선정
- log : 전체 피처 중 log2(전체 피처 개수) 만큼 선정
max_depth	- 트리의 최대 깊이
- default = None
→ 완벽하게 클래스 값이 결정될 때 까지 분할
또는 데이터 개수가 min_samples_split보다 작아질 때까지 분할
- 깊이가 깊어지면 과적합될 수 있으므로 적절히 제어 필요
max_leaf_nodes	리프노드의 최대 개수

In [67]:
rf = RandomForestRegressor(n_estimators = 50, random_state = 42)

In [68]:
rf.fit(x_train, y_train)

RandomForestRegressor(n_estimators=50, random_state=42)

In [69]:
y_predict = rf.predict(x_test)

In [70]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9872 
테스트 세트의 정확도 : 0.9188 


In [71]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf.predict(x_test))
print('경사부스팅의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1343.2503


# n_estimators 조절

In [72]:
param_grid ={  } 

In [74]:
params = { 'n_estimators' : [10, 50, 100]}

#            'max_depth' : [6, 8, 10, 12],
#            'min_samples_leaf' : [8, 12, 18],
#            'min_samples_split' : [8, 16, 20]}

In [75]:
params

{'n_estimators': [10, 50, 100]}

In [76]:
rf_1 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [77]:
rf_1.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1, param_grid={'n_estimators': [10, 50, 100]})

In [78]:
y_predict = rf_1.predict(x_test)
y_predict

array([20634.16 , 15288.935, 19571.17 , ..., 11490.42 ,  8223.13 ,
       20678.43 ])

In [79]:
print('최적 하이퍼 파라미터: ', rf_1.best_params_)

최적 하이퍼 파라미터:  {'n_estimators': 100}


In [82]:
params = { 'n_estimators' : [100],
           'max_depth' : [6, 8, 10, 12]}
#            'min_samples_leaf' : [8, 12, 18],
#            'min_samples_split' : [8, 16, 20]}

params

{'n_estimators': [100], 'max_depth': [6, 8, 10, 12]}

In [83]:
rf_2 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [84]:
rf_2.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'max_depth': [6, 8, 10, 12], 'n_estimators': [100]})

In [85]:
y_predict = rf_2.predict(x_test)
y_predict

array([21005.32639549, 15235.52066979, 20198.73817458, ...,
       11616.21307358,  9019.6817414 , 20999.51012673])

In [86]:
print('최적 하이퍼 파라미터: ', rf_2.best_params_)

최적 하이퍼 파라미터:  {'max_depth': 12, 'n_estimators': 100}


In [87]:
params = { 'n_estimators' : [100],
           'max_depth' : [12],
            'min_samples_leaf' : [8, 12, 18]}
#            'min_samples_split' : [8, 16, 20]}

params

{'n_estimators': [100], 'max_depth': [12], 'min_samples_leaf': [8, 12, 18]}

In [88]:
rf_3 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [89]:
rf_3.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'max_depth': [12], 'min_samples_leaf': [8, 12, 18],
                         'n_estimators': [100]})

In [90]:
y_predict = rf_3.predict(x_test)
y_predict

array([20980.51310922, 15260.03541396, 20208.36668919, ...,
       11628.01496727,  9012.00533293, 22048.41969517])

In [91]:
print('최적 하이퍼 파라미터: ', rf_3.best_params_)

최적 하이퍼 파라미터:  {'max_depth': 12, 'min_samples_leaf': 8, 'n_estimators': 100}


In [98]:
params = { 'n_estimators' : [100],
           'max_depth' : [12],
            'min_samples_leaf' : [8],
            'min_samples_split' : [8, 16, 20]}

params

{'n_estimators': [100],
 'max_depth': [12],
 'min_samples_leaf': [8],
 'min_samples_split': [8, 16, 20]}

In [99]:
rf_4 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [100]:
rf_4.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'max_depth': [12], 'min_samples_leaf': [8],
                         'min_samples_split': [8, 16, 20],
                         'n_estimators': [100]})

In [101]:
y_predict = rf_4.predict(x_test)
y_predict

array([20980.51310922, 15260.03541396, 20208.36668919, ...,
       11628.01496727,  9012.00533293, 22048.41969517])

In [102]:
print('최적 하이퍼 파라미터: ', rf_4.best_params_)

최적 하이퍼 파라미터:  {'max_depth': 12, 'min_samples_leaf': 8, 'min_samples_split': 8, 'n_estimators': 100}


In [103]:
params = { 'n_estimators' : [100],
           'max_depth' : [12],
            'min_samples_leaf' : [8],
            'min_samples_split' : [8]}

params

{'n_estimators': [100],
 'max_depth': [12],
 'min_samples_leaf': [8],
 'min_samples_split': [8]}

In [104]:
rf_5 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [105]:
rf_5.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'max_depth': [12], 'min_samples_leaf': [8],
                         'min_samples_split': [8], 'n_estimators': [100]})

In [106]:
y_predict = rf_5.predict(x_test)
y_predict

array([20980.51310922, 15260.03541396, 20208.36668919, ...,
       11628.01496727,  9012.00533293, 22048.41969517])

In [108]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf_5.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf_5.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9209 
테스트 세트의 정확도 : 0.9059 


In [109]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf_5.predict(x_test))
print('랜덤포레스트의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1533.8289


In [66]:
#위의 결과로 나온 최적 하이퍼 파라미터로 다시 모델을 학습하여 테스트 세트 데이터에서 예측 성능을 측정
rf_clf1 = RandomForestRegressor(n_estimators = 50,
                                random_state = 42,
                                max_depth = 12,
                                min_samples_leaf = 8,
                                min_samples_split = 8,
                                n_jobs = -1)

In [None]:
rf_clf1.fit(X_train, y_train)
pred = rf_clf1.predict(X_test)
print('예측 정확도: {:.4f}'.format(accuracy_score(y_test,pred)))

In [61]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf_1.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf_1.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9206 
테스트 세트의 정확도 : 0.9057 


In [47]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf_1.predict(x_test))
print('랜덤포레스트의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1533.8289


파라미터 명	설명
n_estimators	- 결정트리의 갯수를 지정
- Default = 10
- 무작정 트리 갯수를 늘리면 성능 좋아지는 것 대비 시간이 걸릴 수 있음
min_samples_split	- 노드를 분할하기 위한 최소한의 샘플 데이터수
→ 과적합을 제어하는데 사용
- Default = 2 → 작게 설정할 수록 분할 노드가 많아져 과적합 가능성 증가
min_samples_leaf	- 리프노드가 되기 위해 필요한 최소한의 샘플 데이터수
- min_samples_split과 함께 과적합 제어 용도
- 불균형 데이터의 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 작게 설정 필요
max_features	- 최적의 분할을 위해 고려할 최대 feature 개수
- Default = 'auto' (결정트리에서는 default가 none이었음)
- int형으로 지정 →피처 갯수 / float형으로 지정 →비중
- sqrt 또는 auto : 전체 피처 중 √(피처개수) 만큼 선정
- log : 전체 피처 중 log2(전체 피처 개수) 만큼 선정
max_depth	- 트리의 최대 깊이
- default = None
→ 완벽하게 클래스 값이 결정될 때 까지 분할
또는 데이터 개수가 min_samples_split보다 작아질 때까지 분할
- 깊이가 깊어지면 과적합될 수 있으므로 적절히 제어 필요
max_leaf_nodes	리프노드의 최대 개수

In [110]:
params = { 'n_estimators' : [10, 50, 100, 200, 300],
            'max_depth' : [6, 8, 10, 12],
            'min_samples_leaf' : [8, 12, 18],
            'min_samples_split' : [2, 4, 8, 16, 20]}

In [111]:
rf_6 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [112]:
rf_6.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'max_depth': [6, 8, 10, 12],
                         'min_samples_leaf': [8, 12, 18],
                         'min_samples_split': [2, 4, 8, 16, 20],
                         'n_estimators': [10, 50, 100, 200, 300]})

In [113]:
print('최적 하이퍼 파라미터: ', rf_6.best_params_)

최적 하이퍼 파라미터:  {'max_depth': 12, 'min_samples_leaf': 8, 'min_samples_split': 2, 'n_estimators': 300}


In [114]:
y_predict = rf_6.predict(x_test)
y_predict

array([20963.73145857, 15230.64004759, 20224.46217464, ...,
       11611.87061515,  9020.44784544, 22460.61543877])

In [115]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf_6.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf_6.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9213 
테스트 세트의 정확도 : 0.9066 


In [116]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf_6.predict(x_test))
print('랜덤포레스트의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1529.2939


In [117]:
params = { 'n_estimators' : [10, 50, 100, 200, 300],
            'min_samples_leaf' : [8, 12, 18],
            'min_samples_split' : [2, 4, 8, 16, 20]}

In [125]:
rf_7 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [119]:
rf_7.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'min_samples_leaf': [8, 12, 18],
                         'min_samples_split': [2, 4, 8, 16, 20],
                         'n_estimators': [10, 50, 100, 200, 300]})

In [120]:
print('최적 하이퍼 파라미터: ', rf_7.best_params_)

최적 하이퍼 파라미터:  {'min_samples_leaf': 8, 'min_samples_split': 2, 'n_estimators': 300}


In [121]:
y_predict = rf_7.predict(x_test)
y_predict

array([20775.21205477, 15860.24019022, 19546.87437615, ...,
       11598.38871518,  8181.41710837, 22464.6529079 ])

In [122]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf_7.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf_7.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9378 
테스트 세트의 정확도 : 0.9159 


In [123]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf_7.predict(x_test))
print('랜덤포레스트의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1409.0081


In [124]:
params = { 'n_estimators' : [10, 50, 100, 200, 300],
            'min_samples_leaf' : [2, 4, 8, 12, 18],
            'min_samples_split' : [2, 4, 8, 16, 20]}

In [126]:
rf_8 = GridSearchCV(rf, param_grid = params, cv = 3, n_jobs = -1)

In [127]:
rf_8.fit(x_train, y_train)

GridSearchCV(cv=3,
             estimator=RandomForestRegressor(n_estimators=50, random_state=42),
             n_jobs=-1,
             param_grid={'min_samples_leaf': [2, 4, 8, 12, 18],
                         'min_samples_split': [2, 4, 8, 16, 20],
                         'n_estimators': [10, 50, 100, 200, 300]})

In [128]:
print('최적 하이퍼 파라미터: ', rf_8.best_params_)

최적 하이퍼 파라미터:  {'min_samples_leaf': 2, 'min_samples_split': 8, 'n_estimators': 200}


In [130]:
y_predict = rf_8.predict(x_test)
print(y_predict)

[20750.4633174  15164.47981027 19259.03104158 ... 11432.31770686
  8241.86323418 21365.74689814]


In [131]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf_8.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf_8.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9650 
테스트 세트의 정확도 : 0.9241 


In [132]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf_8.predict(x_test))
print('랜덤포레스트의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1313.4354


In [133]:
#위의 결과로 나온 최적 하이퍼 파라미터로 다시 모델을 학습하여 테스트 세트 데이터에서 예측 성능을 측정
rf_model = RandomForestRegressor(n_estimators = 200,
                                random_state = 42,
                                min_samples_leaf = 2,
                                min_samples_split = 8,
                                n_jobs = -1)

In [136]:
rf_model.fit(x_train, y_train)

RandomForestRegressor(min_samples_leaf=2, min_samples_split=8, n_estimators=200,
                      n_jobs=-1, random_state=42)

In [137]:
y_predict = rf_model.predict(x_test)
print(y_predict)

[20750.4633174  15164.47981027 19259.03104158 ... 11432.31770686
  8241.86323418 21365.74689814]


In [138]:
print('훈련 세트의 정확도 : {:.4f} '. format(rf_model.score(x_train, y_train)))
print('테스트 세트의 정확도 : {:.4f} '.format(rf_model.score(x_test, y_test))) 

훈련 세트의 정확도 : 0.9650 
테스트 세트의 정확도 : 0.9241 


In [139]:
# MAE : 평균오차절대값
mae_pred =  mean_absolute_error(y_test, rf_model.predict(x_test))
print('랜덤포레스트의 오차: {:.4f}'.format(mae_pred))

경사부스팅의 오차: 1313.4354
