In [None]:
from sklearn.model_selection import GridSearchCV

# 1. DecisionTreeRegressor

In [None]:
from sklearn.tree import DecisionTreeRegressor

# 모델 객체 선언
reg_tree = DecisionTreeRegressor() # 회귀모델

# train 데이터에 대해서 학습진행
reg_tree.fit(train_X, train_y)

# HyperParameter 후보군; 딕셔너리 형태로 저장
parameters={'criterion':['squared_error', 'friedman_mse', 'absolute_error', 'poisson'], # 분류에서 gini & entropy를 사용한 것과 다르다.
            'max_depth':[5,10,15,20,None]}

# HyperParameter를 Tuning
model_rt=GridSearchCV(estimator=reg_tree, param_grid=parameters,
                     scoring='r2', cv=10, refit=True)
# cv=10; 교차검증을 위한 값으로, kfold(train/validation을 나누는 한 방법)를 사용할 수도 있다.
# refit=True -> 가장 성능이 좋은 '최적의 하이퍼파라미터'을 찾아 선택(튜닝)된 모델객체를 생성한다.

# refit=True(default); 최적의 하이퍼파라미터(criterion='friedman_mse', max_depth=5)를 넣어서 모델 객체를 생성한다.
# 즉, reg_tree=DecisionTreeRegressor(criterion='friedman_mse', max_depth=5)를 자동으로 수행해준다.

# 객체는 이전에 'refit=True'에 의해 생성되었기에, 따로 최적의 하이퍼파라미터로 모델객체 선언없이
# 바로 train 데이터에 대한 학습을 진행하면 된다.
model_rt.fit(train_X,train_y)

# 2. RandomForestRegressor

In [None]:
from sklearn.ensemble import RandomForestRegressor

# 객체 선언
randomforest=RandomForestRegressor() # 회귀모델

# train 데이터에 대해서 학습진행
randomforest.fit(train_X, train_y)

# HyperParameter 후보군
parameters={'max_depth':[3,5,10],
            'n_estimators':[100,200,300],
            'random_state':[1]} # RandomForest모델에서 랜덤추출이라는 과정이 이뤄짐으로 'random_state'를 Hyper-Parameter로 받는다.

# HyperParameter를 Tuning
model_rfr=GridSearchCV(estimator=randomforest, param_grid=parameters,
                 scoring='r2', cv=10, refit=True)

model_rfr.fit(train_X,train_y)

# 3. XGBRegressor

In [None]:
from xgboost import XGBRegressor # sklearn 라이브러리에서 가져오는게 아니다.

# 객체 선언
xgboost=XGBRegressor(objective ='reg:squarederror') # 회귀모델
# objective ='reg:squarederror'; XGBRegressor라이브러리 버전관련 문제

# train 데이터에 대해서 학습진행
xgboost.fit(train_X, train_y)

# HyperParameter 후보군
parameters={'max_depth':[3,5,10],
            'n_estimators':[100,200,300],
            'learning_rate':[1e-3,0.01,0.1,1],
            'gamma':[0.5,1,2],
            'random_state':[1]}
# learning_rate의 경우에 model의 개개인적인 특징보다는 학습시에 적용되는 값이다.
# 따라서 xgboost=XGBRegressor(learning_rate=0.01) <- 오류 발생

# HyperParameter를 Tuning
model_xgb=GridSearchCV(estimator=xgboost, param_grid=parameters,
                     scoring='r2', cv=10, refit=True)

model_xgb.fit(train_X,train_y)

# 4. LGBMRegressor

In [None]:
from lightgbm import LGBMRegressor # sklearn 라이브러리에서 가져오는게 아니다.

# 객체 선언
lightgbm=LGBMRegressor() # 회귀모델

# train 데이터에 대해서 학습진행
lightgbm.fit(train_X, train_y)

# HyperParameter 후보군
parameters={'max_depth':[3,5,10],
            'n_estimators':[100,200,300],
            'learning_rate':[1e-3,0.01,0.1,1],
            'random_state':[1]}

# HyperParameter를 Tuning
model_lgbm=GridSearchCV(estimator=lightgbm, param_grid=parameters,
                     scoring='r2', cv=10, refit=True)

# 객체는 이전에 'refit=True'에 의해 생성되었기에, 바로 train 데이터에 대한 학습을 진행하면 된다.
model_lgbm.fit(train_X,train_y)

# 5. 모델평가

In [None]:
from sklearn.metrics import mean_squared_error

In [None]:
print("RegressionTree model : {:.3f}".format(mean_squared_error(train_y, model_rt.predict(train_X))))
print("RandomForest model : {:.3f}".format(mean_squared_error(train_y, model_rfr.predict(train_X))))
print("XGBoost model : {:.3f}".format(mean_squared_error(train_y, model_xgb.predict(train_X))))
print("LightGBM model : {:.3f}".format(mean_squared_error(train_y, model_lgbm.predict(train_X))))

In [None]:
print("R square score for RegressionTree model : {:.3f}".format(model_rt.best_score_))
print("R square score for RandomForest model : {:.3f}".format(model_rfr.best_score_))
print("R square score for XGBoost model : {:.3f}".format(model_xgb.best_score_))
print("R square score for LightGBM model : {:.3f}".format(model_lgbm.best_score_))