## 과정

### 전체 회귀 분석 과정
- 1.선형 회귀 모델 학습/예측/평가 및 회귀계수 시각화(릿지, 라쏘)
    - 1.1 회귀계수 시각화
    - 1.2 5폴드 교차 검증
    - 1.3 리지/라쏘 모델에 대해 alpha 하이퍼파라미터 튜닝 후 재학습/예측/평가
    - 1.4 튜닝된 모델 회귀 계수 시각화
- 2.회귀 트리 모델 학습/예측/평가 및 회귀계수 시각화(XGBoost, LGBM)
- 3.회귀 모델의 예측 결과 혼합을 통한 최종 예측
    - 3.1 릿지와 랏소 모델 예측 결과 혼합
    - 3.2 XGBoost와 LGBM 모델 예측결과 혼합
- 4.스태킹 앙상블 모델을 통한 회귀 예측

In [1]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
%matplotlib inline
from matplotlib import font_manager, rc

path = "c:/Windows/Fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname=path).get_name()
rc('font', family=font_name)

# Target 값 : price

In [2]:
car_df_ohe= pd.read_csv('./data/최종 전처리.csv')
car_df_ohe.head()

Unnamed: 0,km,year,accident,price,wd,trim,brand_BMW,brand_기아,brand_랜드로버,brand_르노삼성,...,type_LPG,type_가솔린,type_디젤,type_바이퓨얼,type_전기,type_하이브리드,color_검정색,color_기타,color_회색,color_흰색
0,110575,11,3,6.47851,0,1,0,1,0,0,...,0,1,0,0,0,0,1,0,0,0
1,106819,8,3,6.846943,0,1,0,1,0,0,...,0,1,0,0,0,0,1,0,0,0
2,29151,3,3,7.544861,0,1,0,1,0,0,...,0,1,0,0,0,0,1,0,0,0
3,8766,1,3,8.06809,0,1,0,1,0,0,...,0,1,0,0,0,0,1,0,0,0
4,101196,10,3,6.710523,0,2,0,1,0,0,...,0,1,0,0,0,0,1,0,0,0


### 1. 선형 회귀 모델 학습/예측/평가 및 회귀계수 시각화(릿지, 라쏘)

LinearRegression, Ridge, Lasso를 이용해 선형 계열의 회귀 모델 만들기

**RMSE 평가 함수 생성**

In [3]:
# 단일 모델의 RMSE 값 반환
def get_rmse(model): # 학습된 모델을 받아서 예측
    pred = model.predict(X_test)
    mse = mean_squared_error(y_test , pred)
    rmse = np.sqrt(mse)
    R2 = r2_score(y_test, pred)
    print('\n{0} 로그 변환된 RMSE: {1}'.format(model.__class__.__name__,np.round(rmse, 3)))
    print('{0} R2: {1}'.format(model.__class__.__name__,np.round(R2, 3)))
    return rmse

# 여러 모델의 RMSE 값 반환
def get_rmses(models) :
    rmses = []
    for model in models :
        rmse = get_rmse(model)
        rmses.append(rmse)
    return rmses

In [4]:
## 데이터 분할
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# 타깃과 피처
y_target = car_df_ohe['price']
X_features = car_df_ohe.drop('price',axis=1, inplace=False)

X_train, X_test, y_train, y_test = train_test_split(X_features, y_target, test_size=0.2, random_state=156)

**모델 학습/예측/평가**

In [5]:
# 일반 선형 회귀
lr_reg = LinearRegression() 
lr_reg.fit(X_train, y_train)

# 릿찌회귀
ridge_reg = Ridge()
ridge_reg.fit(X_train, y_train)

# 라쏘 회귀
lasso_reg=Lasso()
lasso_reg.fit(X_train,y_train)


Lasso()

### 1.2 5폴드 교차 검증으로 평균 RMSE 측정
- 함수 생성

In [10]:
from sklearn.model_selection import cross_val_score

def get_avg_rmse_cv(models) :
    
    for model in models :
        # 분할하지 않고 전체 데이터세트로 교차검증 수행
        rmse_list = np.sqrt(-cross_val_score(model, X_features, y_target,
                                             scoring="neg_mean_squared_error", cv=5))
        r2_list = cross_val_score(model, X_features, y_target,
                                             scoring="r2", cv=5)
        rmse_avg = np.mean(rmse_list)
        r2_avg = np.mean(r2_list)
        
        print('\n{0} CV RMSE 값 리스트: {1}'.format( model.__class__.__name__, np.round(rmse_list, 3)))
        print('{0} CV R2 값 리스트: {1}'.format( model.__class__.__name__, np.round(r2_list, 3)))
        print('{0} CV 평균 RMSE 값: {1}'.format( model.__class__.__name__, np.round(rmse_avg, 3)))
        print('{0} CV 평균 R2 값: {1}'.format( model.__class__.__name__, np.round(r2_avg, 3)))

### 1.3 리지/라쏘 모델에 대해 alpha 하이퍼파라미터 튜닝 후 재학습/예측/평가

In [6]:
from sklearn.model_selection import GridSearchCV
# 모델과 하이퍼 파라미터 딕셔너리 객체를 받아서
# 최적화 작업의 결과를 표시하는 함수
# 릿지 모델과 라쏘 모델의 최적화 alpha 값 추출
def get_best_params(model, params):
    grid_model = GridSearchCV(model, param_grid=params, 
                              scoring='neg_mean_squared_error', cv=5)
    grid_model_r2 = GridSearchCV(model, param_grid=params, 
                              scoring='r2', cv=5)
    grid_model.fit(X_features, y_target)
    grid_model_r2.fit(X_features, y_target)
    rmse = np.sqrt(-1* grid_model.best_score_)
    r2 = grid_model_r2.best_score_
    print('\n{0} 5 CV 시 최적 평균 RMSE 값: {1}, 최적 alpha:{2}'.format(model.__class__.__name__,
                                        np.round(rmse, 4), grid_model.best_params_))
    print('{0} 5 CV 시 최적 평균 R2 값: {1}, 최적 alpha:{2}'.format(model.__class__.__name__,
                                        np.round(r2, 4), grid_model_r2.best_params_))
    return grid_model.best_estimator_ # 최적 파라미터로 재학습된 모델 반환


**분할된 트레인 테스트 데이터를 이용해 학습 후 평가**

In [7]:
lr_reg = LinearRegression()
lr_reg.fit(X_train, y_train)

ridge_reg = Ridge(alpha=20)
ridge_reg.fit(X_train, y_train)

lasso_reg = Lasso(alpha=0.001)
lasso_reg.fit(X_train, y_train)

Lasso(alpha=0.001)

### 2. 회귀 트리 모델 학습/예측/평가 및 회귀계수 시각화(XGBoost, LGBM)


- XGBoost와 LightGBM 학습/예측/평가 

In [18]:
# XGBoost와 LightGBM 모두 수행 시간이 오래 걸릴 수 있는 관계로
# 하이퍼 파라미터 설정을 미리 적용한 상태로
# 5 폴드 세트에 대한 평균 RMSE 값 추출

from xgboost import XGBRegressor

xgb_params = {'n_estimators':[1000]}

xgb_reg = XGBRegressor(n_estimators=1000, learning_rate=0.05,
                      colsample_bytree=0.5, subsample=0.8)

best_xgb = get_best_params(xgb_reg, xgb_params)


XGBRegressor 5 CV 시 최적 평균 RMSE 값: 0.3801, 최적 alpha:{'n_estimators': 1000}
XGBRegressor 5 CV 시 최적 평균 R2 값: 0.7458, 최적 alpha:{'n_estimators': 1000}


In [19]:
# 이번에는 LightGBM 회귀 트리 적용

from lightgbm import LGBMRegressor

lgbm_params = {'n_estimators':[1000]}
lgbm_reg = LGBMRegressor(n_estimators=1000, learning_rate=0.05, num_leaves=4, 
                         subsample=0.6, colsample_bytree=0.4, reg_lambda=10, n_jobs=-1)
best_lgbm = get_best_params(lgbm_reg, lgbm_params)


LGBMRegressor 5 CV 시 최적 평균 RMSE 값: 0.3938, 최적 alpha:{'n_estimators': 1000}
LGBMRegressor 5 CV 시 최적 평균 R2 값: 0.7204, 최적 alpha:{'n_estimators': 1000}


### 3.회귀 모델의 예측 결과 혼합을 통한 최종 예측

In [22]:
# 최종 혼합 모델과 개별 모델의 RMSE 값 출력하는 함수 생성
def get_rmse_pred(preds):
    for key in preds.keys():
        pred_value = preds[key]
        mse = mean_squared_error(y_test, pred_value)
        rmse = np.sqrt(mse)
        R2 = r2_score(y_test, pred_value)
        print('\n{0} 모델의 RMSE: {1}'.format(key, np.round(rmse, 3)))
        print('{0} 모델의 R2: {1}'.format(key, np.round(R2, 3)))

In [23]:
# 개별 모델 학습
ridge_reg = Ridge(alpha=20)
ridge_reg.fit(X_train, y_train)
lasso_reg = Lasso(alpha=0.001)
lasso_reg.fit(X_train, y_train)

# 개별모델 예측
ridge_pred = ridge_reg.predict(X_test)
lasso_pred = lasso_reg.predict(X_test)

#### 3.1 릿지와 랏소 모델 예측 결과 혼합

In [24]:
# 개별 모델 예측값 혼합으로 최종 예측값 도출
pred = 0.6 * ridge_pred + 0.4*lasso_pred

In [25]:
preds = {'최종 혼합': pred,
         'Ridge': ridge_pred,
         'Lasso': lasso_pred}

#최종 혼합 모델, 개별모델의 RMSE 값 출력
get_rmse_pred(preds)


최종 혼합 모델의 RMSE: 0.198
최종 혼합 모델의 R2: 0.918

Ridge 모델의 RMSE: 0.182
Ridge 모델의 R2: 0.931

Lasso 모델의 RMSE: 0.239
Lasso 모델의 R2: 0.88


#### 3.2 XGBoost와 LGBM 모델 예측결과 혼합 (각 50%)

In [26]:
xgb_reg = XGBRegressor(n_estimators=1000, learning_rate=0.05, 
                       colsample_bytree=0.5, subsample=0.8)
lgbm_reg = LGBMRegressor(n_estimators=1000, learning_rate=0.05, num_leaves=4, 
                         subsample=0.6, colsample_bytree=0.4, reg_lambda=10, n_jobs=-1)
xgb_reg.fit(X_train, y_train)
lgbm_reg.fit(X_train, y_train)
xgb_pred = xgb_reg.predict(X_test)
lgbm_pred = lgbm_reg.predict(X_test)



In [63]:
xgb_pred

array([8.783832 , 7.1186543, 7.1828794, ..., 6.527605 , 7.790217 ,
       7.8019295], dtype=float32)

In [27]:
pred = 0.5 * xgb_pred + 0.5 * lgbm_pred
preds = {'최종 혼합': pred,
         'XGBM': xgb_pred,
         'LGBM': lgbm_pred}
        
get_rmse_pred(preds)


최종 혼합 모델의 RMSE: 0.153
최종 혼합 모델의 R2: 0.951

XGBM 모델의 RMSE: 0.131
XGBM 모델의 R2: 0.964

LGBM 모델의 RMSE: 0.188
LGBM 모델의 R2: 0.926


### 4.스태킹 앙상블 모델을 통한 회귀 예측

In [28]:
from sklearn.model_selection import KFold #트레인데이터를 학습/검증 세트로 분리하기 위해 필요
from sklearn.metrics import mean_absolute_error

In [29]:
# 개별 기반 모델(1개의 모델) 최종 모델이 사용할 학습 및 테스트용 데이터를 생성하기 위한 함수
def get_stacking_base_datasets(model, X_train_n,y_train_n,X_test_n,n_folds) :
    # 지정된 n_folds 값으로 KFold 객체 생성
    kf = KFold(n_splits=n_folds,shuffle=True,random_state=0)
    
    # 최종모델이 사용할 학습 데이터를 위한 초기 구성 - 넘파이배열로 생성
    train_fold_pred = np.zeros((X_train_n.shape[0],1))
    test_pred = np.zeros((X_test_n.shape[0],n_folds))
    print(model.__class__.__name__ , ' model 시작 ')
    
    for folder_counter, (train_index, valid_index) in enumerate(kf.split(X_train_n)):
       #입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 셋 추출 
        print('\t 폴드 세트: ',folder_counter,' 시작 ')
        X_tr = X_train_n[train_index] 
        y_tr = y_train_n[train_index] 
        X_te = X_train_n[valid_index]
        
        # 폴드 세트 내부에서 다시 만들어진 학습 데이터로 기반 모델의 학습 수행
        model.fit(X_tr, y_tr)
        
        #폴드 세트 내부에서 다시 만들어진 검증 데이터로 기반 모델 예측 후 데이터 저장.
        train_fold_pred[valid_index, :] = model.predict(X_te).reshape(-1,1)
        
        #입력된 원본 테스트 데이터를 폴드 세트내 학습된 기반 모델에서 예측 후 데이터 저장. 
        test_pred[:, folder_counter] = model.predict(X_test_n)
        
    # 테스트 데이터를 폴드세트의 평균으로 생성
    test_pred_mean = np.mean(test_pred, axis=1).reshape(-1,1)
    
    #train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, 
    # test_pred_mean은 테스트 데이터
    return train_fold_pred , test_pred_mean    
    
    

**기반 개별 모델은 리지, 라소, XGBoost, LightGBM 으로 생성**
- 최종 모델을 라소로 생성하여 학습/예측/평가

In [30]:
# 생성한 함수가 ndarray를 인자로 사용하므로 DF를 ndarray로 변환
X_train_n = X_train.values
X_test_n = X_test.values
y_train_n = y_train.values

In [31]:
# 각 개별 기반(Base)모델이 생성한 학습용/테스트용 데이터 반환. 
ridge_train, ridge_test = get_stacking_base_datasets(ridge_reg, X_train_n, y_train_n, X_test_n, 5)
lasso_train, lasso_test = get_stacking_base_datasets(lasso_reg, X_train_n, y_train_n, X_test_n, 5)
xgb_train, xgb_test = get_stacking_base_datasets(xgb_reg, X_train_n, y_train_n, X_test_n, 5)  
lgbm_train, lgbm_test = get_stacking_base_datasets(lgbm_reg, X_train_n, y_train_n, X_test_n, 5)

Ridge  model 시작 
	 폴드 세트:  0  시작 
	 폴드 세트:  1  시작 
	 폴드 세트:  2  시작 
	 폴드 세트:  3  시작 
	 폴드 세트:  4  시작 
Lasso  model 시작 
	 폴드 세트:  0  시작 
	 폴드 세트:  1  시작 
	 폴드 세트:  2  시작 
	 폴드 세트:  3  시작 
	 폴드 세트:  4  시작 
XGBRegressor  model 시작 
	 폴드 세트:  0  시작 
	 폴드 세트:  1  시작 
	 폴드 세트:  2  시작 
	 폴드 세트:  3  시작 
	 폴드 세트:  4  시작 
LGBMRegressor  model 시작 
	 폴드 세트:  0  시작 
	 폴드 세트:  1  시작 
	 폴드 세트:  2  시작 
	 폴드 세트:  3  시작 
	 폴드 세트:  4  시작 


In [32]:
# 각 개별 모델이 반환한 학습용피처 데이터와 테스트용피터 데이터 세트를 결합해서 최종데이터세트 생성
Stack_final_X_train = np.concatenate((ridge_train, lasso_train, 
                                      xgb_train, lgbm_train), axis=1)
Stack_final_X_test = np.concatenate((ridge_test, lasso_test, 
                                     xgb_test, lgbm_test), axis=1)

In [33]:
Stack_final_X_train

array([[7.67215589, 7.7152217 , 7.70317221, 7.76424024],
       [7.87607469, 7.86225277, 7.88966751, 7.84541189],
       [7.87494308, 7.8615388 , 7.80170059, 7.88176787],
       ...,
       [6.08191389, 6.15539292, 5.76746798, 5.98977701],
       [8.2230874 , 8.02933329, 8.11387062, 8.07233511],
       [7.60474373, 7.60977988, 7.58923578, 7.63715224]])

In [34]:
# 최종 모델을 릿지 모델을 적용
meta_model_ridge = Ridge(alpha=20)

In [35]:
meta_model_ridge.fit(Stack_final_X_train,y_train)
final = meta_model_ridge.predict(Stack_final_X_test)
mse = mean_squared_error(y_test,final)
rmse=np.sqrt(mse)
R2 = r2_score(y_test, final)

print('릿지 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은:', np.round(rmse, 3))
print('릿지 모델 적용 스태킹 회귀 모델의 최종 R2 값은:', np.round(R2, 3))

릿지 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.126
릿지 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.967


In [36]:
# 최종 모델은 라쏘 모델을 적용
meta_model_lasso = Lasso(alpha=0.001)

In [37]:
meta_model_lasso.fit(Stack_final_X_train,y_train)
final = meta_model_lasso.predict(Stack_final_X_test)
mse = mean_squared_error(y_test,final)
rmse=np.sqrt(mse)
R2 = r2_score(y_test, final)

print('라쏘 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은:', np.round(rmse, 3))
print('라쏘 모델 적용 스태킹 회귀 모델의 최종 R2 값은:', np.round(R2, 3))

라쏘 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.128
라쏘 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.966


In [38]:
# 최종 모델은 XGBoost, LightGBM 모델을 적용
meta_model_xgb_reg = xgb_reg

In [39]:
meta_model_xgb_reg.fit(Stack_final_X_train,y_train)
final = meta_model_xgb_reg.predict(Stack_final_X_test)
mse = mean_squared_error(y_test,final)
rmse=np.sqrt(mse)
R2 = r2_score(y_test, final)

print('XGBoost 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은:', np.round(rmse, 3))
print('XGBoost 모델 적용 스태킹 회귀 모델의 최종 R2 값은:', np.round(R2, 3))

XGBoost 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.124
XGBoost 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.968


In [40]:
# 최종 모델은 LightGBM 모델을 적용
meta_model_lgbm_reg = lgbm_reg

In [41]:
meta_model_lgbm_reg.fit(Stack_final_X_train,y_train)
final = meta_model_lgbm_reg.predict(Stack_final_X_test)
mse = mean_squared_error(y_test,final)
rmse=np.sqrt(mse)
R2 = r2_score(y_test, final)

print('LightGBM 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은:', np.round(rmse, 3))
print('LightGBM 모델 적용 스태킹 회귀 모델의 최종 R2 값은:', np.round(R2, 3))

LightGBM 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.136
LightGBM 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.961


In [59]:

test=X_features.head()
test

Unnamed: 0,km,year,accident,wd,trim,brand_BMW,brand_기아,brand_랜드로버,brand_르노삼성,brand_미니,...,type_LPG,type_가솔린,type_디젤,type_바이퓨얼,type_전기,type_하이브리드,color_검정색,color_기타,color_회색,color_흰색
0,110575,11,3,0,1,0,1,0,0,0,...,0,1,0,0,0,0,1,0,0,0
1,106819,8,3,0,1,0,1,0,0,0,...,0,1,0,0,0,0,1,0,0,0
2,29151,3,3,0,1,0,1,0,0,0,...,0,1,0,0,0,0,1,0,0,0
3,8766,1,3,0,1,0,1,0,0,0,...,0,1,0,0,0,0,1,0,0,0
4,101196,10,3,0,2,0,1,0,0,0,...,0,1,0,0,0,0,1,0,0,0


In [61]:
xgb_pred = xgb_reg.predict(X_test)

value = xgb_reg.predict(X_test)
np.expm1(value)

ValueError: feature_names mismatch: ['f0', 'f1', 'f2', 'f3'] ['km', 'year', 'accident', 'wd', 'trim', 'brand_BMW', 'brand_기아', 'brand_랜드로버', 'brand_르노삼성', 'brand_미니', 'brand_벤츠', 'brand_쉐보레', 'brand_쌍용', 'brand_아우디', 'brand_제네시스', 'brand_포드', 'brand_폭스바겐', 'brand_현대', 'name_118', 'name_200 CDI', 'name_320', 'name_330', 'name_420   쿠페', 'name_420  그란쿠페', 'name_428   컨버터블', 'name_428   쿠페', 'name_520', 'name_528', 'name_530', 'name_640    그란쿠페', 'name_730', 'name_730Ld', 'name_740', 'name_740Li', 'name_750Ld', 'name_750Li', 'name_A200', 'name_A220', 'name_A3', 'name_A4', 'name_A45', 'name_A5', 'name_A6', 'name_A7', 'name_A8', 'name_B200', 'name_C200', 'name_C220', 'name_C220 CDI', 'name_C220 블루텍', 'name_C63', 'name_CC TDI', 'name_CC TSI', 'name_CC 블루모션', 'name_CLA220', 'name_CLA250', 'name_CLA45', 'name_CLS250', 'name_CLS350', 'name_CLS4.0', 'name_CLS450', 'name_CLS63', 'name_E200', 'name_E220', 'name_E220 CDI', 'name_E220 블루텍', 'name_E250', 'name_E250 CDI', 'name_E250 블루텍', 'name_E300', 'name_E350', 'name_E400', 'name_EQ900', 'name_F150 3.5', 'name_F150 5.0L', 'name_G63', 'name_G70', 'name_G80', 'name_G80(RG3)', 'name_G90', 'name_GLA220', 'name_GLA45', 'name_GLC220', 'name_GLC250', 'name_GLC300', 'name_GLC350e', 'name_GLC43', 'name_GLE350', 'name_GLK220 CDI', 'name_GT TDI', 'name_GV70', 'name_GV80', 'name_K3', 'name_K5', 'name_K7', 'name_K8', 'name_K9', 'name_LF쏘나타', 'name_M3', 'name_M5', 'name_M6', 'name_ML350 블루텍', 'name_Q3', 'name_Q5', 'name_Q7', 'name_Q8', 'name_QM5', 'name_QM6', 'name_R8', 'name_S3', 'name_S350', 'name_S350 블루텍', 'name_S350L', 'name_S350L 블루텍', 'name_S4', 'name_S4.0', 'name_S5', 'name_S500', 'name_S500L', 'name_S550', 'name_S560', 'name_S6', 'name_S600', 'name_S63', 'name_S7', 'name_S8', 'name_SM3', 'name_SM5', 'name_SM6', 'name_SM7', 'name_TT', 'name_X1  20', 'name_X4 20', 'name_X5  30', 'name_X6 30', 'name_X6 40', 'name_e-트론', 'name_i3', 'name_i30', 'name_i40', 'name_골프 ', 'name_골프 TDI', 'name_골프 TSI', 'name_골프 블루모션', 'name_그랜드스타렉스', 'name_그랜저', 'name_그랜저HG', 'name_그랜저IG', 'name_뉴 CC TSI', 'name_뉴 CC 블루모션', 'name_니로', 'name_다마스', 'name_디스커버리 SE', 'name_라세티', 'name_레이', 'name_레인지로버 ', 'name_레인지로버 AB', 'name_레인지로버 SE', 'name_레인지로버 Vogue', 'name_렉스턴 ', 'name_렉스턴 RX4', 'name_렉스턴 RX6', 'name_렉스턴 RX7', 'name_로드스터 ', 'name_로디우스 ', 'name_로체', 'name_마티즈', 'name_말리부', 'name_맥스크루즈', 'name_머스탱 컨버터블', 'name_머스탱 쿠페', 'name_모닝', 'name_모하비', 'name_몬데오 2.0 트렌드', 'name_몬데오 2.0 티타늄', 'name_베뉴', 'name_벨로스터', 'name_벨로스터(JS)', 'name_볼트', 'name_봉고3', 'name_비틀 ', 'name_비틀 TDI', 'name_셀토스', 'name_스타렉스', 'name_스타리아', 'name_스토닉', 'name_스팅어', 'name_스파크', 'name_스포티지', 'name_시로코 TDI', 'name_시로코 TSI', 'name_싼타페', 'name_쎄라토', 'name_쏘나타', 'name_쏘렌토', 'name_쏘렌토R', 'name_쏘울', 'name_쏠라티', 'name_아반떼', 'name_아반떼AD', 'name_아베오', 'name_아슬란', 'name_아테온 TDI', 'name_알페온', 'name_액티언 ', 'name_에쿠스', 'name_엑센트', 'name_엑센트(신형)', 'name_오피러스', 'name_올란도', 'name_옵티마', 'name_윈스톰', 'name_익스프레스밴', 'name_익스플로러 2.3', 'name_익스플로러 3.5', 'name_임팔라', 'name_제네시스', 'name_제타 TDI', 'name_제타 TSI', 'name_제타 블루모션', 'name_조에', 'name_체어맨 ', 'name_카니발', 'name_카렌스', 'name_카마로', 'name_카이런 ', 'name_캡처', 'name_캡티바', 'name_코나', 'name_코란도 ', 'name_코란도 어드벤처 60th 에디션', 'name_코란도 익스트림', 'name_콜로라도', 'name_쿠퍼 ', 'name_쿠퍼 5도어', 'name_쿠퍼 JCW', 'name_쿠퍼 SE', 'name_쿠퍼 컨트리맨', 'name_쿠퍼 컨트리맨 파크래인', 'name_크루즈', 'name_클리오', 'name_토러스 2.0 에코부스트', 'name_토러스 3.5', 'name_투싼', 'name_투싼ix', 'name_투아렉 TDI', 'name_투아렉 블루모션', 'name_트래버스', 'name_트랙스', 'name_트레일블레이저', 'name_트위지', 'name_티구안 TDI', 'name_티구안 TSI', 'name_티록 TDI', 'name_티볼리 ', 'name_파사트 ', 'name_파사트 TDI', 'name_파사트 TSI', 'name_팰리세이드', 'name_페이톤 TDI', 'name_펠리세이드', 'name_포르테', 'name_포터2 CRDi 카고', 'name_폴로 TDI', 'name_프라이드', 'name_프리랜더 SE', 'type_LPG', 'type_가솔린', 'type_디젤', 'type_바이퓨얼', 'type_전기', 'type_하이브리드', 'color_검정색', 'color_기타', 'color_회색', 'color_흰색']
expected f0, f3, f2, f1 in input data
training data did not have the following fields: name_스타리아, name_A220, name_ML350 블루텍, name_로디우스 , name_카마로, name_E300, brand_르노삼성, name_E250 CDI, name_골프 블루모션, name_GV80, name_X4 20, name_S8, name_파사트 , name_그랜저HG, name_제타 블루모션, type_바이퓨얼, name_레인지로버 , type_하이브리드, name_CLA250, name_G70, name_750Ld, name_SM7, name_A3, name_벨로스터, name_CLS63, name_330, name_비틀 , km, name_G80, name_E350, name_볼트, name_쿠퍼 , name_렉스턴 RX6, brand_제네시스, name_CLA220, name_쿠퍼 5도어, brand_랜드로버, name_740Li, name_스팅어, name_C220 블루텍, name_X6 40, type_디젤, name_730Ld, name_클리오, name_익스플로러 2.3, color_검정색, name_렉스턴 RX4, name_코란도 익스트림, name_렉스턴 RX7, name_마티즈, trim, name_아테온 TDI, name_S500L, name_E250 블루텍, name_아반떼, name_레인지로버 SE, name_스토닉, name_428   컨버터블, name_벨로스터(JS), name_옵티마, name_제타 TDI, name_K7, name_투아렉 블루모션, name_GLE350, name_A200, name_싼타페, name_GLC300, name_익스프레스밴, name_파사트 TSI, name_S560, brand_벤츠, name_트랙스, name_QM6, name_쎄라토, name_쏠라티, name_임팔라, name_A4, color_기타, brand_현대, name_E220, name_머스탱 쿠페, name_LF쏘나타, brand_아우디, name_M5, name_E200, name_그랜저IG, name_알페온, name_펠리세이드, name_쿠퍼 SE, brand_폭스바겐, name_M6, name_포터2 CRDi 카고, name_티구안 TSI, name_S5, name_티구안 TDI, type_가솔린, name_캡티바, name_쿠퍼 컨트리맨, name_그랜드스타렉스, name_GLA45, name_528, name_S7, name_S350, name_E400, name_GLA220, name_티볼리 , name_C63, name_에쿠스, name_420  그란쿠페, name_640    그란쿠페, name_740, name_SM5, name_S500, name_골프 , name_트레일블레이저, name_레인지로버 Vogue, name_프리랜더 SE, name_F150 3.5, name_쿠퍼 JCW, accident, name_S350L, name_SM3, name_G90, name_쏘렌토, brand_쉐보레, name_420   쿠페, name_E250, name_A6, name_그랜저, name_코란도 어드벤처 60th 에디션, name_E220 블루텍, name_니로, name_액티언 , name_아반떼AD, brand_미니, brand_포드, name_CC TSI, name_CC TDI, year, name_X5  30, name_M3, name_카이런 , name_조에, name_K3, name_GLC220, brand_쌍용, name_트래버스, name_CLS450, name_e-트론, color_회색, name_A5, name_시로코 TSI, name_S4, name_750Li, name_렉스턴 , name_비틀 TDI, name_C200, name_시로코 TDI, name_GLK220 CDI, name_QM5, name_스타렉스, name_118, brand_BMW, name_Q7, name_카렌스, name_모닝, name_토러스 2.0 에코부스트, name_엑센트, name_X1  20, name_200 CDI, name_셀토스, name_F150 5.0L, name_레이, name_E220 CDI, name_X6 30, name_CLS4.0, name_페이톤 TDI, name_오피러스, name_제네시스, name_쏘울, wd, name_윈스톰, name_GV70, name_GLC43, name_C220, name_토러스 3.5, name_Q8, name_R8, name_디스커버리 SE, name_쿠퍼 컨트리맨 파크래인, name_크루즈, name_SM6, name_머스탱 컨버터블, name_GLC350e, name_S550, name_쏘나타, name_콜로라도, name_GLC250, name_아슬란, name_C220 CDI, brand_기아, name_스파크, name_체어맨 , name_레인지로버 AB, name_팰리세이드, name_S63, name_CLA45, name_730, name_Q3, name_S4.0, name_트위지, name_K9, name_320, name_스포티지, name_몬데오 2.0 트렌드, name_GT TDI, name_모하비, name_카니발, name_골프 TDI, name_제타 TSI, color_흰색, name_Q5, name_i40, name_S350 블루텍, name_파사트 TDI, name_로드스터 , name_포르테, name_투싼ix, name_골프 TSI, type_LPG, name_i3, name_A8, name_A7, name_맥스크루즈, type_전기, name_뉴 CC 블루모션, name_쏘렌토R, name_익스플로러 3.5, name_뉴 CC TSI, name_S3, name_말리부, name_K8, name_i30, name_B200, name_캡처, name_티록 TDI, name_520, name_A45, name_베뉴, name_G63, name_428   쿠페, name_라세티, name_올란도, name_CC 블루모션, name_S350L 블루텍, name_G80(RG3), name_코란도 , name_투아렉 TDI, name_폴로 TDI, name_CLS250, name_S600, name_몬데오 2.0 티타늄, name_봉고3, name_CLS350, name_다마스, name_코나, name_EQ900, name_로체, name_TT, name_K5, name_530, name_S6, name_엑센트(신형), name_아베오, name_투싼, name_프라이드

In [55]:
np.expm1(y_target).head()

0     650.0
1     940.0
2    1890.0
3    3190.0
4     820.0
Name: price, dtype: float64

### 아무것도 처리 안한것:

- LinearRegression 로그 변환된 RMSE: 0.173
- LinearRegression R2: 0.938

- Ridge 로그 변환된 RMSE: 0.173
- Ridge R2: 0.938

- Lasso 로그 변환된 RMSE: 0.6
- Lasso R2: 0.246

### 5폴드 교차검증한것:

- Ridge 5 CV 시 최적 평균 RMSE 값: 0.4056
- Ridge 5 CV 시 최적 평균 R2 값: 0.7056

- Lasso 5 CV 시 최적 평균 RMSE 값: 0.4085
- Lasso 5 CV 시 최적 평균 R2 값: 0.6957

- XGBRegressor 5 CV 시 최적 평균 RMSE 값: 0.3801
- XGBRegressor 5 CV 시 최적 평균 R2 값: 0.7458

- LGBMRegressor 5 CV 시 최적 평균 RMSE 값: 0.3938
- LGBMRegressor 5 CV 시 최적 평균 R2 값: 0.7204

### 최적의 하이퍼파라미터 적용한것

- LinearRegression 로그 변환된 RMSE: 0.173
- LinearRegression R2: 0.938

- Ridge 로그 변환된 RMSE: 0.182
- Ridge R2: 0.931

- Lasso 로그 변환된 RMSE: 0.239
- Lasso R2: 0.88

- XGBM 모델의 RMSE: 0.131
- XGBM 모델의 R2: 0.964

- LGBM 모델의 RMSE: 0.188
- LGBM 모델의 R2: 0.926

### 혼합한것

- 릿지 60%, 라쏘 40% 최종 혼합 모델의 RMSE: 0.198
- 릿지 60%, 라쏘 40% 최종 혼합 모델의 R2: 0.918

- XGBM 50%, LGBM 50% 혼합 모델의 RMSE: 0.153
- XGBM 50%, LGBM 50% 혼합 모델의 R2: 0.951

### 스태킹 모델 적용한것

- 릿지 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.126
- 릿지 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.967

- 라쏘 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.128
- 라쏘 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.966

- XGBoost 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.124
- XGBoost 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.968

- LightGBM 모델 적용 스태킹 회귀 모델의 최종 RMSE 값은: 0.136
- LightGBM 모델 적용 스태킹 회귀 모델의 최종 R2 값은: 0.961

In [43]:
# 사용자 입력 데이터 
new_data = {'km':300000,'year':2018,'wd':0,'brand':'기아','trim':2}


In [44]:
def make_dataset(inputdata) :
    return make_df