# Model 5: 트랙터

### Features: 
- 주행거리, 연식, 모델, 캡(0: 표준, 1: 하이), 제조사(볼보, 현대, 스카니아, 벤츠, 만, 타타대우, 이베코), 등록일(매물 업로드일), 변속기, 마력, 축(4x2, 6x2, 6x4)

트랙터와 트레일러는 커플러(Coupler)와 킹핀(King Pin)으로 연결된다. <br>
트랙터에 장착되어 있는 것이 커플러, 트레일러에 장착되어 있는 것이 킹핀이다. <br>
커플러는 Fifth Wheel Coupler 즉, 5륜 연결기가 그 원명이다. 자동차의 4륜외에 또 하나의<br>
하중 분담과 조향의 역할을 하는 다섯 번째 휠을 둔다는 의미에서 비롯된 말로 세계 공통어로 사용되고 있다.<br>
커플러는 트레일러의 킹핀과 연결되어 하중지지 및 회전을 용이하도록 해 준다. <br>
커플러 내부에는 죠(Jaw)가 장착되어 있어 차체의 충격, 진동 등이 커플러에 전달되어도 킹핀이 빠져나가지 못하도록 되어 있다.

참고자료:
    벤츠: https://www.mercedes-benz-trucks.com/content/dam/mbo/markets/ko_KR/brand/catalogue/2022/221004_actros_L.pdf <br>
    스카니아: https://www.scania.com/content/dam/www/market/kr/truck/catalogue/%ED%8A%B8%EB%9E%99%ED%84%B0_%EC%B9%B4%ED%83%88%EB%A1%9C%EA%B7%B8_2022.pdf <br>
    볼보: https://www.volvotrucks.kr/content/dam/volvo-trucks/markets/korea/brochure/44p%20TRACTOR_20220502.pdf <br>
    민: https://mantruck.co.kr/catalog/

    '''
    __트랙터 라벨링 documents__
    
    캡: 
        하이탑, 하이, 글로벌, 글로브 등과 같은 단어가 모델 또는 상세설명 컬럼에 붙어있으면 하이탑, 이외는 표준탑(일반탑)
    
    축: 
        원데후, 원대후, 완데후 등과 같은 단어가 포함되면서 총 바퀴 수가 6개면 6x2 // 총 바퀴수가 4개면 4x2 // 투데후, 투대후 등과 같은 단어가 포함되면서 총 바퀴수가 6개면 6x4
       
    마력: 
        3자리 숫자가 연속되면 마력으로 의심. 대개 300이상 800이하의 숫자임
    '''

In [None]:
from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from hyperopt import STATUS_OK, Trials, fmin, hp as hps, tpe
import pickle
# modules 폴더를 path에 추가(본인 컴퓨터에 맞게 수정)
import sys
import os
root_path = os.path.dirname(os.path.dirname(os.path.dirname(os.getcwd())))
module_path = root_path + '\\modules'
sys.path.insert(1, module_path)
from common import common as cm
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
from matplotlib import font_manager, rc
import matplotlib.pyplot as plt
import glob
from datetime import datetime
import matplotlib
import json
matplotlib.rcParams['axes.unicode_minus'] = False
font_path = "../../../assets/fonts/NGULIM.TTF"
font = font_manager.FontProperties(fname=font_path).get_name()
rc('font', family=font)
# 하나의 cell에서 multiple output 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# float > 소수점 두자리까지만
# pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.options.display.float_format = '{:,.4f}'.format
# 컬럼 길이 제한 없음
try:
    pd.set_option('max_columns', None)
    pd.set_option('max_rows', 500)
except:
    pd.options.display.max_columns = None
    pd.options.display.max_rows = 500

# 아래 코드에서 100%를 본인이 원하는 비율로 조정하여, 가로로 넓게 코드작성이 가능하고, 데이터를 보는데 쾌적한 환경을 조성할 수 있음
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))


In [None]:
# call 아이트럭 raw data
from calldb import db_helper
itruck = db_helper(server="REL").table("SELECT * FROM TB_MYCAR;")

max_workers = min(32, os.cpu_count() + 4)
# call 특장차8949 raw data
tjc = cm.read_all_csv(path=root_path+"/assets/csv/특장차8949/", workers=max_workers)

# call 카매니저 raw data
cmg = cm.read_all_json(path=root_path+"/assets/json/카매니저/metaData/", workers=max_workers)

print(f"itruck shape: {itruck.shape}\ntjc shape: {tjc.shape}\ncmg shape: {cmg.shape}")

In [None]:
def scale(df):
    modelConverter = {
        '현대': [
            ['파워트럭', '트라고'],
            ['엑시언트'],
        ],
        # 타타대우: 노부스 < 프리마 = 맥쎈
        '타타대우': [
            ['노부스'], 
            ['프리마', '맥쎈'],
        ],
        # 볼보: FL < FM < FH
        '볼보': [
            ['FL'], 
            ['FM'], 
            ['FH'],
        ],
        # 스카니아: L < P < G < R < S
        '스카니아': [
            ['L'],
            ['P'],
            ['G'],
            ['R'],
            ['S'],
        ],
        '만': [
            ['TGA', 'TGX'],
        ],
        '벤츠': [
            ['악트로스'],
        ],
        '이베코': [
            ['스트라리스'],
        ],
    }

    axleConverter = {
        '6x2': 0,
        '6x4': 1,
    }

    cabConverter = {
        '표준탑': 0,
        '중간탑': 1,
        '하이탑': 2,
        '글로벌': 2,
    }

    brandConverter = {
        '현대': 'hyundai',
        '볼보': 'volvo',
        '스카니아': 'scania',
        '만': 'man',
        '타타대우': 'daewoo',
        '벤츠': 'benz',
        '이베코': 'iveco',
    }
    df = df.drop(columns=['id'])
    
    for k1, v1 in modelConverter.items():
        for i, v2 in enumerate(v1):
            df.loc[(df['f_brand'] == k1) & (df['f_model'].isin(v2)), 'f_model'] = i
            
    df['f_axle'] = df['f_axle'].fillna(0).replace(axleConverter)
    df['f_cab'] = df['f_cab'].fillna(0).replace(cabConverter)
    df['f_brand'] = df['f_brand'].replace(brandConverter)
    df['f_year'] = pd.to_datetime(df['f_year'])
    df['f_reg_dt'] = pd.to_datetime(df['f_reg_dt'])
    
    df = pd.get_dummies(df, columns=["f_brand"])
    
    y = df.pop('l_price')
    X = df
    
    scaler = MinMaxScaler(feature_range=(0, 1))
    
    for col in X:
        X[col] = scaler.fit_transform(X[[col]])
        
    return X, y

# ../../../assets/csv/시세예측/raw/model2/ 경로에서 가장 최근의 파일을 불러옴
df = pd.read_csv(sorted(glob.glob("../../../assets/csv/시세예측/raw/model5/*.csv"))[-1], encoding='cp949')
scaled_df = df.copy()
X, y = scale(scaled_df)
print(X.shape, y.shape)

In [None]:
# split train, test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=500)

## 하이퍼 파라미터 튜닝

### Setting

In [None]:
# regularization candiate 정의
reg_candidate = [1e-5, 1e-4, 1e-3, 1e-2, 0.1, 1, 5, 10, 100]

# space 정의, Hyperparameter의 이름을 key 값으로 입력(xgboost)
space={
    'max_depth': hps.quniform("max_depth", 5, 20, 1), # 트리의 최대 깊이
    'learning_rate': hps.quniform ('learning_rate', 0.01, 0.05, 0.005), # 학습률
    'reg_alpha': hps.choice('reg_alpha', reg_candidate), # L1정규화 Lasso회귀분석
    'reg_lambda': hps.choice('reg_lambda', reg_candidate), # L2정규화 Ridge회귀분석
    'subsample': hps.quniform('subsample', 0.01, 1, 0.01), # 트리를 생성할 때 데이터를 샘플링하는 비율
    'colsample_bytree': hps.quniform('colsample_bytree', 0.01, 1, 0.01), # 트리를 생성할 때 피처를 샘플링하는 비율
    'colsample_bylevel': hps.quniform('colsample_bylevel', 0.01, 1, 0.01), # 트리의 레벨별로 피처를 샘플링하는 비율
    'colsample_bynode': hps.quniform('colsample_bynode', 0.01, 1, 0.01), # 트리의 노드별로 피처를 샘플링하는 비율
    'min_child_weight': hps.quniform('min_child_weight', 1, 100, 1), # 트리의 리프노드가 되기 위한 최소한의 샘플 데이터 수
    'n_estimators': hps.quniform('n_estimators', 100, 10000, 100), # 트리의 개수
    'gamma': hps.quniform('gamma', 0.01, 1, 0.01), # 트리의 리프노드를 추가적으로 나눌지를 결정하는 파라미터
}

def hyperparameter_tuning(space):
    model = XGBRegressor(
        n_estimators =int(space['n_estimators']), 
        max_depth = int(space['max_depth']), 
        learning_rate = space['learning_rate'],
        reg_alpha = space['reg_alpha'], # L1정규화 Lasso회귀분석
        reg_lambda = space['reg_lambda'], # L2정규화 Ridge회귀분석
        subsample = space['subsample'], # 각 트리마다의 관측 데이터 샘플링 비율
        colsample_bytree = space['colsample_bytree'], # 각 트리마다의 feature 샘플링 비율
        colsample_bylevel = space['colsample_bylevel'], # 각 트리 depth 마다 사용할 feature 비율
        colsample_bynode = space['colsample_bynode'], # 각 트리 node 마다 사용할 feature 비율
        min_child_weight = int(space['min_child_weight']), # child의 관측에서 요구되는 최소 가중치의 합(overfitting 조정 parameter)
        gamma = space['gamma'], # 트리의 리프노드를 추가적으로 나눌지를 결정하는 파라미터
        random_state=500, 
    )
    
    evaluation = [(X_train, y_train), (X_test, y_test)]
    model.fit(
        X_train, y_train,
        eval_set=evaluation, 
        eval_metric="rmse",
        early_stopping_rounds=20,
        verbose=0,
    )
    pred = model.predict(X_test)
    rmse= cm.RMSE(y_test, pred)
    # 평가 방식 선정
    
    return {'loss':rmse, 'status': STATUS_OK, 'model': model}

### Run

In [None]:
# Trials 객체 선언합니다.
trials = Trials()

# best에 최적의 하이퍼 파라미터를 return 받습니다.
best = fmin(fn=hyperparameter_tuning,
            space=space,
            algo=tpe.suggest,
            max_evals=100, # 최대 반복 횟수를 지정합니다.
            trials=trials
        )

# 최적화된 결과를 int로 변환해야하는 파라미터는 타입 변환을 수행합니다.
best['max_depth'] = int(best['max_depth'])
best['min_child_weight'] = int(best['min_child_weight'])
best['n_estimators'] = int(best['n_estimators'])
best['reg_alpha'] = reg_candidate[int(best['reg_alpha'])]
best['reg_lambda'] = reg_candidate[int(best['reg_lambda'])]
best['random_state'] = 500
print(best)

## Cross Validation, Get Best Model

In [None]:
from sklearn.model_selection import KFold
import time

def kfold_xgb(xgb: XGBRegressor, X, y, n_splits=5, random_state=500):
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)
    result = []
    
    for i, (train_idx, test_idx) in enumerate(kf.split(X)):
        d = {}
        loss = {
            'MAE': "",
            'RMSE': "",
            'RMSLE': "",
            'MAPE': "",
            'R2': "",
        }
        print(f'Fold {i+1}: ')
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]
        now = time.time()
        xgb.fit(X_train, y_train)
        print(f'학습 시간: {time.time()-now:.2f}초')
        now = time.time()
        pred = xgb.predict(X_test)
        TT_Sec = time.time()-now
        print(f'예측 시간: {TT_Sec:.2f}초')
        print('--------------------------------------')
        loss['MAE'], loss['RMSE'], loss['RMSLE'], loss['MAPE'], loss['R2'], loss['TT(Sec)'] = cm.MAE(y_test, pred), cm.RMSE(y_test, pred), cm.RMSLE(y_test, pred), cm.MAPE(y_test, pred), cm.R2(y_test, pred), TT_Sec
        result.append({"model": xgb, "X_train": X_train, "X_test": X_test, "y_train": y_train, "y_test": y_test, "pred": pred, "loss": loss})
        
    return result

xgb = XGBRegressor(**best)
result = kfold_xgb(xgb, X, y, n_splits=10, random_state=500)
best_result = result[np.argmin([r['loss']['RMSLE'] for r in result])]

## Visualize

In [None]:
pd.DataFrame([r['loss'] for r in result], index=[f'Fold {i+1}' for i in range(len(result))])

print(f'Best: Fold {np.argmin([r["loss"]["RMSLE"] for r in result])+1}')
pred_df = pd.DataFrame({
    '실제값': best_result['y_test'],
    '예측값': best_result['pred'],
})
pred_df['오차값'] = (pred_df['예측값'] - pred_df['실제값'])
pred_df['절대 오차값'] = (pred_df['예측값'] - pred_df['실제값']).abs()
pred_df.describe()

In [None]:
from sklearn.linear_model import LinearRegression

def show_plot():
    dfs = {f"Fold {i+1}": pd.DataFrame({
        '실제값': r['y_test'],
        '예측값': r['pred'],
        '오차값': (r['pred'] - r['y_test']),
    }) for i, r in enumerate(result)}

    y_len = len(result)
    figure, axis = plt.subplots(y_len, 2, figsize=(20, 10*y_len))

    best_fold = f'Fold {np.argmin([r["loss"]["RMSLE"] for r in result])+1}'
    for i, (key, df) in enumerate(dfs.items()):
        # grid true
        axis[i][0].grid(True)
        x_line = np.arange(0, df[['실제값', '예측값']].max().max())
        y_line = x_line + 0
        axis[i][0].axis([df['실제값'].min(), df['실제값'].max(), df['예측값'].min(), df['예측값'].max()])
        axis[i][0].scatter(df['실제값'], df['예측값'], alpha=.5, s=10)
        axis[i][0].plot(x_line, y_line, color='red')  # draw line
        axis[i][0].set_xlabel(df['실제값'].name)
        axis[i][0].set_ylabel(df['예측값'].name)
        if key == best_fold:
            axis[i][0].set_title(key + ' (Best)')
        else:
            axis[i][0].set_title(key)
        
        # grid true
        axis[i][1].grid(True)
        axis[i][1].axis([df['실제값'].min(), df['실제값'].max(), df['오차값'].min(), df['오차값'].max()])
        axis[i][1].scatter(df['실제값'], df['오차값'], alpha=.5, s=10)
        axis[i][1].plot([df['실제값'].min(), df['실제값'].max()], [0, 0], color='red')
        axis[i][1].set_xlabel(df['실제값'].name)
        axis[i][1].set_ylabel(df['오차값'].name)
        if key == best_fold:
            axis[i][1].set_title(key + ' (Best)')
        else:
            axis[i][1].set_title(key)
        # linear regression for 오차값
        x_r = df['실제값'].values.reshape(-1, 1)
        y_r = df['오차값'].values.reshape(-1, 1)
        lr = LinearRegression()
        lr.fit(x_r, y_r)
        axis[i][1].plot(x_r, lr.predict(x_r), color='green')
        
    plt.show();
    
show_plot()

## Save model

In [None]:
save_dt = datetime.now()

model_path = "../../../assets/csv/시세예측/model/model5"
train_path = "../../../assets/csv/시세예측/train/model5"
test_path = "../../../assets/csv/시세예측/test/model5"
cm.create_folder(model_path)
cm.create_folder(train_path)
cm.create_folder(test_path)

# save xgBoost Model
best_result['model'].save_model(f"{model_path}/xg.{save_dt.strftime('%Y%m%d%H%I%S')}.json")
best_result['model'].save_model(f"{model_path}/xg.{save_dt.strftime('%Y%m%d%H%I%S')}.model")

# save minMaxScaler Model
mm_model = df.loc[best_result['X_train'].index][['f_mileage', 'f_year']].reset_index(drop=True)
transformed_datetime = cm.transform_date(mm_model['f_year'].values.reshape(-1, 1))
mm_model = pd.concat([mm_model, pd.DataFrame(transformed_datetime, columns=['transformed_datetime'])], axis=1)

scaler = MinMaxScaler(feature_range=(0, 1))

mm_fit = scaler.fit(mm_model.drop(columns=['f_year']))

with open(f"{model_path}/mm.{save_dt.strftime('%Y%m%d%H%I%S')}.model", 'wb') as f:
    pickle.dump(mm_fit, f)
    
# save test, train set
best_result['X_train'].to_csv(f"{train_path}/X_train.{save_dt.strftime('%Y%m%d%H%I%S')}.csv", index=False, encoding='cp949')
best_result['X_test'].to_csv(f"{test_path}/X_test.{save_dt.strftime('%Y%m%d%H%I%S')}.csv", index=False, encoding='cp949')
best_result['y_train'].to_csv(f"{train_path}/y_train.{save_dt.strftime('%Y%m%d%H%I%S')}.csv", index=False, encoding='cp949')
best_result['y_test'].to_csv(f"{test_path}/y_test.{save_dt.strftime('%Y%m%d%H%I%S')}.csv", index=False, encoding='cp949')