# 5.5 안전 운전자 예측 경진대회 성능 개선 II : XGBoost 모델

- [안전 운전자 예측 경진대회 링크](https://www.kaggle.com/c/porto-seguro-safe-driver-prediction)
- [모델링 노트북 참고 링크](https://www.kaggle.com/xiaozhouwang/2nd-place-lightgbm-solution)

In [1]:
# ch5/safe_driver_prediction_xgb_modeling.ipynb

import numpy as np
import pandas as pd

# 데이터 경로
data_path = '/kaggle/input/porto-seguro-safe-driver-prediction/'

train = pd.read_csv(data_path + 'train.csv', index_col='id')
test = pd.read_csv(data_path + 'test.csv', index_col='id')
submission = pd.read_csv(data_path + 'sample_submission.csv', index_col='id')

## 5.5.1 피처 엔지니어링

### 데이터 합치기

In [2]:
all_data = pd.concat([train, test], ignore_index=True)
all_data = all_data.drop('target', axis=1) # 타깃 값 제거

all_features = all_data.columns # 전체 피처

### 명목형 피처 원-핫 인코딩

In [3]:
from sklearn.preprocessing import OneHotEncoder

# 명목형 피처
cat_features = [feature for feature in all_features if 'cat' in feature]

# 원-핫 인코딩 적용
onehot_encoder = OneHotEncoder()
encoded_cat_matrix = onehot_encoder.fit_transform(all_data[cat_features]) 

### 파생 피처 추가

In [4]:
# '데이터 하나당 결측값 개수'를 파생 변수로 추가
all_data['num_missing'] = (all_data==-1).sum(axis=1)

In [5]:
# 명목형 피처, calc 분류 피처를 제외한 피처
remaining_features = [feature for feature in all_features
                      if ('cat' not in feature and 'calc' not in feature)] 
# num_missing을 remaining_features에 추가
remaining_features.append('num_missing')

In [6]:
# 분류가 ind인 피처
ind_features = [feature for feature in all_features if 'ind' in feature]

is_first_feature=True
for ind_feature in ind_features:
    if is_first_feature:
        all_data['mix_ind'] = all_data[ind_feature].astype(str)+'_'
        is_first_feature = False
    else:
        all_data['mix_ind'] += all_data[ind_feature].astype(str)+'_'

In [7]:
all_data['mix_ind']

0          2_2_5_1_0_0_1_0_0_0_0_0_0_0_11_0_1_0_
1           1_1_7_0_0_0_0_1_0_0_0_0_0_0_3_0_0_1_
2          5_4_9_1_0_0_0_1_0_0_0_0_0_0_12_1_0_0_
3           0_1_2_0_0_1_0_0_0_0_0_0_0_0_8_1_0_0_
4           0_2_0_1_0_1_0_0_0_0_0_0_0_0_9_1_0_0_
                           ...                  
1488023     0_1_6_0_0_0_1_0_0_0_0_0_0_0_2_0_0_1_
1488024    5_3_5_1_0_0_0_1_0_0_0_0_0_0_11_1_0_0_
1488025     0_1_5_0_0_1_0_0_0_0_0_0_0_0_5_0_0_1_
1488026    6_1_5_1_0_0_0_0_1_0_0_0_0_0_13_1_0_0_
1488027    7_1_4_1_0_0_0_0_1_0_0_0_0_0_12_1_0_0_
Name: mix_ind, Length: 1488028, dtype: object

In [8]:
cat_count_features = []
for feature in cat_features+['mix_ind']:
    val_counts_dict = all_data[feature].value_counts().to_dict()
    all_data[f'{feature}_count'] = all_data[feature].apply(lambda x: 
                                                           val_counts_dict[x])
    cat_count_features.append(f'{feature}_count')

In [9]:
cat_count_features

['ps_ind_02_cat_count',
 'ps_ind_04_cat_count',
 'ps_ind_05_cat_count',
 'ps_car_01_cat_count',
 'ps_car_02_cat_count',
 'ps_car_03_cat_count',
 'ps_car_04_cat_count',
 'ps_car_05_cat_count',
 'ps_car_06_cat_count',
 'ps_car_07_cat_count',
 'ps_car_08_cat_count',
 'ps_car_09_cat_count',
 'ps_car_10_cat_count',
 'ps_car_11_cat_count',
 'mix_ind_count']

### 필요 없는 피처 제거

In [10]:
from scipy import sparse

# 필요 없는 피처들
drop_features = ['ps_ind_14', 'ps_ind_10_bin','ps_ind_11_bin', 
                 'ps_ind_12_bin','ps_ind_13_bin','ps_car_14']

# remaining_features, cat_count_features에서 drop_features를 제거한 데이터
all_data_remaining = all_data[remaining_features+cat_count_features].drop(drop_features, axis=1)

# 데이터 합치기
all_data_sprs = sparse.hstack([sparse.csr_matrix(all_data_remaining),
                               encoded_cat_matrix],
                              format='csr')

### 데이터 나누기

In [11]:
num_train = train.shape[0] # 훈련 데이터 개수

# 훈련 데이터와 테스트 데이터 나누기
X = all_data_sprs[:num_train]
X_test = all_data_sprs[num_train:]

y = train['target'].values

### 정규화 지니계수 계산 함수

In [12]:
def eval_gini(y_true, y_pred):
    # 실제 값과 예측 값의 크기가 같은지 확인 (값이 다르면 오류 발생)
    assert y_true.shape == y_pred.shape

    n_samples = y_true.shape[0] # 데이터 개수
    L_mid = np.linspace(1 / n_samples, 1, n_samples) # 대각선 값

    # 1) 예측 값에 대한 지니계수
    pred_order = y_true[y_pred.argsort()] # y_pred 크기순으로 y_true 값 정렬
    L_pred = np.cumsum(pred_order) / np.sum(pred_order) # 로렌츠 곡선
    G_pred = np.sum(L_mid - L_pred)# 예측 값에 대한 지니계수

    # 2) 예측이 완벽할 때 지니계수
    true_order = y_true[y_true.argsort()] # y_true 크기순으로 y_true 값 정렬
    L_true = np.cumsum(true_order) / np.sum(true_order) # 로렌츠 곡선
    G_true = np.sum(L_mid - L_true) # 예측이 완벽할 때 지니계수

    # 정규화된 지니계수
    return G_pred / G_true

In [13]:
def gini(preds, dtrain):
    labels = dtrain.get_label()
    return 'gini', eval_gini(labels, preds)

## 5.5.2 하이퍼 파라미터 최적화

### 데이터 세트 준비

In [14]:
import xgboost as xgb
from sklearn.model_selection import train_test_split

# 8:2 비율로 훈련 데이터, 검증 데이터 분리 (베이지안 최적화 수행용)
X_train, X_valid, y_train, y_valid = train_test_split(X, y, 
                                                      test_size=0.2, 
                                                      random_state=0)
# 베이지안 최적화용 데이터 세트
bayes_dtrain = xgb.DMatrix(X_train, y_train)
bayes_dvalid = xgb.DMatrix(X_valid, y_valid)

### 하이퍼 파라미터 범위 설정

In [15]:
# 베이지안 최적화를 위한 하이퍼 파라미터 범위
param_bounds = {'max_depth': (4, 8),
                'subsample': (0.7, 0.9),
                'colsample_bytree': (0.7, 0.9),
                'min_child_weight': (5, 7),
                'gamma': (9, 11),
                'reg_alpha': (7, 9),
                'reg_lambda': (1.2, 1.4),
                'scale_pos_weight': (1.5, 1.7)}

# 값이 고정된 하이퍼 파라미터
fixed_params = {'objective': 'binary:logistic',
                'learning_rate': 0.05,
                'random_state': 1991}

### (베이지안 최적화용) 평가지표 계산 함수 작성

In [16]:
def eval_function(max_depth, subsample, colsample_bytree, min_child_weight,
                 reg_alpha, gamma, reg_lambda, scale_pos_weight):
    '''최적화하려는 평가지표(지니계수) 계산 함수'''
    
    # 베이지안 최적화를 수행할 하이퍼 파라미터
    params = {'max_depth': int(round(max_depth)),
              'subsample': subsample,
              'colsample_bytree': colsample_bytree,
              'min_child_weight': int(round(min_child_weight)),
              'gamma': gamma,
              'reg_alpha':reg_alpha,
              'reg_lambda': reg_lambda,
              'scale_pos_weight': scale_pos_weight}
    # 고정된 하이퍼 파라미터도 추가
    params.update(fixed_params)
    
    print('하이퍼 파라미터:', params)    
        
    # XGBoost 모델 훈련
    xgb_model = xgb.train(params=params, 
                          dtrain=bayes_dtrain,
                          num_boost_round=500,
                          evals=[(bayes_dvalid, 'bayes_dvalid')],
                          maximize=True,
                          feval=gini,
                          early_stopping_rounds=150,
                          verbose_eval=False)
    
                           
    best_iter = xgb_model.best_iteration # 최적 반복 횟수
    
    # 검증 데이터로 예측 수행
    preds = xgb_model.predict(bayes_dvalid, ntree_limit=best_iter)
    
    # 지니계수 계산
    gini_score = eval_gini(y_valid, preds)
    print(f'지니계수: {gini_score}\n')
    
    return gini_score

### 최적화 수행

In [17]:
from bayes_opt import BayesianOptimization

# 베이지안 최적화 객체 생성
optimizer = BayesianOptimization(f=eval_function, # 평가지표 계산 함수
                                 pbounds=param_bounds, # 하이퍼 파라미터 범위
                                 random_state=0)

In [18]:
# 베이지안 최적화 수행
optimizer.maximize(init_points=2, n_iter=2)

|   iter    |  target   | colsam... |   gamma   | max_depth | min_ch... | reg_alpha | reg_la... | scale_... | subsample |
-------------------------------------------------------------------------------------------------------------------------
하이퍼 파라미터: {'max_depth': 6, 'subsample': 0.878354600156416, 'colsample_bytree': 0.809762700785465, 'min_child_weight': 6, 'gamma': 10.430378732744838, 'reg_alpha': 7.84730959867781, 'reg_lambda': 1.3291788226133312, 'scale_pos_weight': 1.5875174422525384, 'objective': 'binary:logistic', 'learning_rate': 0.05, 'random_state': 1991}




지니계수: 0.2827732646026083

| [0m 1       [0m | [0m 0.2828  [0m | [0m 0.8098  [0m | [0m 10.43   [0m | [0m 6.411   [0m | [0m 6.09    [0m | [0m 7.847   [0m | [0m 1.329   [0m | [0m 1.588   [0m | [0m 0.8784  [0m |
하이퍼 파라미터: {'max_depth': 7, 'subsample': 0.717425859940308, 'colsample_bytree': 0.8927325521002059, 'min_child_weight': 6, 'gamma': 9.766883037651555, 'reg_alpha': 8.136089122187865, 'reg_lambda': 1.385119327658532, 'scale_pos_weight': 1.5142072116395773, 'objective': 'binary:logistic', 'learning_rate': 0.05, 'random_state': 1991}
지니계수: 0.28389406359583147

| [95m 2       [0m | [95m 0.2839  [0m | [95m 0.8927  [0m | [95m 9.767   [0m | [95m 7.167   [0m | [95m 6.058   [0m | [95m 8.136   [0m | [95m 1.385   [0m | [95m 1.514   [0m | [95m 0.7174  [0m |
하이퍼 파라미터: {'max_depth': 7, 'subsample': 0.7667753691037088, 'colsample_bytree': 0.822874972498957, 'min_child_weight': 6, 'gamma': 10.634830818448416, 'reg_alpha': 8.551838810159788, 'reg_lambda': 1.34



지니계수: 0.28384881983661747

| [0m 3       [0m | [0m 0.2838  [0m | [0m 0.8229  [0m | [0m 10.63   [0m | [0m 6.838   [0m | [0m 6.494   [0m | [0m 8.552   [0m | [0m 1.341   [0m | [0m 1.523   [0m | [0m 0.7668  [0m |
하이퍼 파라미터: {'max_depth': 7, 'subsample': 0.7316010993511594, 'colsample_bytree': 0.8460586801739219, 'min_child_weight': 6, 'gamma': 10.774497599680391, 'reg_alpha': 8.54569292196456, 'reg_lambda': 1.31431273584847, 'scale_pos_weight': 1.6743964799713726, 'objective': 'binary:logistic', 'learning_rate': 0.05, 'random_state': 1991}




지니계수: 0.2837196917459266

| [0m 4       [0m | [0m 0.2837  [0m | [0m 0.8461  [0m | [0m 10.77   [0m | [0m 6.765   [0m | [0m 6.449   [0m | [0m 8.546   [0m | [0m 1.314   [0m | [0m 1.674   [0m | [0m 0.7316  [0m |


### 결과 확인

In [19]:
# 평가함수 점수가 최대일 때 하이퍼 파라미터
max_params = optimizer.max['params']
max_params

{'colsample_bytree': 0.8927325521002059,
 'gamma': 9.766883037651555,
 'max_depth': 7.166900152330658,
 'min_child_weight': 6.0577898395058085,
 'reg_alpha': 8.136089122187865,
 'reg_lambda': 1.385119327658532,
 'scale_pos_weight': 1.5142072116395773,
 'subsample': 0.717425859940308}

In [20]:
# 정수형 하이퍼 파라미터 변환
max_params['max_depth'] = int(round(max_params['max_depth']))

In [21]:
# 값이 고정된 하이퍼 파라미터 추가
max_params.update(fixed_params)

In [22]:
max_params

{'colsample_bytree': 0.8927325521002059,
 'gamma': 9.766883037651555,
 'max_depth': 7,
 'min_child_weight': 6.0577898395058085,
 'reg_alpha': 8.136089122187865,
 'reg_lambda': 1.385119327658532,
 'scale_pos_weight': 1.5142072116395773,
 'subsample': 0.717425859940308,
 'objective': 'binary:logistic',
 'learning_rate': 0.05,
 'random_state': 1991}

## 5.5.3 훈련 및 예측

In [23]:
from sklearn.model_selection import StratifiedKFold

# Stratified K 폴드 교차검증기 생성
folds = StratifiedKFold(n_splits=5, shuffle=True, random_state=1991)

# OOF 방식으로 훈련된 모델로 검증 데이터 타깃 값을 예측한 확률을 담을 1차원 배열
oof_val_preds = np.zeros(X.shape[0]) 
# OOF 방식으로 훈련된 모델로 테스트 데이터 타깃 값을 예측한 확률을 담을 1차원 배열
oof_test_preds = np.zeros(X_test.shape[0]) 

# OOF 방식으로 모델 훈련, 검증, 예측
for idx, (train_idx, valid_idx) in enumerate(folds.split(X, y)):
    # 각 폴드를 구분하는 문구
    print('#'*40, f'폴드 {idx+1} / 폴드 {folds.n_splits}', '#'*40)
    
    # 훈련용 데이터, 검증용 데이터 설정
    X_train, y_train = X[train_idx], y[train_idx]
    X_valid, y_valid = X[valid_idx], y[valid_idx]

    # xgb 데이터세트 생성 
    dtrain = xgb.DMatrix(X_train, y_train)
    dvalid = xgb.DMatrix(X_valid, y_valid)
    dtest = xgb.DMatrix(X_test)

    # XGBoost 모델 훈련
    xgb_model = xgb.train(params=max_params, 
                          dtrain=dtrain,
                          num_boost_round=1000,
                          evals=[(dvalid, 'valid')],
                          maximize=True,
                          feval=gini,
                          early_stopping_rounds=150,
                          verbose_eval=100)

    # 모델 성능이 가장 좋을 때의 부스팅 반복 횟수 저장
    best_iter = xgb_model.best_iteration
    # 테스트 데이터를 활용해 OOF 예측
    oof_test_preds += xgb_model.predict(dtest, 
                                    ntree_limit=best_iter)/folds.n_splits
    
    # 모델 성능 평가를 위한 검증 데이터 타깃 값 예측 
    oof_val_preds[valid_idx] += xgb_model.predict(dvalid, 
                                                  ntree_limit=best_iter)

    # 검증 데이터 예측확률에 대한 정규화 지니계수
    gini_score = eval_gini(y_valid, oof_val_preds[valid_idx])
    print(f'폴드 {idx+1} 지니계수: {gini_score}\n')

######################################## 폴드 1 / 폴드 5 ########################################
[0]	valid-logloss:0.65282	valid-gini:0.15941
[100]	valid-logloss:0.15637	valid-gini:0.28555
[200]	valid-logloss:0.15485	valid-gini:0.29589
[300]	valid-logloss:0.15475	valid-gini:0.29885
[400]	valid-logloss:0.15474	valid-gini:0.29912
[500]	valid-logloss:0.15473	valid-gini:0.29909
[600]	valid-logloss:0.15473	valid-gini:0.29956
[700]	valid-logloss:0.15475	valid-gini:0.29816
[756]	valid-logloss:0.15482	valid-gini:0.29697




폴드 1 지니계수: 0.29961440115120136

######################################## 폴드 2 / 폴드 5 ########################################
[0]	valid-logloss:0.65286	valid-gini:0.15070
[100]	valid-logloss:0.15672	valid-gini:0.27012
[200]	valid-logloss:0.15526	valid-gini:0.28048
[300]	valid-logloss:0.15516	valid-gini:0.28315
[400]	valid-logloss:0.15518	valid-gini:0.28335
[500]	valid-logloss:0.15515	valid-gini:0.28363
[600]	valid-logloss:0.15516	valid-gini:0.28372
[602]	valid-logloss:0.15515	valid-gini:0.28368
폴드 2 지니계수: 0.2837606145329253

######################################## 폴드 3 / 폴드 5 ########################################
[0]	valid-logloss:0.65285	valid-gini:0.15487
[100]	valid-logloss:0.15642	valid-gini:0.27724
[200]	valid-logloss:0.15502	valid-gini:0.28340
[300]	valid-logloss:0.15495	valid-gini:0.28432
[400]	valid-logloss:0.15495	valid-gini:0.28408
[456]	valid-logloss:0.15496	valid-gini:0.28366
폴드 3 지니계수: 0.2845216377812854

######################################## 폴드 4 / 폴드 5 ###########

In [24]:
print('OOF 검증 데이터 지니계수:', eval_gini(y, oof_val_preds))

OOF 검증 데이터 지니계수: 0.28849001909297844


## 5.5.4 결과 제출

In [25]:
submission['target'] = oof_test_preds
submission.to_csv('submission.csv')