## 1.Library & Data Load

In [1]:
!pip install catboost
!pip install optuna









In [2]:
import pandas as pd
import numpy as np
from catboost import CatBoostRegressor

from tqdm import tqdm
from sklearn.model_selection import StratifiedKFold,train_test_split
from sklearn.metrics import mean_squared_error

import random
import optuna
from optuna.samplers import TPESampler

import warnings
warnings.filterwarnings("ignore")

  from pandas import MultiIndex, Int64Index


In [7]:
train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

submission = pd.read_csv('./data/sample_submission.csv')

In [8]:
print("전체 데이터 크기 : " + str(len(train)))
print("송하인_격자공간고유번호 : " + str(train['송하인_격자공간고유번호'].nunique()))
print("수하인_격자공간고유번호 : " + str(train['수하인_격자공간고유번호'].nunique()))

전체 데이터 크기 : 31684
송하인_격자공간고유번호 : 4229
수하인_격자공간고유번호 : 26875


## 2. Data Preprocess

송하인 격자공간고유번호와 수하인격자공간고유번호가 연속형 자료로 취급하면 안된다고 생각하였습니다.

격자공간고유번호의 16자리 중 자릿수마다 담고 있는 정보가 다를 것이라 생각하였고,
데이터를 탐색해본 결과 1 ~ 5자리, 6 ~ 9자리, 10, 11 ~ 16자리가 가지고 있는 정보가 다를 것이라 생각했습니다.

그리고 수하인 격자공간고유번호의 unique 수는 꽤 되지만 송하인 격자공간고유번호의 unique 수는 얼마 되지 않았습니다. 

따라서 송하인 격자공간고유번호는 1 ~ 5, 6 ~ 9, 10, 11 ~ 16자릿수로 나누고
수하인 격자공간고유번호는 자릿수 별로 변수를 생성하였습니다.

총 22개의 설명변수로 이루어진 데이터로 변환하였습니다.

#### 전처리 과정에 대한 의문
- 전처리 과정 납득이 잘 되지 않음
  - https://www.bigdata-region.kr/#/dataset/0ad3c882-f7ee-4faf-970d-00c53cb65a84
  - 위 링크를 참고하여, 데이터 상 격자공간고유번호가 격자공간50미터 기준인 것으로 파악
  - 격자공간 50미터의 경우, 시군구코드 + 나머지 형식으로 이루어짐
  - 따라서 격자공간고유번호를 위와 같이 두 개로 나누기로 결정
- 결과
  - 원래 전처리 방식대로 진행했을 때 public score이 5.38, 위와 같은 가정으로 진행했을 때 public score이 5.95로 나옴
  - 처음 방식의 전처리 과정에 비해 변수의 수가 너무 작아져서, 예측 성능이 떨어졌을 것이라 판단

In [9]:
# 숫자를 자릿수별로 분리하는 함수
def numround(number, digit):
    num=[]
    while(number!=0):
        num.append(number % 10)
        number = number // 10

    return int(num[-digit]) # 마지막 자릿수부터 num 리스트에 채워지기 때문에 -digit 반환

In [10]:
train.columns = ['index', 'SEND_SPG_INNB', 'REC_SPG_INNB', 'product_category', 'INVC_CONT']
test.columns = ['index', 'SEND_SPG_INNB', 'REC_SPG_INNB', 'product_category']

In [11]:
# 각각 다른 column에 저장
for i in tqdm(range(16)):
    train[f'SEND_SPG_INNB_{i+1}'] = 0
    train[f'REC_SPG_INNB_{i+1}'] = 0
    test[f'SEND_SPG_INNB_{i+1}'] = 0
    test[f'REC_SPG_INNB_{i+1}'] = 0
    for j in range(train.shape[0]):
        train.loc[j,f'SEND_SPG_INNB_{i+1}']=numround(train.loc[j,'SEND_SPG_INNB'],i+1)
        train.loc[j,f'REC_SPG_INNB_{i+1}']=numround(train.loc[j,'REC_SPG_INNB'],i+1)

    for j in range(test.shape[0]):
        test.loc[j,f'SEND_SPG_INNB_{i+1}']=numround(test.loc[j,'SEND_SPG_INNB'],i+1)
        test.loc[j,f'REC_SPG_INNB_{i+1}']=numround(test.loc[j,'REC_SPG_INNB'],i+1)


100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [01:43<00:00,  6.45s/it]


In [12]:
# 송하인 격자공간고유번호 유의미한 범위 합치기
train['SEND_SPG_INNB_1~5']=train['SEND_SPG_INNB_1']+train['SEND_SPG_INNB_2']+train['SEND_SPG_INNB_3']+train['SEND_SPG_INNB_4']+train['SEND_SPG_INNB_5']
train['SEND_SPG_INNB_6~9']=train['SEND_SPG_INNB_6']+train['SEND_SPG_INNB_7']+train['SEND_SPG_INNB_8']+train['SEND_SPG_INNB_9']
train['SEND_SPG_INNB_10']=train['SEND_SPG_INNB_10']
train['SEND_SPG_INNB_11~16']=train['SEND_SPG_INNB_11']+train['SEND_SPG_INNB_12']+train['SEND_SPG_INNB_13']+train['SEND_SPG_INNB_14']+train['SEND_SPG_INNB_15']+train['SEND_SPG_INNB_16']

test['SEND_SPG_INNB_1~5']=test['SEND_SPG_INNB_1']+test['SEND_SPG_INNB_2']+test['SEND_SPG_INNB_3']+test['SEND_SPG_INNB_4']+test['SEND_SPG_INNB_5']
test['SEND_SPG_INNB_6~9']=test['SEND_SPG_INNB_6']+test['SEND_SPG_INNB_7']+test['SEND_SPG_INNB_8']+test['SEND_SPG_INNB_9']
test['SEND_SPG_INNB_10']=test['SEND_SPG_INNB_10']
test['SEND_SPG_INNB_11~16']=test['SEND_SPG_INNB_11']+test['SEND_SPG_INNB_12']+test['SEND_SPG_INNB_13']+test['SEND_SPG_INNB_14']+test['SEND_SPG_INNB_15']+test['SEND_SPG_INNB_16']

In [13]:
# 필요없는 컬럼 제거
train.index=train['index']
test.index=test['index']
train.drop(['REC_SPG_INNB','SEND_SPG_INNB','SEND_SPG_INNB_1','SEND_SPG_INNB_2','SEND_SPG_INNB_3','SEND_SPG_INNB_4','SEND_SPG_INNB_5','SEND_SPG_INNB_6','SEND_SPG_INNB_7',
            'SEND_SPG_INNB_8','SEND_SPG_INNB_9','SEND_SPG_INNB_11','SEND_SPG_INNB_12','SEND_SPG_INNB_13','SEND_SPG_INNB_14','SEND_SPG_INNB_15','SEND_SPG_INNB_16','index'],axis=1,inplace=True)
test.drop(['REC_SPG_INNB','SEND_SPG_INNB','SEND_SPG_INNB_1','SEND_SPG_INNB_2','SEND_SPG_INNB_3','SEND_SPG_INNB_4','SEND_SPG_INNB_5','SEND_SPG_INNB_6','SEND_SPG_INNB_7',
            'SEND_SPG_INNB_8','SEND_SPG_INNB_9','SEND_SPG_INNB_11','SEND_SPG_INNB_12','SEND_SPG_INNB_13','SEND_SPG_INNB_14','SEND_SPG_INNB_15','SEND_SPG_INNB_16','index'],axis=1,inplace=True)

In [14]:
# 숫자형 변수를 연속형으로 취급하지 않고 category로 취급
for col in test.columns:
    train[col]=train[col].astype('category')
    test[col]=test[col].astype('category')

In [15]:
#Optuna용 Train셋
X = train.drop(['INVC_CONT'],axis=1)
y = train['INVC_CONT']
X_test = test.copy()

## 3. 모델링

Optuna로 Random Search를 통해 Catboost 최적의 파라미터를 사용하였습니다.
objective 함수의 param에 파라미터를 넣고, 구간을 넣으면 랜덤한 값으로 학습되며
rmse값이 반환되는 함수입니다. "trial"에 반복 횟수를 작성하면 됩니다.

Catboost 특성상 학습이 오래 걸리기 때문에 최적의 파라미터를 찾아 cat_param로 정의하였습니다.

(아래코드는 AIBoo님의 신용카드 사용자 연체 예측 AI 경진대회 [Private 8위 0.66203] | TYKIM | Catboost 코드를 참고하여 수정하였습니다.)

#### CatBoost
- CatBoost
    - Boosting 앙상블 기법중 하나로 직렬로 학습
    - LEVEL- WISE 방식 옆으로 확장하는 방식
        - LEVEL - WISE : 균형을 갖춰 확장하는 방식
        ![image-5.png](attachment:image-5.png)
    - 기존의 모델들은 학습데이터를 대상으로 잔차 계산 -> CatBoost는 학습 데이터의 일부만으로 잔차 계산
- CatBoost의 장점    
    - 범주형 변수가 많은 경우 성능이 좋음
    - 시계열 데이터를 효울적으로 처리
    - 속도가 빨라 예측 기능 효과적으로 사용 가능 
- CatBoost의 한계
    - Bagging 방식에 비해서는 느림, 과적함이 쉬움
    - 데이터 대부분이 수치형인 경우 Light GBM보다 학습 속도가 느림

In [14]:
def objective(trial):
    param = {
        "random_state":42,
        'learning_rate' : trial.suggest_loguniform('learning_rate', 0.01, 0.05),
        'bagging_temperature' :trial.suggest_loguniform('bagging_temperature', 0.01, 100.00),
        "n_estimators":trial.suggest_int("n_estimators", 500, 5000),
        "max_depth":trial.suggest_int("max_depth", 4, 16),
        'random_strength' :trial.suggest_int('random_strength', 0, 100),
        "colsample_bylevel":trial.suggest_float("colsample_bylevel", 0.4, 1.0),
        "l2_leaf_reg":trial.suggest_float("l2_leaf_reg",1e-8,3e-5),
        "min_child_samples": trial.suggest_int("min_child_samples", 5, 100),
        "max_bin": trial.suggest_int("max_bin", 200, 500),
        'od_type': trial.suggest_categorical('od_type', ['IncToDec', 'Iter']),
    }
    X_train, X_valid, y_train, y_valid = train_test_split(X,y,test_size=0.2)
    cat_features = range(X_test.shape[1])
    cat = CatBoostRegressor(**param)
    cat.fit(X_train, y_train,
            eval_set=[(X_train, y_train), (X_valid,y_valid)],
            early_stopping_rounds=35,cat_features=cat_features,
            verbose=100)
    cat_pred = cat.predict(X_valid)
    rmse = np.sqrt(mean_squared_error(y_valid, cat_pred))
 
    return rmse

In [None]:
sampler = TPESampler(seed=42)
study = optuna.create_study(
    study_name = 'cat_parameter_opt',
    direction = 'minimize',
    sampler = sampler,
)

study.optimize(objective, n_trials=10)
print("Best Score:",study.best_value)
print("Best trial",study.best_trial.params)

In [16]:
cat_param = {'learning_rate': 0.04169990777997927, 'bagging_temperature': 0.7742116473996251, 'n_estimators': 1038, 'max_depth': 13, 'random_strength': 76, 'colsample_bylevel': 0.7367663185416977, 'l2_leaf_reg': 2.3131305726837285e-05, 'min_child_samples': 52, 'max_bin': 357, 'od_type': 'IncToDec'}

In [None]:
# 최적 하이퍼파라미터
cat_param = study.best_trial.params

In [16]:
skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
folds = []
for train_idx, valid_idx in skf.split(train, train['INVC_CONT']):
    folds.append((train_idx,valid_idx))



train 데이터를 K-Fold 하여 각 Fold의 학습 값을 가지고 test 예측값을 구한 후
평균을 구하였습니다.

#### Stratified k-fold
- 불균형한 분포도를 가진 레이블 데이터 집합(결정 클래스)을 위한 K-fold 방식
    - ex) 타겟 데이터가 대출 사기 여부(0: 정상 대출, 1:사기 대출) 일 때 1의 값 비율은 매우 적음. 즉 fold 안에 타겟 값이 모두 0일 가능성도 존재. 
    - 이처럼 K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해준다. 

In [17]:
skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
folds = []
for train_idx, valid_idx in skf.split(train, train['INVC_CONT']):
    folds.append((train_idx,valid_idx))

random.seed(42)
cat_models={}

cat_features =range(X_test.shape[1])

for fold in range(10):
    print(f'===================================={fold+1}============================================')
    train_idx, valid_idx = folds[fold]
    X_train = train.drop(['INVC_CONT'],axis=1).iloc[train_idx]
    X_valid = train.drop(['INVC_CONT'],axis=1).iloc[valid_idx]
    y_train = train['INVC_CONT'][train_idx].values
    y_valid = train['INVC_CONT'][valid_idx].values

    cat = CatBoostRegressor(**cat_param)
    cat.fit(X_train, y_train, 
            eval_set=[(X_train, y_train), (X_valid,y_valid)],
            early_stopping_rounds=35,cat_features=cat_features,
            verbose=100)
    cat_models[fold] = cat
    print(f'================================================================================\n\n')



0:	learn: 6.7670986	test: 6.7671093	test1: 6.6589180	best: 6.6589180 (0)	total: 163ms	remaining: 2m 49s
100:	learn: 6.6314508	test: 6.6801215	test1: 6.5710722	best: 6.5710722 (100)	total: 14.6s	remaining: 2m 15s
200:	learn: 6.5736264	test: 6.6494239	test1: 6.5481275	best: 6.5481275 (200)	total: 26s	remaining: 1m 48s
300:	learn: 6.4507142	test: 6.6030894	test1: 6.5138867	best: 6.5137295 (295)	total: 46.7s	remaining: 1m 54s
400:	learn: 5.1581321	test: 6.2547240	test1: 6.1766054	best: 6.1766054 (400)	total: 1m 36s	remaining: 2m 33s
500:	learn: 4.4107449	test: 6.0991569	test1: 6.1301751	best: 6.1301751 (500)	total: 2m 40s	remaining: 2m 52s
Stopped by overfitting detector  (35 iterations wait)

bestTest = 6.124378364
bestIteration = 508

Shrink model to first 509 iterations.


0:	learn: 6.6294059	test: 6.6294167	test1: 7.8064085	best: 7.8064085 (0)	total: 21.8ms	remaining: 22.6s
100:	learn: 6.5200867	test: 6.5418302	test1: 7.7200439	best: 7.7200439 (100)	total: 18.3s	remaining: 2m 49s
200:	

100:	learn: 6.7356402	test: 6.7631130	test1: 5.8901908	best: 5.8901908 (100)	total: 18.5s	remaining: 2m 51s
200:	learn: 6.6964524	test: 6.7350438	test1: 5.8615003	best: 5.8615003 (200)	total: 34.4s	remaining: 2m 23s
300:	learn: 6.5623664	test: 6.6454374	test1: 5.8003965	best: 5.8003965 (300)	total: 54.1s	remaining: 2m 12s
400:	learn: 5.2761450	test: 6.1273948	test1: 5.6188711	best: 5.6176555 (391)	total: 2m 4s	remaining: 3m 18s
Stopped by overfitting detector  (35 iterations wait)

bestTest = 5.610611865
bestIteration = 408

Shrink model to first 409 iterations.




In [19]:
for fold in range(10):
    submission.loc[:,'운송장_건수'] += cat_models[fold].predict(test)/10

train을 K-fold한 값의 평균을 구하다 보니 예측값의 극단값이 작아질 수 밖에 없습니다.

따라서 INVC_CONT가 30 이상인 값에 적당한 값을 곱하여서 조정하였습니다.

#### INVC_CONT >= 30 인 값들에 대해서만 다뤘는지?
- 이상치 값 구하는 공식 : Q1 - 1.5 * IQR, Q3 + 1.5 * IQR
    - Q3(5) * 3 * IQR(5-3) = 20
        - 3 곱한 이유 : 때로는 데이터의 특성이나 분석 목적에 따라 이 값이 1.5보다 큰 값으로 선택될 수 있습니다. 예를 들어, 데이터가 매우 불균형하거나 이상치가 많은 경우에는 보다 큰 값이 선택될 수 있습니다.
![image.png](attachment:image.png)

In [20]:
submission.loc[submission["운송장_건수"]>30,'운송장_건수']=submission.loc[submission.운송장_건수>30,'운송장_건수']*4.8
submission.to_csv('./data/submission_0328_original.csv',index = False)

In [21]:
pd.read_csv("./data/submission.csv")

Unnamed: 0,index,운송장_건수
0,0,5.611225
1,1,5.341927
2,2,5.975335
3,3,5.158829
4,4,4.432520
...,...,...
7915,7915,5.268593
7916,7916,5.921787
7917,7917,3.475820
7918,7918,3.565731
