## 데이콘 추석 선물 수요량 예측 AI 경진대회

개요: 주어진 데이터로 추석 선물 수요량을 예측한다.  
**Dataset Info.**  
**train.csv**    
ID : 학습 샘플의 고유 ID  
수요량 : 학습 샘플의 target  


**test.csv**
ID : 추론 샘플의 고유 ID  

**sample_submission.csv**  - 제출 양식  
ID : 추론 샘플의 고유 ID
수요량 : 수요 샘플의 target


In [67]:
import pandas as pd
import random
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import KFold, GridSearchCV
import xgboost as xgb
from sklearn.metrics import mean_squared_error

In [68]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')

In [69]:
train_df

Unnamed: 0,ID,추석까지 남은 기간(주),쇼핑몰 구분,가격(원),프로모션 여부,도시 유형,지역 유형,쇼핑몰 유형,선물 유형,수요량
0,TRAIN_0000,1,쇼핑몰 15,212000,0,도시 6,지역 1,쇼핑몰 유형 2,명절혼합과일선물세트,28
1,TRAIN_0001,2,쇼핑몰 72,113000,0,도시 21,지역 1,쇼핑몰 유형 1,발효홍삼선물세트,27
2,TRAIN_0002,0,쇼핑몰 15,67000,0,도시 6,지역 1,쇼핑몰 유형 2,실속스팸선물세트,769
3,TRAIN_0003,1,쇼핑몰 13,206000,0,도시 12,지역 3,쇼핑몰 유형 1,자연산프리미엄버섯선물세트,27
4,TRAIN_0004,1,쇼핑몰 65,140000,0,도시 16,지역 2,쇼핑몰 유형 2,자연산새우선물세트,337
...,...,...,...,...,...,...,...,...,...,...
5867,TRAIN_5867,2,쇼핑몰 46,225000,0,도시 16,지역 3,쇼핑몰 유형 1,고급한과선물세트,27
5868,TRAIN_5868,2,쇼핑몰 42,62000,0,도시 16,지역 4,쇼핑몰 유형 3,특선스페셜스팸선물세트,40
5869,TRAIN_5869,2,쇼핑몰 43,131000,0,도시 5,지역 4,쇼핑몰 유형 1,명품맛김선물세트,55
5870,TRAIN_5870,2,쇼핑몰 7,85000,0,도시 7,지역 1,쇼핑몰 유형 1,실속형견과류선물세트,231


In [70]:
test_df

Unnamed: 0,ID,추석까지 남은 기간(주),쇼핑몰 구분,가격(원),프로모션 여부,도시 유형,지역 유형,쇼핑몰 유형,선물 유형
0,TEST_0000,2,쇼핑몰 71,113000,0,도시 16,지역 3,쇼핑몰 유형 1,상주반건시곶감선물세트
1,TEST_0001,0,쇼핑몰 57,224000,0,도시 6,지역 1,쇼핑몰 유형 2,고급한과선물세트
2,TEST_0002,2,쇼핑몰 38,150000,0,도시 16,지역 1,쇼핑몰 유형 2,최고의선택스팸선물세트
3,TEST_0003,1,쇼핑몰 50,132000,0,도시 16,지역 3,쇼핑몰 유형 1,재래김특선세트
4,TEST_0004,0,쇼핑몰 55,146000,0,도시 5,지역 4,쇼핑몰 유형 2,명품샤인머스캣선물세트
...,...,...,...,...,...,...,...,...,...
3910,TEST_3910,1,쇼핑몰 2,220000,1,도시 2,지역 2,쇼핑몰 유형 3,최고급송이버섯선물세트
3911,TEST_3911,0,쇼핑몰 38,142000,0,도시 16,지역 1,쇼핑몰 유형 2,명품반건시곶감선물세트
3912,TEST_3912,2,쇼핑몰 2,225000,0,도시 2,지역 2,쇼핑몰 유형 3,프리미엄한과선물세트
3913,TEST_3913,1,쇼핑몰 67,221000,1,도시 6,지역 1,쇼핑몰 유형 1,유기농송이버섯선물세트


In [71]:
train_data = train_df.drop(['ID', '수요량'], axis =1)
train_label = train_df['수요량']

test_data = test_df.drop('ID', axis=1)

In [72]:
# 결측치 확인
train_data.isna().sum()

추석까지 남은 기간(주)    0
쇼핑몰 구분           0
가격(원)            0
프로모션 여부          0
도시 유형            0
지역 유형            0
쇼핑몰 유형           0
선물 유형            0
dtype: int64

In [73]:
train_label.isna().sum()

0

In [74]:
test_data.isna().sum()

추석까지 남은 기간(주)    0
쇼핑몰 구분           0
가격(원)            0
프로모션 여부          0
도시 유형            0
지역 유형            0
쇼핑몰 유형           0
선물 유형            0
dtype: int64

In [75]:
train_data.keys()

Index(['추석까지 남은 기간(주)', '쇼핑몰 구분', '가격(원)', '프로모션 여부', '도시 유형', '지역 유형',
       '쇼핑몰 유형', '선물 유형'],
      dtype='object')

In [76]:
nominal_feature = ['쇼핑몰 구분', '도시 유형', '지역 유형', '쇼핑몰 유형', '선물 유형']

for feature in nominal_feature:
    le = LabelEncoder()
    le = le.fit(train_data[feature])
    train_data[feature] = le.transform(train_data[feature])

    for label in np.unique(test_data[feature]):
        if label not in le.classes_:
            le.classes_ = np.append(le.classes_, label)
    test_data[feature] = le.transform(test_data[feature])


## 모델링  
XGBoost  
GridSearchCV로 최적의 하이퍼파라미터 찾기

In [78]:
kf =KFold(n_splits=5, shuffle=True, random_state=42)

# XGBoost 모델 초기화
model = xgb.XGBRegressor(objective='reg:squarederror', random_state=42)

# 튜닝할 하이퍼파라미터 그리드 정의
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [3, 4, 5]
}

# K-Fold 교차 검증
# GridSearchCV를 사용하여 하이퍼파라미터 튜닝
kf = KFold(n_splits=5, shuffle=True, random_state=42)
grid_search = GridSearchCV(estimator=model, param_grid=param_grid,
                           scoring='neg_mean_squared_error', cv=kf)
grid_search.fit(train_data, train_label)

In [63]:
# 최적의 하이퍼파라미터와 모델 출력
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_
print(f'Best Hyperparameters: {best_params}')

Best Hyperparameters: {'max_depth': 4, 'n_estimators': 200}


In [79]:
# 교차 검증 수행 및 평가
for fold, (train_index, valid_index) in enumerate(kf.split(train_data), 1):
    X_train, X_valid = train_data.iloc[train_index], train_data.iloc[valid_index]
    y_train, y_valid = train_label.iloc[train_index], train_label.iloc[valid_index]

    # 모델 훈련
    best_model.fit(X_train, y_train)

    # 검증 데이터로 예측
    valid_preds = best_model.predict(X_valid)

    # 검증 데이터의 평균 제곱근 오차(RMSE) 계산
    rmse = mean_squared_error(y_valid, valid_preds, squared=False)
    print(f'Fold {fold} Validation RMSE: {rmse}')


Fold 1 Validation RMSE: 172.21635953985236
Fold 2 Validation RMSE: 167.869914691901
Fold 3 Validation RMSE: 171.39572210609106
Fold 4 Validation RMSE: 173.994425327494
Fold 5 Validation RMSE: 149.39258319918378


In [80]:
result_df = pd.read_csv('sample_submission.csv')
result_df['수요량'] = best_model.predict(test_data)
result_df.head()

Unnamed: 0,ID,수요량
0,TEST_0000,184.90834
1,TEST_0001,96.952133
2,TEST_0002,295.793945
3,TEST_0003,227.054611
4,TEST_0004,264.306061


In [81]:
result_df.to_csv('result_submission5.csv', index=False)