➡ 사전 EDA / 사후 EDA
➡ 시계열 특성을 고려한 Feature Engineering
➡ CV 전략 : Stratified k-fold
➡ 고객, 상품 관점의 EDA 수행
✳ 고객의 구매주기 파악
✳ 한달 평균 구매 금액
✳ 구매주기에 따른 다음 구매 달과 12월의 차이
➡ 사후 EDA를 통해 모델 성능 평가
➡ 각 Value 값의 통계적 수치
➡ 시계열 특성을 고려한 Feature
✳ 2011년 12월 기준으로 직전 3,6,9,12,15,18,21 개월 동안의 총구매금액(total_sum)
✳ label별 total_12 값의 분포 차이 존재
➡ 구매주기에 따른 다음 구매 달 예측 결과와 12월과의 차이 Feature(diff_fin)
✳ label별 diff_fin 값의 분포 차이 존재
➡ 상품별 중요도 Feature(prd_imp_total)
✳ 많이 주문되는 상품 순위를 중요도로 판단
✳ 중요도 = 평균 판매수량 * 단가
✳ label별 분포 차이 존재 X
➡ Tree decision : LGBM , XGBoost
✳ LGBM이 빠르고 성능이 높은 것을 확인한 결과, LGBM을 주모델로 사용
✳ 평가지표 AUC 점수 상승
➡ Feature Selection
✳ permutation Feature Selection (from eli5.sklearn import PermutationImportance)
✳ Correlation Feature Selection : Feature간의 상관계수를 통해 Feature select
➡ 코호트 분석 ➡ PCA