<a href="https://colab.research.google.com/github/bbberylll/ESAA_OB/blob/main/Untitled25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Financial Transaction Forecasting (NeurIPS / Research Competitions)


1. 목표: 거래 로그를 기반으로 미래 이벤트/사용자 행동을 예측
  - 다음 달 카드 지출액, 특정 카테고리 구매 확률, default 가능성

2. 데이터셋
  - 고객 ID별 시계열 거래 로그 (timestamp, amount, merchant_category, location_id, device_id 등)
  - Label은 특정 시점 이후의 사용자 행동 (예: 연체 여부, high-spend 여부, 특정 이벤트 발생 여부)

평가지표
  - 회귀: RMSE / MAE
  - 분류: AUC / logloss
  - 일부 대회는 ranking metric (MAP@K 등)



## EDA (탐색적 데이터 분석)

- 거래 로그 확인
  - 고객별 거래 개수: 수십~수천 건 >> 길이 불균형
  - 거래 주기: 일 단위/주 단위로 seasonality 존재 (급여일, 월말 결제 등)
  - 카테고리: merchant_category, mcc_code >> sparse한 one-hot 구조

EDA 주요 관찰
  - Fraud나 default 고객은 특정 시점에서 거래 패턴 급격 변화
  - 특정 카테고리(예: 유흥, 온라인 결제) 사용량이 높을수록 위험도 증가
  - 지역/단말기 변경이 잦은 고객은 비정상 패턴 가능성 상승


## 시간 파생 피처
1. 단순 집계
    - 고객별 최근 N일 거래 수, 거래 금액 합계/평균
    - 카테고리별 소비 비율 (%food, %travel)

2. 시간적 특성
    - 거래 간격 평균/표준편차 (inter-arrival time)
    - 주기성: 주중 vs 주말 거래 비중, 월말 집중도

3. 순차적 피처 (sequence features)
    - RNN/Transformer 입력으로 시퀀스를 그대로 사용
    - Embedding: merchant_category, location, device >> dense vector
    - positional encoding (시간 차 기반) >> 거래 간격 정보를 시퀀스에 반영


## 모델
- Baseline (Boosting 계열)
  - 거래 로그를 고객별 집계 >> XGBoost / LightGBM / CatBoost >> strong baseline
  - 단점: 순차적 패턴(시간 순서)을 직접 반영하기 어려움

- 딥러닝 계열 (상위권에서 주로 사용)
  1. RNN (GRU/LSTM)
      - 거래 시퀀스를 순차적으로 학습 >> 최근 거래 패턴 반영 용이
  2. Transformer (Attention 기반)
      - 긴 거래 시퀀스에서도 멀리 떨어진 패턴 캡처 가능
      - Multi-head attention으로 category*time 상호작용 포착
  3. Hybrid (Tabular + Sequence)
    - 정적 고객 특성(나이, 지역) >> MLP
    - 거래 로그 시퀀스 >> Transformer/RNN
    - 두 출력 벡터 concat >> 최종 classifier/regressor

앙상블
    - Boosting + Transformer 앙상블 >> Public/Private gap 감소
    - Ranking task에서는 sequence NN + GBDT blending


## 검증 전략
1. 시간 기반 CV
    - Train = 과거 거래 로그, Valid = 미래 거래 로그
    - Sliding/Expanding window 적용

2. Group CV (by 고객 ID)
    - 같은 고객이 train/valid에 동시에 들어가면 leakage 발생 >> 반드시 고객 단위 split 필요

3. 평가지표
    - Default 예측: AUC
    - Spending Forecast: RMSE/MAE
    - Ranking: MAP@K



## 결과 분석
1. EDA/Feature Engineering 성과
    - 거래 시퀀스를 “flatten”해서 집계한 boosting baseline도 강력했으나,
    - 상위권은 **순차 모델(Transformer, GRU)**로 시간적 패턴까지 반영 >> 성능 개선

2. 모델 비교
    - 단순 boosting vs sequence 모델 차이:
    - Boosting: 강력한 baseline, 해석력 우수
    - Transformer: 복잡 패턴 포착, CV 안정성 상승

3. 에러 분석
    - 거래 로그가 적은 고객 >> sequence 학습이 불안정 >> boosting이 오히려 유리
    - 거래 로그가 많은 고객 >> sequence 모델 우세

4. 차별점
    - embedding + attention으로 “거래 카테고리*시간대” 패턴 포착
    - 단순 aggregate보다 sequence input이 유의미하게 개선

## 배울 점
- 신용카드/금융 로그 데이터는 탭형 + 시계열 혼합 구조
- 집계 기반 boosting은 baseline으로 강력 >> 실전 적용 용이
- **sequence 모델(Transformer, RNN)**을 더하면 시계열 패턴까지 반영 가능
- 고객 단위 split, 시간 기반 검증이 필수 >> 데이터 누수 방지
- 실제 금융 데이터에 가까워 실무 적용성 높음