# How can machine learning advance quantitative asset management?

## 1. Introduction
ML : 클라우드 컴퓨팅 파워의 발전으로 정량적 자산 관리가 주목 받기 시작.

기존 : 이론을 규정 -> 데이터가 모델 매개변수의 관련 추정치를 결정 / feature & objective variable 사이의 관계 확립에 주목 (인과관계)

ML : 대규모 데이터셋을 처리하는데에 적합, 비선형성과 상관관계 분석에 적합.

## 2. Machine Learning versus Classical Econometrics
ML : out of sample data (관측되지 않은 데이터)에 대한 예측 수행

고전 계량(기존) : 학습 없이 전체 데이터 세트에 적합하게 수행 (OLS ...)

#### ML Advantage

1. 데이터 중심 접근
 상관관계가 큰 변수에 큰 가중치를 부여하여 학습함.(<->단순 선형 회귀(기존)의 경우, 설명 변수가 많아지면 bias, multicollinearity 문제 발생)
2. 모델 자유 접근
 데이터 내에서 특정 데이터 집단 속에서의 관계를 포착하는 것이 쉬움 (자유도)
3. 전향적 모델 선택
 기존의 in-sample method -> p-hacking의 위험이 커짐. 추정치의 상향 편향 문제 발생.
 그러나 ML은 out-of-sample 예측력을 기반으로 함 -> *선행 편향*에 비교적 강건함. 적절히 보정된 ML signal은 기존의 in-sample에 비해 backtest 과정에서 성과가 덜할 수는 있으나 ML's backtest는 out-of-sample에 대한 현실적인 평가를 제공함.

#### ML Pitfalls

ML은 "대량의 데이터 & signal/noise 비율이 큰 경우"에 더 큰 성과를 보임. But, 금융 시장 연구에서는 데이터가 적고 s/n 비율이 낮은 경향이 있음. + 시계열성과 횡단면 모두를 고려하게 되면 실질적인 관측 수는 더 줄어듦.

ex) 이미지 분석에 활용되는 경우 고양이를 식별하는 ML 알고리즘이 존재한다면, 이것이 발견되면 금융에서는 모든 고양이가 개로 변할 수 있으며, ML 알고리즘은 다시 학습해야함. **데이터 생성 과정이 시간이 지남에 따라 변할 수 있기 때문에 과거 데이터 포인트의 관련성이 일정하지 않음 !! -> s/n 비율이 낮음**

ML은 예측 능력에 편향되어 과적합 편향 / 경제적으로 무의미한 결과물을 가져올 우려가 있음.

## 3. Modeling Choice in Machine Learning for Asset Management
naive ML predict + domain knowledge = success

#### 3.1 Methodological Choices

ML : train data / test data 의 엄격한 분리가 중요.
     또한 데이터의 특성을 고려해야함 (편향된 학습을 극복하기 위해 절대적 수치가 아닌 그룹 내에서의 상대적인 비율로의 수치를 활용 ex- 미국에서의 0.5불의 수익률과 인도에서의 0.5불의 수익률은 동일하게 고려되어서는 안됨. "동일 국가 내에서의 다른 주식들에 비해 상대적으로 얼만큼"과 같은 고려가 필요.)

#### 3.2 Choice of Target

1.
10년치의 데이터셋이 있다고 가정할 때,
다음 달 주식 수익률 예측을 위한 경우 -> 120개의 데이터셋
1년 뒤의 주식 수익률 예측을 위한 경우 -> 10개의 데이터셋
+ 물론 샘플의 크기를 늘리기 위해 중첩된 관측치를 사용할 수 있으나, 이는 독립적이지 않기에 문제가 생김.

장기 주식 수익 예측은 낮은 변동성과 베타와 같은 요인(slow factor)와 더 강하게 관련이 됨. Ait-Sahalia,Fan,and Xue (2022)에서는 ML 모델이 짧은 수평성(단기)에서 크고 체계적이며 일관된 예측 가능성을 제공한다고 밝힘.

2.
직교화 : 특정 요인과의 상관성을 제거하여 목표 변수를 조정하는 과정. 새로운 패턴과 비선형성을 포착하는 데에 기여함. -> 모델이 독립적인 예측을 생성하는 데에 기여함.
다만 직교화 자체에서의 추정 오류도 무시할 수 없는 문제임.

3.
대부분의 ML 연구는 Estimated profit - Realized profit 간의 MSE와 같은 손실함수 최소화에 주목함.(예측 정확성을 높이는 제약으로서 기능함)
표준 손실 함수가 샤프 비율 관점에서 최적이 아닐 수도 있으며... 다른 손실함수 최적화도 실제로는 최적화되지 않을 수도 있음.
포트폴리오 수준의 예측 : 개별 자산의 수익률이 포트폴리오 수익률 하나로 통합되기에 train data 수가 줄어듦.(과적합, 일반화 능력 저하의 문제)

Sharpe Ratio : 초과수익률/변동성, 위험 대비 수익 측정
Information Ratio : 초과수익률/추적오차, 벤치마크 대비 성과 측정

#### 3.3 Choice of Input Features

Macro 지식들을 잘못 사용하면 overfitting 문제가 발생할 수도 있음.

## 4. Applying ML in Asset Management
ML 기반 투자 포트폴리오 효과의 결과 합리화, ML 모델의 해석 가능성, ML 위험성 회피 - 주식 수익률 예측을 주제로

#### 4.1 The Virtue of Interpretability

Shapley value : 머신러닝 모델 해석을 위한 중요한 도구임.
                효율성, 대칭성, 더미, 가산성의 4가지 공정성 공리를 만족하는 방법임.

* Shapley value
협력 게임에서 각 플레이어가 기여한 가치에 따라 이익을 분배하는 방법.
각 플레이어 기여도 = 모든 가능한 플레이어 조합에서 해당 플레이어가 추가됨으로써 얻는 이익의 평균
In ML : feature가 model's 예측에 기여하는 정도를 나타냄. (ex- momentum's attribution to prediced return)
공정성의 4가지 공리
효율성 : 모든 feature의 Shapley 값의 합은 전체 예측 값도 같음
대칭성 : 두 feature가 동일 기여를 하면 Shapley 값은 같아야 함.
더미 : 예측에 영향을 미치지 않는 feature's shapley value = 0
가산성 : 두 개의 모델이 결합된 경우, 각 feature's shapley value는 두 모델에서의 shapley value의 합과 같음

장/단점
-장점
해석 가능성, 공정한 귀속
-단점
계산 복잡성, 상관성 무시