# How can machine learning advance quantitative asset management?

## 1. Introduction
ML : 클라우드 컴퓨팅 파워의 발전으로 정량적 자산 관리가 주목 받기 시작.

기존 : 이론을 규정 -> 데이터가 모델 매개변수의 관련 추정치를 결정 / feature & objective variable 사이의 관계 확립에 주목 (인과관계)

ML : 대규모 데이터셋을 처리하는데에 적합, 비선형성과 상관관계 분석에 적합.

## 2. Machine Learning versus Classical Econometrics
ML : out of sample data (관측되지 않은 데이터)에 대한 예측 수행

고전 계량(기존) : 학습 없이 전체 데이터 세트에 적합하게 수행 (OLS ...)

#### ML Advantage

1. 데이터 중심 접근
 상관관계가 큰 변수에 큰 가중치를 부여하여 학습함.(<->단순 선형 회귀(기존)의 경우, 설명 변수가 많아지면 bias, multicollinearity 문제 발생)
2. 모델 자유 접근
 데이터 내에서 특정 데이터 집단 속에서의 관계를 포착하는 것이 쉬움 (자유도)
3. 전향적 모델 선택
 기존의 in-sample method -> p-hacking의 위험이 커짐. 추정치의 상향 편향 문제 발생.
 그러나 ML은 out-of-sample 예측력을 기반으로 함 -> *선행 편향*에 비교적 강건함. 적절히 보정된 ML signal은 기존의 in-sample에 비해 backtest 과정에서 성과가 덜할 수는 있으나 ML's backtest는 out-of-sample에 대한 현실적인 평가를 제공함.

#### ML Pitfalls

ML은 "대량의 데이터 & signal/noise 비율이 큰 경우"에 더 큰 성과를 보임. But, 금융 시장 연구에서는 데이터가 적고 s/n 비율이 낮은 경향이 있음. + 시계열성과 횡단면 모두를 고려하게 되면 실질적인 관측 수는 더 줄어듦.

ex) 이미지 분석에 활용되는 경우 고양이를 식별하는 ML 알고리즘이 존재한다면, 이것이 발견되면 금융에서는 모든 고양이가 개로 변할 수 있으며, ML 알고리즘은 다시 학습해야함. **데이터 생성 과정이 시간이 지남에 따라 변할 수 있기 때문에 과거 데이터 포인트의 관련성이 일정하지 않음 !! -> s/n 비율이 낮음**

ML은 예측 능력에 편향되어 과적합 편향 / 경제적으로 무의미한 결과물을 가져올 우려가 있음.

## 3. Modeling Choice in Machine Learning for Asset Management
naive ML predict + domain knowledge = success

#### 3.1 Methodological Choices

ML : train data / test data 의 엄격한 분리가 중요.
     또한 데이터의 특성을 고려해야함 (편향된 학습을 극복하기 위해 절대적 수치가 아닌 그룹 내에서의 상대적인 비율로의 수치를 활용 ex- 미국에서의 0.5불의 수익률과 인도에서의 0.5불의 수익률은 동일하게 고려되어서는 안됨. "동일 국가 내에서의 다른 주식들에 비해 상대적으로 얼만큼"과 같은 고려가 필요.)

#### 3.2 Choice of Target

1.
10년치의 데이터셋이 있다고 가정할 때,
다음 달 주식 수익률 예측을 위한 경우 -> 120개의 데이터셋
1년 뒤의 주식 수익률 예측을 위한 경우 -> 10개의 데이터셋
+ 물론 샘플의 크기를 늘리기 위해 중첩된 관측치를 사용할 수 있으나, 이는 독립적이지 않기에 문제가 생김.

장기 주식 수익 예측은 낮은 변동성과 베타와 같은 요인(slow factor)와 더 강하게 관련이 됨. Ait-Sahalia,Fan,and Xue (2022)에서는 ML 모델이 짧은 수평성(단기)에서 크고 체계적이며 일관된 예측 가능성을 제공한다고 밝힘.

2.
직교화 : 특정 요인과의 상관성을 제거하여 목표 변수를 조정하는 과정. 새로운 패턴과 비선형성을 포착하는 데에 기여함. -> 모델이 독립적인 예측을 생성하는 데에 기여함.
다만 직교화 자체에서의 추정 오류도 무시할 수 없는 문제임.

3.
대부분의 ML 연구는 Estimated profit - Realized profit 간의 MSE와 같은 손실함수 최소화에 주목함.(예측 정확성을 높이는 제약으로서 기능함)
표준 손실 함수가 샤프 비율 관점에서 최적이 아닐 수도 있으며... 다른 손실함수 최적화도 실제로는 최적화되지 않을 수도 있음.
포트폴리오 수준의 예측 : 개별 자산의 수익률이 포트폴리오 수익률 하나로 통합되기에 train data 수가 줄어듦.(과적합, 일반화 능력 저하의 문제)

Sharpe Ratio : 초과수익률/변동성, 위험 대비 수익 측정
Information Ratio : 초과수익률/추적오차, 벤치마크 대비 성과 측정

#### 3.3 Choice of Input Features

Macro 지식들을 잘못 사용하면 overfitting 문제가 발생할 수도 있음.

## 4. Applying ML in Asset Management
ML 기반 투자 포트폴리오 효과의 결과 합리화, ML 모델의 해석 가능성, ML 위험성 회피 - 주식 수익률 예측을 주제로

#### 4.1 The Virtue of Interpretability

Shapley value : 머신러닝 모델 해석을 위한 중요한 도구임.
                효율성, 대칭성, 더미, 가산성의 4가지 공정성 공리를 만족하는 방법임.

* Shapley value
협력 게임에서 각 플레이어가 기여한 가치에 따라 이익을 분배하는 방법.
각 플레이어 기여도 = 모든 가능한 플레이어 조합에서 해당 플레이어가 추가됨으로써 얻는 이익의 평균
In ML : feature가 model's 예측에 기여하는 정도를 나타냄. (ex- momentum's attribution to prediced return)
공정성의 4가지 공리
효율성 : 모든 feature의 Shapley 값의 합은 전체 예측 값도 같음
대칭성 : 두 feature가 동일 기여를 하면 Shapley 값은 같아야 함.
더미 : 예측에 영향을 미치지 않는 feature's shapley value = 0
가산성 : 두 개의 모델이 결합된 경우, 각 feature's shapley value는 두 모델에서의 shapley value의 합과 같음

장/단점
-장점
해석 가능성, 공정한 귀속
-단점
계산 복잡성, 상관성 무시

#### 4.2 Use Cases for Machine Learning in Asset Management
##### 4.2.1 Forecasting Stock Returns

ML을 사용하여 주식 수익률을 예측하는 연구는 전통적인 예측 변수(예: 과거 수익 신호, 가치 비율, 품질 지표, 위험 측정 등)를 입력 특징으로 사용해 발전함. 일반적으로 포함되는 입력 특징의 수는 50개 이상임. (-> 이 분야에서 가장 많이 인용되는 논문 중 세 가지는 Gu, Kelly, and Xiu (2020), Freyberger, Neuhierl, and Weber (2020), Light, Maslov, and Rytchkov (2017)로, 모두 ML 전략이 비교 가능한 선형 전략보다 상당히 우수하며 약 2 이상의 샤프 비율을 생성한다고 발견함. 특히, Baltussen, van Vliet, and van Vliet (2022)는 ML 방법이 "pre-CRSP" 시대, 즉 1866년까지 거슬러 올라가는 주식 수익률 예측에 효과적임.)

ML 모델에 경제적 구조를 추가하는 것은 주요 이점을 제공함. 예를 들어, Chen, Pelger, and Zhou (2022)는 자산 가격을 예측하기 위해 신경망의 일부로 무차익 조건을 사용합니다. 그들은 자산 가격을 주도하는 요인을 식별하여 경제 상태를 추출할 수 있으며, 이는 모든 경쟁 out-of-sample 벤치마크 접근 방식을 능가합니다. Kozak, Nagel, and Santosh (2020) 및 Lettau and Pelger (2020)는 주식 수익률의 첫 번째 및 두 번째 모멘트가 관련되어야 한다는 경제적 통찰을 활용합니다. 이 경제적이고 경험적으로 동기 부여된 사전 지식은 더 나은 out-of-sample 결과를 이끄는 새로운 확률적 할인 요인을 구성하는 데 사용됩니다. Jensen et al. (2022)는 금융 시장의 경제적 현실에 ML 방법을 적응시키는 방법에 대한 문헌의 여러 아이디어를 결합합니다. 그들은 거래 비용을 통합한 포트폴리오 최적화가 ML 주식 수익 예측을 먼저 맞추고 이를 포트폴리오에 구현하는 것보다 더 잘 작동한다고 주장합니다.

여러 신호를 결합하여 선택된 전략은 심각한 과적합 편향을 겪음.(기본 신호는 일반적으로 긍정적인 in-sample 수익을 예측하도록 서명되기 때문임.)

ML 연구는 훈련 세트와 교차 검증 기술을 사용하여 이러한 우려를 완화하려고 시도합니다. Arnott, Harvey, and Markowitz (2019)를 참조하십시오. 올바르게 적용되면 교차 검증은 엄격히 out-of-sample이며, 선행 편향이 없음. 그러나 연구자들은 여전히 여러 테스트된 구성에서 체리 피킹을 하거나, 하이퍼파라미터 세트를 가지고 놀거나, 심지어 무의식적으로 훈련 과정을 잘 작동할 방향으로 조종할 수 있음. 또한, 이미 잘 수행하는 것으로 알려진 요인 세트를 포함하는 모든 실험은 설계상 선행 편향을 겪음.

ML 방법이 실무에서 실패할 수 있는 이유에 대한 더 광범위한 논의 - Lopez de Prado (2018)

##### 4.2.2 Enhancing Traditional Factors

ML : 미래 수익 예측이 알파의 원천이 될 수는 있으나, 시장이 이미 이를 가격에 반영했을 수 있음.

##### 4.2.3 Creating Non-Traditional Variables and NLP

ML : NLP를 통해 비전통적 변수 생성. 텍스트 데이터를 정량적 투자 신호로 변환(감성 분석)

##### 4.2.4 Predicting Metrics Other Than Returns

ML : Market Beta, Stock volatility, Event 등의 예측에 활용되기도 함.

##### 4.2.5 Using ML Methods in Fixed Income

ML : Cherief et al(2022) -> 부스팅 회귀 트리 + 랜덤 포레스트 , Bianchi, Buchner, and Tamoni(2021) -> 예측력 없음.

##### 4.2.6 Improving Portfolio Construction

ML : 마코위치 평균-분산 최적화 -> 강화 학습 기법 으로 전환되는 추세 ( Snow(2020) ), 강화 학습 : 누적 보상 최대화를 위해 에이전트 행동 양식을 다룸

##### 4.2.7 Improving Trading and Execution

ML : 최적의 거래 시간, 크기, 장소를 결정하고자 함.

Reinforcement Learning : Q-learning 과 같은 강화 학습은 모델(사전 이론)이 없이 구현되는 알고리즘임.
                         실행 타이밍에 있어서도 Q-learning 모델을 통해 다룸(주어진 행동에 대한 미래 보상을 추정하는 Q-value function)

##### 4.3 Research Governance and Protocol

윤리/지도적 내용



## 5. Conclusions

중요한 주제들 : 
과적합 문제
빠른 신호 포착 & 수익성을 가진 투자 전략으로의 전환
손실 함수의 실질적 최적화 고려
s/n 비율이 낮음으로 인해 발생하는 문제들을 도메인 지식을 통해 보완해야함