### Meta Labeling I

<center><img src = "https://hudsonthames.org/wp-content/uploads/2021/11/meta_labeling.png" alt="My Image"></center>

Meta Labeling은 Marcos Lopez de Prado(2018)가 저서 Advances in Financial Machine Learning에서 제안한 모형으로, labeling문제에 직면한 금융 머신러닝 프로젝트에 적절한 방법을 제시한다. 다음과 같은 논리로 이뤄진다

1. Feature 준비 : 자산에 대한 가격 데이터, technical feature등을 포함한 feature matrix를 준비한다
2. Primary Model : 자산의 가격이 상승할지, 하강할지 판단하는 모형이다. 여기에는 자신만의 판단 기준을 내세울 수 있으며, 때로는 애널리스트의 판단이 될 수 있다
3. Secondary Model : Primary Model에서 나온 정보를 가지고 거래를 집행할지, 하지 않을지를 판단하는 모형이다. 거래 집행 유무만 판단하므로 이진 분류 문제가 된다

오늘은 technical feature를 이용해 간단한 이동평균 매수매도 전략을 Primary Model로 제작한 후, Secondary Model을 이용해 매매 의사결정 모형을 만들 것이다

#### 1. Data Import

아래의 library를 활용해 Apple의 가격 시계열을 불러오자. 한국은 공매도 집행이 금지되었으므로 고려하지 않는다. 기간은 2000년 1월 1일부터 11월 15일까지로 지정한다. 시계열이므로 정상성을 위해 로그 차분을 진행한다

In [None]:
import yfinance as yf
import pandas as pd
import numpy as np

start_date = '2000-01-01'
end_date = '2023-11-16'

#### 2. Technical Features

`ta` library에는 다양한 기술적 분석들에 사용 가능한 feature를 제작해 준다. ta library를 활용하여 다음과 같은 feature를 만들어 주도록 한다

- money flow index : window = 20
- on balance volume : window = 20
- rsi : window = 20
- bollinger band : window = 20, window_dev = 1
- volume weighted average price : window = 20
- tsi indicator : window_fast = 13, window_slow = 25

In [None]:
from ta.volatility import BollingerBands
from ta.volume import money_flow_index, on_balance_volume
from ta.momentum import rsi
from ta.volume import volume_weighted_average_price
from ta.momentum import tsi

#indicator_bb = BollingerBands(close = apple["Close"], window = 20, window_dev = 1)

#apple['bb_bbm'] = indicator_bb.bollinger_mavg()
#apple['bb_bbh'] = indicator_bb.bollinger_hband()
#apple['bb_bbl'] = indicator_bb.bollinger_lband()

#apple['mfi'] = money_flow_index(high = apple.High, 
#                                 low = apple.Low, 
#                                 close = apple.Close, 
#                                 volume = apple.Volume,
#                                 window = 20)
#apple['obv'] = on_balance_volume(close = apple.Close, 
#                                 volume = apple.Volume)
#apple['rsi'] = rsi(close = apple.Close, window = 21)
#apple['return'] = apple_ret
#apple['vwap'] = volume_weighted_average_price(high = apple['High'],
#                                           low = apple['Low'],
#                                           close = apple['Close'],
#                                           volume = apple['Volume'],
#                                           window = 20)
#apple['tsi'] = tsi(close = apple['Close'],
#                            window_fast = 13,
#                            window_slow = 15)

#### 3. Primary Modeling

Primary Model에서는 방향만을 추정한다. 여기서는 Bollinger Band전략을 사용하여 가격이 상승할 것인지, 하락할 것인지 labeling을 하자. 여기서 상승은 1, 하락은 -1, 횡보상태는 0으로 labeling한다

In [None]:
# Write your code here!

#### 4. Meta Labeling

Secondary Model은 Primary Model에서 나온 방향을 이용해 거래의 실행 여부만을 평가한다. 3개의 레이블[-1, 0, 1]을 이진 분류 모형[0, 1]으로 다시 labeling을 진행한다. 이 과정을 Meta Labeling이라고 한다

In [None]:
# Write your code here!

#### 5. Secondary Modeling

Meta Label을 target으로 지정하고, 2번에서 지정한 technical feature들을 이용하여 이진 분류 모형을 수행하라. 즉, feature matrix에는 아래와 같은 데이터들이 들어간다

- money flow index
- on balance volume
- RSI
- TSI
- VWAP
- log return
- meta label (target)

여기서, Bollinger Band 관련 feature들은 labeling에 사용되었으므로 고려하지 않는다

모형의 검증을 위해 test data는 0.2로 지정하고 shuffle = False로 지정한다

In [None]:
# Write your code here!

**5.1 Logit Model**

Secondary Model로 Logit Model을 사용하고 성능을 평가하라

In [None]:
import statsmodels.api as sm
from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

from sklearn.metrics import roc_auc_score, classification_report, roc_curve
from sklearn.metrics import auc

# Write your code here!

**5.2 Support Vector Machine**

Secondary Model로 SVM을 사용하고 성능을 평가하라. 여기서 kernel은 linear, C = 0.1로 지정한다

In [None]:
from sklearn.svm import SVC

# Write your code here!

**5.3 Decision Tree Classification**

Secondary Model로 Decision Tree를 사용하고 성능을 평가하라. 여기서 `criterion = 'entropy'`를 지정한다

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Write your code here!

#### 6. 모형 성능 평가

Meta Modeling을 비롯하여 technical feature들은 많은 연구가 이뤄지고 있다. 이를 기반으로 Meta labeling을 모형화 할 때, 가장 적합한 Machinie Learning 모형은 무엇인가? 여기에서 투자를 집행하는 label이 1인 점에 주목해야 한다 (실제 투자 기회를 최대한 많이 잡아내는 것이 중요한다)

Machine Learning의 강점과 한계에는 어떤 것이 있을까?

In [None]:
# Write your code here!