In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import koreanize_matplotlib

In [2]:
data = pd.read_csv('./data/ETFs_main.csv')
data

Unnamed: 0,Dates,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO
0,2007-02-20,146.04,145.56,146.200,144.0,56909500.0,65.31,83.51,2.3263,0.31,48.67,25.07,10.24,40.055
1,2007-02-21,145.98,145.61,146.070,145.0,63971500.0,67.28,82.90,2.3653,0.32,49.86,25.12,10.20,39.975
2,2007-02-22,145.87,146.05,146.420,145.0,79067398.0,67.15,82.46,2.3871,0.31,50.33,25.12,10.18,40.220
3,2007-02-23,145.30,145.74,145.790,145.0,71962797.0,67.72,82.78,2.3809,0.31,50.46,25.04,10.58,40.035
4,2007-02-26,145.17,145.83,145.950,145.0,69320062.0,68.10,83.08,2.3795,0.31,50.90,25.04,11.15,39.960
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2766,2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.87,1.7807,0.48,9.72,25.77,28.38,38.180
2767,2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.87,1.7651,0.48,9.57,25.94,30.11,37.870
2768,2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.55,1.7505,0.40,9.29,25.55,36.07,37.320
2769,2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.00,1.7581,0.44,9.62,25.57,29.96,37.900


* CLOSE_SPY: SPY(S&P 500 ETF)의 종가. SPY는 S&P 500 지수를 추종하는 ETF로, 미국 주식시장의 전반적인 성과를 반영합니다.
* OPEN: SPY의 시가. 거래가 시작될 때의 가격을 의미합니다.
* HIGH: SPY의 고가. 해당 거래일 동안 기록된 가장 높은 가격입니다.
* LOW: SPY의 저가. 해당 거래일 동안 기록된 가장 낮은 가격입니다.
* VOLUME: SPY의 거래량. 해당 거래일 동안 주식이 얼마나 많이 거래되었는지를 나타냅니다.
* CLOSE_GLD: GLD(Gold ETF)의 종가. 금 가격을 추종하는 ETF로, 금의 시장 가격을 반영합니다.
* CLOSE_FXY: FXY(Japanese Yen ETF)의 종가. 일본 엔화의 성과를 추종하는 ETF입니다.
* CLOSE_T10Y2Y: 10년 만기 미국 국채와 2년 만기 국채 간의 금리 차이를 나타내는 지표입니다. 일반적으로 경기 예측에 사용됩니다.
* CLOSE_TED: TED 스프레드(TED Spread)로, 미국 3개월 만기 재무부채권 금리와 3개월 만기 유로달러 금리 차이를 나타냅니다. 금융시장의 위험을 측정하는 지표로 자주 사용됩니다.
* CLOSE_USO: USO(Crude Oil ETF)의 종가. 원유 가격을 추종하는 ETF입니다.
* CLOSE_UUP: UUP(U.S. Dollar ETF)의 종가. 미국 달러 지수를 추종하는 ETF로, 달러의 가치 변동을 반영합니다.
* CLOSE_VIX: VIX(Volatility Index) 종가. 흔히 '공포 지수'라고도 불리며, 시장의 변동성(주로 S&P 500의 향후 30일간의 예상 변동성)을 나타냅니다.
* CLOSE_VWO: VWO(Emerging Markets ETF)의 종가. 신흥 시장 주식에 투자하는 ETF입니다.


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2771 entries, 0 to 2770
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Dates         2771 non-null   object 
 1   CLOSE_SPY     2771 non-null   float64
 2   OPEN          2771 non-null   float64
 3   HIGH          2771 non-null   float64
 4   LOW           2771 non-null   float64
 5   VOLUME        2771 non-null   float64
 6   CLOSE_GLD     2771 non-null   float64
 7   CLOSE_FXY     2771 non-null   float64
 8   CLOSE_T10Y2Y  2771 non-null   float64
 9   CLOSE_TED     2771 non-null   float64
 10  CLOSE_USO     2771 non-null   float64
 11  CLOSE_UUP     2771 non-null   float64
 12  CLOSE_VIX     2771 non-null   float64
 13  CLOSE_VWO     2771 non-null   float64
dtypes: float64(13), object(1)
memory usage: 303.2+ KB


In [4]:
data['Dates'] = pd.to_datetime(data['Dates'])
data['Dates'].dtype

dtype('<M8[ns]')

In [5]:
data.head(2)

Unnamed: 0,Dates,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO
0,2007-02-20,146.04,145.56,146.2,144.0,56909500.0,65.31,83.51,2.3263,0.31,48.67,25.07,10.24,40.055
1,2007-02-21,145.98,145.61,146.07,145.0,63971500.0,67.28,82.9,2.3653,0.32,49.86,25.12,10.2,39.975


In [6]:
data = data.set_index('Dates')

In [7]:
data

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2007-02-20,146.04,145.56,146.200,144.0,56909500.0,65.31,83.51,2.3263,0.31,48.67,25.07,10.24,40.055
2007-02-21,145.98,145.61,146.070,145.0,63971500.0,67.28,82.90,2.3653,0.32,49.86,25.12,10.20,39.975
2007-02-22,145.87,146.05,146.420,145.0,79067398.0,67.15,82.46,2.3871,0.31,50.33,25.12,10.18,40.220
2007-02-23,145.30,145.74,145.790,145.0,71962797.0,67.72,82.78,2.3809,0.31,50.46,25.04,10.58,40.035
2007-02-26,145.17,145.83,145.950,145.0,69320062.0,68.10,83.08,2.3795,0.31,50.90,25.04,11.15,39.960
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.87,1.7807,0.48,9.72,25.77,28.38,38.180
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.87,1.7651,0.48,9.57,25.94,30.11,37.870
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.55,1.7505,0.40,9.29,25.55,36.07,37.320
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.00,1.7581,0.44,9.62,25.57,29.96,37.900


# 분석에 사용할 기술적 지표 만들기 
* MA_45 : 45일 단순 이동평균(Simple Moving Average) : 특정 자산의 45일간 평균 종가
* VMA_45 : 45일 거래량(Volume Moving Average) : 지난 45일간의 평균 거래량
* RSI_14 : 14일 상대강도지수(Relative Strength Index) : 14일 동안의 자산 가격 변동을 바탕으로 과매수 또는 과매도 상태를 평가하는 지표

### RSI
RSI는 대표적인 모멘텀 지표 중 하나로, 주가의 평균 상승폭과 하락폭을 비교하여 가격의 상승 압력과 하락 압력 간의 상대적인 강도를 나타내는 기술적 지표이다. 현재의 시장 상황이 과매수 상태인지 아니면 과매도 상태인지 판단하기 위해 고안되었으며, 보통 RSI 70 이상을 과매수 상태로, RSI 30 이하를 과매도 상태로 판단하는 것이 일반적이다.

- RSI 값을 통해 상승 모멘텀과 하락 모멘텀의 강도를 확인할 수 있다.
- RSI 지표는 일정 기간 동안 상승 변화량과 하락 변화량의 비율을 나타낸다. 일정 기간 동안 주가의 상승폭이 하락폭보다 큰 경우, 즉 상승 모멘텀이 강한 경우 RSI 값이 높아지며, 반대의 경우 RSI 값이 낮아진다.
- RSI는 오실레이터의 성격을 갖는 지표로 0~100 사이의 값을 갖는다. RSI의 값이 100에 가까울 수록 최근 14일간 주가가 거의 100퍼센트 상승했다는 의미로, 현재 시장의 상방 모멘텀이 강하다는 해석이 가능하다.
- 반대로 RSI의 값이 0에 가까울수록 최근 14일간 주가가 거의 100퍼센트 하락했다는 의미로, 그만큼 현재 시장의 하방 모멘텀이 강하다고 볼 수 있다.

#### 과매도/과매수
- RSI가 70 이상이면 과매수, 30 이하면 과매도 국면으로 판단할 수 있다.
- 기본적으로 주가가 일정 기간 이상 급격히 상승하면 과매수 구간으로 들어서게 되고, 조만간 하락할 것이라는 예측이 가능하다. 반대로, 일정 기간 이상 급격히 하락하면 과매도 구간에 진입하고 조만간 상승 할 것이라는 예상을 할 수 있다.
- RSI를 활용하면 이러한 과매수와 과매도 여부를 알아내는 데 도움이 될 수 있다. RSI가 일정 수치 이상으로 올라간다면 과매수 상태로, 일정 수치 이하로 내려간다면 과매도 상태로 볼 수 있는데, RSI의 창시자인 웰스 와일더는 RSI 70 이상을 과매수 국면으로, 30 이하를 과매도 국면으로 정의한 바 있다.

#### 매매 전략
돌파 시점에서 매매하는 것이 아닌,

✅ 과매수 구간에 머물던 RSI가 상단선을 하향 돌파 시(과매수가 해소될 때) 매도

✅ 과매도 구간에 머물던 RSI가 하단선을 상향 돌파 시(과매도가 해소될 때) 매수

하는 방식으로 과매도/ 과매수 매매전략을 사용할 수 있다.

## RSI(Relative Strength Index) 공식

* RSI는 자산의 가격 변동 강도를 측정해 과매수, 또는 과매도 상태를 평가하는 기술적 분석 지표
* 주로 14일 동안의 가격 변동 기준으로 계산, 값은 0 - 100 사이
* RSI 값이 70 이상: 과매수 상태(매도 시점을 고려)
* RSI 값이 30 이하: 과매도 상태(매수 시점을 고려)
* RSI는 주가가 너무 빠르게 상승하거나 하락했는지 확인하는 데 사용
* 투자자들의 매수/매도 결정을 내릴 때 중요한 참고 지표로 활용
<br><br>

### ☑️ RSI 계산 공식
$$ RSI = \left( 100 - \frac{100}{1 + RS} \right) $$
### ☑️ RS(Relative Strength)
$$ RS = \frac{Average\ Gain}{Average\ Loss} $$
* Average Gain: 일정 기간(14일) 동안 가격 상승분의 평균
* Average Loss: 일정 기간(14일) 동안 가격 하락분의 평균
* 상승 Gain = 오늘의 종가 - 어제의 종가 
* 하락 Loss = 어제의 종가 - 오늘의 종가 

In [8]:
days = 45

단순이동평균 구해서 데이터 프레임에 합치기

In [9]:
data.columns

Index(['CLOSE_SPY', 'OPEN', 'HIGH', 'LOW', 'VOLUME', 'CLOSE_GLD', 'CLOSE_FXY',
       'CLOSE_T10Y2Y', 'CLOSE_TED', 'CLOSE_USO', 'CLOSE_UUP', 'CLOSE_VIX',
       'CLOSE_VWO'],
      dtype='object')

In [10]:
ma = pd.Series(data['CLOSE_SPY'].rolling(window=days).mean(), name="MA_" + str(days))
ma


# rolling() 함수는 이동 창(윈도우)을 설정하는 메서드
# window=days는 이동 평균을 계산할 때 몇 개의 데이터를 기반으로 평균을 구할지를 지정하는 값


# 주어진 종가 데이터('CLOSE_SPY')에 대해 특정 기간(days) 동안의 이동 평균(MA)을 계산하고, 
# 그 결과를 이름이 'MA_'로 시작하는 pandas 시리즈로 저장하고 있다
# 이를 통해, 시계열 데이터의 평균적인 변동 흐름을 쉽게 파악할 수 있게 된다.

Dates
2007-02-20           NaN
2007-02-21           NaN
2007-02-22           NaN
2007-02-23           NaN
2007-02-26           NaN
                 ...    
2018-12-20    269.767778
2018-12-21    269.018889
2018-12-24    267.995333
2018-12-27    267.275778
2018-12-28    266.639111
Name: MA_45, Length: 2771, dtype: float64

In [11]:
data = data.join(ma)
data

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2007-02-20,146.04,145.56,146.200,144.0,56909500.0,65.31,83.51,2.3263,0.31,48.67,25.07,10.24,40.055,
2007-02-21,145.98,145.61,146.070,145.0,63971500.0,67.28,82.90,2.3653,0.32,49.86,25.12,10.20,39.975,
2007-02-22,145.87,146.05,146.420,145.0,79067398.0,67.15,82.46,2.3871,0.31,50.33,25.12,10.18,40.220,
2007-02-23,145.30,145.74,145.790,145.0,71962797.0,67.72,82.78,2.3809,0.31,50.46,25.04,10.58,40.035,
2007-02-26,145.17,145.83,145.950,145.0,69320062.0,68.10,83.08,2.3795,0.31,50.90,25.04,11.15,39.960,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.87,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.87,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.55,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.00,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778


In [12]:
# 거래량 이동평균 vma
vma = pd.Series(data['VOLUME'].rolling(days).mean(), name = 'VMA_' + str(days))
vma

Dates
2007-02-20             NaN
2007-02-21             NaN
2007-02-22             NaN
2007-02-23             NaN
2007-02-26             NaN
                  ...     
2018-12-20    1.240592e+08
2018-12-21    1.274610e+08
2018-12-24    1.281067e+08
2018-12-27    1.297876e+08
2018-12-28    1.301996e+08
Name: VMA_45, Length: 2771, dtype: float64

In [13]:
data = data.join(vma)
data

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
2007-02-20,146.04,145.56,146.200,144.0,56909500.0,65.31,83.51,2.3263,0.31,48.67,25.07,10.24,40.055,,
2007-02-21,145.98,145.61,146.070,145.0,63971500.0,67.28,82.90,2.3653,0.32,49.86,25.12,10.20,39.975,,
2007-02-22,145.87,146.05,146.420,145.0,79067398.0,67.15,82.46,2.3871,0.31,50.33,25.12,10.18,40.220,,
2007-02-23,145.30,145.74,145.790,145.0,71962797.0,67.72,82.78,2.3809,0.31,50.46,25.04,10.58,40.035,,
2007-02-26,145.17,145.83,145.950,145.0,69320062.0,68.10,83.08,2.3795,0.31,50.90,25.04,11.15,39.960,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.87,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.87,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.55,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.00,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778,1.297876e+08


RSI지수 구하기

In [14]:
# 차분(diff) 통해 변화량 구하기 
delta = data['CLOSE_SPY'].diff()
delta

Dates
2007-02-20      NaN
2007-02-21    -0.06
2007-02-22    -0.11
2007-02-23    -0.57
2007-02-26    -0.13
              ...  
2018-12-20    -4.09
2018-12-21    -6.47
2018-12-24    -6.36
2018-12-27    13.73
2018-12-28    -0.32
Name: CLOSE_SPY, Length: 2771, dtype: float64

In [15]:
gain = (delta.where(delta> 0,0))

In [16]:
loss = (-delta.where(delta < 0,0)).rolling(window=45).mean()
loss

Dates
2007-02-20         NaN
2007-02-21         NaN
2007-02-22         NaN
2007-02-23         NaN
2007-02-26         NaN
                ...   
2018-12-20    1.807333
2018-12-21    1.916667
2018-12-24    2.058000
2018-12-27    2.058000
2018-12-28    1.975111
Name: CLOSE_SPY, Length: 2771, dtype: float64

상대강도 RS 계산하기

In [17]:
RS = gain/loss
RS

Dates
2007-02-20         NaN
2007-02-21         NaN
2007-02-22         NaN
2007-02-23         NaN
2007-02-26         NaN
                ...   
2018-12-20    0.000000
2018-12-21    0.000000
2018-12-24    0.000000
2018-12-27    6.671526
2018-12-28    0.000000
Name: CLOSE_SPY, Length: 2771, dtype: float64

RSI 공식에 따라서 RSI 값 계산
RSI = 100 - (100 / (1 + RS))
RSI

* 70 이상이면 과매수, 30이하면 과매도

In [18]:
RSI = 100 - (100 / 1 + RS)
RSI

Dates
2007-02-20         NaN
2007-02-21         NaN
2007-02-22         NaN
2007-02-23         NaN
2007-02-26         NaN
                ...   
2018-12-20    0.000000
2018-12-21    0.000000
2018-12-24    0.000000
2018-12-27   -6.671526
2018-12-28    0.000000
Name: CLOSE_SPY, Length: 2771, dtype: float64

In [19]:
RSI.name = 'RSI_14'
RSI

Dates
2007-02-20         NaN
2007-02-21         NaN
2007-02-22         NaN
2007-02-23         NaN
2007-02-26         NaN
                ...   
2018-12-20    0.000000
2018-12-21    0.000000
2018-12-24    0.000000
2018-12-27   -6.671526
2018-12-28    0.000000
Name: RSI_14, Length: 2771, dtype: float64

In [20]:
data = data.join(RSI)
data

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2007-02-20,146.04,145.56,146.200,144.0,56909500.0,65.31,83.51,2.3263,0.31,48.67,25.07,10.24,40.055,,,
2007-02-21,145.98,145.61,146.070,145.0,63971500.0,67.28,82.90,2.3653,0.32,49.86,25.12,10.20,39.975,,,
2007-02-22,145.87,146.05,146.420,145.0,79067398.0,67.15,82.46,2.3871,0.31,50.33,25.12,10.18,40.220,,,
2007-02-23,145.30,145.74,145.790,145.0,71962797.0,67.72,82.78,2.3809,0.31,50.46,25.04,10.58,40.035,,,
2007-02-26,145.17,145.83,145.950,145.0,69320062.0,68.10,83.08,2.3795,0.31,50.90,25.04,11.15,39.960,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.87,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.87,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.55,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.00,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778,1.297876e+08,-6.671526


In [21]:
data = data.dropna()
data

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2007-04-27,149.53,149.09,149.740,149.0,106984094.0,67.56,83.7300,2.4474,0.55,51.84,24.54,12.45,41.750,143.551556,1.106696e+08,0.000000
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.5500,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.0000,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778,1.297876e+08,-6.671526


타켓 변수 생성 pct_change 변동률을 구해주는 함수

In [22]:
data.loc[:, 'pct_change'] = data['CLOSE_SPY'].pct_change()
data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[:, 'pct_change'] = data['CLOSE_SPY'].pct_change()


Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14,pct_change
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2007-04-27,149.53,149.09,149.740,149.0,106984094.0,67.56,83.7300,2.4474,0.55,51.84,24.54,12.45,41.750,143.551556,1.106696e+08,0.000000,
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000,-0.008293
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951,0.008429
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603,0.005417
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819,0.003791
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000,-0.016278
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000,-0.026176
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.5500,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000,-0.026423
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.0000,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778,1.297876e+08,-6.671526,0.058590


수익이 났으면 1, 손해가 나면 0

In [23]:
data.loc[:, 'target'] = np.where(data['pct_change'] > 0, 1, 0)
data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[:, 'target'] = np.where(data['pct_change'] > 0, 1, 0)


Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14,pct_change,target
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2007-04-27,149.53,149.09,149.740,149.0,106984094.0,67.56,83.7300,2.4474,0.55,51.84,24.54,12.45,41.750,143.551556,1.106696e+08,0.000000,,0
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000,-0.008293,0
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951,0.008429,1
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603,0.005417,1
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819,0.003791,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000,-0.016278,0
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000,-0.026176,0
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.5500,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000,-0.026423,0
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.0000,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778,1.297876e+08,-6.671526,0.058590,1


- 미래 예측을 위해서 타겟 변수를 shift(-1) 이동.
- 현재 행의 주가 데이터를 다음 행의 주가 데이터로 미리 이동시켜서 오늘 데이터를 기반으로 내일 주가를 예측하는 구조를 만듬

In [24]:
# 다음날 예측을 위한 타켓 변수 shift
data['target'] = data['target'].shift(-1)
data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['target'] = data['target'].shift(-1)


Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14,pct_change,target
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2007-04-27,149.53,149.09,149.740,149.0,106984094.0,67.56,83.7300,2.4474,0.55,51.84,24.54,12.45,41.750,143.551556,1.106696e+08,0.000000,,0.0
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000,-0.008293,1.0
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951,0.008429,1.0
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603,0.005417,1.0
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819,0.003791,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000,-0.016278,0.0
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000,-0.026176,0.0
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.5500,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000,-0.026423,1.0
2018-12-27,248.07,242.57,248.290,239.0,186267297.0,120.57,86.0000,1.7581,0.44,9.62,25.57,29.96,37.900,267.275778,1.297876e+08,-6.671526,0.058590,0.0


In [25]:
data = data.dropna()
data

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14,pct_change,target
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000,-0.008293,1.0
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951,0.008429,1.0
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603,0.005417,1.0
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819,0.003791,0.0
2007-05-08,150.75,150.58,150.920,150.0,80583938.0,67.88,83.3700,2.3913,0.60,48.64,24.73,13.21,42.360,144.029111,1.131357e+08,0.000000,-0.001126,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-19,251.26,255.17,259.400,249.0,214992797.0,117.43,84.8300,1.7824,0.44,10.02,25.97,25.58,37.890,270.407333,1.225288e+08,0.000000,-0.016056,0.0
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000,-0.016278,0.0
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000,-0.026176,0.0
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.5500,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000,-0.026423,1.0


In [26]:
data.columns

Index(['CLOSE_SPY', 'OPEN', 'HIGH', 'LOW', 'VOLUME', 'CLOSE_GLD', 'CLOSE_FXY',
       'CLOSE_T10Y2Y', 'CLOSE_TED', 'CLOSE_USO', 'CLOSE_UUP', 'CLOSE_VIX',
       'CLOSE_VWO', 'MA_45', 'VMA_45', 'RSI_14', 'pct_change', 'target'],
      dtype='object')

In [27]:
X = data.drop(['CLOSE_SPY', 'OPEN', 'HIGH', 'LOW', 'VOLUME','pct_change','target'], axis=1)
y = data['target']

In [28]:
y.value_counts()

target
1.0    1471
0.0    1254
Name: count, dtype: int64

# 시계열 데이터의 홀드아웃
* 시계열 데이터이기 때문에 홀드아웃시 날짜가 섞이면 안됨
* Train_test_split 옵션에서 shuffle 옵션을 반드시 False

### 홀드아웃 
- 모델의 성능을 평가하기 위해 데이터를 훈련(train) 데이터와 테스트(test) 데이터로 나누는 방법
- 일반적인 머신러닝/딥러닝에서는 데이터를 무작위로 나누지만
- 시계열 데이터에서는 시간이 중요한 변수이기 때문에 시간의 흐름을 고려해 데이터를 나눠야 함

In [29]:
from sklearn.model_selection import train_test_split

In [30]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, shuffle=False, random_state=3)

# shuffle=False: 데이터를 섞지 않겠다는 의미
# 시계열 데이터에서는 데이터가 시간에 따라 순서가 있기 때문에 섞지 않고 순서대로 나누는 것이 일반적

In [31]:
from xgboost import XGBClassifier
from sklearn.metrics import classification_report

In [32]:
xgb = XGBClassifier(n_estimator=400, learning_rate=0.1, max_depth=3, random_state=3)
xgb.fit(X_train, y_train)
pred = xgb.predict(X_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

         0.0       0.48      0.58      0.53       384
         1.0       0.54      0.44      0.49       434

    accuracy                           0.51       818
   macro avg       0.51      0.51      0.51       818
weighted avg       0.51      0.51      0.51       818



Parameters: { "n_estimator" } are not used.



## 금융 데이터 분석에서의 부스팅 모델 VS 배깅 모델
* 금융데이터에서는 부스팅 모델보다 배깅 모델을 사용하는 것이 더 안정적임
* 사기 탐지 --> 부스팅 모델 안정적임
* 주가 예측 --> 배깅 모델 안정적임
<br><br>
* 부스팅 모델 : 잘못 분석한 데이터를 다시 분석하기 때문에 과적합 문제가 발생하기 쉬움 <br>
* 이에 반해 배깅 모델은 독립적인 데이터로 독립적인 분류기가 분석하기 때문에 독립성이 높음 <br>
* ☑️ 따라서 과적합의 위험이 상대적으로 적어 배깅모델이 금융데이터에서 더 적합함


부스팅(Boosting) 모델과 배깅(Bagging) 모델은 앙상블 학습(Ensemble Learning) 기법 중 두 가지 중요한 방법론이다. 이들은 모두 여러 약한 학습기(Weak Learner)를 결합하여 더 강력한 예측 모델을 만드는 방식이지만, 데이터 처리 및 모델 생성 방식에서 차이가 난다. 금융 데이터에서 잘 사용한다. 
<br>

☑️ 배깅 모델 (Bagging)
- 대표모델 : 랜덤포레스트 
- 배깅은 여러 모델을 병렬로 학습시키고, 그 결과를 평균 또는 투표 등의 방법으로 결합하여 최종 예측을 만드는 방식이다. 이 과정에서 각 모델은 서로 다른 데이터 샘플을 학습한다. 
- 금융 데이터에서 배깅 사용: 배깅은 금융 시장의 변동성을 예측하거나 리스크 관리와 같이 분산을 줄이는 데 유리하다. 특히 랜덤 포레스트는 금융 데이터의 노이즈에 강하다.

☑️ 부스팅 모델 (Boosting)
- 대표모델 : XGBoost
- 부스팅은 약한 학습기들을 순차적으로 학습시킴. 이전 모델의 오류를 보완하는 방식으로 더 나은 모델을 만드는 방법
- 금융 데이터에서 부스팅 사용: 부스팅 모델은 금융 데이터에서 정밀한 예측이 필요할 때, 예를 들어 주가 예측, 신용 리스크 평가, 파생 상품 가격 책정 등에서 효과적임. 부스팅 모델은 복잡한 데이터 패턴을 잘 학습해서, 금융 데이터의 불규칙한 변동성을 잘 파악할 수 있다

![image.png](attachment:b3bc5157-0a54-4c0b-a507-493d57c6593e.png)

In [33]:
from sklearn.ensemble import RandomForestClassifier

* RandomForest를 쓸 때 - 시계열이면
* bootstrap을 시계열을 할 때 반드시 넣어줘야된다
* 시계열 데이터는 과거의 값이 미래의 값에 영향을 주는 특성을 가지고 있어, 데이터를 무작위로 섞거나 샘플링하면 이 시간적 종속성이 손상될 수 있습니다.

In [34]:
rfc = RandomForestClassifier(n_estimators=1000, max_depth=3, n_jobs=-1, bootstrap=False)
rfc.fit(X_train, y_train)
pred = rfc.predict(X_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

         0.0       0.48      0.36      0.41       384
         1.0       0.54      0.65      0.59       434

    accuracy                           0.52       818
   macro avg       0.51      0.51      0.50       818
weighted avg       0.51      0.52      0.51       818



# 일반화 성능 향상 및 하이퍼파라미터 튜닝

시계열 데이터의 교차검증은 랜덤하게 하면 안되기 때문에 <br>
TimeSeriesSplit 함수를 사용해야함

In [35]:
from sklearn.model_selection import TimeSeriesSplit

In [36]:
ts_splited = TimeSeriesSplit(n_splits=5).split(X_train)

In [37]:
ts_splited

<generator object TimeSeriesSplit._split at 0x0000011F39B90970>

- 하이퍼파라미너 튜닝을 위한 GridSearch분석

In [38]:
from sklearn.model_selection import GridSearchCV

In [39]:
params = dict(bootstrap=[False], n_estimators=range(10, 200, 10), max_depth=[3, 5, 7, 9],
             min_samples_leaf=[2,3,4,5], min_samples_split=[2,4,6,8,10], max_features=[4])

In [40]:
params

{'bootstrap': [False],
 'n_estimators': range(10, 200, 10),
 'max_depth': [3, 5, 7, 9],
 'min_samples_leaf': [2, 3, 4, 5],
 'min_samples_split': [2, 4, 6, 8, 10],
 'max_features': [4]}

In [41]:
grid_cv = GridSearchCV(RandomForestClassifier(), param_grid=params, cv=ts_splited, n_jobs=-1)
grid_cv.fit(X_train, y_train)
print('best_params_', grid_cv.best_params_)
print('best_score_', grid_cv.best_score_)

best_params_ {'bootstrap': False, 'max_depth': 3, 'max_features': 4, 'min_samples_leaf': 2, 'min_samples_split': 10, 'n_estimators': 10}
best_score_ 0.5514195583596214


# 상승 하강 판단 기준 변경 후 재분석

In [42]:
data['pct_change'].describe()

count    2725.000000
mean        0.000271
std         0.013029
min        -0.098448
25%        -0.004321
50%         0.000545
75%         0.005791
max         0.128249
Name: pct_change, dtype: float64

In [43]:
data2 = data.copy()

In [44]:
data2

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14,pct_change,target
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000,-0.008293,1.0
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951,0.008429,1.0
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603,0.005417,1.0
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819,0.003791,0.0
2007-05-08,150.75,150.58,150.920,150.0,80583938.0,67.88,83.3700,2.3913,0.60,48.64,24.73,13.21,42.360,144.029111,1.131357e+08,0.000000,-0.001126,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-19,251.26,255.17,259.400,249.0,214992797.0,117.43,84.8300,1.7824,0.44,10.02,25.97,25.58,37.890,270.407333,1.225288e+08,0.000000,-0.016056,0.0
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000,-0.016278,0.0
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000,-0.026176,0.0
2018-12-24,234.34,239.04,240.836,234.0,147311594.0,120.02,86.5500,1.7505,0.40,9.29,25.55,36.07,37.320,267.995333,1.281067e+08,0.000000,-0.026423,1.0


In [48]:
data2['target'] = np.where(data['pct_change'] > 0.0005, 1, -1)
data2['target'].value_counts()

target
 1    1375
-1    1350
Name: count, dtype: int64

In [49]:
data2['target'] = data2['target'].shift(-1)
data2 = data2.dropna()

In [50]:
data2

Unnamed: 0_level_0,CLOSE_SPY,OPEN,HIGH,LOW,VOLUME,CLOSE_GLD,CLOSE_FXY,CLOSE_T10Y2Y,CLOSE_TED,CLOSE_USO,CLOSE_UUP,CLOSE_VIX,CLOSE_VWO,MA_45,VMA_45,RSI_14,pct_change,target
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2007-04-30,148.29,149.64,149.740,148.0,100874203.0,67.09,83.7166,2.4361,0.57,51.24,24.49,14.22,40.935,143.601556,1.116466e+08,0.000000,-0.008293,1.0
2007-05-02,149.54,148.90,149.950,149.0,87129805.0,66.66,83.3800,2.4366,0.59,49.59,24.66,13.08,42.020,143.680667,1.121613e+08,-3.138951,0.008429,1.0
2007-05-03,150.35,149.97,150.400,149.0,87204945.0,67.49,83.1100,2.4346,0.60,49.28,24.69,13.09,42.435,143.780222,1.123421e+08,-2.046603,0.005417,1.0
2007-05-04,150.92,150.75,151.120,150.0,96408930.0,68.19,83.2300,2.4006,0.60,48.30,24.60,12.91,42.595,143.905111,1.128853e+08,-1.487819,0.003791,-1.0
2007-05-08,150.75,150.58,150.920,150.0,80583938.0,67.88,83.3700,2.3913,0.60,48.64,24.73,13.21,42.360,144.029111,1.131357e+08,0.000000,-0.001126,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-17,255.36,259.40,260.650,254.0,165492297.0,117.87,84.7300,1.8149,0.44,10.45,25.97,24.52,38.290,270.872000,1.238587e+08,0.000000,-0.019618,-1.0
2018-12-19,251.26,255.17,259.400,249.0,214992797.0,117.43,84.8300,1.7824,0.44,10.02,25.97,25.58,37.890,270.407333,1.225288e+08,0.000000,-0.016056,-1.0
2018-12-20,247.17,249.86,251.620,245.0,252053406.0,119.24,85.8700,1.7807,0.48,9.72,25.77,28.38,38.180,269.767778,1.240592e+08,0.000000,-0.016278,-1.0
2018-12-21,240.70,246.74,249.710,240.0,255345594.0,118.72,85.8700,1.7651,0.48,9.57,25.94,30.11,37.870,269.018889,1.274610e+08,0.000000,-0.026176,-1.0


In [51]:
X2 = data.drop(['CLOSE_SPY', 'OPEN', 'HIGH', 'LOW', 'VOLUME','pct_change','target'], axis=1)
y2 = data['target']

In [52]:
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size = 0.3, shuffle=False, random_state=3)

# shuffle=False: 데이터를 섞지 않겠다는 의미
# 시계열 데이터에서는 데이터가 시간에 따라 순서가 있기 때문에 섞지 않고 순서대로 나누는 것이 일반적

In [54]:
from sklearn.model_selection import TimeSeriesSplit

In [55]:
ts_splited2 = TimeSeriesSplit(n_splits=5).split(X2_train)

In [56]:
ts_splited2

<generator object TimeSeriesSplit._split at 0x0000011F3A3CB920>

- 하이퍼파라미너 튜닝을 위한 GridSearch분석

In [57]:
from sklearn.model_selection import GridSearchCV

In [58]:
params = dict(bootstrap=[False], n_estimators=range(10, 200, 10), max_depth=[3, 5, 7, 9],
             min_samples_leaf=[2,3,4,5], min_samples_split=[2,4,6,8,10], max_features=[4], random_state=[10])

In [59]:
params

{'bootstrap': [False],
 'n_estimators': range(10, 200, 10),
 'max_depth': [3, 5, 7, 9],
 'min_samples_leaf': [2, 3, 4, 5],
 'min_samples_split': [2, 4, 6, 8, 10],
 'max_features': [4],
 'random_state': [10]}

In [61]:
grid_cv = GridSearchCV(RandomForestClassifier(), param_grid=params, cv=ts_splited2, n_jobs=-1)
grid_cv.fit(X2_train, y2_train)
print('best_params_', grid_cv.best_params_)
print('best_score_', grid_cv.best_score_)

best_params_ {'bootstrap': False, 'max_depth': 3, 'max_features': 4, 'min_samples_leaf': 2, 'min_samples_split': 8, 'n_estimators': 10, 'random_state': 10}
best_score_ 0.5488958990536278


In [62]:
rfc = RandomForestClassifier(bootstrap=False, max_depth= 3, max_features= 4, min_samples_leaf=2, min_samples_split= 8, n_estimators=10, random_state=10)
rfc.fit(X2_train, y2_train)
pred = rfc.predict(X2_test)
print(classification_report(y2_test, pred))

              precision    recall  f1-score   support

         0.0       0.47      0.61      0.53       384
         1.0       0.53      0.39      0.45       434

    accuracy                           0.50       818
   macro avg       0.50      0.50      0.49       818
weighted avg       0.51      0.50      0.49       818



1. ETF 상승 및 하락 예측 프로젝트 확장
다양한 모델 비교: 현재 사용하는 모델 외에 다른 머신러닝 모델(예: XGBoost, LightGBM, LSTM 등)을 추가하여 성능을 비교하는 프로젝트를 진행할 수 있습니다.
특성 중요도 분석: 어떤 특성이 ETF 가격 예측에 가장 중요한 역할을 하는지 분석하고, 이를 기반으로 더 나은 피처 엔지니어링을 할 수 있습니다.
시계열 데이터 활용: LSTM, GRU 등 시계열 데이터를 잘 처리하는 딥러닝 모델을 적용해 보세요. 시계열 데이터를 학습하여 미래의 ETF 상승 및 하락을 더 정확하게 예측하는 것을 목표로 할 수 있습니다.
<br>
3. 다양한 투자 전략 테스트
Backtesting: 머신러닝으로 예측한 결과를 바탕으로 투자 전략을 구현하고 백테스팅(Backtesting)을 통해 과거 데이터에서 해당 전략이 얼마나 성과가 좋았는지 평가할 수 있습니다.
리스크 관리 전략: 예측 결과와 더불어 투자 위험을 줄이기 위한 전략(예: 손절매, 분산 투자)을 추가하고 그 효과를 분석할 수 있습니다.
<br><br>
4. 강화학습을 활용한 투자 전략
강화학습 알고리즘을 이용하여 투자 전략을 학습하는 프로젝트를 진행할 수 있습니다. 예를 들어, 에이전트가 ETF의 상승 및 하락 예측을 통해 최적의 매매 타이밍을 결정하는 방식으로 시스템을 설계할 수 있습니다.
<br><br>
5. Sentiment Analysis를 추가한 예측
ETF와 관련된 뉴스, 트위터 등 소셜 미디어의 감성 분석(Sentiment Analysis)을 추가하여 ETF 상승 및 하락을 예측하는 모델에 감성 분석 결과를 반영할 수 있습니다. 뉴스와 시장 감정이 ETF 가격에 미치는 영향을 분석하는 연구도 가능합니다.
<br><br>
6. 포트폴리오 최적화
ETF 예측 모델을 통해 다양한 ETF에 분산 투자하는 포트폴리오를 구성하고, 마코위츠 포트폴리오 이론을 기반으로 리스크 대비 수익을 최적화하는 프로젝트를 진행할 수 있습니다.
<br><br>
이 중 어느 방향이든, 현재 진행 중인 프로젝트를 기반으로 다양한 확장과 심화된 분석이 가능할 것 같습니다. 어떤 방향으로 진행하고 싶은지 더 구체적으로 알려주시면 추가적으로 도와드릴 수 있습니다!