# LSTM을 사용한 가상화폐 등락 예측

소프트웨어융합학과 2018110657 구태형

## 프로젝트 소개

가상화폐 거래소 "빗썸"에서 제공하는 pybithumb api를 사용해서 거래량이 많은 가상화폐인 ["비트 코인", "리플", "이더리움"]의 약 5년 동안의 거래량을 사용해 이후에 가격의 변화를 확인할 수 있을지 예측해봤습니다.
<br>
<br>
<b>사용한 데이터들은 같이 첨부하겠습니다.<b>

- 사용 라이브러리
    - numpy: 데이터 전처리
    - pandas: 데이터 전처리 및 저장
    - matplotlib: 데이터 시각화
    - sklearn: 데이터 전처리 및 정규화
    - keras: 모델 구축
- 데이터 종류: ['bit coin', 'repl', 'etherium']
- 데이터 기간: 2017.05.31 ~ 2022.12.01
- 데이터 수집 간격: 12시간

## 1. 데이터 획득
get_data.ipynb

In [6]:
import pybithumb

ticker = 'BTC'
pybithumb.get_ohlcv(ticker, interval='hour12').head()

Unnamed: 0_level_0,open,high,low,close,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-01-30 00:00:00,464000.0,471000.0,462000.0,468000.0,1002.498776
2016-01-30 12:00:00,468000.0,470000.0,464000.0,468000.0,1225.840363
2016-01-31 00:00:00,467000.0,471000.0,466000.0,469000.0,1042.028739
2016-01-31 12:00:00,469000.0,470000.0,466000.0,469000.0,1748.901636
2016-02-01 00:00:00,469000.0,470000.0,458000.0,464000.0,1779.978578


- 외부 라이브러리인 pybithumb를 import하여 데이터를 획득하였습니다.<br>
- 데이터는 ["시가", "최고가", "최저가", "종가", "거래량"]으로 이루어졌습니다.<br>
- 주식 거래와 다르게 가상화폐 거래는 24내내 거래가 이루어지기 때문에 하루를 기준으로 하면 전날 종가와 당일 시가가 동일해지기 때문에 12시간 간격의 데이터를 사용했습니다. <br>

프로젝트에서는 비트코인, 리플, 이더리움, 3개의 종목을 사용했습니다. 각각의 데이터가 저장된 기간이 다르기 때문에 일괄적인 처리를 위해 가장 적은 양의 데이터를 가진 리플에 맞게 각각의 데이터들의 행의 개수를 줄여주었습니다.

해당 기간의 데이터만 앞으로 사용할 것이기 때문에 데이터를 저장해주었습니다.<br>
별도의 크롤링을 하지 않고 거래소에서 제공하는 데이터를 사용하였기 때문에 별도의 전처리는 수행하지 않았습니다.

## 2. 초기 데이터 확인

![image.png](attachment:image.png)

별도의 전처리없이 LSTM 모델을 돌려 확인한 결과 2가지 문제점이 있었습니다.<br>

### 문제점1. Lagging

![image.png](attachment:image.png)

모델이 가장 적은 오차를 보이며 학습하는 방식이 이전 데이터를 그대로 예측값으로 사용하는 방식으로 학습하는 방식이 되어버렸습니다.<br>
이렇게 학습한 것을 Lagging 되었다고 하는데 이러면 유의미한 예측값을 얻었다고 판단하기 어려웠습니다.

### 문제점2. 코로나 이후의 큰 폭의 변화율

![image.png](attachment:image.png)

코로나와 더불어 주가의 폭이 엄청나게 큰 폭으로 상승하게 되어 이전 데이터를 이용해 학습한 모델이 이후의 예측값을 정상적으로 예측할 수 없는 문제가 있었습니다.

## 3. 문제점 해결

### 1. Lagging 해결을 위한 방법

#### 1) 입력값에 임의 noise를 추가하는 방식
sklearn의 autoencoder를 처리해서 입력이 독립변수들에 임의의 noise를 추가하는 방식, 하지만 결과에 차이가 크지 않았고 실제 입력값이 되는 독립변수에 noise를 추가하는 방식이라 배제하였습니다.

#### 2) MA와 EMA를 평가지표로 사용
결과에 종가값의 평균인 MA와 EMA를 기술지표로 사용하여 독립변수로 사용하는 방법<br>
EMA는 이상치에 강하다는 장점이 있고 noise를 주는 방법으로 사용할 수 있지만 결과는 기존과 크게 차이나지 않았습니다.

#### 3) 여러 평가지표를 독립변수로 사용
관련 reference를 찾아보던 중 다수의 평가지표를 사용하면 결과가 올라갈 수 있다하여 여러 평가지표들을 독립변수로 모델을 학습시켰습니다. 세 방법 중 가장 값의 변화가 커 여러 평가지표를 사용해 모델을 학습하는 방향으로 모델 학습을 진행하였습니다.

### 2. 갑작스러운 큰 변화폭 해결을 위한 방법

##### <log scale을 적용하기 전 종가의 변동추이>

![image.png](attachment:image.png)

##### <log scale을 적용한 후 종가의 변동추이>

![image.png](attachment:image.png)

log scale은 값에 log를 취해 기존의 값을 바꿔주는 방식입니다.<br>
log scale을 적용하면 상대적인 수익률을 고려하기 좋기 때문에 코로나 이후의 갑작스러운 변화를 수치적으로 비교하기 좋다는 장점이 있습니다.<br>
log 값을 취해주는 것이 핵심이기 때문에 log의 밑은 크게 상관 없습니다. 프로젝트에서는 자연상수를 밑으로 하여 log scale 변환을 해주었습니다.

## 3. 기술 지표 생성
Indicator.ipynb 파일 참고

1. NVI
2. PVI
3. MA (5, 10, 20, 60)
4. RSI
5. VPT
6. OBV
7. STD (5, 10, 20, 60)
8. MFI
9. EMA (5, 10, 20, 60)
10. FI
11. BB

위 11개 지표들을 클래스를 이용해 직접 구현하였으며, MA와 std, EMA의 경우 기간을 5, 10, 20, 60 4개로 나누어 구현하였습니다.

In [None]:
class Indicator(object):
    def __init__(self,
                 data: List[pd.DataFrame],
                 res: List[pd.DataFrame]):
        self.data = data
        self.res = res
    
    def set_log_scale(self) -> None:
        '''
            transform close price to log scale close price
        '''
        for i in range(3):
            self.res[i].loc[:, 'close_log'] = np.log(self.data[i]['close'])
    
    def set_nvi(self) -> None:
        '''
            add nvi(negative volume index) to dataframe
        '''
        def nvi(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            nvi = [0] * len(coin)
            nvi[0] = 1
            close = coin['close'].copy()
            volume = coin['volume'].copy()
            
            for i in range(1, len(coin)):
                if volume[i] < volume[i-1]:
                    nvi[i] = nvi[i-1] + (close[i] - close[i-1]) * \
                            nvi[i-1] / close[i-1]
                else:
                    nvi[i] = nvi[i-1]
            res.loc[:, 'nvi'] = nvi
            return res
        
        for i in range(3):
            self.res[i] = nvi(self.res[i], self.data[i])
            
    def set_pvi(self) -> None:
        '''
            add pvi(positive volume index) to dataframe
        '''
        def pvi(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            pvi = [0] * len(coin)
            pvi[0] = 100
            volume = coin['volume']
            close = coin['close']
            
            for i in range(1, len(coin)):
                if volume[i] > volume[i-1]:
                    pvi[i] = pvi[i-1] + (close[i] - close[i-1] / \
                                close[i-1] * pvi[i-1])
                else:
                    pvi[i] = pvi[i-1]
            res.loc[:, 'pvi'] = pvi
            return res
        
        for i in range(3):
            self.res[i] = pvi(self.res[i], self.data[i]) 
    
    def set_ma(self) -> None:
        '''
            add ma(moving average) to dataframe
            It returns ma for 5, 10, 20, 60 intervals
            data's interval is 12hours
            '''
        def ma(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            days = [5, 10, 20, 60]
            close = coin['close']
            ma = pd.DataFrame()

            for day in days:
                ma.loc[:, 'ma_' + str(day)] = close.rolling(day).mean()
            res = pd.concat([res, ma], axis=1)
            
            return res
        
        for i in range(3):
            self.res[i] = ma(self.res[i], self.data[i])
        
    def set_rsi(self, period: int=14) -> None:
        '''
            add rsi(relative strength index) to dataframe
        '''
        def rsi(res: pd.DataFrame, coin: pd.DataFrame, period: int) -> pd.DataFrame:
            close = coin['close']
            
            U = np.where(close.diff(1) > 0, close.diff(1), 0)
            D = np.where(close.diff(1) < 0, close.diff(1) * (-1), 0)

            AU = pd.DataFrame(U).rolling(window=period, min_periods=period).mean()
            AD = pd.DataFrame(D).rolling(window=period, min_periods=period).mean()

            rsi = AU.div(AD+AU) * 100

            res.loc[:, 'rsi'] = rsi[0]
            
            return res
        
        for i in range(3):
            self.res[i] = rsi(self.res[i], self.data[i], period)
    
    def set_vpt(self) -> None:
        '''
            add vpt(volume price trend) to dataframe
        '''
        def vpt(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            vpt_list = [0] * len(coin)
            vpt_list[-1] = 2402.1359 # 최신 날짜 기준의 vpt
            volume = coin['volume']
            close = coin['close']

            for i in range(len(vpt_list) - 1, 0, -1):
                vpt_list[i-1] = vpt_list[i] - volume.iloc[i] * \
                                (close.iloc[i] - close.iloc[i-1]) / \
                                close.iloc[i-1]
            res.loc[:, 'vpt'] = vpt_list
            
            return res
            
        for i in range(3):
            self.res[i] = vpt(self.res[i], self.data[i])
            
    def set_obv(self) -> None:
        '''
            add obv(on-balance volume) to dataframe
        '''
        def obv(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            obv_list = [0] * len(coin)
            obv_list[0] = 68734.4525
            coin.loc[0, 'obv'] = 68734.4525
            volume = coin['volume']
            close = coin['close']
            
            for i in range(1, len(coin)):
                if close.iloc[i] > close.iloc[i-1]:
                    obv_list[i] = obv_list[i-1] + volume.iloc[i]
                elif close.iloc[i] == close.iloc[i-1]:
                    obv_list[i] = obv_list[i-1]
                else:
                    obv_list[i] = obv_list[i-1] - volume.iloc[i]
            res.loc[:, 'obv'] = obv_list
            
            return res
        
        for i in range(3):
            self.res[i] = obv(self.res[i], self.data[i])
            
    def set_std(self) -> None:
        '''
            add standard deviation to dataframe
            It returns std for 5, 10, 20, 60 intervals
            data's interval is 12hours
        '''
        def std(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            days = [5, 10, 20, 60]
            close = coin['close']
            deviation = pd.DataFrame()

            for day in days:
                deviation.loc[:, 'std_' + str(day)] = coin['close'].rolling(day).mean()


            res = pd.concat([res, deviation], axis=1)
            
            return res
        
        for i in range(3):
            self.res[i] = std(self.res[i], self.data[i])
        
    def set_mfi(self, period: int=14) -> None:
        '''
            set mfi(money flow index) to dataframe
            can set periods
        '''
        def mfi(res: pd.DataFrame, coin: pd.DataFrame,
               period: int) -> pd.DataFrame:
            close = coin['close']
            high = coin['high']
            low = coin['low']
            volume = coin['volume']
            
            typical_price = (close + high + low) / 3
            money_flow = typical_price * volume
            positive_flow = []
            negative_flow = []
            
            for i in range(1, len(typical_price)):
                if typical_price[i] > typical_price[i-1]:
                    positive_flow.append(money_flow[i-1])
                    negative_flow.append(0)
                elif typical_price[i] < typical_price[i-1]:
                    positive_flow.append(0)
                    negative_flow.append(money_flow[i-1])
                else:
                    positive_flow.append(0)
                    negative_flow.append(0)
            
            positive_mf = []
            negative_mf = []
            
            for i in range(period-1, len(positive_flow)):
                positive_mf.append(sum(positive_flow[i+1-period:i+1]))
            
            for i in range(period-1, len(negative_flow)):
                negative_mf.append(sum(negative_flow[i+1-period:i+1]))
                
            mfi = 100 * (np.array(positive_mf) / \
                        (np.array(positive_mf) + np.array(negative_mf)))
            res.loc[:, 'mfi'] = np.r_['0, 1', np.full(period, np.nan), mfi]
            
            return res
        
        for i in range(3):
            self.res[i] = mfi(self.res[i], self.data[i], period)
            
    def set_ema(self) -> None:
        '''
            set ema(exponential moving average) to dataframe
            It returns ema for 5, 10, 20, 60 intervals
            data's interval is 12hours
        '''
        def ema(res: pd.DataFrame, coin: pd.DataFrame) -> pd.DataFrame:
            days = [5, 10, 20, 60]
            close = coin['close']
            
            for day in days:
                ema = close.ewm(span=day, adjust=False).mean()
                res.loc[:, 'ema_' + str(day)] = ema
            return res
        
        for i in range(3):
            self.res[i] = ema(self.res[i], self.data[i])
            
    def set_fi(self, period: int=14) -> None:
        '''
            set fi(force index) to dataframe
        '''
        def fi(res: pd.DataFrame, coin: pd.DataFrame,
              period: int) -> pd.DataFrame:
            close = coin['close']
            volume = coin['volume']
            
            fi = pd.Series(close.diff(period) * volume, name='fi')
            res.loc[:, 'fi'] = fi
            
            return res
        
        for i in range(3):
            self.res[i] = fi(self.res[i], self.data[i], period)
            
    def set_bb(self, period: int=20, k: int=2) -> None:
        '''
            set bb(bollinger band) to dataframe
        '''
        def bb(res: pd.DataFrame, coin: pd.DataFrame,
              period: int, k: int) -> pd.DataFrame:
            x = coin['close']
            mbb = x.rolling(period).mean()
            ubb = mbb + k * x.rolling(period).std()
            lbb = mbb - k * x.rolling(period).std()
            
            bollinger_band= pd.DataFrame()
            bollinger_band['ubb'] = ubb
            bollinger_band['mbb'] = mbb
            bollinger_band['lbb'] = lbb
            
            res = pd.concat([res, bollinger_band], axis=1)
            
            return res
        
        for i in range(3):
            self.res[i] = bb(self.res[i], self.data[i], period, k)
            
    def set_indicators(self) -> None:
        self.set_log_scale()
        self.set_nvi()
        self.set_pvi()
        self.set_ma()
        self.set_rsi()
        self.set_vpt()
        self.set_obv()
        self.set_std()
        self.set_mfi()
        self.set_ema()
        self.set_fi()
        self.set_bb()
            
    def get_res(self) -> List[pd.DataFrame]:
        '''
            return Indicator(object)'s result
        '''
        for i in range(3):
            self.res[i].dropna(inplace=True)
            self.res[i].reset_index(drop=True, inplace=True)
        return self.res

class가 되는 Indicator는 get_data.ipynb에서 생성한 데이터들을 리스트로 만든 데이터와 결과가 되는 리스트를 입력받아 지표들을 포함하고 있는 결과값으로 만들어줍니다.
<br>
<br>
set_indicators를 사용하면 입력값으로 받은 res에 모든 입력값들을 저장할 수 있으며 get_res를 통해 기술지표들을 포함하고 있는 결과를 반환받을 수 있습니다.

기술지표들은 위키피디아를 참조해 구현하였으며, 초기값을 모르는 경우 거래소에서 가장 최근 데이터를 사용해 이전 값을 역으로 계산하는 방식을 사용하였습니다.

![image.png](attachment:image.png)

<기술지표를 추가하기 전 res 리스트의 첫번째 원소값 (bit coin에 대한 결과값)>

![image.png](attachment:image.png)

<기술지표를 추가한 후 res 리스트의 첫번째 원소값 (bit coin에 대한 결과값> <br>
위 그림은 결과의 일부로 실제 계산한 값들은 더 많은 column들을 포함하고 있습니다.

각 결과들을 별도의 {coin_name}_indicator.csv 파일로 만들어 파일로 저장하였습니다.

## 4. 모델 학습

모델은 LSTM을 이용한 딥러닝 모델을 만들었습니다. <br>
세 가상화폐를 사용했습니다. 비트코인의 경우 21가지 모델에 대해 실험을 하였고, <br>
나머지 두 가상화폐의 경우 9가지 모델에 대해 실험을 하였습니다. <br>
비트코인에서 총 21가지 모델에 대해 결과가 좋았던 9개 모델에 대해서만 다른 가상화폐에 적용하였습니다.<br>
<br>
<br>
가상화폐나 주식 데이터의 경우 음수값을 갖지 않고 양수값만 갖기 때문에, 값이 너무 커질 수 있는 문제가 있습니다.<br>
그렇기 때문에 tanh를 활성화함수로 사용하였습니다. <br>
LSTM 모델의 경우 과거 모든 데이터를 Layer가 저장하고 있는 모든 데이터를 사용하는 것보다는 일부 데이터를 사용하는 것이 결과가 더 좋게 나왔습니다.<br>
Dropout을 사용해 일정 데이터만을 사용하는 방식을 사용했고, Dropout은 [0.4, 0.8]을 사용했습니다.<br>
LSTM의 노드는 각 Layer마다 100, 60, 50, 40 등의 값을 바꿔가며 실험했습니다.
<br>
<br>
Dropout의 비율이 크기 때문에 결과값의 편차가 있어 실험은 각각 5번씩 진행하였고 이에 대한 평균값을 사용했습니다.<br>
전체 결과에 대해 확인하려면 같이 첨부된 파일을 통해 확인할 수 있습니다.

사용한 입력변수는 앞에서 생성한 기술지표와 기존에 있던 거래량 데이터를 포함하여 총 24개를 사용하였습니다.

- close log : 종가에 log 연산을 취한 값
- nvi : negative volume index
- pvi : positive volume index
- ma_5 : moving average with 5 intervals
- ma_10 : moving average with 10 intervals
- ma_20 : moving average with 20 intervals
- ma_60 : moving average with 60 intervals
- rsi : relative strength index
- vpt : volume price trend
- obv : on-balance volume
- std_5 : standard deviation with 5 intervals
- std_10 : standard deviation with 10 intervals
- std_20 : standard deviation with 20 intervals
- std_60 : standard deviation with 60 intervals
- mfi : money flow index
- ema_5 : exponential moving average with 5 intervals
- ema_10 : exponential moving average with 10 intervals
- ema_20 : exponential moving average with 20 intervals
- ema_60 : exponential moving average with 60 intervals
- fi : force index
- ubb : upper bollinger band
- mbb : middle bollinger band
- lbb : lower bollinger band
- volume : 거래량

## 5. 모델 학습 결과 확인

rmse는 주가예측이나 가상화폐 예측에서 사용하기 좋은 평가지표가 아닙니다.<br>
rmse를 사용하면 예측값과 실제값 사이의 오차가 최소가 되도록 최적화를 해주어야 하는데,<br>
이렇게 되면 처음에 본 것처럼 모델이 Lagging이 되도록 학습을 하게 됩니다.<br>
그렇기 때문에 기존에 있던 평가지표를 사용하지 않고 임의의 평가지표를 만들어 모델을 평가하게 되었습니다.<br>
모델이 학습을 마친 시점에서부터 일정 일 후 값이 상승했는지 하락했는지 분류 문제로 보고 문제를 접근하였습니다.

### 1) Bitcoin

![image.png](attachment:image.png)

다양한 경우에 대해서 모델을 학습시켰는데 layer의 개수가 2일 때 가장 유의미한 결과를 확인할 수 있었습니다.<br>
layer의 개수를 8, 6, 4, 2일 때로 모델을 학습시켰는데 layer가 2일 때 정확도가 가장 컸고 그 이상에서는 유의미한 결과를 보기는 어려웠습니다.<br>
데이터의 개수가 크지 않다보니 오히려 복잡한 모델일수록 모델 용량이 너무 커서 정확한 예측을 하지 못한 것 같습니다.<br>
비슷하게 layer의 노드수가 작을 때 오히려 더 좋은 결과를 얻을 수 있었습니다.<br>
총 5번 반복해서 모델을 학습했는데 Dropout이 커서 그런지 모델별 편차가 커서 5번 반복해서 모델을 학습시키고 평균을 이용해 정확도를 측정하였습니다.<br>
모델별 편차는 있지만 평균을 통해 확인한 결과 Dropout이 크며, layer 수는 적고, 노드수가 적을 때 좋은 결과를 확인할 수 있었습니다.<br>
다른 가상화폐에 대해서도 결과를 확인해보겠습니다.

### 2. repl

![image.png](attachment:image.png)

동일한 모델을 리플에도 적용했는데 오히려 리플은 비트코인에 비해 모델 복잡도가 낮을수록 좋은 결과를 확인하기 어려웠습니다.<br>
repl의 경우는 좀 더 복잡한 모델을 사용해서 데이터를 학습해야할 것 같습니다.

### 3. etherium

![image.png](attachment:image.png)

etherium은 오히려 비트코인보다 더 좋은 결과를 확인할 수 있었습니다.<br>
etherium의 경우 모델의 복잡도를 더 줄인다면 더 좋은 결과를 확인할 수 있을 것 같습니다.

## 정리

하나의 가상화폐를 이용해 모델을 학습한 후 해당 모델을 다른 가상화폐에 적용하면 어떨까도 생각을 했었는데 각 가상화폐에 따라 필요한 모델의 복잡도가 다른 것을 확인할 수 있었고 주가의 예측이 생각보다 어려우며 해결할 문제가 많음을 확인할 수 있었습니다. 정확한 값을 예측하는 회귀 문제로 접근하기보다는 등락의 예측을 확인하는 분류 문제로 푸는게 더 쉬우며, 회귀 문제로 접근하는 경우 lagging 현상을 피하기 어려운 것 같습니다.<br>
프로젝트를 마무리하고 좀 더 모델 최적화를 해보고 싶습니다.<br>
처음에 태블로를 이용해 시각화까지 해보려했는데 결과가 시각화로 나타내기에는 무리가 있었습니다.(단순히 등락을 예측하는 것이기 때문에 결과 그래프의 절대적인 값에는 다소 차이가 있었습니다.)<br>
여러 평가지표를 사용해서 독립변수를 사용하는 방식으로 접근을 했는데 생각 이상으로 결과가 좋게 나왔고 좀 더 최적화를 한다면 더 좋은 결과를 볼 수 있을 것 같아 나쁘지 않은 결과를 확인한 것 같습니다.<br>
<br>
아쉬운 점은 평가지표가 정확한지에 대한 고찰이 좀 더 필요하고 Dropout에 따라 모델의 성능에 차이가 있다는 점입니다. 실제 모델을 사용해 예측을 하거나 투자를 해볼 때는 여러 모델을 돌린 후 마치 threshold처럼 모델들이 일정 점수를 넘으면 해당 모델들만 사용하며 시간이 지남에 따라 모델들에게 가중치를 부여하는 방식(Multi Armed Band)을 적용해보면 어떨까 생각했습니다.<br>
<br>
프로젝트 마무리 후에 실제로 모델을 돌려서 투자를 하는 수준까지 모델 개발을 해볼 예정입니다.