# LSTM(Long Short Term Memory) 가격 예측

시계열(time-series) 데이터에 적용하기에 알맞는 RNN(Recurrent Neural Network)의 한 종류인 LSTM(Long Short Term Memory) 모델을 사용하여 자산의 가격을 예측합니다.

딥러닝 모델인 LSTM을 활용하기 때문에 기존에 사용했었던 파이썬 라이브러리들에 추가로 tensorflow라는 딥러닝 라이브러리와 keras라는 tensorflow의 래핑 라이브러리를 사용합니다.


In [None]:
# import libraries
import matplotlib.pyplot as plt
import statsmodels.tsa.seasonal as smt
import numpy as np 
import pandas as pd
import random # 무작위 숫자를 생성하는 라이브러리
import datetime as dt
from sklearn import linear_model
from sklearn.metrics import mean_absolute_error
#import plotly

# tensorflow의 래핑 라이브러리인 keras에서 본 튜토리얼에 사용할 기능들
from keras.models import Sequential
from keras.layers import Activation, Dense
from keras.layers import LSTM
from keras.layers import Dropout

# 1. 데이터 불러오기

In [None]:
# csv file path 설정
ktb_path = "./csv/ktb.csv"
lktb_path = "./csv/lktb.csv"
k200_path = "./csv/k200.csv"
usdkrw_path = "./csv/usdkrw.csv"

# csv파일을 dataframe형태로 가져오기
#df = pd.read_csv(k200_path, index_col=0, parse_dates=['date'])
df = pd.read_csv(k200_path)
df

입력받은 데이터를 학습 데이터와 시험 데이터로 나누는 과정입니다.

특정 시각을 선택하고 그 시각 이전의 데이터는 학습 데이터로, 그 시각 이후의 데이터는 시험 데이터로 활용하는 방법으로 학습 데이터와 시험 데이터를 분리합니다.

In [None]:
window_len = 10

# 학습 데이터와 시험 데이터를 나누는 기준일 설정
split_date = list(df["date"][-(2*window_len+1):])[0]

# 앞에서 설정된 기준일을 기점으로 학습 데이터와 시험 데이터 분리
training_set, test_set = df[df['date'] < split_date], df[df['date'] >= split_date]
training_set = training_set.drop(['date','dividend', 'split'], 1)
test_set = test_set.drop(['date','dividend','split'], 1)

In [None]:
split_date

In [None]:
print(training_set[:3])

print(test_set)

In [None]:
# 학습 데이터 윈도우 생성
LSTM_training_inputs = []
for i in range(len(training_set)-window_len):
    temp_set = training_set[i:(i+window_len)].copy()
    
    for col in list(temp_set):
        temp_set[col] = temp_set[col]/temp_set[col].iloc[0] - 1
    
    LSTM_training_inputs.append(temp_set)
LSTM_training_outputs = (training_set['close'][window_len:].values/training_set['close'][:-window_len].values)-1

LSTM_training_inputs = [np.array(LSTM_training_input) for LSTM_training_input in LSTM_training_inputs]
LSTM_training_inputs = np.array(LSTM_training_inputs)

# 시험 데이터 윈도우 생성
LSTM_test_inputs = []
for i in range(len(test_set)-window_len):
    temp_set = test_set[i:(i+window_len)].copy()
    
    for col in list(temp_set):
        temp_set[col] = temp_set[col]/temp_set[col].iloc[0] - 1
    
    LSTM_test_inputs.append(temp_set)
LSTM_test_outputs = (test_set['close'][window_len:].values/test_set['close'][:-window_len].values)-1

LSTM_test_inputs = [np.array(LSTM_test_inputs) for LSTM_test_inputs in LSTM_test_inputs]
LSTM_test_inputs = np.array(LSTM_test_inputs)

In [None]:
test_set['close'][window_len:].values

In [None]:
test_set['close'][:-window_len].values

In [None]:
LSTM_training_inputs
#LSTM_test_outputs

In [None]:
LSTM_training_inputs_one = []

for i in range(0, len(LSTM_training_inputs)):
    LSTM_training_inputs_one.append(LSTM_training_inputs[i][:,3])

LSTM_test_inputs_one = []

for i in range(0, len(LSTM_test_inputs)):
  
  LSTM_test_inputs_one.append(LSTM_test_inputs[i][:,3])

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(LSTM_training_inputs_one, LSTM_training_outputs)


from sklearn.metrics import mean_squared_error



predictions = lin_reg.predict(LSTM_test_inputs_one)
MAE = mean_absolute_error(LSTM_test_outputs, predictions)
print(MAE)

In [None]:
plt.plot(LSTM_test_outputs, label = "actual")
plt.plot(predictions, label = "predicted")
plt.legend()
plt.show()
MAE = mean_absolute_error(LSTM_test_outputs, predictions)
print('The Mean Absolute Error is : {}'.format(MAE))

In [None]:
from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor(n_estimators=50)
forest_reg.fit(LSTM_training_inputs_one, LSTM_training_outputs)

predictions = forest_reg.predict(LSTM_test_inputs_one)
forest_mae = mean_absolute_error(LSTM_test_outputs, predictions)
forest_mae

In [None]:
plt.plot(LSTM_test_outputs, label = "actual")
plt.plot(predictions, label = "predicted")
plt.legend()
plt.show()
MAE = mean_absolute_error(LSTM_test_outputs, predictions)
print('The Mean Absolute Error is : {}'.format(MAE))

# 2. LSTM 모델 정의

In [None]:
def build_model(inputs, output_size, neurons, activ_func="linear",
                dropout=0.10, loss="mae", optimizer="adam"):
    
    model = Sequential()
    model.add(LSTM(neurons, input_shape=(inputs.shape[1], inputs.shape[2])))
    model.add(Dropout(dropout))
    model.add(Dense(units=output_size))
    model.add(Activation(activ_func))

    model.compile(loss=loss, optimizer=optimizer)
    return model

# 3. LSTM 모델 학습

다음은 LSTM 모델을 학습하는 단계입니다.

코드 실행 후 매 Epoch 마다 모델의 loss가 줄어드는 것이 확인되면 모델이 데이터를 성공적으로 학습하고 있는 것입니다.

In [None]:
nn_model = build_model(LSTM_training_inputs, output_size=1, neurons = 32)



nn_history = nn_model.fit(LSTM_training_inputs, LSTM_training_outputs, 
                            epochs=5, batch_size=1, verbose=2, shuffle=True)

# 4. LSTM 모델 평가

만들어진 모델을 평가합니다.

평가 기준은 MAE(Mean Absolute Error)로 매 회 오차 절대값들의 평균입니다.

우선 10개의 데이터를 사용해서 바로 다음 1단계를 예측하는 성능을 평가합니다.

In [None]:
plt.plot(LSTM_test_outputs, label = "actual")
plt.plot(nn_model.predict(LSTM_test_inputs), label = "predicted")
plt.legend()
plt.show()
MAE = mean_absolute_error(LSTM_test_outputs, nn_model.predict(LSTM_test_inputs))
print('The Mean Absolute Error is: {}'.format(MAE))

다음은 같은 모델을 사용해서 10단계 앞의 주가를 얼마나 정확하게 예측 가능한지 확인합니다.

In [None]:
def predict_sequence_full(model, data, window_size):
    curr_frame = data[0]
    predicted = []
    for i in range(len(data)):
        predicted.append(model.predict(curr_frame[np.newaxis,:,:])[0,0])
        curr_frame = curr_frame[1:]
        curr_frame = np.insert(curr_frame, [window_size-1], predicted[-1], axis=0)
    return predicted

predictions = predict_sequence_full(nn_model, LSTM_test_inputs, 10)

plt.plot(LSTM_test_outputs, label="actual")
plt.plot(predictions, label="predicted")
plt.legend()
plt.show()
MAE = mean_absolute_error(LSTM_test_outputs, predictions)
print('The Mean Absolute Error is: {}'.format(MAE))

오차가 상당히 크게 발생하는 것을 알 수 있습니다.

LSTM 모델의 옵션들과 학습 Epoch 수 등을 변화시켜가며 성능이 어떻게 달라지는지 확인해봅니다.