#**금융 머신러닝 처음부터 공부하기**


많은 인터넷 자료를 보면서 도움을 받았습니다.

## 1) CSV파일 다운받기

먼저 주가데이터 등 여러 데이터를 담고있는 CSV를 받도록 하자. CSV는 python의 library를 통해 다운받는 방식과 직접 거래소 홈페이지에 들어가서 다운받는 방식이 있다.

앞서서 나는 pykrx나 Yahoo Finance를 이용할 것이다.
한국 시장은 pykrx(정보가 정확하지 않다면 KRX이용), 미국과 다른 해외 시장은 Yahoo Finance를 이용할 것이다.

###1-1) 데이터 다운 받기(야후 파이낸스)

먼저 증권 데이터와 뉴스를 제공하는 yahoo finance에서 제공하는 library를 다운받는다.

In [None]:
!pip install yfinance

이후 원하는 주식을 다운받는다. 이때 종목코드와 날짜는 원하는대로 선택할 수 있다. 여기서는 삼성전자의 데이터를 다운받도록 하자. 이때 코스피는 KS, 코스닥은 KQ를 붙인다.

이때 start를 통해 지금까지 데이터를 받아오는 방식과 

```
# yf.download('005930.KS', '2000-09-09', 2023-03-03')
```
위와 같이 받아오는 방식이 있다.

In [None]:
import yfinance as yf
df = yf.download('005930.KS', start = '2023-01-01')
df.to_excel("삼전.xlsx")
df.to_csv("삼전.csv")

손쉽게 데이터를 다운받을 수 있다. 이 방법은 쉽고 전세계 모든 우량 주식 데이터를 쉽게 받을 수 있지만, 필자는 코스닥 시장의 주식들도 관심이 있기에 다른 Library에 대해 알아보도록 하자.

In [None]:
df

### 1-2) 데이터 다운 받기(pykrx)

Yahoo Finance와 마찬가지로 library를 설치한다.

In [None]:
!pip install pykrx

설치가 완료되면 아래의 코드를 입력하여 정보를 다운받자.

In [None]:
from pykrx import stock

df = stock.get_market_ohlcv("20230310", "20230322", "005930")
df.to_excel("삼성전자1.xlsx")
df.to_csv("삼성전자1.csv")
df

pykrx 라이브러리는 한국사람들이 만든 라이브러리이다.
아래의 웹사이트에서 소개가 되고있다.

[KRX 주식 정보 스크래핑](https://github.com/sharebook-kr/pykrx)

### 1-3) 데이터 다운 받기(pandas-datareader)

이 방법은 오류가 너무 많이나기 때문에 포기했다.

### 1-4) 데이터 다운받기(FinanceDataReader)

라이브러리를 쓰기위해 아래 코드를 실행하자.

In [None]:
!pip install finance-datareader

설치가 완료되면 정보를 받아오자.

In [None]:
import FinanceDataReader as fdr
df = fdr.DataReader('005930', '2023-03-10', '2023-03-23')
df.to_excel("삼전3.xlsx")
df.to_csv("삼전3.csv")
df

라이브러리를 소개하는 웹사이트는 다음과 같다.

[FinanceDataReader](FinanceDataReader)

### 1-5) 증권거래소 홈페이지 이용

증권 거래소 홈페이지를 이용해서 다운할 수도 있다.

[KRX 정보데이터시스템](http://data.krx.co.kr/contents/MDC/MAIN/main/index.cmd)

## 2) CSV를 이용해 주가시각화하기

### 2-1) 주가데이터에 이동평균 추가하여 시각화하기

Pandas를 이용해 주가데이터에 이동평균을 추가해보자.
데이터를 받는 방식은 1의 방식중 이 노트에서는 pykrx를 사용한다.

먼저 CSV 파일을 가져온다.

In [None]:
!pip install pykrx

In [None]:
from pykrx import stock

df = stock.get_market_ohlcv("20220322", "20230322", "005930")
df.to_excel("005930.xlsx")
df.to_csv("005930.csv")
df

pandas의 rolling 함수와 mean함수를 이용해 이동기술 통계량(이동평균선)을 구해보자.

In [None]:
import pykrx
from pykrx import stock

df = stock.get_market_ohlcv_by_date("20220322","20230322","005930")

ma5=df['종가'].rolling(5).mean()
ma10=df['종가'].rolling(10).mean()
ma20=df['종가'].rolling(20).mean()
ma60=df['종가'].rolling(60).mean()

df.to_csv("005930.csv")
df.to_excel("005930.xlsx")
df['5일_이동평균']=ma5
df['10일_이동평균']=ma10
df['20일_이동평균']=ma20
df['60일_이동평균']=ma60
df

주식 그래프를 그리기위해 Matplotlib를 이용한다.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("005930.csv")
plt.plot(df["날짜"],df["종가"])

먼저 한글을 다운받고 코드를 붙인다.

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import pykrx
from pykrx import stock

pd.set_option('display.float_format','{:,.0f}'.format)
df = stock.get_market_ohlcv_by_date("20220322","20230322","005930")
df.to_excel("005930.xlsx")
df.to_csv("005930.csv")

#이평선 5, 10, 20, 60일 추가

ma5=df['종가'].rolling(5).mean()
ma10=df['종가'].rolling(10).mean()
ma20=df['종가'].rolling(20).mean()
ma60=df['종가'].rolling(60).mean()

df.to_csv("005930.csv")
df.to_excel("005930.xlsx")
df['5일_이동평균']=ma5
df['10일_이동평균']=ma10
df['20일_이동평균']=ma20
df['60일_이동평균']=ma60

# 나눔글꼴 Regular으로 폰트 지정
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_prop = fm.FontProperties(fname=font_path, size=20)
# 폰트 설정
plt.rc('font', family='NanumGothic')
matplotlib.rcParams['axes.unicode_minus'] = False # 마이너스 기호(-)가 깨지는 현상 방지

# 주가 그래프 그리기
df = pd.read_csv("005930.csv")
plt.figure(figsize=(20,12)) # 그래프 사이즈
plt.plot(df["날짜"],df["종가"], color="Navy",linewidth=3) #데이터
plt.plot(df["날짜"],ma5, label="5일")
plt.plot(df["날짜"], ma10, label="10일")
plt.plot(df["날짜"], ma20, label="20일")
plt.plot(df["날짜"], ma60, label="60일")
plt.title("삼성전자 주가", color="black",fontsize=25,fontweight="bold") #제목
plt.xticks([1,30,60,90,120,150,180,210,240],rotation = 45 ) #아래에 날짜 표시
plt.xlabel("기간", color= "green" , loc = "right")
plt.ylabel("단위 : 원", color = "red", loc = "top")
plt.legend(loc = "upper right", labelcolor = 'linecolor')
plt.grid(axis="y")
plt.savefig("삼성전자.png" , dpi = 100)


# 거래량 그래프 그리기
plt.figure(figsize=(15,5))
plt.bar(df["날짜"],df["거래량"])
plt.title("삼성전자 거래량", color = "blue", fontsize = 25, fontweight = "bold")
plt.xticks([1,30,60,90,120,150,180,210,240],rotation = 45 )
plt.xlabel("기간", color= "green" , loc = "right")
plt.ylabel("단위 : 10,000,000 주", color = "red", loc = "top")
plt.grid(axis='y')
plt.savefig("005930_volume.png")

월평균 주가도 같이 구해보자.

In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import pykrx
from pykrx import stock

# 주식 데이터 저장
pd.set_option('display.float_format','{:,.2f}'.format) #소수점 둘째자리 까지 제거
df = stock.get_market_ohlcv_by_date("20220322","20230322","005930")
df.to_excel("005930.xlsx")
df.to_csv("005930.csv")

#이평선 5, 10, 20, 60일 추가

ma5=df['종가'].rolling(5).mean()
ma10=df['종가'].rolling(10).mean()
ma20=df['종가'].rolling(20).mean()
ma60=df['종가'].rolling(60).mean()

df.to_csv("005930.csv")
df.to_excel("005930.xlsx")
df['5일_이동평균']=ma5
df['10일_이동평균']=ma10
df['20일_이동평균']=ma20
df['60일_이동평균']=ma60

# 나눔글꼴 Regular으로 폰트 지정
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_prop = fm.FontProperties(fname=font_path, size=20)
# 폰트 설정
plt.rc('font', family='NanumGothic')
matplotlib.rcParams['axes.unicode_minus'] = False # 마이너스 기호(-)가 깨지는 현상 방지

# 주가 그래프 그리기
df = pd.read_csv("005930.csv")
plt.figure(figsize=(20,12)) # 그래프 사이즈
plt.plot(df["날짜"],df["종가"], color="Navy",linewidth=3) #데이터
plt.plot(df["날짜"],ma5, label="5일")
plt.plot(df["날짜"], ma10, label="10일")
plt.plot(df["날짜"], ma20, label="20일")
plt.plot(df["날짜"], ma60, label="60일")
plt.title("삼성전자 주가", color="black",fontsize=25,fontweight="bold") #제목
plt.xticks([1,30,60,90,120,150,180,210,240],rotation = 45 ) #아래에 날짜 표시
plt.xlabel("기간", color= "green" , loc = "right")
plt.ylabel("단위 : 원", color = "red", loc = "top")
plt.legend(loc = "upper right", labelcolor = 'linecolor')
plt.grid(axis="y")
plt.savefig("삼성전자.png" , dpi = 100)


# 거래량 그래프 그리기
plt.figure(figsize=(15,5))
plt.bar(df["날짜"],df["거래량"])
plt.title("삼성전자 거래량", color = "blue", fontsize = 25, fontweight = "bold")
plt.xticks([1,30,60,90,120,150,180,210,240],rotation = 45 )
plt.xlabel("기간", color= "green" , loc = "right")
plt.ylabel("단위 : 10,000,000 주", color = "red", loc = "top")
plt.grid(axis='y')
plt.savefig("005930_volume.png")

# 월평균 주가 그래프
df_m = pd.read_csv("005930.csv")

plt.figure(figsize=(15,5))
plt.bar(df_m['날짜'],df_m['종가'], color ="orange", alpha = 0.7, width = 0.5)
plt.title("삼성전자 월평균 주가", color = "blue", fontsize = 25, fontweight = "bold")
plt.xticks(rotation = 45 )
plt.grid(axis='y')
plt.show()

### 2-2) 여러 종목 주가 시각화하기

앞에서 삼성전자의 그래프는 그려봤으니, 이제 여러 종목의 그래프를 그려보자.

In [None]:
import pandas as pd
from pykrx import stock

pd.set_option('display.float_format','{:,.2f}'.format) #소수점 둘째자리 까지 제거
stocks = { "카나리아바이오" : "016790", "세종메디칼":"258830","헬릭스미스":"084990" }

for i in stocks:
    code = stocks[i]
    df = stock.get_market_ohlcv_by_date("20220322","20230322",code)
    df.to_csv(f"{i}.csv")
    df = df.dropna() #NaN 값 제거
df

2-1에서 구한 코드와 연결짓자.

In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
from pykrx import stock

pd.set_option('display.float_format','{:,.2f}'.format) #소수점 둘째자리 까지 제거

# 나눔글꼴 Regular으로 폰트 지정
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_prop = fm.FontProperties(fname=font_path, size=20)
# 폰트 설정
plt.rc('font', family='NanumGothic')
matplotlib.rcParams['axes.unicode_minus'] = False # 마이너스 기호(-)가 깨지는 현상 방지

stocks = { "카나리아바이오" : "016790", "세종메디칼":"258830","헬릭스미스":"084990" }
# 주식 for문으로 호출
for i in stocks:
    code = stocks[i]
    df = stock.get_market_ohlcv_by_date("20220322","20230322",code)#날짜 기간 설정
    df.to_csv(f"{i}.csv")# 주식 데이터 저장
    df = df.dropna() #NaN 값 제거
    #이평선 5, 10, 20, 60일 추가

    ma5=df['종가'].rolling(5).mean().round(0)
    ma10=df['종가'].rolling(10).mean().round(0)
    ma20=df['종가'].rolling(20).mean().round(0)
    ma60=df['종가'].rolling(60).mean().round(0)

    df['5일_이동평균']=ma5
    df['10일_이동평균']=ma10
    df['20일_이동평균']=ma20
    df['60일_이동평균']=ma60
    
    df.to_csv(f"{i}_이동평균.csv") 

    # 주가 그래프 그리기
    df = pd.read_csv(f"{i}.csv")
    plt.figure(figsize=(15,10)) # 그래프 사이즈
    plt.plot(df["날짜"],df["종가"], color="Navy",linewidth=3) #데이터
    plt.plot(df["날짜"],ma5, label="5일")
    plt.plot(df["날짜"], ma10, label="10일")
    plt.plot(df["날짜"], ma20, label="20일") 
    plt.plot(df["날짜"], ma60, label="60일")
    plt.title(f"{i} 주가", color="black",fontsize=25,fontweight="bold") #제목
    plt.xticks([1,30,60,90,120,150,180,210,240],rotation = 45 ) #아래에 날짜 표시
    plt.xlabel("기간", color= "green" , loc = "right")
    plt.ylabel("단위 : 원", color = "red", loc = "top")
    plt.legend(loc = "upper right", labelcolor = 'linecolor')
    plt.grid(axis="y")
    plt.savefig(f"{i}.png" , dpi = 100)


    # 거래량 그래프 그리기
    plt.figure(figsize=(15,5))
    plt.bar(df["날짜"],df["거래량"])
    plt.title(f"{i} 거래량", color = "blue", fontsize = 25, fontweight = "bold")
    plt.xticks([1,30,60,90,120,150,180,210,240],rotation = 45 )
    plt.xlabel("기간", color= "green" , loc = "right")
    plt.ylabel("단위 : 10,000,000 주", color = "red", loc = "top")
    plt.grid(axis='y')
    plt.savefig(f"{i}.png")

    # 월평균 주가 그래프
    df_m = pd.read_csv(f"{i}.csv")

    plt.figure(figsize=(15,5))
    plt.bar(df_m['날짜'],df_m['종가'], color ="orange", alpha = 0.7, width = 0.5)
    plt.title(f"{i} 월평균 주가", color = "blue", fontsize = 25, fontweight = "bold")
    plt.xticks(rotation = 45 )
    plt.grid(axis='y')
    plt.show(f"{i}.png")

이제 주가를 비교해보자.

In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
from pykrx import stock

pd.set_option('display.float_format','{:,.2f}'.format) #소수점 둘째자리 까지 제거

# 나눔글꼴 Regular으로 폰트 지정
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_prop = fm.FontProperties(fname=font_path, size=20)
# 폰트 설정
plt.rc('font', family='NanumGothic')
matplotlib.rcParams['axes.unicode_minus'] = False # 마이너스 기호(-)가 깨지는 현상 방지

stocks = { "에코프로비엠" : "247540", "에코프로":"086520","에코프로에이치엔":"383310" }
data=pd.DataFrame()

# 주식 for문으로 호출
for i in stocks:
    code = stocks[i]
    df = stock.get_market_ohlcv_by_date("20220322","20230322",code)#날짜 기간 설정
    data[i]=df["종가"]   

data.to_csv("주가비교.csv") 

   
plt.figure(figsize=(15,10)) # 그래프 사이즈
plt.xticks(rotation=45)
plt.plot(data["에코프로비엠"], label="에코프로비엠", color='#CD5C5C')
plt.plot(data["에코프로"], label="에코프로")
plt.plot(data["에코프로에이치엔"], label="에코프로에이치엔")
plt.xlabel("기간", color= "green" , loc = "right")
plt.ylabel("단위 : 원", color = "red", loc = "top")
plt.legend()
plt.grid(axis="y", linestyle='--', color='purple')
plt.savefig("주가비교.png" , dpi = 100)

한번에 나타내지말고 sublot으로 나타내보자.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import matplotlib.font_manager as fm # fm 모듈을 import
# 나눔글꼴 Regular으로 폰트 지정
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_prop = fm.FontProperties(fname=font_path, size=20)
# 폰트 설정
plt.rc('font', family='NanumGothic')
matplotlib.rcParams['axes.unicode_minus'] = False # 마이너스 기호(-)가 깨지는 현상 방지

df = pd.read_csv("주가비교.csv")
df.set_index('날짜',inplace=True)
fig,ax = plt.subplots(3,1,sharex=True)
df.plot(y= "에코프로비엠", ax=ax[0])
df.plot(y= "에코프로", ax=ax[1])
df.plot(y= "에코프로에이치엔",ax=ax[2])

## 3) keras를 이용한 금융 머신러닝 개발

이 챕터에서는 tensorflow.keras를 이용하여 금융 시계열 모형을 직접 LSTM, CNN을 이용해 구현해본다.

### 3-1) LSTM을 이용한 금융머신러닝

이 챕터에서는 LSTM을 이용한 간단한 머신러닝에 대해 알아보자.

2번째 챕터에서 배운 지식을 이용해 데이터를 불러오자

In [None]:
!pip install pykrx

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from pykrx import stock

df = stock.get_market_ohlcv("20230310", "20230322", "005930")
df.to_excel("삼성전자.xlsx")
df.to_csv("삼성전자.csv")
df

#### 3-1-1) 데이터 불러오기

In [None]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np

df = stock.get_market_ohlcv("20100101", "20230325", "005930")
df.to_excel("005930.xlsx")
df.to_csv("005930.csv")

stocks = pd.read_csv('005930.csv')
stocks

#### 3-1-2) 데이터 전처리 및 시각화

In [None]:
stocks['날짜'] = pd.to_datetime(stocks['날짜'], format='%Y-%m-%d')
# stocks['날짜'] = pd.to_datetime(stocks['날짜'], format='%Y-%m-%d')
stocks['연도'] = stocks['날짜'].dt.year

날짜를 2000년 이후로 재분류한다.

In [None]:
df = stocks.loc[stocks['날짜']>="2010"]

In [None]:
scaler = MinMaxScaler()
scale_cols = ['시가', '고가', '저가', '종가', '거래량']
df_scaled = scaler.fit_transform(df[scale_cols])

df_scaled = pd.DataFrame(df_scaled)
df_scaled.columns = scale_cols

print(df_scaled)
print(df)

이때의 데이터를 시각화해본다.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(16,9))
sns.lineplot(y=df['거래량'], x=df['날짜'])
plt.xlabel('time')
plt.ylabel('price')

거래량이 2018년 이후로 급증했다. 다음은 주식 가격을 기준으로 보자.

In [None]:
plt.figure(figsize=(16,9))
sns.lineplot(y=df['종가'], x=df['날짜'])
plt.xlabel('time')
plt.ylabel('price')

####3-1-3) 데이터 정규화

먼저 데이터 정규화를 진행한다. 머신러닝에서 MinMaxScaler를 이용하여 정규화를 진행하면 0,1 사이의 값을 가지게 해주어 나중에 데이터 처리를 쉽게해준다.

In [None]:
from sklearn.preprocessing import MinMaxScaler

df.sort_index(ascending=False).reset_index(drop=True)

scaler = MinMaxScaler()
scale_cols = ['시가', '고가', '저가', '종가', '거래량']
df_scaled = scaler.fit_transform(df[scale_cols])
df_scaled = pd.DataFrame(df_scaled)
df_scaled.columns = scale_cols

df_scaled

#### 3-1-4)시계열 데이터의 데이터 셋 분리

시계열 데이터의 데이터셋을 window_size라고 정의한다. window_size는 과거 주가 데이터에 기반하여 다음날 종가를 예측하는 것을 정하는 parmeter다.

과거 20일 기반으로 다음 날 데이터를 예측한다면, window_size는 20이 되는 것이다.

In [None]:
# 테스트셋 생성
TEST_SIZE = 200
window_size = 20

train = df_scaled[:-TEST_SIZE]
test = df_scaled[-TEST_SIZE:]

make_dataset 함수를 정의한다.
아직 깊게 공부하지않았지만, np.array()를 iloc 함수 앞에 묶어주지 않으면 데이터 셋 분리 단계에서 오류가 발생하거나 LSTM을 이용한 머신러닝이 힘들어졌다.

In [None]:
def make_dataset(data, label, window_size=20):
    feature_list = []
    label_list = []
    for i in range(len(data) - window_size):
        feature_list.append(np.array(data.iloc[i:i+window_size]))
        label_list.append(np.array(label.iloc[i+window_size]))
    return np.array(feature_list), np.array(label_list)

In [None]:
from sklearn.model_selection import train_test_split
#feature,label 정의
feature_cols = ['시가', '고가', '저가', '거래량']
label_cols = ['종가']

train_feature = train[feature_cols]
train_label = train[label_cols]

#train data set
train_feature,train_label = make_dataset(train_feature, train_label, 20)

x_train, x_valid, y_train, y_valid = train_test_split(train_feature, train_label, test_size=0.2)
x_train.shape, x_valid.shape

In [None]:
# test dataset (실제 예측해 볼 데이터)
test_feature = test[feature_cols]
test_label = test[label_cols]

test_feature.shape, test_label.shape

In [None]:
test_feature, test_label = make_dataset(test_feature, test_label, 20)
test_feature.shape, test_label.shape

위의 코드에서 나는 test_label.shape가 3차원이 나와 계속 오류가 발생했다. 이유를 찾기위해..

#### 3-1-5) keras 모형을 생성한 학습

keras를 활용해 간단한 LSTM 모델을 생성한다.

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Activation, BatchNormalization
from keras.callbacks import EarlyStopping, ModelCheckpoint
from keras.layers import LSTM

model = Sequential()
model.add(LSTM(16,
               input_shape=(train_feature.shape[1], train_feature.shape[2]),
               activation='relu',
               return_sequences=False)
        )
model.add(Dense(1))

모델을 학습시킨다.

In [None]:
import os

model.compile(loss='mean_squared_error', optimizer='adam')
early_stop = EarlyStopping(monitor='val_loss', patience=5)

model_path='model'
filename = os.path.join(model_path, 'tmp_checkpoint.h5')
checkpoint = ModelCheckpoint(filename, monitor='val_loss',verbose=1,
                             save_best_only=True, mode='auto')

history = model.fit(x_train,y_train,
                    epochs=200,
                    batch_size=16,
                    validation_data=(x_valid,y_valid),
                    callbacks=[early_stop, checkpoint])

#### 3-1-6) 주가예측과 확인

In [None]:
model.load_weights(filename)
pred = model.predict(test_feature)

pred.shape

이제 plt를 이용해 그려보자.

In [None]:
plt.figure(figsize=(12,9))
plt.plot(test_label, label = 'actual price')
plt.plot(pred, label = 'prediction price')

plt.xlabel('date')
plt.ylabel('price by high')
plt.legend()
plt.show()

이렇게 간단한 모델을 구성해보았다.
코스피, 코스닥에 상장된 종목이면 위에서 종목코드만 바꾸면되니 모두 해보도록하자.
지금은 삼성전자라 005930 이고, 다른 주식을 하려면 코드만 바꿔주면 된다.

하지만 이 모델은 매우 단순하고 과적합에 대한 검증도 이루어지지않았으므로 재미로만 관찰하도록 하자.

### 3-2) LSTM,CNN을 이용한 금융 머신러닝
(Yahoo Finance 데이터를 활용)

pykrx를 계속 써왔으니 이제 해외주식 데이터를 이용하기 위해 yahoo finance library를 이용하자. 내용은 아래의 링크에서 참고했다. 여기서는 1등 주식인 AAPL(애플)을 이용하자.

[LSTMs or CNNs for predicting Stock Prices?](https://medium.com/hands-on-data-science/lstms-or-cnns-for-predicting-stock-prices-2974c0c8c4ef)

#### 3-2-1)데이터 준비

In [None]:
!pip install yahoofinance

In [None]:
import yfinance
import numpy as np
df = yfinance.download('AAPL','2000-1-1','2020-1-1')
df = df.drop(['Volume'],1).drop(['Adj Close'],1)

데이터를 추출한 값에 거래량과 종가 데이터를 제거하자.

그리고 함수를 정의한다. 모든 열의 이름을 숫자로 바꾼다.

In [None]:
def normalize_data(dataset):
        cols = dataset.columns.tolist()
        col_name = [0]*len(cols)
        for i in range(len(cols)):
            col_name[i] = i
        dataset.columns = col_name
        dtypes = dataset.dtypes.tolist()
        minmax = list()
        for column in dataset:
            dataset = dataset.astype({column: 'float32'})
        for i in range(len(cols)):
            col_values = dataset[col_name[i]]
            value_min = min(col_values)
            value_max = max(col_values)
            minmax.append([value_min, value_max])
        for column in dataset:
            values = dataset[column].values
            for i in range(len(values)):
                values[i] = (values[i] - minmax[column][0]) / (minmax[column][1] - minmax[column][0])
            dataset[column] = values
        dataset[column] = values
        return dataset,minmax
    
dataset,minmax = normalize_data(df)
print(df.values)
values = dataset.values

Sequence를 data set으로 변화 시킨다.
rel_test_len은 10%를 validation data로 이용함을 의미한다.

In [None]:
def split_sequences(sequence, n_steps):
    X, y = list(), list()
    for i in range(len(sequence)):
        end_ix = i + n_steps
        if end_ix > len(sequence)-1:
            break
        seq_x, seq_y = sequence[i:end_ix], sequence[end_ix]
        X.append(seq_x)
        y.append(seq_y)
    return np.array(X), np.array(y)
def data_setup(n_steps, n_seq,sequence):
    X, y = split_sequences(sequence, n_steps)
    n_features = X.shape[2]
    X = X.reshape((len(X),n_steps, n_features))
    new_y = []
    for term in y:
        new_term = term[-1]
        new_y.append(new_term)
    return X, np.array(new_y), n_features
n_steps = 10
n_seq = 10000
rel_test_len = 0.1
X,y,n_features = data_setup(n_steps,n_seq,values)
X = X[:-1]
y = y[1:]
X_test,y_test = X[:int(len(X)*rel_test_len)],y[:int(len(X)*rel_test_len)]
X_train,y_train = X[int(len(X)*rel_test_len):],y[int(len(X)*rel_test_len):]
X.shape

#### 3-2-2) LSTM. CNN 이용

######3-2-2-1) LSTM 이용

LSTM을 이용한다. 최종 layer를 sigmoid로 쓴게 특징이다.

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers import Dropout
from keras.layers import LSTM
model = Sequential()
model.add(LSTM(64, activation=None, input_shape=(10,4), return_sequences = True))
model.add(LSTM(32, activation=None, return_sequences = True))
model.add(Flatten())
model.add(Dense(100, activation=None))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='mse', optimizer='adam')

다음은 train network를 이용한다..?

In [None]:
import os
from keras import callbacks
epochs = 5000
verbosity = 2
dirx = '/content' # Keras 모델 아키텍처와 가중치 파일이 있는 디렉토리
os.chdir(dirx) 
h5 = 'network.h5'
checkpoint = callbacks.ModelCheckpoint(h5,
                                       monitor='val_loss',
                                       verbose=0,
                                       save_best_only=True,
                                       save_weights_only=True,
                                       mode='auto',
                                       period=1)
callback = [checkpoint]
json = 'network.json'
model_json = model.to_json()
with open(json, "w") as json_file:
    json_file.write(model_json)
history = model.fit(X_train,
                    y_train,
                    epochs=epochs,
                    batch_size=len(X_train) // 4,
                    validation_data = (X_test,y_test),
                    verbose=verbosity,
                    callbacks=callback)

In [None]:
from keras.models import load_model, model_from_json
import json

def load_keras_model(optimizer):
    dirx = '/content'
    os.chdir(dirx)
    json_file = open('network.json', 'r')
    loaded_model_json = json_file.read()
    json_file.close()
    model = model_from_json(loaded_model_json)
    model.compile(optimizer=optimizer, loss='mse')
    model.load_weights('network.h5')
    return model
model = load_keras_model('adam')

다음 모델을 평가한다.

In [None]:
model.evaluate(X_test,y_test)

이후 matplotlib를 이용해 시각화한다.

In [None]:
from matplotlib import pyplot as plt
pred_test = model.predict(X_test)
plt.plot(pred_test,'r')
plt.plot(y_test,'g')

###### 3-2-2-2) CNN 이용


4-2-1을 시행한 후에 아래의 코드를 실행한다.

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers import Dropout
from keras.layers.convolutional import Conv1D
from keras.layers.convolutional import MaxPooling1D
model = Sequential()
model.add(Conv1D(filters=128, kernel_size=3, activation='relu', input_shape=(10,4)))
model.add(Conv1D(filters=64, kernel_size=3, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(Flatten())
model.add(Dense(100, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='mse', optimizer='adam')

다음 train network를 이용해 학습하고 검증하는 과정은 동일하다.

In [None]:
import os
from keras import callbacks
epochs = 5000
verbosity = 2
dirx = '/content' # Keras 모델 아키텍처와 가중치 파일이 있는 디렉토리
os.chdir(dirx) 
h5 = 'network.h5'
checkpoint = callbacks.ModelCheckpoint(h5,
                                       monitor='val_loss',
                                       verbose=0,
                                       save_best_only=True,
                                       save_weights_only=True,
                                       mode='auto',
                                       period=1)
callback = [checkpoint]
json = 'network.json'
model_json = model.to_json()
with open(json, "w") as json_file:
    json_file.write(model_json)
history = model.fit(X_train,
                    y_train,
                    epochs=epochs,
                    batch_size=len(X_train) // 4,
                    validation_data = (X_test,y_test),
                    verbose=verbosity,
                    callbacks=callback)

우리가 만든 model을 가장 성능이 좋았던 모델 가중치를 network.h5 파일에 저장했고 구조를 network.json에 저장했다.

In [None]:
from keras.models import load_model, model_from_json
import json

def load_keras_model(optimizer):
    dirx = '/content'
    os.chdir(dirx)
    json_file = open('network.json', 'r')
    loaded_model_json = json_file.read()
    json_file.close()
    model = model_from_json(loaded_model_json)
    model.compile(optimizer=optimizer, loss='mse')
    model.load_weights('network.h5')
    return model
model = load_keras_model('adam')

모델을 평가해보고 plot으로 시각화한다.

In [None]:
model.evaluate(X_test,y_test)

In [None]:
from matplotlib import pyplot as plt
pred_test = model.predict(X_test)
plt.plot(pred_test,'r')
plt.plot(y_test,'g')