## 0.모듈 임포트

In [144]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.switch_backend('agg')
import oauth2 as oauth
import talib as ta
from mplfinance.original_flavor import candlestick_ohlc
from pykrx import stock

import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, LSTM, Conv1D,BatchNormalization, Dropout, MaxPooling1D, Flatten
from tensorflow.keras.optimizers import SGD,Adam
from tensorflow.keras import backend
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import FunctionTransformer
import time
import datetime
from datetime import datetime, timedelta

import os
import abc
import csv
import sys
import json
import pprint 
import schedule
import logging
import threading
import collections
import pytz
import requests
from tqdm.notebook import tqdm

import warnings
warnings.filterwarnings('ignore')
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
logging.getLogger('tensorflow').setLevel(logging.FATAL)  # TensorFlow 로그를 완전히 억제
tf.get_logger().setLevel('FATAL')

## 1. Util

In [145]:
# 날짜, 시간 관련 문자열 형식
FORMAT_DATE = "%Y%m%d"
FORMAT_DATETIME = "%Y%m%d%H%M%S"
CHART_DATA_COLUMNS = ['datetime', 'open', 'high', 'low', 'close', 'volume']

def get_time_str():
    return datetime.fromtimestamp(
        int(time.time())).strftime(FORMAT_DATETIME)

def sigmoid(x):
    x = max(min(x, 10), -10)
    return 1. / (1. + np.exp(-x))

def softmax(x):
    e_x=np.exp(x -np.max(x))
    return e_x/e_x.sum(axis=0)

#settings
# 로거 이름
LOGGER_NAME = 'rltrader'
# 경로 설정
__file__='./'       
BASE_DIR = os.environ.get('RLTRADER_BASE', os.path.abspath(os.path.join(__file__)))  #환경변수 저장값 없으면 현재디렉토리

APP_KEY = ""
APP_SECRET = ""



## 2.ebast api 사용

In [146]:
class ebastapi:
    def __init__(self,app_key,app_secret):
        self._domain   = "https://openapi.ebestsec.co.kr:8080"  #기본정보 도메인
        self._path       = None                                 #기본정보 URL (업종,주식,선물등등 하위에 따라 달라집니다.)
        self._url        = f"{self._domain}/{self._path}"     #
        self.app_key=app_key,
        self.app_secret=app_secret
        self.access_token = self.get_token()

    # API 접속 토큰 발급
    def get_token(self):
        header = {"content-type":"application/x-www-form-urlencoded"}
        param = {"grant_type":"client_credentials",
                "appkey":self.app_key,
                "appsecretkey":self.app_secret,
                "scope":"oob"
                }
        PATH = "oauth2/token"
        DOMAIN = self._domain
        URL = f"{DOMAIN}/{PATH}"

        request = requests.post(URL, verify=False, headers=header, params=param ,timeout=3)
        
        print("URL          : ", URL, "\n")               
        print("OAuth        : ")
        pprint.pprint(request.json())         
        ACCESS_TOKEN = request.json()["access_token"] 
        return ACCESS_TOKEN
    
    def reset_token(self):
        header = {"content-type":"application/x-www-form-urlencoded"}
        param = {
                "appkey":self.app_key,
                "appsecretkey":self.app_secret,
                "token_type_hint":"access_token",
                "token":self.access_token
                }
        PATH = "oauth2/revoke"
        DOMAIN = self._domain
        URL = f"{DOMAIN}/{PATH}"

        request = requests.post(URL, verify=False, headers=header, params=param ,timeout=3)
        print("URL          : ", URL, "\n")               
        print("OAuth        : ")
        pprint.pprint(request.json())  
        
    def api_header(self,tr_cd):    
        _header = {
            "content-type"  : "application/json; charset=UTF-8",    #이베스트증권 제공 API를 호출하기 위한 Request Body 데이터 포맷으로 "application/json; charset=utf-8 설정"
            "authorization" : "Bearer "+self.access_token,          #클래스 생성될때 토큰이 생성
            "tr_cd"         : tr_cd,                                #이베스트 API TR코드(string) 
            "tr_cont"       : "N",                                  #연속거래 여부
            "tr_cont_key"   : "",                                   #연속일 경우 그전에 내려온 연속키 값 올림
            "mac_address"   : ""                                    #MAC주소 법인일경우 필수 세팅
        }
        return _header
    
    def api_request(self,path,tr_cd,body):
        # 이베스트  openapi홈페이지에서 원하는 정보를 찾으세요
        # path : 기본정보의 URL 부분입니다. 예시 주식-시세라면 stock/market-data 입니다.
        # tr_cd : 예시 주식-시세의 주식현재가호가조회의 tr_cd는 t1101 입니다.
        # body : 홈페이지에서 request-body부분에 맞게 작성해서 넣어주세요.
        DOMAIN = self._domain
        url = f"{DOMAIN}/{path}"
        header=self.api_header(tr_cd)
        # 요청 (header, body)
        _res = requests.post(url, headers=header, data=json.dumps(body), timeout=3)
        _json_data = _res.json()
        return _json_data
    
    def json_to_dataframe(self,json=None,tr_cd=None,outblock=None):
        _data_frame = pd.json_normalize(json[f"{tr_cd}{outblock}"])    #json양식을 데이터 프레임으로 바꾸기
        return _data_frame

    def t8412(self, code):
        path='stock/chart'
        t8412body={
            "t8412InBlock" : {
            "shcode" : code,
            "ncnt" : 1,           #n분
            "qrycnt" : 121,       #요청건수 #요청건수로 가져오려면 시작일과 기간을 미지정
            "nday" : "2",         #기간
            "sdate" : "20240313", #시작일
            "stime" : "1",
            "edate" : "99999999",
            "etime" : "1",
            "cts_date" : "1",
            "cts_time" : "1",
            "comp_yn" : "N"
            }
        }
        outblock='OutBlock1'

        _json=self.api_request(path=path,tr_cd='t8412',body=t8412body)
        return _json
    
    # 현재가 및 호가 조회
    def t1101(self,code):
        path='stock/market-data'
        t1101body={
            "t1101InBlock" : {
            "shcode" : code
            }
        }
        outblock='OutBlock'

        _json=self.api_request(
            path=path,tr_cd='t1101',body=t1101body
        )
        return _json
    
    # 당일 매매일지 조회
    def t0150(self):
        path='stock/accno'
        t0150body={
              "t0150InBlock": {
                "cts_medosu": "1",
                "cts_expcode": "1",
                "cts_price": "1",
                "cts_middiv": "1"
              }
            }
        outblock='OutBlock'

        _json=self.api_request(
            path=path,tr_cd='t0150',body=t0150body
        )
        return _json
    
    # 이베스트 서버시간 가져오기
    def t0167(self):
        path='etc/time-search'
        t0167body={
            "t0167InBlock" : {
                "id":""
            }
        }
        outblock='OutBlock'

        _json=self.api_request(path=path,tr_cd='t0167',body=t0167body)
        _date = _json["t0167OutBlock"]["dt"]
        _time = _json["t0167OutBlock"]["time"][:6]
        
        datetime_str = _date + _time
        # datetime 객체로 변환
        datetime_obj = datetime.strptime(datetime_str, FORMAT_DATETIME)

        return datetime_obj

    # 현물주문
    def CSPAT00601(self,code,ordqty,action,price=None):
        path='stock/order'
        body ={
                "CSPAT00601InBlock1" : {
                "IsuNo" : "A"+code,     #종목코드
                "OrdQty" : ordqty,      #주문수량
                "OrdPrc" : price,     #주문가
                "BnsTpCode" : action,   #매매구분 1.매도  2.매수
                "OrdprcPtnCode" : "03", #호가유형코드  03시장가
                "MgntrnCode" : "000",   #신용거래코드
                "LoanDt" : "",          #대출일
                "OrdCndiTpCode" : "0"   #0:없음,1:IOC,2:FOK
              }
            }
        json=ebast.api_request(path=path,tr_cd='CSPAT00601',body=body)
        return json

    def CSPAT00701(self,orgordno,code,ordqty,price=None):
        #현물정정주문
        path='stock/order'
        body ={
                  "CSPAT00701InBlock1" : {
                    "OrgOrdNo" : orgordno,  #원주문번호
                    "IsuNo" : "A"+code,     #종목코드
                    "OrdQty" : ordqty,      #주문수량
                    "OrdprcPtnCode" : "03", #호가유형코드 00:지정가,03:시장가
                    "OrdCndiTpCode" : "0",  #주문조건구분
                    "OrdPrc" : price       #주문가
                }
            }
        json=self.api_request(path=path,tr_cd='CSPAT00601',body=body)
        return json
    
    def CSPAT00801(self,orgordno,code,ordqty):
        #현물취소주문
        path='stock/order'
        body ={
               "CSPAT00801InBlock1" : {
                    "OrgOrdNo" : orgordno,  #원주문번호
                    "IsuNo" : "A"+code,     #종목번호
                    "OrdQty" : ordqty       #주문수량
                  }
        }
        json=self.api_request(path=path,tr_cd='CSPAT00601',body=body)
        return json
    
    # 계좌 거래내역 확인
    def CDPCQ04700(self):
        #
        path='stock/accno'
        body ={
              "CDPCQ04700InBlock1": {
                "QryTp": "0",
                "QrySrtDt": "20240312",
                "QryEndDt": "20240313",
                "SrtNo": 0,
                "PdptnCode": "01",
                "IsuLgclssCode": "01",
                "IsuNo": "KR7005490008"
              }
            }
        json=self.api_request(path=path,tr_cd='CDPCQ04700',body=body)
        return json

    

## 3.실시간 데이터 수집 함수
#### 3-1 pykrx에서 일단위 데이터 가져오기(최초 1회만 실행)
#### 3-2 네이버에서 유동주식 크롤링 (최초 1회만 실행)
#### 3-3 ebast에서 분단위 데이터 수집(장마감까지 반복실행)

In [147]:
#이베스트에서 분단위 데이터 수집후 처리
def chart_data(ebast,code):
    #ebast 클래스, 종목코드
    json=ebast.t8412(code)
    df=ebast.json_to_dataframe(json,tr_cd='t8412',outblock='OutBlock1')
    #분봉 데이터 전처리
    df['date']=pd.to_datetime(df['date'],format='%Y%m%d')
    df['time']=df['time'].apply(lambda x : x[:4])
    df['value']=df['value'].apply(lambda x : x*1000000) 
    df.rename(columns={'jdiff_vol':'volume', 'value':'money'},inplace=True) #컬럼명 변경
    df.drop(['jongchk','rate','sign'],axis=1,inplace=True)  #필요없는 컬럼 제거
    return df
    
#pykrx에서 일단위 데이터 가져오기 
def make_ma(code):
    start=(datetime.now()-timedelta(days=200)).strftime('%Y%m%d')
    end=datetime.now().strftime('%Y%m%d')
    d_close_ma_list={'d_close_ma3':3,
                 'd_close_ma5':5,
                 'd_close_ma10':10,
                 'd_close_ma20':20,
                 'd_close_ma60':60,
                 'd_close_ma120':120
                 }
    #pykrx에서 일단위 데이터 가져오기 
    ma_df = stock.get_market_ohlcv(start, end, code)
    ma_df = ma_df['종가'].to_frame()

    #pykrx에서 일단위 데이터로 이평선 만들기 가져오기 
    for key, value in d_close_ma_list.items():
        ma_df[key]=ta.SMA(ma_df['종가'], timeperiod=value)
        
    ma_df = ma_df.drop(['종가'], axis=1)
    ma_df.reset_index(inplace=True)
    ma_df.rename(columns={'날짜':'date'},inplace=True)
    ma_df=ma_df[-5:]
    return ma_df[-5:]
#네이버에서 유동주식 정보 크롤링
def floating_data():
    stocks=84571230  #상장 주식수 (#네이버 크롤링으로 대체)
    floating_stock=stocks-(5673187  + 4555963 +8695023 ) #유동주식수
    floating_percentage=floating_stock/stocks #유동주식 비율
    return {'stocks':stocks, 'floating_stock':floating_stock,'floating_percentage':floating_percentage}

#ebast 분단위 데이터 , pykrx 일평선, 네이버 유동주식 비율 합치는 함수
def merge_data(chart,ma,floating):
    chart['stack_volume'] = chart.groupby('date')['volume'].cumsum()
    chart['stack_money'] = chart.groupby('date')['money'].cumsum()
    chart.drop(chart[chart['time']=='1530'].index ,inplace=True)

    merged_df = pd.merge(chart, ma, on='date', how='left') #날짜 컬럼 기준으로 합치기
    merged_df['상장주식수']=floating['stocks']
    merged_df['유동주식수']=floating['floating_stock']
    merged_df['유동주식비율']=floating['floating_percentage']
    merged_df['시가총액']=merged_df['close']*merged_df['상장주식수']

    return merged_df
    

## 4.데이터 전처리
#### 4.1 수집된데이터로 분석 데이터 추가
#### 4.2 데이터 스케일링
#### 4.3 차트데이터와 예측데이터로 분리

In [148]:
# 분석 데이터 추가
def data_preprocessing(data_df):
    #stock_data 함수의 return을 받아서 처리
    data_df['분봉유동비율'] = data_df['volume']/data_df['유동주식수']
    data_df['전봉대비거래량비율'] = data_df['volume']/data_df['volume'].shift(1)

    data_df['시가퍼센트'] = round((data_df['open']-data_df['close'].shift(1))/data_df['close'].shift(1),4)*100
    data_df['고가퍼센트'] = round((data_df['high']-data_df['close'].shift(1))/data_df['close'].shift(1),4)*100
    data_df['저가퍼센트'] = round((data_df['low']-data_df['close'].shift(1))/data_df['close'].shift(1),4)*100
    data_df['종가퍼센트'] = round((data_df['close']-data_df['close'].shift(1))/data_df['close'].shift(1),4)*100


    #캔들상태 = 3 : 양봉, 2 : 보합, 1 : 음봉
    data_df['캔들상태'] = np.where(data_df['close'] > data_df['open'], 3,
                            np.where(data_df['close'] == data_df['open'], 2, 1))

    data_df['윗꼬리대비몸통'] = np.where(data_df['캔들상태'] == 3, 
                                    1.0 - (data_df['high'] - data_df['close']) / (data_df['close'] - data_df['open']),
                                    np.where(data_df['캔들상태'] == 2, 
                                            0.0, 
                                            (1.0 - (data_df['high'] - data_df['open']) / (data_df['open'] - data_df['close']))*-1)
                                )

    data_df['m_close_ma3'] = ta.SMA(data_df['close'], timeperiod=3)
    data_df['m_close_ma5'] = ta.SMA(data_df['close'], timeperiod=5)
    data_df['m_close_ma10'] = ta.SMA(data_df['close'], timeperiod=10)
    data_df['m_close_ma20'] = ta.SMA(data_df['close'], timeperiod=20)
    data_df['m_close_ma39'] = ta.SMA(data_df['close'], timeperiod=39)
    data_df['m_close_ma60'] = ta.SMA(data_df['close'], timeperiod=60)
    data_df['m_close_ma120'] = ta.SMA(data_df['close'], timeperiod=120)



    data_df['캔들몸통'] = np.where(data_df['캔들상태'] == 3, 
                                    (data_df['close'] - data_df['open']),
                                    np.where(data_df['캔들상태'] == 2, 
                                            0.0, 
                                            (data_df['open'] - data_df['close']))
                                )

    data_df['10분봉몸통합'] = data_df['캔들몸통'].rolling(window=10).sum()
    data_df['10분봉몸통합'].fillna(0.0, inplace=True)

    data_df['효율적분석'] = np.where(data_df['10분봉몸통합'] != 0, 
                                    (data_df['close'] - data_df['close'].shift(9)) / data_df['10분봉몸통합'], 
                                    0.0)
    # === 오실레이터 ===
    # 스토케스틱 오실레이터 계산
    so = ta.STOCH(  data_df['high'], data_df['low'], data_df['close'],
                    fastk_period=14, slowk_period=3, slowk_matype=0,
                    slowd_period=3, slowd_matype=0
                    )
    data_df['stoch_slowk'] = so[0]  # %K
    data_df['stoch_slowd'] = so[1]  # %D

    # RSI 계산
    data_df['RSI'] = ta.RSI(data_df['close'], 14)

    # === 변동성 지표 ===
    # 볼린저 밴드 계산
    upperband, middleband, lowerband = ta.BBANDS(
                                            data_df['close'], timeperiod=20,
                                            nbdevup=2, nbdevdn=2, matype=0
                                            )
    data_df['upperband'] = upperband
    data_df['middleband'] = middleband
    data_df['lowerband'] = lowerband

    # True Range 계산
    data_df['true_range'] = ta.TRANGE(data_df['high'], data_df['low'], data_df['close'])

    # === 추세 지표 ===
    # MACD 계산
    macd, macdsignal, macdhist = ta.MACD(data_df['close'],
                                            fastperiod=12, slowperiod=26, signalperiod=9
                                            )
    data_df['macd'] = macd
    data_df['macdsignal'] = macdsignal
    data_df['macdhist'] = macdhist

    # === 모멘텀 지표 ===
    # 모멘텀 계산
    data_df['MOM'] = ta.MOM(data_df['close'], timeperiod=10)

    # 패러볼릭 SAR 계산
    data_df['SAR'] = ta.SAR(data_df['high'], data_df['close'], acceleration=0.02, maximum=0.2)

    # 상품 채널 지수 (CCI) 계산
    data_df['CCI'] = ta.CCI(data_df['high'], data_df['close'], data_df['close'], timeperiod=14)

    # === 거래량 지표 ===
    # 거래량 균형 (OBV) 계산
    data_df['OBV'] = ta.OBV(data_df['close'], data_df['volume'])

    # === 패턴 인식 ===
    # 해머 패턴 식별
    data_df['Hammer'] = ta.CDLHAMMER(data_df['open'], data_df['high'], data_df['low'], data_df['close'])

    # 흡수 패턴 식별
    data_df['Engulfing'] = ta.CDLENGULFING(data_df['open'], data_df['high'], data_df['low'], data_df['close'])

    # 도지 패턴 식별
    data_df['Doji'] = ta.CDLDOJI(data_df['open'], data_df['high'], data_df['low'], data_df['close'])

    data_df.replace([np.nan, np.inf, -np.inf],0,inplace=True)

    data_rename={'날짜': 'date', '시간': 'time',
                '시가': 'open', '고가': 'high', '저가': 'low', '종가': 'close',
                '거래량': 'volume', '거래대금': 'money',
                '상장주식수': 'stocks', '유동주식수': 'floatingStocks', '유동주식비율': 'floatpercentage',
                '시가총액': 'market_cap',
                '분봉유동비율': 'mlr', '전봉대비거래량비율': 'pvr',
                '시가퍼센트': 'open_ratio', '고가퍼센트': 'high_ratio', '저가퍼센트': 'low_ratio', '종가퍼센트': 'close_ratio',
                '캔들상태': 'candle' ,'윗꼬리대비몸통': 'hightail_body_ratio','캔들몸통': 'candle_body',
                '10분봉몸통합': 'm_10_sum_candle_body',
                '효율적분석': 'efficiency_analysis'}
    data_df = data_df.rename(columns=data_rename)

    #날짜와 시간 합치기
    data_df['datetime'] = pd.to_datetime(data_df['date'].dt.strftime('%Y-%m-%d')+' '+ data_df['time'],format='%Y-%m-%d %H%M')
    # 맨 뒤의 컬럼 이름을 가져오기
    last_column = data_df.columns[-1]

    # 맨 뒤의 컬럼을 제외한 나머지 컬럼 이름 가져오기
    other_columns = data_df.columns[:-1]

    # 컬럼 순서 재조정
    data_df = data_df[[last_column] + list(other_columns)]
    data_df.drop(['date','time'], axis=1, inplace=True)
    return data_df

#데이터 스케일링
def scaler(data):
    # Min-Max Scaling을 위한 컬럼 목록
    minmax_cols = ['open', 'high', 'low', 'close', 'volume', 'stack_volume', 'floatingStocks', 
                   'd_close_ma3', 'd_close_ma5', 'd_close_ma10', 'd_close_ma20', 'd_close_ma60', 
                   'd_close_ma120', 'm_close_ma3', 'm_close_ma5', 'm_close_ma10', 'm_close_ma20', 
                   'm_close_ma39', 'm_close_ma60', 'm_close_ma120', 'candle_body', 'm_10_sum_candle_body', 
                   'upperband', 'middleband', 'lowerband', 'true_range', 'MOM', 'SAR', 'CCI', 'OBV']
    
    # 로그 변환을 위한 컬럼 목록
    log_cols = ['money', 'stack_money', 'stocks', 'market_cap']
    
    # 백분율화를 위한 컬럼 목록
    percentage_cols = ['floatpercentage', 'stoch_slowk', 'stoch_slowd', 'RSI', 'macd', 'macdsignal', 'macdhist']
    
    #100 -> 1 위한 컬럼 목록
    int_trans_cols = ['Hammer', 'Engulfing', 'Doji']
    
    # 스케일링하지 않을 컬럼 목록
    no_scaling_cols = ['datetime','mlr', 'pvr', 'open_ratio', 'high_ratio', 'low_ratio', 'close_ratio', 'candle', 
                       'hightail_body_ratio', 'efficiency_analysis']
    
    # Min-Max Scaler 초기화
    minmax_scaler = MinMaxScaler()
    def transform_int_columns(df, cols):
        for col in cols:
            df[col] = np.where(df[col] == 100, 1, df[col])
        return df    
    # 로그 변환 함수 정의
    def log_transform(x):
        return np.log1p(x)  # log(0)을 방지하기 위해 1을 더한 뒤 로그 변환
    
    # 백분율 변환 함수 정의
    def percentage_transform(x):
        return x / 100.0
    
    # int_trans_cols 에 속한 컬럼들의 값 중 100을 1로 변경
    data_transformed = transform_int_columns(data, int_trans_cols)
    
    # 전처리기를 데이터에 적용하기 전에 수정
    # 원-핫 인코딩 관련 코드 제거 및 int_trans_cols 처리 로직 반영
    preprocessor = ColumnTransformer(
        transformers=[
            ('minmax', minmax_scaler, minmax_cols),
            ('log', FunctionTransformer(log_transform), log_cols),
            ('percentage', FunctionTransformer(percentage_transform), percentage_cols),
            ('passthrough', 'passthrough', no_scaling_cols + int_trans_cols)
        ],
        remainder='drop'  # 정의되지 않은 다른 모든 컬럼은 제거
    )
    
    # 전처리된 데이터에 다시 전처리기 적용
    data_transformed_final = preprocessor.fit_transform(data_transformed)
    
    # 변환된 데이터를 DataFrame으로 변환
    transformed_columns = minmax_cols + log_cols + percentage_cols + no_scaling_cols + int_trans_cols
    
    # 변환된 데이터프레임 생성
    data_transformed_df = pd.DataFrame(data_transformed_final, columns=transformed_columns)
    
    # 컬럼 순서 재배열 로직
    new_order = ['datetime']
    remaining_cols = [col for col in data_transformed_df.columns if col not in new_order]
    remaining_cols=new_order+remaining_cols
    data_transformed_df = data_transformed_df[remaining_cols]

    return data_transformed_df



In [149]:
#실시간 데이터를 차트데이터와 예측데이터로 분리
def load_data(df):
    df=data_preprocessing(df)
    chart_data=df[CHART_DATA_COLUMNS]
    predict_data=scaler(df)
    predict_data.drop(['datetime'],axis=1, inplace=True)
    return chart_data, predict_data

## 강화학습 모듈
#### 5. Environment 클래스 (환경)
#### 6. Agent 클래스   (거래)
#### 7. Visualizer 클래스(시각화)
#### 8. Network 클래스 (신경망) 
#### 9. 강화학습 기본모듈

In [150]:
class Environment:
    PRICE_IDX = 4  # 차트데이터에서 종가의 위치

    def __init__(self, chart_data=None):
        self.chart_data = chart_data
        self.observation = None  #에이전트에게 전달한 (분봉,일봉) 차트정보
        self.idx = -1

    def reset(self):  #관찰 초기화 처음으로 이동
        self.observation = None
        self.idx = -1

    def observe(self):  #다음 관찰
        if len(self.chart_data) > (self.idx + 1):
            self.idx += 1
            self.observation = self.chart_data.iloc[self.idx]
            return self.observation
        return None

    def get_price(self):  #현재 종가 반환
        if self.observation is not None:
            return self.observation.iloc[self.PRICE_IDX]
        return None

In [151]:
class Agent:
    # 에이전트 상태가 구성하는 값 개수
    # 주식 보유 비율, 손익률, 주당 매수 단가 대비 주가 등락률
    STATE_DIM = 3

    # 매매 수수료 및 세금
    TRADING_CHARGE = 0.00015  # 거래 수수료 0.015% +
    TRADING_TAX = 0.0018  # 거래세 0.18%
    TRADING_HOGA = 0.0017  # 호가 0.17%

    # 행동
    ACTION_BUY = 0  # 매수
    ACTION_SELL = 1  # 매도
    ACTION_HOLD = 2  # 관망
    # 인공 신경망에서 확률을 구할 행동들
    ACTIONS = [ACTION_BUY, ACTION_SELL, ACTION_HOLD]
    NUM_ACTIONS = len(ACTIONS) #3  # 인공 신경망에서 고려할 출력값의 개수

    def __init__(self, environment, initial_balance, min_trading_price, max_trading_price):
        # 현재 주식 가격을 가져오기 위해 환경 참조
        self.environment = environment   #Environment(chart_data) 클래스
        self.initial_balance = initial_balance  # 초기 자본금

        self.min_trading_price = min_trading_price # 최소 단일 매매 금액
        self.max_trading_price = max_trading_price # 최대 단일 매매 금액

        # Agent 클래스의 속성
        self.balance = initial_balance  # 현재 현금 잔고
        self.num_stocks = 0  # 보유 주식 수
        self.portfolio_value = 0 # 포트폴리오 가치: balance + num_stocks * {현재 주식 가격}

        self.num_buy = 0  # 매수 횟수
        self.num_sell = 0  # 매도 횟수
        self.num_hold = 0  # 관망 횟수

        # Agent 클래스의 상태  STATE_DIM=3
        self.ratio_hold = 0  # 주식 보유 비율 (내자산에서 주식으로 들고있는 비율 주식수*종가 /pv)
        self.profitloss = 0  # 손익률
        self.avg_buy_price = 0  # 주당 매수 단가

    def reset(self):  #다음 에피소드를 위해 초기화
        self.balance = self.initial_balance
        self.num_stocks = 0
        self.portfolio_value = self.initial_balance
        self.num_buy = 0
        self.num_sell = 0
        self.num_hold = 0
        self.ratio_hold = 0
        self.profitloss = 0
        self.avg_buy_price = 0

        #에이전트의 상태 반환  train_data에 추가됨
    def get_states(self):
        self.ratio_hold = self.num_stocks * self.environment.get_price() \
            / self.portfolio_value
        return (
            self.ratio_hold,
            self.profitloss,
            (self.environment.get_price() / self.avg_buy_price) - 1 \
                if self.avg_buy_price > 0 else 0
        )

    def decide_action(self, pred_value, pred_policy, epsilon):
        confidence = 0.

        pred = pred_policy
        if pred is None:
            pred = pred_value

        if pred is None:
            epsilon = 1     #정책, 가치 순으로 값이 없으면 탐험
        else:
            #매수,매도,관망의 예측값이 모두 같은 경우 탐험
            maxpred = np.max(pred)
            if (pred == maxpred).all():
                epsilon = 1

        # 탐험 결정
        if np.random.rand() < epsilon:
            exploration = True
            action = np.random.randint(self.NUM_ACTIONS)  #탐험일경우 무작위 행동
        else:
            exploration = False
            action = np.argmax(pred)

        confidence = .5
        if pred_policy is not None:
            confidence = pred[action]
        elif pred_value is not None:
            confidence = sigmoid(pred[action])

        return action, confidence, exploration

    def validate_action(self, action):
        if action == Agent.ACTION_BUY:
            # 적어도 1주를 살 수 있는지 확인
            if self.balance < self.environment.get_price()*(1+self.TRADING_HOGA) * (1 + self.TRADING_CHARGE):
                return False
        elif action == Agent.ACTION_SELL:
            # 주식 잔고가 있는지 확인
            if self.num_stocks <= 0:
                return False
        return True

    def decide_trading_unit(self, confidence):
        if np.isnan(confidence):
            return self.min_trading_price
        added_trading_price = max(min(int(confidence * (self.max_trading_price - self.min_trading_price))
                                      ,self.max_trading_price-self.min_trading_price), 0)
        trading_price = self.min_trading_price + added_trading_price
        return max(int(trading_price / self.environment.get_price()), 1)  #구매할 주식수 리턴

    def act(self, action, confidence):
        if not self.validate_action(action):
            action = Agent.ACTION_HOLD

        # 환경에서 현재 가격 얻기
        curr_price = self.environment.get_price()

        # 매수
        if action == Agent.ACTION_BUY:
            # 매수할 단위를 판단
            trading_unit = self.decide_trading_unit(confidence)
            balance = (
                self.balance - curr_price *(1+self.TRADING_HOGA)*(1 + self.TRADING_CHARGE) * trading_unit
            )
            # 보유 현금이 모자랄 경우 보유 현금으로 가능한 만큼 최대한 매수
            if balance < 0:
                trading_unit = min(
                    int(self.balance / (curr_price *(1+self.TRADING_HOGA) * (1 + self.TRADING_CHARGE))),
                    int(self.max_trading_price / curr_price)
                )
            # 수수료를 적용하여 총 매수 금액 산정
            invest_amount = curr_price *(1+self.TRADING_HOGA) * (1 + self.TRADING_CHARGE) * trading_unit
            if invest_amount > 0:
                self.avg_buy_price = \
                    (self.avg_buy_price * self.num_stocks + (curr_price *(1+self.TRADING_HOGA) * (1 + self.TRADING_CHARGE) )* trading_unit) \
                        / (self.num_stocks + trading_unit)  # 주당 매수 단가 갱신
                self.balance -= invest_amount  # 보유 현금을 갱신
                self.num_stocks += trading_unit  # 보유 주식 수를 갱신
                self.num_buy += 1  # 매수 횟수 증가

        # 매도
        elif action == Agent.ACTION_SELL:
            # 매도할 단위를 판단
            trading_unit = self.decide_trading_unit(confidence)
            # 보유 주식이 모자랄 경우 가능한 만큼 최대한 매도
            trading_unit = min(trading_unit, self.num_stocks)  #trading_unit은 num_stock보다 작거나 같다.
            # 매도
            invest_amount = curr_price*(1-self.TRADING_HOGA) * (1 - (self.TRADING_TAX + self.TRADING_CHARGE)) * trading_unit
            if invest_amount > 0:
                # 주당 매수 단가 갱신
                self.avg_buy_price = \
                    (self.avg_buy_price * self.num_stocks - (curr_price*(1-self.TRADING_HOGA) * (1 - (self.TRADING_TAX + self.TRADING_CHARGE))) * trading_unit) \
                        / (self.num_stocks - trading_unit) \
                            if self.num_stocks > trading_unit else 0
                self.num_stocks -= trading_unit  # 보유 주식 수를 갱신
                self.balance += invest_amount  # 보유 현금을 갱신
                self.num_sell += 1  # 매도 횟수 증가

        # 관망
        elif action == Agent.ACTION_HOLD:
            self.num_hold += 1  # 관망 횟수 증가

        # 포트폴리오 가치 갱신
        self.portfolio_value = self.balance + curr_price * self.num_stocks
        self.profitloss = self.portfolio_value / self.initial_balance - 1
        return self.profitloss


In [152]:
class Visualizer:
    COLORS = ['r', 'b', 'g']  #매수, 매도, 관망

    def __init__(self):
        self.canvas = None
        # 캔버스 같은 역할을 하는 Matplotlib의 Figure 클래스 객체
        self.fig = None
        # 차트를 그리기 위한 Matplotlib의 Axes 클래스 객체
        self.axes = None
        self.title = ''  # 그림 제목
        self.x = []
        self.xticks = []
        self.xlabels = []

    def prepare(self, chart_data, title):
        self.title = title
        with lock:
            # 캔버스를 초기화하고 5개의 차트를 그릴 준비
            self.fig, self.axes = plt.subplots(
                nrows=5, ncols=1, facecolor='w', sharex=True, figsize=(10, 5)) #차트 크기

            for ax in self.axes:
                # 보기 어려운 과학적 표기 비활성화
                ax.get_xaxis().get_major_formatter() \
                    .set_scientific(False)
                ax.get_yaxis().get_major_formatter() \
                    .set_scientific(False)
                # y axis 위치 오른쪽으로 변경
                ax.yaxis.tick_right()
            # 차트 1. 일봉 차트
            self.axes[0].set_ylabel('Env.')  # y 축 레이블 표시
            x = np.arange(len(chart_data))
            # open, high, low, close 순서로된 2차원 배열
            ohlc = np.hstack((
                x.reshape(-1, 1), np.array(chart_data)[:, 1:-1]))
            # 양봉은 빨간색으로 음봉은 파란색으로 표시
            candlestick_ohlc(self.axes[0], ohlc, colorup='r', colordown='b')
            # 거래량 가시화
            ax = self.axes[0].twinx()
            volume = np.array(chart_data)[:, -1].tolist()
            ax.bar(x, volume, color='b', alpha=0.3)
            # x축 설정
            self.x = np.arange(len(chart_data['datetime']))
            self.xticks = chart_data.index[[0, -1]]
            self.xlabels = chart_data.iloc[[0, -1]]['datetime']

    def plot(self, epoch_str=None, num_epoches=None, epsilon=None,
            action_list=None, actions=None, num_stocks=None,
            outvals_value=[], outvals_policy=[], exps=None,
            initial_balance=None, pvs=None):
        with lock:
            actions = np.array(actions)  # 에이전트의 행동 배열
            # 가치 신경망의 출력 배열
            outvals_value = np.array(outvals_value)
            # 정책 신경망의 출력 배열
            outvals_policy = np.array(outvals_policy)
            # 초기 자본금 배열
            pvs_base = np.zeros(len(actions)) + initial_balance

            # 차트 2. 에이전트 상태 (행동, 보유 주식 수)
            for action, color in zip(action_list, self.COLORS):
                for i in self.x[actions == action]:
                    # 배경 색으로 행동 표시
                    self.axes[1].axvline(i, color=color, alpha=0.1)
            self.axes[1].plot(self.x, num_stocks, '-k')  # 보유 주식 수 그리기

            # 차트 3. 가치 신경망
            if len(outvals_value) > 0:
                max_actions = np.argmax(outvals_value, axis=1)
                for action, color in zip(action_list, self.COLORS):
                    # 배경 그리기
                    for idx in self.x:
                        if max_actions[idx] == action:
                            self.axes[2].axvline(idx, color=color, alpha=0.1)
                    # 가치 신경망 출력 그리기
                    self.axes[2].plot(self.x, outvals_value[:, action],
                        color=color, linestyle='-')

            # 차트 4. 정책 신경망
            # 탐험을 노란색 배경으로 그리기
            for exp_idx in exps:
                self.axes[3].axvline(exp_idx, color='y')
            # 행동을 배경으로 그리기
            _outvals = outvals_policy if len(outvals_policy) > 0 else outvals_value
            for idx, outval in zip(self.x, _outvals):
                color = 'white'
                if np.isnan(outval.max()):
                    continue
                if outval.argmax() == Agent.ACTION_BUY:
                    color = self.COLORS[0]  # 매수 빨간색
                elif outval.argmax() == Agent.ACTION_SELL:
                    color = self.COLORS[1]  # 매도 파란색
                elif outval.argmax() == Agent.ACTION_HOLD:
                    color = self.COLORS[2]  # 관망 초록색
                self.axes[3].axvline(idx, color=color, alpha=0.1)
            # 정책 신경망의 출력 그리기
            if len(outvals_policy) > 0:
                for action, color in zip(action_list, self.COLORS):
                    self.axes[3].plot(
                        self.x, outvals_policy[:, action],
                        color=color, linestyle='-')

            # 차트 5. 포트폴리오 가치
            self.axes[4].axhline(
                initial_balance, linestyle='-', color='gray')  #시작금액 기준선
            self.axes[4].fill_between(self.x, pvs, pvs_base,
                where=pvs > pvs_base, facecolor='r', alpha=0.1) #수익
            self.axes[4].fill_between(self.x, pvs, pvs_base,
                where=pvs < pvs_base, facecolor='b', alpha=0.1) #손해
            self.axes[4].plot(self.x, pvs, '-k')
            self.axes[4].xaxis.set_ticks(self.xticks)
            self.axes[4].xaxis.set_ticklabels(self.xlabels)

            # 에포크 및 탐험 비율
            self.fig.suptitle(f'{self.title}\nEPOCH:{epoch_str}/{num_epoches} EPSILON:{epsilon:.2f}')
            # 캔버스 레이아웃 조정
            self.fig.tight_layout()
            self.fig.subplots_adjust(top=0.85)

    def clear(self, xlim):
        with lock:
            _axes = self.axes.tolist()
            for ax in _axes[1:]:
                ax.cla()  # 그린 차트 지우기
                ax.relim()  # limit를 초기화
                ax.autoscale()  # 스케일 재설정
            # y축 레이블 재설정
            self.axes[1].set_ylabel('Agent')
            self.axes[2].set_ylabel('V')
            self.axes[3].set_ylabel('P')
            self.axes[4].set_ylabel('PV')
            for ax in _axes:
                ax.set_xlim(xlim)  # x축 limit 재설정
                ax.get_xaxis().get_major_formatter() \
                    .set_scientific(False)  # x축의 과학적 표기 비활성화
                ax.get_yaxis().get_major_formatter() \
                    .set_scientific(False)  # y축의 과학적 표기 비활성화
                # x축 간격을 일정하게 설정
                ax.ticklabel_format(useOffset=False)

    def save(self, path):
        with lock:
            self.fig.savefig(path)


In [153]:
class Network:
    lock = threading.Lock()

    def __init__(self, input_dim=0, output_dim=0, lr=0.001,
                shared_network=None, activation='sigmoid', loss='mse'):
        self.input_dim = input_dim
        self.output_dim = output_dim
        self.lr = lr
        self.shared_network = shared_network
        self.activation = activation
        self.loss = loss
        self.model = None

    def predict(self, sample):
        with self.lock:
            pred = self.model.predict_on_batch(sample).flatten()
            return pred

    def train_on_batch(self, x, y):
        loss = 0.
        with self.lock:
            history = self.model.fit(x, y, epochs=10, verbose=False)
            loss += np.sum(history.history['loss'])
        return loss

    def save_model(self, model_path):
        if model_path is not None and self.model is not None:
            self.model.save_weights(model_path, overwrite=True)

    def load_model(self, model_path):
        if model_path is not None:
            self.model.load_weights(model_path)

    @classmethod
    def get_shared_network(cls, net='lstm', num_steps=1, input_dim=0, output_dim=0):
        # output_dim은 pytorch에서 필요
        if net == 'lstm':
            return LSTMNetwork.get_network_head(Input((num_steps, input_dim)))

class LSTMNetwork(Network):
    def __init__(self, *args, num_steps=1, **kwargs):
        super().__init__(*args, **kwargs)
        self.num_steps = num_steps
        inp = None
        output = None
        if self.shared_network is None:
            inp = Input((self.num_steps, self.input_dim))
            output = self.get_network_head(inp).output
        else:
            inp = self.shared_network.input
            output = self.shared_network.output
        output = Dense(
            self.output_dim, activation=self.activation,
            kernel_initializer='random_normal')(output)
        self.model = Model(inp, output)
        self.model.compile(
            optimizer=Adam(learning_rate=self.lr), loss=self.loss)

    @staticmethod
    def get_network_head(inp):
        output = LSTM(256, dropout=0.1, return_sequences=True,
                    kernel_initializer='random_normal')(inp)
        output = BatchNormalization()(output)
        output = LSTM(128, dropout=0.1, return_sequences=True,
                    kernel_initializer='random_normal')(output)
        output = BatchNormalization()(output)
        output = LSTM(64, dropout=0.1, return_sequences=True,
                    kernel_initializer='random_normal')(output)
        output = BatchNormalization()(output)
        output = LSTM(32, dropout=0.1, kernel_initializer='random_normal')(output)
        output = BatchNormalization()(output)
        return Model(inp, output)

    def train_on_batch(self, x, y):
        x = np.array(x).reshape((-1, self.num_steps, self.input_dim))
        return super().train_on_batch(x, y)

    def predict(self, sample):
        sample = np.array(sample).reshape((1, self.num_steps, self.input_dim))
        return super().predict(sample)

In [154]:
logger = logging.getLogger(LOGGER_NAME)

class ReinforcementLearner:
    __metaclass__ = abc.ABCMeta
    lock = threading.Lock()

    def __init__(self, rl_method='rl', stock_code=None,
                chart_data=None, training_data=None,
                min_trading_price=100000, max_trading_price=10000000,
                net='lstm', num_steps=1, lr=0.0005,
                discount_factor=0.9, num_epoches=1000,
                balance=100000000, start_epsilon=1,
                value_network=None, policy_network=None,
                value_network_activation='linear', policy_network_activation='softmax',
                output_path='', reuse_models=True, gen_output=True):
        # 인자 확인
        assert min_trading_price > 0
        assert max_trading_price > 0
        assert max_trading_price >= min_trading_price
        assert num_steps > 0
        assert lr > 0
        # 강화학습 설정
        self.rl_method = rl_method
        self.discount_factor = discount_factor
        self.num_epoches = num_epoches
        self.start_epsilon = start_epsilon
        # 환경 설정
        self.stock_code = stock_code
        self.chart_data = chart_data
        self.environment = Environment(chart_data)
        # 에이전트 설정
        self.agent = Agent(self.environment, balance, min_trading_price, max_trading_price)
        # 학습 데이터
        self.training_data = training_data
        self.sample = None
        self.training_data_idx = -1
        # 벡터 크기 = 학습 데이터 벡터 크기 + 에이전트 상태 크기
        self.num_features = self.agent.STATE_DIM
        if self.training_data is not None:
            self.num_features += self.training_data.shape[1]
        # 신경망 설정
        self.net = net
        self.num_steps = num_steps
        self.lr = lr
        self.value_network = value_network
        self.policy_network = policy_network
        self.reuse_models = reuse_models
        self.value_network_activation = value_network_activation
        self.policy_network_activation = policy_network_activation
        # 가시화 모듈
        self.visualizer = Visualizer()
        # 메모리
        self.memory_sample = []
        self.memory_action = []
        self.memory_reward = []
        self.memory_value = []
        self.memory_policy = []
        self.memory_pv = []
        self.memory_num_stocks = []
        self.memory_exp_idx = []
        # 에포크 관련 정보
        self.loss = 0.
        self.itr_cnt = 0
        self.exploration_cnt = 0
        self.batch_size = 0
        # 로그 등 출력 경로
        self.epoch_summary_dir=None
        self.output_path = output_path
        self.gen_output = gen_output

    def init_value_network(self, shared_network=None, loss='mse'):
        if self.net == 'lstm':
            self.value_network = LSTMNetwork(
                input_dim=self.num_features,
                output_dim=self.agent.NUM_ACTIONS,
                lr=self.lr, num_steps=self.num_steps,
                shared_network=shared_network,
                activation=self.value_network_activation, loss=loss)
            
        if self.reuse_models and os.path.exists(self.value_network_path):
            self.value_network.load_model(model_path=self.value_network_path)

    def init_policy_network(self, shared_network=None, loss='categorical_crossentropy'):
        if self.net == 'lstm':
            self.policy_network = LSTMNetwork(
                input_dim=self.num_features,
                output_dim=self.agent.NUM_ACTIONS,
                lr=self.lr, num_steps=self.num_steps,
                shared_network=shared_network,
                activation=self.policy_network_activation, loss=loss)
            
        if self.reuse_models and os.path.exists(self.policy_network_path):
            self.policy_network.load_model(model_path=self.policy_network_path)

    def reset(self):
        self.sample = None
        self.training_data_idx = -1
        # 환경 초기화
        self.environment.reset()
        # 에이전트 초기화
        self.agent.reset()
        # 가시화 초기화
        self.visualizer.clear([0, len(self.chart_data)])
        # 메모리 초기화
        self.memory_sample = []
        self.memory_action = []
        self.memory_reward = []
        self.memory_value = []
        self.memory_policy = []
        self.memory_pv = []
        self.memory_num_stocks = []
        self.memory_exp_idx = []
        # 에포크 관련 정보 초기화
        self.loss = 0.
        self.itr_cnt = 0
        self.exploration_cnt = 0
        self.batch_size = 0

    def build_sample(self):
        self.environment.observe()
        if len(self.training_data) > self.training_data_idx + 1:
            self.training_data_idx += 1
            self.sample = self.training_data.iloc[self.training_data_idx].tolist()
            self.sample.extend(self.agent.get_states())
            return self.sample  #train_data 와 현재 agent의 상태
        return None

    @abc.abstractmethod
    def get_batch(self):
        pass

    def fit(self):
        # 배치 학습 데이터 생성
        x, y_value, y_policy = self.get_batch()
        # 손실 초기화
        self.loss = None
        if len(x) > 0:
            loss = 0
            if y_value is not None:
                # 가치 신경망 갱신
                loss += self.value_network.train_on_batch(x, y_value)
            if y_policy is not None:
                # 정책 신경망 갱신
                loss += self.policy_network.train_on_batch(x, y_policy)
            self.loss = loss

    def visualize(self, epoch_str, num_epoches, epsilon):
        self.memory_action = [Agent.ACTION_HOLD] * (self.num_steps - 1) + self.memory_action
        self.memory_num_stocks = [0] * (self.num_steps - 1) + self.memory_num_stocks
        if self.value_network is not None:
            self.memory_value = [np.array([np.nan] * len(Agent.ACTIONS))] \
                                * (self.num_steps - 1) + self.memory_value
        if self.policy_network is not None:
            self.memory_policy = [np.array([np.nan] * len(Agent.ACTIONS))] \
                                * (self.num_steps - 1) + self.memory_policy
        self.memory_pv = [self.agent.initial_balance] * (self.num_steps - 1) + self.memory_pv
        self.visualizer.plot(
            epoch_str=epoch_str, num_epoches=num_epoches,
            epsilon=epsilon, action_list=Agent.ACTIONS,
            actions=self.memory_action,
            num_stocks=self.memory_num_stocks,
            outvals_value=self.memory_value,
            outvals_policy=self.memory_policy,
            exps=self.memory_exp_idx,
            initial_balance=self.agent.initial_balance,
            pvs=self.memory_pv,
        )
        self.visualizer.save(os.path.join(self.epoch_summary_dir, f'epoch_summary_{epoch_str}.png'))

    def predict(self):
        # 에이전트 초기화
        self.agent.reset()
        # step 샘플을 만들기 위한 큐
        q_sample = collections.deque(maxlen=self.num_steps)
        result = []
        while True:
            # 샘플 생성
            next_sample = self.build_sample()
            if next_sample is None:
                break

            # num_steps만큼 샘플 저장
            q_sample.append(next_sample)
            if len(q_sample) < self.num_steps:
                continue

            # 가치, 정책 신경망 예측
            pred_value = None
            pred_policy = None
            
            if self.value_network is not None:
                pred_value = self.value_network.predict(list(q_sample))
            if self.policy_network is not None:
                pred_policy = self.policy_network.predict(list(q_sample))
            
            # 신경망 또는 탐험에 의한 행동 결정
            action, confidence, exploration = self.agent.decide_action(pred_value, pred_policy, self.start_epsilon)
            unit=self.agent.decide_trading_unit(confidence)
            # 결정한 행동을 수행하고 보상 획득
            reward = self.agent.act(action, confidence) #self.profitloss = self.portfolio_value / self.initial_balance - 1

            result.append({
                            "시간":str(self.environment.observation[0]),
                            "종가":str(self.environment.observation[4]),
                            "action":str(action),
                            "거래주식수":str(unit),
                            "reward":str(reward)
                           })
            # 행동 및 행동에 대한 결과를 기억
            self.memory_sample.append(list(q_sample))
            self.memory_action.append(action)   #[매수, 매도, 관망] 중 한개
            self.memory_reward.append(reward)
            if self.value_network is not None:
                self.memory_value.append(pred_value)
            if self.policy_network is not None:
                self.memory_policy.append(pred_policy)
            self.memory_pv.append(self.agent.portfolio_value)
            self.memory_num_stocks.append(self.agent.num_stocks)
            if exploration:
                self.memory_exp_idx.append(self.training_data_idx)

        if self.gen_output:
          with open(os.path.join(self.output_path, f'pred_{self.stock_code}.json'), 'w') as f:
            print(json.dumps(result), file=f)

        return result

In [155]:
class DQNLearner(ReinforcementLearner):
    def __init__(self, *args, value_network_path=None, **kwargs):
        super().__init__(*args, **kwargs)
        self.value_network_path = value_network_path
        self.init_value_network()

    def get_batch(self):
        memory = zip(
            reversed(self.memory_sample),  #최신 경험부터 역순으로 접근하여 최근의 경험이 중요하게 작동하도록 함
            reversed(self.memory_action),  #매수, 매도, 관망
            reversed(self.memory_value),   #train data를 신경망으로 예측한 값
            reversed(self.memory_reward),  #portfolio_value / self.initial_balance - 1
        )
        x = np.zeros((len(self.memory_sample), self.num_steps, self.num_features))
        y_value = np.zeros((len(self.memory_sample), self.agent.NUM_ACTIONS))
        value_max_next = 0
        for i, (sample, action, value, reward) in enumerate(memory):
            x[i] = sample
            r = self.memory_reward[-1] - reward
            y_value[i] = value
            y_value[i, action] = r + self.discount_factor * value_max_next  #바로전에 가장 좋았던 가치
            value_max_next = value.max()
        return x, y_value, None

In [156]:
class ActorCriticLearner(ReinforcementLearner):
    def __init__(self, *args, shared_network=None,
        value_network_path=None, policy_network_path=None, **kwargs):
        super().__init__(*args, **kwargs)
        if shared_network is None:
            self.shared_network = Network.get_shared_network(
                net=self.net, num_steps=self.num_steps,
                input_dim=self.num_features,
                output_dim=self.agent.NUM_ACTIONS)
        else:
            self.shared_network = shared_network
        self.value_network_path = value_network_path
        self.policy_network_path = policy_network_path
        if self.value_network is None:
            self.init_value_network(shared_network=self.shared_network)
        if self.policy_network is None:
            self.init_policy_network(shared_network=self.shared_network)

    def get_batch(self):
        memory = zip(
            reversed(self.memory_sample),
            reversed(self.memory_action),
            reversed(self.memory_value),
            reversed(self.memory_policy),
            reversed(self.memory_reward),
        )
        x = np.zeros((len(self.memory_sample), self.num_steps, self.num_features))
        y_value = np.zeros((len(self.memory_sample), self.agent.NUM_ACTIONS))
        y_policy = np.zeros((len(self.memory_sample), self.agent.NUM_ACTIONS))
        value_max_next = 0
        for i, (sample, action, value, policy, reward) in enumerate(memory):
            x[i] = sample
            r = self.memory_reward[-1] - reward
            y_value[i, :] = value
            y_value[i, action] = r + self.discount_factor * value_max_next
            y_policy[i, :] = policy
            y_policy[i, action] = softmax(r)
            value_max_next = value.max()
        return x, y_value, y_policy


class A2CLearner(ActorCriticLearner):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def get_batch(self):
        memory = zip(
            reversed(self.memory_sample),
            reversed(self.memory_action),
            reversed(self.memory_value),
            reversed(self.memory_policy),
            reversed(self.memory_reward),
        )
        x = np.zeros((len(self.memory_sample), self.num_steps, self.num_features))
        y_value = np.zeros((len(self.memory_sample), self.agent.NUM_ACTIONS))
        y_policy = np.zeros((len(self.memory_sample), self.agent.NUM_ACTIONS))
        value_max_next = 0
        reward_next = self.memory_reward[-1]
        for i, (sample, action, value, policy, reward) in enumerate(memory):
            x[i] = sample
            r = reward_next + self.memory_reward[-1] - reward * 2
            reward_next = reward
            y_value[i, :] = value
            y_value[i, action] = np.tanh(r + self.discount_factor * value_max_next)
            advantage = y_value[i, action] - y_value[i].mean()
            y_policy[i, :] = policy
            y_policy[i, action] = softmax(advantage)
            value_max_next = value.max()
        return x, y_value, y_policy


class A3CLearner(ReinforcementLearner):
    def __init__(self, *args, list_stock_code=None,
        list_chart_data=None, list_training_data=None,
        list_min_trading_price=None, list_max_trading_price=None,
        value_network_path=None, policy_network_path=None,
        **kwargs):
        assert len(list_training_data) > 0
        super().__init__(*args, **kwargs)
        self.num_features += list_training_data[0].shape[1]

        # 공유 신경망 생성
        self.shared_network = Network.get_shared_network(
            net=self.net, num_steps=self.num_steps,
            input_dim=self.num_features,
            output_dim=self.agent.NUM_ACTIONS)
        self.value_network_path = value_network_path
        self.policy_network_path = policy_network_path
        if self.value_network is None:
            self.init_value_network(shared_network=self.shared_network)
        if self.policy_network is None:
            self.init_policy_network(shared_network=self.shared_network)

        # A2CLearner 생성
        self.learners = []
        for (stock_code, chart_data, training_data,
            min_trading_price, max_trading_price) in zip(
                list_stock_code, list_chart_data, list_training_data,
                list_min_trading_price, list_max_trading_price
            ):
            learner = A2CLearner(*args,
                stock_code=stock_code, chart_data=chart_data,
                training_data=training_data,
                min_trading_price=min_trading_price,
                max_trading_price=max_trading_price,
                shared_network=self.shared_network,
                value_network=self.value_network,
                policy_network=self.policy_network, **kwargs)
            self.learners.append(learner)

    def run(self, learning=True):
        threads = []
        for learner in self.learners:
            threads.append(threading.Thread(
                target=learner.run, daemon=True, kwargs={'learning': learning}
            ))
        for thread in threads:
            thread.start()
        for thread in threads:
            thread.join()

    def predict(self):
        threads = []
        for learner in self.learners:
            threads.append(threading.Thread(
                target=learner.predict, daemon=True
            ))
        for thread in threads:
            thread.start()
        for thread in threads:
            thread.join()

### MAIN

In [157]:
# 학습기 파라미터 설정
rl='a2c'
net='lstm'
code='247540'

ebast=ebastapi(APP_KEY,APP_SECRET)   #ebastapi활용을위한 접근 토큰
ma=make_ma(code)                     #일평선
floating=floating_data()             #유동주식정보

output_name = f'{code}_{get_time_str()}_{rl}_{net}'
learning = 'train' in ['train', 'update']
reuse_models = True
value_network_name = f'{code}_{get_time_str()}_{rl}_{net}_value'
policy_network_name = f'{code}_{get_time_str()}_{rl}_{net}_policy'
start_epsilon = 0 
num_epoches = 0 
num_steps = 20

value_network_path = os.path.join(BASE_DIR, 'models', value_network_name
                                  ,f'{code}_value_network',f'{code}_value_network_000.h5')
policy_network_path = os.path.join(BASE_DIR, 'models', policy_network_name
                                  ,f'{code}_policy_network',f'{code}_policy_network_000.h5')

output_path=os.path.join(BASE_DIR, 'output','output_name')

# 최소/최대 단일 매매 금액 설정
min_trading_price = 500000
max_trading_price = 1000000

URL          :  https://openapi.ebestsec.co.kr:8080/oauth2/token 

OAuth        : 
{'access_token': 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzUxMiJ9.eyJzdWIiOiJ0b2tlbiIsImF1ZCI6ImNjOGU5OGI3LTRhMGYtNDc3MC1hZDVjLTY0YWE4YTRkODUxMyIsIm5iZiI6MTcxMDI1NTgzMywiZ3JhbnRfdHlwZSI6IkNsaWVudCIsImlzcyI6InVub2d3IiwiZXhwIjoxNzEwMzY3MTk5LCJpYXQiOjE3MTAyNTU4MzMsImp0aSI6IlBTWDNXcWJ0QkNrajVua2JNNWloWmR5TkV6VXo4SFFUalFUSCJ9.EZU6_DfqnnEchGf6YOOijXkh_Z5tWVfCh9GdoiOgb9ylFbmZTmZgh2pujQBdHNw_jsZtzMiA7f7P1oSHrng9YA',
 'expires_in': 111366,
 'scope': 'oob',
 'token_type': 'Bearer'}


In [158]:
#서버의 현재시간 구하기
datetime_obj=ebast.t0167() #년-월-일 시:분:초
    
print(datetime_obj)
# 다음 분의 시작까지 남은 시간을 계산합니다.
next_minute = (datetime_obj + timedelta(minutes=1)).replace(second=0, microsecond=0)
wait_seconds = (next_minute - datetime_obj).total_seconds()
    # # 계산된 시간만큼 대기합니다.
time.sleep(wait_seconds)
# # 대기 후 메시지를 출력합니다.
print(f"It's now {next_minute.strftime('%Y-%m-%d %H:%M:%S')}")

2024-03-13 12:21:25
It's now 2024-03-13 12:22:00


In [160]:
while True:
    _df=chart_data(ebast,code)
    #실시간 데이터 불러오기
    live=merge_data(_df,ma,floating)
    live_chart_data,live_predict_data=load_data(live)
    live_chart_data=live_chart_data[-20:]
    live_predict_data=live_predict_data[-20:]

    # 공통 파라미터 설정
    test_common_params={ 'rl_method':rl,
                       'stock_code':code,
                        'chart_data':live_chart_data,
                        'training_data': live_predict_data,
                        'min_trading_price':min_trading_price, 'max_trading_price':max_trading_price,
                        'net':net,'num_steps':num_steps, 'lr':0.001,
                        'discount_factor':0.9,
                        'num_epoches':1,
                        'balance':500000000,  #보유 자산 불러오기
                        'start_epsilon':0,
                        'output_path':output_path,
                        'reuse_models':True
                      }
    
    # 학습기 초기화 및 에측
    learner_a2c = None
    learner_a2c= A2CLearner(**{**test_common_params,
                            'value_network_path': value_network_path,
                            'policy_network_path': policy_network_path})
    lock = threading.Lock()
    predict=learner_a2c.predict()

    # 매수/매도 포지션 및 주문량 결정
    action=None
    orderqty=None
    
    if predict[-1]['action']=='0':
        print('매수') 
        action='2'
        orderqty=int(predict[-1]['거래주식수'])
    elif predict[-1]['action']=='1':
        print('매도') 
        action='1'
        orderqty=int(predict[-1]['거래주식수'])
    elif predict[-1]['action']=='2':
        print('관망')
        
    # 주문하고 획인하기
    order_json=ebast.CSPAT00601(code ,orderqty,action)
    print(order_json)

매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg': '모의투자 매도가능수량이 부족합니다.'}
매도
{'rsp_cd': '01478', 'rsp_msg

KeyboardInterrupt: 