# 04. 모듈 개발 : 강화학습 기반 주식투자 시스템 개발 (1) - RLTrader의 구조 & 환경 모듈 개발

<img src="figures/cap01.jpeg" width=600 />
<img src="figures/cap02.jpeg" width=600 />
<img src="figures/cap03.jpeg" width=600 />
<img src="figures/cap04.jpeg" width=600 />

# 4.2 RLTrader의 구조 

## 4.2.1 모듈 구조

<img src="figures/cap05.jpeg" width=600 />

## 4.2.2 디레토리 구조

In [3]:
%ls ../rltrader/

agent_custom.py         [0m[01;34mimg[0m/                 policy_network_dnn.py
agent.py                LICENSE              policy_network.py
creon.py                main_custom.py       portal.py
[01;34mdata[0m/                   _main_notraining.py  preprocessor.ipynb
data_manager_custom.py  main_notraining.py   README.md
data_manager.py         main.py              settings.py
environment.py          policy_learner.py    visualizer.py


## 4.2.3 에이전트 모듈 개요

Agent 클래스 (Agent)
* 투자자 역할 하는 클래스
* 내부 상태 : 초기 자본금, 현금 잔고, 주식 잔고
* 포트폴리오 가치(PV)
    * PV = 주식 잔고 X 현재 주가 + 현금 잔고


## 4.2.4 환경 모듈 개요

환경 클래스 (Environment)
* 에이전트가 투자할 차트 데이터를 관리함
* 과거 시점부터 가장 최근 시점까지 순차적으로 데이터를 제공
* 학습을 위해 과거로 돌아간 에이전트는, 미래의 차트 데이터는 알 수 없다.


## 4.2.5 정책 신경망 모듈 개요

정책 신경망 클래스(PolicyNetwork)
* 특정 시점의 주식 데이터(sample)가 제공되었을 때
    * 매수 또는
    * 매도
    * 를 결정하는 뇌와 같은 역할
* LSTM으로 구성되어 있고, 매수와 매도 행위에 대해 PV를 높일 수 있을지의 확률을 계산
* RLTrader는 정책 신경망을 통해 주식 잔고를 늘릴지 줄일지를 결정.
    * 주식 데이터 -> 정책 신경망 -> 매수와 매도의 확률이 나오고 그 중 확률이 가장 높은 것을 선택


## 4.2.6 가시화기 모듈 개요

주식 데이터 학습 과정을 직관적으로 파악하기 위해  환경, 에이전트 상태, 정책 신경망 출력 등을 그림 파일로 시각화

## 4.2.7 정책 학습기 모듈 개요

정책 학습기 클래스 
* 앞의 모듈들을 가지고 강화학습을 수행
* RLTrader의 몸체
* 학습 데이터를 가지고 있음
* 정책 신경망을 학습시킴

# 4.3 환경 모듈 개발

## 4.3.1 환경 모듈의 주요 속성과 함수

속성
* PRICE_IDX
* idx
* chart_data
* observation

함수
* \__init\__ <- chart_data
* reset
* observe
* get_price
* set_chart_data <- chart_data

In [7]:
import environment as Env

In [8]:
import importlib as imp 

In [18]:
env = Env.Environment()

In [19]:
dir(env)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__']

---------------------

In [23]:
imp.reload(Env)

<module 'environment' from '/home/jovyan/work/deep_choice/rl_finance/ch04/environment.py'>

In [24]:
env = Env.Environment()

환경생성!
chart_data:
None


In [25]:
dir(env)

['PRICE_IDX',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'get_price',
 'observe',
 'reset',
 'set_chart_data']

In [26]:
env.reset()

reset!!


In [27]:
env.observe()

observe!!


In [28]:
env.get_price()

get_price!!


In [30]:
chart_data = []
env.set_chart_data(chart_data)

set_chart_data
chart_data:

[]


## 4.3.2 코드 조각 : 환경 클래스의 전체 소스 코드

In [31]:
%ls ../rltrader/environment.py

../rltrader/environment.py


# 4.4 에이전트 모듈 개발

## 4.4.1 에이전트 모듈의 주요 속성과 함수

In [None]:
속성

In [None]:
함수

## 4.4.2 코드 조각 1 : 에이전트 클래스의 상수 선언 부분

## 4.4.3 코드 조각 2 : 에이전트 클래스의 생성자 부분

## 4.4.3 코드 조각 3 : 에이전트 클래스의 함수 부분

In [None]:
get/set

In [None]:
유효성 검사

In [None]:
매수/매도 단위 결정 함수

In [None]:
투자 행동 수행 함수(행동 준비)

In [None]:
투자 행동 수행 함수(매수)

In [None]:
투자 행동 수행 함수(매도 및 관망)

In [None]:
투자 행동 수행 함수(포트폴리오 가치 갱신 및 지연 보상 판단)