# # Intro To Tensorflow # 5

# by PARK-SI HYUNG. 2019-01-23
---

# Q-LEARNING FOR TRADING
> 강화학습을 이용해 주식투자를 해봅니다

![JPEG](http://manul.io/img/gekkos/arch.png)


#   
# MARKOV DECISION PROCESS
> 다음 상태의 확률은 오직 현재의 상태와 현재의 행동에만 영향을 받습니다

#### Markov Decision Process는 강화학습의 기반을 이루고 있습니다
- 한 STATE가 다른 STATE 이동할 확률의 합은 1을 유지한 상태로
- 여러 STATE가 연쇄적으로 이어져 있습니다
- 여기에 REWARD를 추가하여 다음 STATE 가는 것이 얼마나 가치있는지 알 수 있습니다

![JPEG](https://t1.daumcdn.net/cfile/tistory/99904A4C5A36185431)

# HOW MARKOV DECISION PROCESS WORKS?
- 1. T 시점에 STATE S에 놓인 AGENT가 POLICY에 따라 ACTION A를 수행합니다
- 2. STATE S에서 ACTION A를 수행하면 REWARD를 받습니다
- 3. TRANSITION PROBABILITY에 따라 STATE S'로 이동

![JPEG](https://i.imgur.com/xtxTgO1.png)

#### POLICY : POLICY : STATE S에서 ACTOIN A를 취할 확률
#### TRANSITION PROBABILITY : STATE S에서 ACTION A를 해서 STATE S'로 이동할 확률

# STATE
- AGENT가 인식하는 자신의 상태입니다
- 주식의 경우 우리가 보유하고 있는 주식의 양, 주식의 시장 가격 등이 되겠습니다
- ARRAY로 표현이 가능합니다
#   

# ACTION
- 주식시장에서는 BUY, SELL, HOLD의 세가지 행동만 존재합니다
- AGENT가 ACTION을 취함에 따라 STATE를 변화시킬 수 있습니다
#   

# AGENT
- 행동을 하는 주체
#   

# ENVIRONMENT
- AGENT가 행동을 취하는 공간(게임이라면 맵)
#      

# REWARDS
- AGENT가 ACTION을 취하면 그에 따른 REWARD를 'ENVIRONMENT'가 AGENT에게 알려줍니다
- 바둑의 경우는 승패, 주식의 경우는 얼마나 오를지 내릴지가 되겠습니다
![JPEG](http://www.modulabs.co.kr/files/attach/images/334/192/003/af927db4928fa1c9c68c133ea73e0737.png)


#   

---

# DISCOUNTED FUTURE REWARD
> 할인된 미래의 보상(!?)

- 오랜 시간동안 좋은 수행능력이 나오기 위해선 당장의 REWARD를 포함해서 미래에 얻을
- REWARD도 반영할 수 있어야 합니다
- AGENT에 가장 좋은 지침은 미래의 REWARD를 극대화시켜서 행동을 택하게 하는것 입니다
- 보통 현재의 보상에 가중치를 높게 주고 미래의 보상에 가중치를 낮게 줍니다
#   
#  Q-LEARNING
> MARKOV DECISION PROCESS와 다르게 모델을 몰라도 학습하는 방법(ACTION VALUE)

- MARKOV DECISION PROCESS는 다음 STATE들에 대한 정보를 모두 알아야 하고
- 그 STATE로 가려면 어떻게 해야하는 지도 알아야 합니다
- 이렇게, 다음 STATE의 정보와 상관없이 ACTION으로만 평가하는것이 Q-LEARNING 입니다

![JPEG](http://www.modulabs.co.kr/files/attach/images/334/237/003/90c80cf356a95548c5fac0702e528280.png)

- Q-FUNCTION은 '주어진 상태에서 행동을 수행한 후 게임이 끝날 때 가능한 최상의 점수'입니다
- Q-FUNCTION을 구하기 위해 BELLMAN 방정식을 반복적으로 사용하여 계산합니다

#   
# BELLMAN EQUATION
> ACTION VALUE FUNCTION

- 현재 상태와 행동에 대한 미래의 최대 보상은, 즉각적인 보상과 다음 상태에서 얻을 수 있는<BR>미래의 최대 보상의 합 입니다
- 모든 경로를 처음부터 따라가지 않고, SAMPLING을 통해서 '한 번 가보자' 생각하고 실행한 <BR>후에 학습합니다 
    
![JPEG](https://i.imgur.com/IK7oFYV.png)
#   

# HOW Q-LEARNING WORKS ?

- Q(s,a)를 초기화합니다. 
- ACTION A를 선택합니다
- ACTION A를 수행 해서 S'으로 넘어갑니다.
- S'으로 넘어갈 때의 REWARD를 측정합니다
- Q를 UPDATE하고 다시 s로 돌아가 최적의 Q를 찾을때까지 반복합니다

#     

![JPEG](https://i.imgur.com/zYJ1WW3.png)

#    
#     
#     

# Q-LEARNING TUTORIAL
#   
#### https://github.com/llSourcell/Reinforcement_Learning_for_Stock_Prediction
- 위 사이트에서 Clone or download로 파일을 모두 받고
- 터미널을 이용해 다운받은 폴더까지 이동한 다음

#### mkdir model
#### python train.py ^GSPC 10 10

- 을 입력해 훈련시킵니다.
- GSPC는 S&P500 식별코드고 앞의 숫자는 WINDOW(한번에 입력받는 양)
- 뒤의 숫자는 훈련 횟수입니다
---
#### python evaluate.py ^GSPC_2011 model_ep10
- 훈련이 끝나면 위 코드를 입력해 평가해봅시다.

In [None]:
# train.py 코드를 살펴봅시다

# Agent.py에서 Agent를 불러옵니다
from agent.agent import Agent
from functions import *
import sys

# 입력으로 주식, 한번에 입력받는 수, 훈련횟수를 입력합니다
# 하나라도 빠지면 훈련이 시작되지 않게합니다
if len(sys.argv) != 4:
    print("Usage: python train.py [stock] [window] [episodes]")
    exit()

# 입력받은 인자들을 stock_name, window_size, episode_count에 넣어줍니다
stock_name, window_size, episode_count = sys.argv[1], int(sys.argv[2]), int(sys.argv[3])
 
agent = Agent(window_size)
data = getStockDataVec(stock_name)
l = len(data) - 1
batch_size = 32

# 훈련횟수만큼 훈련시킵니다
for e in range(episode_count + 1):
    print("Episode " + str(e) + "/" + str(episode_count))
    # state를 초기화 해줍니다
    state = getState(data, 0, window_size + 1)

    total_profit = 0
    agent.inventory = []
    
    # data의 수만큼 훈련시킵니다
    for t in range(l):
        # agent가 action을 합니다
        action = agent.act(state)
        
        # 사거나 팔지않을 경우 hold합니다
        # 다음 state로 넘어가고 reward는 0
        next_state = getState(data, t + 1, window_size + 1)
        reward = 0
        
        # action==1이면 주식을 삽니다
        # action은 agent가 결정합니다
        if action == 1: # buy
            agent.inventory.append(data[t])
            print("Buy: " + formatPrice(data[t]))
        
        # 이전에 주식을 산 적이 있고(agent.inventory > 0)
        # agent의 action==2이면 주식을 팝니다
        elif action == 2 and len(agent.inventory) > 0: # sell
            # inventory에서 맨 처음 값을 빼옵니다
            bought_price = agent.inventory.pop(0)
            # 수익이 나면 reward로 수익을 주고
            # 손해를 보면 0을 reward로 줍니다
            reward = max(data[t] - bought_price, 0)
            # total_propit에 수익만큼 더해줍니다
            total_profit += data[t] - bought_price
            print("Sell: " + formatPrice(data[t]) + " | Profit: " + formatPrice(data[t] - bought_price))

        done = True if t == l - 1 else False
        agent.memory.append((state, action, reward, next_state, done))
        state = next_state

        if done:
            print("--------------------------------")
            print("Total Profit: " + formatPrice(total_profit))
            print("--------------------------------")

        if len(agent.memory) > batch_size:
            agent.expReplay(batch_size)

    if e % 10 == 0:
        agent.model.save("models/model_ep" + str(e))

In [None]:
# Agent의 코드를 알아봅시다
# Agent는 Neural Network로 구성되어있습니다
import keras
from keras.models import Sequential
from keras.models import load_model
from keras.layers import Dense
from keras.optimizers import Adam

import numpy as np
import random
from collections import deque

class Agent:
    def __init__(self, state_size, is_eval=False, model_name=""):
        self.state_size = state_size # normalized previous days
        # 3가지 action : hold, buy, sell
        self.action_size = 3
        # 양방향 큐, 양쪽으로 넣고 뺄수 있습니다
        self.memory = deque(maxlen=1000)
        self.inventory = []
        self.model_name = model_name
        self.is_eval = is_eval
        
        # hyperparameter 설정
        self.gamma = 0.95
        self.epsilon = 1.0
        self.epsilon_min = 0.01
        self.epsilon_decay = 0.995

        self.model = load_model("models/" + model_name) if is_eval else self._model()

    def _model(self):
        model = Sequential()
        model.add(Dense(units=64, input_dim=self.state_size, activation="relu"))
        model.add(Dense(units=32, activation="relu"))
        model.add(Dense(units=8, activation="relu"))
        model.add(Dense(self.action_size, activation="linear"))
        model.compile(loss="mse", optimizer=Adam(lr=0.001))

        return model
    
    # hold, buy, sell을 결정하는 action
    def act(self, state):
        if not self.is_eval and random.random() <= self.epsilon:
            return random.randrange(self.action_size)

        options = self.model.predict(state)
        return np.argmax(options[0])

    def expReplay(self, batch_size):
        mini_batch = []
        l = len(self.memory)
        for i in range(l - batch_size + 1, l):
            mini_batch.append(self.memory[i])

        for state, action, reward, next_state, done in mini_batch:
            target = reward
            if not done:
                target = reward + self.gamma * np.amax(self.model.predict(next_state)[0])

            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)

        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay 

#   
#   
# CARTPOLE GAME
> 최대한 오함마의 중심을 잡아주는 게임입니다

![JPEG](https://keon.io/images/deep-q-learning/animation.gif)

- STATE는 4개의 정보를 입력받습니다.(오함마의 기울어진 정도, 위치 등등)
- AGENT는 0(왼쪽으로 이동), 1(오른쪽으로 이동) 두가지 ACTION을 취합니다
#   
# DEEP Q NETWORK
> NEURAL NETWORK를 통해 우린 한 번도 보지못한 곳의 Q값도 <BR> 좋은 예측값으로 가지고 있어야 합니다

####  
- 1. 모든 행동들을 위해 예측된 Q값들을 가질 수 있도록 현재상태를 위해 FORWARD 시킵니다
- 2. 다음 상태를 위해 통과시키고 결과값의 최댓값을 계산합니다
- 3. 최댓값을 향해 행동하는 Q값의 대상을 설정하고, 나머지 행동들은 REWARD를 0으로 합니다
- 4. BACKPROP을 통해 WEIGHT를 UPDATE합니다
- 5. 이를 통해 현재 STATE에서 UNSEEN INPUT을 가지고 REWARD VALUE를 예측할 수 있습니다

![JPEG](https://keon.io/images/deep-q-learning/deep-q-learning.png)
#### 초반에는 예측값이 낮아 LOSS가 크지만 차차 예측값이 높아져 LOSS가 작아집니다
#   
# Q-FUNCTION
####   
- 먼저 행동 a를 수행하고 보상 r과 새로운 상태 s를 관찰합니다
- 결과를 바탕으로 최대 목표 Q를 계산한 후 미래보상이 현재보상보다 낮게 설정합니다
- 마지막으로 DISCOUNTED된 미래 보상에 현재보상을 더해 목표값을 얻습니다
- 목표값 - 현재 예상치 = LOSS입니다, 이 값을 제곱해 큰 손실값에 더 PENALTY를 줍니다
- 또한 음수값을 양수값으로 바꿔줄 수 있습니다
![JPEG](https://i.imgur.com/fzIuuTU.png)


#   
# REMEMBER
- NEURAL NETWORK는 이전 기억들을 반영하지않습니다(그래서 RNN이 등장했습니다)
- 이를 방지하기 위해 PREVIOUS EXPERIENCE LIST를 만들어 줘야 합니다
- MEMORY LIST를 만들고 REMEMBER() 함수를 이용해
- STATE, ACTION, REWARD, NEXT STATE를 넣어줍니다

![JPEG](https://i.imgur.com/6ljx4Dj.png)
![JPEG](https://i.imgur.com/rW7fwWQ.png)
#   
# REPLAY
- REMEMBER를 했으면 이제 REPLAY를 이용해 써먹어야합니다
- EXPERIENCE를 이용해 TRAIN 해줍니다
- MINIBATCH는 MEMORY LIST에서 랜덤하게 가져와 배치시켜 줍니다

![JPEG](https://i.imgur.com/fpv0yVu.png)
#   
# HYPER PARAMETER
> 미래보상을 최대화 하기 위해 HYPER PARAMETER들을 지정해 줍니다

- EPISODE - AGENT가 PLAY할 게임의 수
- GAMMA - DISCOUNT RATE, 현재 보상을 크게하기 위해 미래 보상을 할인할 비율
- EPSILON - 탐색 비율, 처음엔 패턴을 보기전에 AGENT가 모든 종류를 시도하는것이<BR>낫기 때문에 1로 설정하는것이 좋습니다. 이후 EPSILON이 점차 줄면서<BR>
    AGENT는 현재 상태를 기반으로 보상값을 예측하고 가장 높은 값을 선택합니다
- EPSILON DECAY - 좋은 결과를 위해 차차 EPSILON을 줄여나가야 합니다
- EPSILON MIN - 최소한의 EPSILON
    
    
#  

In [1]:
import random
import gym
import numpy as np
from collections import deque
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

Using TensorFlow backend.


In [14]:
# 1000번 훈련시킵니다
EPISODES = 100

# DEEP-Q-LEARNING의 AGENT를 정의합니다
class DQNAgent:
    def __init__(self, state_size, action_szie):
        self.state_size = state_size
        # action_size는 행동의 갯수
        self.action_size = action_size
        # 메모리를 2000 사이즈의 양방향 큐로 초기화
        self.memory = deque(maxlen=2000)
        # discount rate
        self.gamma = 0.95
        # exploration rate, 탐사 속도 ?
        # 처음엔 패턴을 보기전에 AGENT가 모든 종류
        self.epsilon = 1.0
        self.epsilon_min = 0.01
        self.epsilon_decay = 0.995
        self.learning_rate = 0.001
        self.model = self._build_model()
    
    # DEEP-Q LEANRING을 위한 Neural Net을 생성
    # Fully Connected Neural Net을 사용하며
    # Adam optimizer와 loss function은 Min Squared Error를 사용
    def _build_model(self):
        model = Sequential()
        model.add(Dense(24, input_dim=self.state_size, activation='relu'))
        model.add(Dense(24, activation='relu'))
        model.add(Dense(self.action_size, activation='linear'))
        model.compile(loss='mse',
                      optimizer=Adam(lr=self.learning_rate))
        return model
    
    # state, action, reward, next_state를 저장해둡니다
    def remember(self, state, action, reward, next_state, done):
        self.memory.append((state, action, reward, next_state, done))

    # 어떤 action을 취할지 정의합니다
    # 우리는 오른쪽으로 이동, 왼쪽으로 이동 2가지만 존재합니다
    def act(self, state):
        # 처음엔 AGENT가 아무정보가 없기때문에 무작위로 행동하는것이 좋습니다
        # 따라서 초기에는 epsilon을 크게 설정하고, 이후 차차 줄여가면서
        # 현재 상태의 기반으로 보상값을 예측하고 가장 높은 값을 선택합니다
        if np.random.rand() <= self.epsilon:
            return random.randrange(self.action_size)
        # epsilon이 충분히 낮아지면 Neural Network를 이용해 values를 예측합니다
        act_values = self.model.predict(state)
        # values중 가장 큰 값을 반환합니다
        return np.argmax(act_values[0])
    
    # 컴퓨터 연산을 줄이기위해 replay를 합니다
    def replay(self, batch_size):
        minibatch = random.sample(self.memory, batch_size)
        for state, action, reward, next_state, done in minibatch:
            target = reward
            # train이 끝나지 않았다면
            if not done:
                target = (reward + self.gamma *
                          np.amax(self.model.predict(next_state)[0]))
            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)
        
        # 방향성을 유지하기 위해 epsilon을 차차 줄여나갑니다
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay
    
    def load(self, name):
        self.model.load_weights(name)
    
    def save(self, name):
        self.model.save_weights(name)

In [15]:
# 훈련을 실행합니다
if __name__ == "__main__":
    # CartPole 게임을 불러와 ENVIRONMENT로 설정합니다
    env = gym.make('CartPole-v1')
    state_size = env.observation_space.shape[0]
    # 왼쪽으로 이동, 오른쪽으로 이동 총 2가지
    action_size = env.action_space.n
    # 우리가 설정한 DQNAgent를 불러옵니다
    agent = DQNAgent(state_size, action_size)
    done = False
    batch_size = 32
    
    # 훈련횟수만큼 훈련합니다
    for e in range(EPISODES):
        # state를 초기화합니다
        state = env.reset()
        state = np.reshape(state, [1, state_size])
        # 한번 훈련마다 500번 탐색합니다
        for time in range(500):
            # epsilon에 맞게 action을 선택합니다
            # epsilon이 높다면 무작위로 선택할것이고(초기에)
            # epsilon이 낮다면 방향성에 맞게 action을 취할것입니다
            action = agent.act(state)
            # action의 결과로 next_state, reward, done 여부를 반환합니다
            next_state, reward, done, _ = env.step(action)
            # 훈련이 모두 끝나면 reward로 -10을 반환합니다(?)
            reward = reward if not done else -10
            # 다음 단계를 위해 next_state를 위해 초기화해줍니다
            next_state = np.reshape(next_state, [1, state_size])
            # 처음부터 다시 계산하지 않기 위해 remember 합니다
            agent.remember(state, action, reward, next_state, done)
            # 다음단계로 이동
            state = next_state
            # 훈련이 한번 끝나면 score와 epsilon을 반환
            if done:
                print("episode: {}/{}, score: {}, e: {:.2}"
                      .format(e+1, EPISODES, time, agent.epsilon))
                break
            # 예전 experience를 가지고 다시 훈련합니다
            if len(agent.memory) > batch_size:
                agent.replay(batch_size)

episode: 0/100, score: 17, e: 1.0
episode: 1/100, score: 17, e: 0.99
episode: 2/100, score: 23, e: 0.88
episode: 3/100, score: 16, e: 0.81
episode: 4/100, score: 19, e: 0.74
episode: 5/100, score: 13, e: 0.69
episode: 6/100, score: 16, e: 0.64
episode: 7/100, score: 15, e: 0.59
episode: 8/100, score: 14, e: 0.55
episode: 9/100, score: 14, e: 0.51
episode: 10/100, score: 12, e: 0.48
episode: 11/100, score: 18, e: 0.44
episode: 12/100, score: 7, e: 0.43
episode: 13/100, score: 19, e: 0.39
episode: 14/100, score: 9, e: 0.37
episode: 15/100, score: 9, e: 0.35
episode: 16/100, score: 8, e: 0.34
episode: 17/100, score: 9, e: 0.33
episode: 18/100, score: 8, e: 0.31
episode: 19/100, score: 9, e: 0.3
episode: 20/100, score: 8, e: 0.29
episode: 21/100, score: 9, e: 0.27
episode: 22/100, score: 9, e: 0.26
episode: 23/100, score: 15, e: 0.24
episode: 24/100, score: 18, e: 0.22
episode: 25/100, score: 10, e: 0.21
episode: 26/100, score: 12, e: 0.2
episode: 27/100, score: 7, e: 0.19
episode: 28/100,