앞 장에서는 상태가 주어졌을 때 **"Reward"**이 가장 큰 **"Action"**을 선택하는 방법을 학습하는 간단한 **"Agent"**를 만드는 방법을 살펴보았다.

**"Agent"**에게 완전한 문제를 제시하는 환경을 **Markov decision process**(마르코프 결정 과정)이라고 한다. 이러한 환경은 주어진 환경에서의 보상과 상태 전이를 제공하는데 그 치지 않고, 보상 역시 환경의 상태와 에이전트가 자신의 상태에서 취하는 액션에 의해 좌우됩니다. 이러한 역학 역시 시간의 영향을 받으며 지연될 수 있다. 

### **목적**

카트에 놓여 있는 폴이 최대한 오랜 시간동안 넘어지지 않도록 **"Agent"**가 중심을 잡는 방법을 학습하게 하는 것

> 앞에서 한 예제들과 달리 위 과제는 `시간의 흐름`에 따른 역학을 포함한다. 즉, 폴을 최대한 오랜 시간 동안 선 상태로 유지한다는 것은 현재와 미래 모두에 대해 유리한 방향으로 이동하는 것을 의미한다.

- 정책 경사의 형태를 조정 필요 (시간의 흐름에 따라 보상을 받는다는 점을 고려)
    - **Agent**가 한 순간에 하나 이상의 경험을 가지도록 업데이트 필요, 이를 위해 경험을 버퍼 내에 모아두었다가 한 번에 **Agent**에 업데이트할 것, 이러한 축적된 연속적인 경험을 **Rollout** 또는 **Experience trace**라고 한다. 이때 롤아웃은 그 자체로 적용하는 것이 아니라, 보상이 할인 계수 $\gamma$에 의해 적절히 조절되도록 보장할 필요가 있다.
    - 직관적으로 생각해보면 각각의 **Action**이 즉각적인 보상뿐만 아니라 추후에 오게 될 모든 보상에 대해서도 어느 정도씩 책임을 지게 하는 효과를 만든다고 이해하면 된다.
    - 이제 이 같은 변형된 보상을 비용 방적식의 Advantage의 추정값으로 활용할 수 있다.

### 기본적인 정책 경사 Agent 구현

In [1]:
import tensorflow as tf
import tensorflow.contrib.slim as slim
import numpy as np
import gym
import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
env = gym.make("CartPole-v0")

#### 정책 기반 Agent

> **보상 함수** 및 **Agent**를 구현하는 코드

In [3]:
gamma = 0.99

def discount_rewards(r):
    # 보상의 1D 실수 배열을 취해서 할인된 보상을 계산한다.
    discounted_r = np.zeros_like(r)
    running_add = 0
    for t in reversed(range(0, r.size)):
        running_add = running_add * gamma + r[t]
        discounted_r[t] = running_add
    return discounted_r


class agent():
    def __init__(self, lr, s_size, a_size, h_size):
        # 네트워크의 피드포워드 부분, 에이전트는 상태를 받아서 액션을 출력한다.
        self.state_in = tf.placeholder(shape = [None, s_size], dtype = tf.float32)
        hidden = slim.fully_connected(self.state_in \
                                      ,h_size \
                                      ,biases_initializer = None \
                                      ,activation_fn = tf.nn.relu)
        self.output = slim.fully_connected(hidden \
                                           ,a_size \
                                           ,biases_initializer = None \
                                           ,activation_fn = tf.nn.softmax)
        self.chosen_action = tf.arg_max(self.output, 1)
        
        
        # 학습 과정 구현, 비용을 계산하기 위해 보상과 액션을 네트워크에 피드하고,
        # 네트워크를 업데이트하는 데에 이를 이용한다.
        self.reward_holder = tf.placeholder(shape = [None], dtype = tf.float32)
        self.action_holder = tf.placeholder(shape = [None], dtype = tf.int32)
        
        
        self.indexes = tf.range(0, tf.shape(self.output)[0]*tf.shape(self.output)[1] + self.action_holder)
        self.responsible_outputs = tf.gather(tf.reshape(self.output, [-1], self.indexes))
        
        
        self.loss = -tf.reduce_mean(tf.log(self.reponsible_outputs)*self.reward_holder)
        
        
        tvars = tf.trainable_variables()
        self.gradient_holders = []
        
        for idx, var in enumerate(tvars):
            placeholder = tf.placeholder(tf.float32, name = str(idx) + '_holder')
            self.gradient_holders.append(placeholder)
            
        self.gradients = tf.gradients(self.loss, tvars)
        
        optimizer = tf.train.AdamOptimizer(learning_rate = lr)
        self.update_batch = optimizer.apply_gradients(zip(self.gradient_holders, tvars))

### Agent 학습시키기

In [6]:
# 텐서플로우 그래프를 리셋한다.
tf.reset_default_graph()

# Agent 로드
myAgent = agent(lr = 1e-2, s_size = 4, a_size = 2, h_size = 8)


# Agent를 학습시킬 총 에피소드의 수를 설정한다.
total_episodes = 5000
max_ep = 999
update_frequency = 5

init = tf.global_variables_initializer()


# 텐서플로 그래프를 론칭한다.
with tf.Session() as sess:
    sess.run(init)
    i = 0
    total_reward = []
    total_lenght = []
    
    gradBuffer = sess.run(tf.trainable_variables())
    for ix, grad in enumerate(gradBuffer):
        gradBuffer[ix] = grad * 0
        
    while i < total_episodes:
        s = env.reset()
        running_reward = 0
        ep_history = []
        for j in range(max_ep):
            # 네트워크 출력에서 확률적으로 액션을 선택한다.
            a_dist = sess.run(myAgent.output, feed_dict = {myAgent.state_in :[s]})
            a = np.random.choice(a_dist[0], p=a_dist[0])
            a = np.argmax(a_dist == a)
            
        # 주어진 밴딧에 대해 액션을 취한 데 대한 보상을 얻는다.
        s1, r, d, _ = env.step(a)
        ep_history.append([s, a, r, s1])
        s = s1
        running_reward += r
        if d == True:
            # 네트워크를 업데이트 한다.
            ep_history = np.array(ep_history)
            ep_history[:, 2] = discount_rewards(ep_history[:, 2])
            feed_dict = {myAgent.reward_holder : ep_history[:, 2] \
                        ,myAgent.action_holder : ep_history[:, 1] \
                        ,myAgent.state_in : np.vstack(ep_history[:, 0])}
            
            grads = sess.run(myAgent.gradients, feed_dict = feed_dict)
            for idx, grad in enumerate(grads):
                gradBuffer[idx] += grad
                
            if i % update_frequency == 0 and i != 0:
                feed_dict = dictionary = dict(zip(myAgent.gradient_holders \
                                                 ,gradBuffer))
                
                _ = sess.run(myAgent.update_batch, feed_dict = feed_dict)
                for ix, grad in enumerate(gradBuffer):
                    gradBuffer[ix] = grad * 0
                    
            total_reward.append(running_reward)
            total_lenght.append(j)
            
            break
            
            
    # 보상의 총계 업데이트
    if i % 100 == 0:
        print(np.mean(total_reward[-100:]))
    i += 1

ValueError: Shape must be rank 0 but is rank 1
	 for 'limit' for 'range' (op: 'Range') with input shapes: [], [?], [].