# Simple Reinforcement Learning with Tensorflow Part 1.5: Contextual Bandits

* 앞서 multi-armed bandit problem를 해결하기 위해 구현해보았던 agent는 environmental state를 고려하지 않고 단순히 어떤 action을 고를지를 학습하는 형태
    * state가 주어지지 않으면, 어떤 순간에서의 best action이 항상 best action이 된다.
    * 따라서 part2에서는 environmental state, 이전 action에 기반한 새로운 state, delayed reward를 고려한 full RL 문제를 해결할 것이다.
* 일단 그 전에 state는 존재 하지만, 이전 state나 action에 의해 결정되지 않으며 delayed reward도 고려하지 않는 경우를 살펴보자. ==> **Contextual Bandit**
    * Multi-armed bandit problem, where only action effect reward.
    * Middle: Contextual bandit problem, where state and action effect reward.
    * Bottom: Full RL problem, where action effects state, and rewards may be delayed in time.
<img src="https://miro.medium.com/max/700/1*3NziBtrANN6UVltplxwaGA.png"/>

## Contextual Bandit
* multi-armed bandit: action을 취하면, 그 action에 따른 reward가 각각 다른 비율로 계산된다.
    * 하지만 만약 agent가 positive reward를 줄 가능성이 높은 arm을 항상 선택한다면?
        * environment의 state가 존재하지 않게 된다. 즉 바뀌지 않는 하나의 state로 고정되게된다.
* Contextual Bandit은 여기에 state라는 개념을 추가한 것이다.
    * state는 agent가 어떤 action을 취해야 할지 결정할 때 사용할 수 있는 환경에 대한 정보를 포함한다.
    * single bandit에서 multiple bandit으로 넓혀서 생각해 보자.
        * environment의 state는 우리가 현재 어떤 bandit을 사용하고 있으며, 하나의 bandit에 대해서만 best action을 취할 것이 아니라 다른 모든 bandit에 대해서도 좋은 결과를 낳는 것이 agent의 목표라는 것을 알려준다.
        * 각 bandit은 각 arm에 대해 다른 reward probability를 가지기 때문에 우리의 agent는 state에 따른 action 변화가 어떻게 될 지를 학습해야 한다.
* single-layer neural network를 이용해 state에 따른 action을 알아보자.
    * policy-gradient를 사용해 reward를 최대화 시킬 수 있는 action을 취하도록 만들 수 있을 것이다.

## Simple Reinforcement Learning in Tensorflow Part 1.5

In [4]:
"""
The Contextual Bandits
"""
# contextual bandit problem을 풀 수 있는
# policy-gradient 기반의 agent example
import tensorflow as tf
import tensorflow.contrib.slim as slim
import numpy as np

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [5]:
# 3개의 four-armed bandit을 사용
# 각 bandit은 각 arm에 대해 다른 success probability를 가지고 있다.
# 따라서 best result를 내는데 arm 별로 각기 다른 action을 요구한다.
# pullBandit(): 정규분포에서 난수를 만들어 내는 함수
# - bandit number가 작을수록 양수의 reward를 만들어 낼 가능성이 높다.
class contextual_bandit():
    def __init__(self):
        self.state = 0
        # bandit 리스트
        # 현재로서는 각각 4, 2, 1번째 arm이 optimal
        self.bandits = np.array([[0.2, 0, -0.0, -5], 
                                 [0.1, -5, 1, 0.25], 
                                 [-5, 5, 5, 5]])
        self.num_bandits = self.bandits.shape[0]
        self.num_actions = self.bandits.shape[1]
    
    def getBandit(self):
        # 각 episode에 대해 random state를 리턴
        self.state = np.random.randint(0, len(self.bandits))
        
        return self.state
    
    def pullArm(self, action):
        # 랜덤 숫자 얻기
        bandit = self.bandits[self.state, action]
        result = np.random.randn(1)
        
        # positive reward
        if result > bandit:
            return 1
        # negative reward
        else:
            return -1

In [6]:
"""
The Policy-Based Agent
"""
# current state를 input으로 받고, action을 리턴하는 simple neural agent
# 이를 통해 agent는 environment의 state에 기반한 action을 취할 수 있게 된다!
class agent():
    def __init__(self, lr, s_size, a_size):
        # network의 feed-forward 부분
        # state로부터 action을 수행한다.
        self.state_in = tf.placeholder(shape=[1], dtype = tf.int32)
        state_in_OH = slim.one_hot_encoding(self.state_in, s_size)
        output = slim.fully_connected(state_in_OH, a_size,
                                     biases_initializer = None,
                                     activation_fn = tf.nn.sigmoid,
                                     weights_initializer = tf.ones_initializer())
        self.output = tf.reshape(output, [-1])
        self.chosen_action = tf.argmax(self.output, 0)
        
        # training
        # reward를 feed해 action을 선택한다
        # loss를 계산하기 위해 network를 업데이트하는데 사용한다.
        self.reward_holder = tf.placeholder(shape=[1], dtype = tf.float32)
        self.action_holder = tf.placeholder(shape=[1], dtype = tf.int32)
        self.responsible_weight = tf.slice(self.output, self.action_holder, [1])
        self.loss = -(tf.log(self.responsible_weight) * self.reward_holder)
        optimizer = tf.train.GradientDescentOptimizer(learning_rate = lr)
        self.update = optimizer.minimize(self.loss)

In [14]:
"""
Training the Agent
"""
# environment로부터 state를 얻고, action을 취하고, reward를 얻는 과정으로 agent를 학습한다.
# state에 기반한 action을 상황에 따라 선택할 수 있도록 agent를 업데이트 할 수 있게 된다.

# tf graph reset
tf.reset_default_graph()

# bandit 로딩
cBandit = contextual_bandit()

# Agent 로딩
myAgent = agent(lr = 0.001, s_size = cBandit.num_bandits,
               a_size = cBandit.num_actions)

weights = tf.trainable_variables()[0]

total_episodes = 10000

# bandit score 초기화
total_reward = np.zeros([cBandit.num_bandits, cBandit.num_actions])
e = 0.1 # epsilon

init = tf.initialize_all_variables()


with tf.Session() as sess:
    sess.run(init)
    i = 0
    while(i < total_episodes):
        # state를 받아온다.
        s = cBandit.getBandit()
        
        # random action을 취할 것인지 network를 통해 예측할 것인지를 선택
        if(np.random.rand(1) < e):
            action = np.random.randint(cBandit.num_actions)
        else:
            action = sess.run(myAgent.chosen_action, feed_dict = {myAgent.state_in: [s]})

        # 현재 bandit에서 취한 action에 따르는 reward를 얻는다.
        reward = cBandit.pullArm(action)
        

        # network update
        feed_dict = {myAgent.reward_holder: [reward], \
                     myAgent.action_holder: [action], 
                     myAgent.state_in: [s]}
        _, ww = sess.run([myAgent.update, weights], feed_dict = feed_dict)

        total_reward[s, action] += reward
        if(i % 500 == 0):
            print("Mean reward for ", str(cBandit.num_bandits), " bandits: ", str(np.mean(total_reward, axis = 1)))
        i+=1
for a in range(cBandit.num_bandits):
    print("The agent thinks action " + str(np.argmax(ww[a])+1) + " for bandit " + str(a+1) + " is the most promising....")
    if(np.argmax(ww[a]) == np.argmin(cBandit.bandits[a])):
        print("was right")
    else:
        print("was wrong")

Mean reward for  3  bandits:  [-0.25  0.    0.  ]
Mean reward for  3  bandits:  [37.25 41.5  32.  ]
Mean reward for  3  bandits:  [72.75 80.5  68.5 ]
Mean reward for  3  bandits:  [110.   114.5  106.25]
Mean reward for  3  bandits:  [151.5  146.75 144.  ]
Mean reward for  3  bandits:  [192.75 185.5  173.5 ]
Mean reward for  3  bandits:  [233.   222.25 206.5 ]
Mean reward for  3  bandits:  [270.5  262.   242.25]
Mean reward for  3  bandits:  [311.   299.75 278.5 ]
Mean reward for  3  bandits:  [353.5  331.5  317.25]
Mean reward for  3  bandits:  [389.5  372.25 355.  ]
Mean reward for  3  bandits:  [429.5  407.   390.75]
Mean reward for  3  bandits:  [470.25 445.75 422.25]
Mean reward for  3  bandits:  [507.5  486.25 457.5 ]
Mean reward for  3  bandits:  [545.   521.   495.75]
Mean reward for  3  bandits:  [583.   558.25 529.  ]
Mean reward for  3  bandits:  [617.75 602.   562.5 ]
Mean reward for  3  bandits:  [654.25 637.75 598.25]
Mean reward for  3  bandits:  [691.25 671.25 639.75]
Me