# Simple Reinforcement Learning in Tensorflow: Part 1 - Two-armed Bandit

## Two-Armed Bandit

* n-armed bandit problem
  * n개의 slot machine이 존재
    * 각각의 머신은 다른 payout probability를 가진다.
  * 목표: 가장 payout이 큰 기계를 찾아 returned reward를 최대화하는 것.
  * 간단하게 설계하기 위해 2개의 머신만을 고려하려 한다.
  * Reward:
    * 각각의 action은 다른 reward를 가진다.
      * eg) 미로 안에서 보물을 찾는 상황에서 왼쪽으로 가면 보물을 찾게되지만, 오른쪽으로 가면 뱀들을 만나게 되는 상g황
    * reward는 delay 되어 계산된다.
      * eg) 현재 상황에서 왼쪽으로 가면 보물을 찾게 되어도, 바로 잘 찾았는지 알지 못한다. 나중에 알게 된다.
    * Reward for an action is conditional on the state of the environment.
  * 하지만 n-armed bandit에서는 두번째와 세번째 조건을 고려할 필요가 없다.
    * 가능한 action에 대해 어떤 reward를 받을수 있는지를 학습하고, 가장 좋은 reward를 얻을 수 있도록 하는데만 초점을 맞추면 된다. => **policy learning**
  * policy gradient를 사용해 environment로부터 얻은 피드백을 이용해 gradient descent를 통해 weight를 조정하여 Neural Network가 action을 선택할 수 있는 policy를 학습한다.
    * 이렇게 주어진 state에 대한 optimal action을 찾는 것을 학습하는 것이 아니라, **value function을 이용해  agent가 주어진 state나 action이 얼마나 좋은지를 예측하도록 학습하는 방법도 있다.**
      * 하지만 policy gradient가 조금 더 직접적이다.



## Policy Gradient

* Policy Gradient 네트워크를 이해하는 가장 간단한 방법은 explicit output을 만들어내는 네트워크를 생각해보는 것이다.
  * bandit problem에서는 state에 대한 조건부 output을 계산하지 않아도 된다.
    * 네트워크는 weight를 가지고 둘 중 어떤 arm을 당기는 것이 좋은지를 표현하게 된다.
* 네트워크 업데이트를 위해 ε-greedy policy를 사용해 arm을 당겨보도록 하자.
  * 대부분의 경우 greedy하게 action을 선택하지만 때로는(ε 확률만큼) 랜덤하게 action을 선택한다.
    * Agent가 exploration을 더 잘 하게 만들어 준다.
* Agent가 action을 취하면 1 혹은 -1의 reward를 받게 된다.
  * 이 reward를 가지고 policy loss를 이용해 네트워크를 업데이트 한다.
    * Loss = -log(π) * A
      * A: advantage
      * π: policy, 선택된 action의 weight에 대응된다.
  * Loss function을 통해 positive reward를 갖는 action의 weight를 증가시키고, 반대의 경우에는 action의 weight를 감소시킨다.
* 이렇게 action을 취하고, reward를 얻고, 네트워크를 업데이트 함으로써 agent가 수렴하도록 만들어준다.



In [2]:
"""
Simple Reinforement Learning in Tensorflow Part 1: The Multi-armed bandit
* multi-armed bandit problem을 해결하기 위한 policy-gradient 네트워크 만들기
"""
import tensorflow as tf
import numpy as np

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [3]:
"""
The Bandits
"""
# bandit 정의: four-armed bandit
# pullBandit(): 평균이 0인 정규분포에서 난수를 만든다. 
# - 숫자가 작을수록 positive reward를 만들어 낼 확률이 높다.
# - agent가 항상 positive reward를 만들어내는 bandit을 선택하는 것을 목표로 한다.

# bandit 리스트
bandits = [0.2, 0, -0.2, -5]
num_bandits = len(bandits)

In [4]:
def pullBandit(bandit):
    # 난수 생성
    result = np.random.randn(1)
    if result > bandit:
        # positive reward
        return 1
    else:
        # negative reward
        return -1

In [6]:
"""
The Agent
- 각 bandit에 대한 값을 가지는 간단한 NN agent
- 각 값은 해당 bandit을 선택했을때의 return에 대한 추정값이다.
- policy gradient를 사용해 agent를 업데이트
"""
tf.reset_default_graph()

# network의 feed-forward 부분
# 여기서 선택이 일어난다.
weights = tf.Variable(tf.ones([num_bandits]))
chosen_action = tf.argmax(weights, 0)

# training 과정에 대한 정의 부분
# loss를 계산해 그것을 네트워크 업데이트에 사용하기 위해 reward와 선택된 action을 feed
reward_holder = tf.placeholder(shape=[1], dtype = tf.float32)
action_holder = tf.placeholder(shape=[1], dtype = tf.int32)
responsible_weight =tf.slice(weights, action_holder, [1])
loss = -(tf.log(responsible_weight) * reward_holder)
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.001)
update = optimizer.minimize(loss)

In [9]:
"""
Agent 학습
"""
total_episodes = 1000
total_reward = np.zeros(num_bandits)
e = 0.1

init = tf.initialize_all_variables()

with tf.Session() as sess:
    sess.run(init)
    i = 0
    while(i < total_episodes):
        if np.random.rand(1) < e:
            action =  np.random.randint(num_bandits)
        else:
            action = sess.run(chosen_action)
        
        # 선택한 bandit에 대한 reward 얻기
        reward = pullBandit(bandits[action])
        
        # update networks
        _, resp, ww = sess.run([update, responsible_weight, weights], feed_dict = {reward_holder: [reward], action_holder: [action]})
        
        # update scores
        total_reward[action] += reward
        
        if(i % 50 == 0):
            print("Running reward for the ", str(num_bandits), " bandits: ", str(total_reward))
        i += 1
    
print("The agent thinks bandit: " + str(np.argmax(ww)) + " is the most promissing...")
if np.argmax(ww) == np.argmax(-np.array(bandits)):
    print("... and it was right!")
else: print("... and it was wrong!")

Running reward for the  4  bandits:  [1. 0. 0. 0.]
Running reward for the  4  bandits:  [ 0. -2.  2. 45.]
Running reward for the  4  bandits:  [-1. -2.  0. 92.]
Running reward for the  4  bandits:  [ -1.  -1.   0. 141.]
Running reward for the  4  bandits:  [ -1.  -1.   3. 188.]
Running reward for the  4  bandits:  [ -1.  -2.   3. 237.]
Running reward for the  4  bandits:  [  0.  -2.   4. 281.]
Running reward for the  4  bandits:  [  0.  -2.   4. 327.]
Running reward for the  4  bandits:  [ -1.  -2.   6. 372.]
Running reward for the  4  bandits:  [ -2.  -4.   7. 416.]
Running reward for the  4  bandits:  [ -2.  -4.   7. 466.]
Running reward for the  4  bandits:  [ -2.  -5.   6. 512.]
Running reward for the  4  bandits:  [ -2.  -5.   6. 554.]
Running reward for the  4  bandits:  [ -2.  -4.   4. 599.]
Running reward for the  4  bandits:  [ -1.  -2.   5. 645.]
Running reward for the  4  bandits:  [ -3.  -1.   5. 692.]
Running reward for the  4  bandits:  [ -4.  -2.   5. 736.]
Running rewar