Chapter2에 해당하는 Bandit문제는 **Environment** 상태를 가지지 않으며 **Agent**는 단순히 최선의 **Action**을 선택하도록 학습하면 됩니다. **Environment**가 주어지지 않기 때문에 어떤 순간에서의 최선의 **Action**은 곧 모든 순간에서의 최선의 **Action**이 됩니다.

### Contextual Bandit

콘텍스트 밴딧에서는 **State(상태)**라는 개념을 도입

- **State(상태)**는 **Environment(환경)**에 대한 기술(Description)로 이루어지며, **Agent**는 이를 이용해 좀 더 정보에 기반을 두고 **Action**을 취할 수 있음
- 1개의 밴딧이 아니라 다수의 밴딧으로 확장
    - 환경의 상태를 통해 우리가 어떤 밴딧을 다루고 있는지 알 수 있음
    - 에이전트의 목표는 단지 1개의 밴딧이 아니라 여러 개의 밴딧에 대해 최선의 액션을 학습하는 것으로 확장
    - 각각의 벤딧은 각각의 손잡이에 대해 잠재적 보상이 다르기 때문에 에이전트는 환경의 상태에 기반을 두고 취할 액션의 조건을 학습해야 할 필요가 있다.
    - 이렇게 하지 않으면 경과에 따라 가능한 최대의 보상을 얻어낼 수 없음

#### 네트워크는 강화학습의 핵심인 **State**와 **Actio**의 매핑을 학습하게 된다.

이렇게 함으로써 네트워크 내 각 가중치들은 **Action**의 값뿐만 아니라, 특정 상태의 맥락에서의 해당 **Action**의 값을 가지게 된다 **Policy ($\pi$)**의 의미 역시 변하게 된다.  이제 **Policy ($\pi$)**는 네트워크의 가중치가 아니라, 출력 게층에서 선택된 **Action**을 의미한다.

### 3.1 Contextual Bandit 구현

In [269]:
import tensorflow as tf
import tensorflow.contrib.slim as slim
import numpy as np

###  Contextual Bandit

- 손잡이가 4개인 3개의 밴딧
- 각각의 밴딧은 각각의 손잡이에 다른 **Action**이 요구
- 목적 : Agent가 주어진 밴딧에 대해 가장 자주 양의 보상을 주는 손잡이를 항상 선택하는 방법을 학습하는 것

In [270]:
class contextual_bandit():
    def __init__(self):
        self.state = 0
        # 밴딧들이 손잡이 목록을 작성, 각 밴딧은 각각 손잡이 4, 2, 1 이 최적이다.
        self.bandits = np.array([[0.2,0,-0.0,-5],[0.1,-5,1,0.25],[-5,5,5,5]])
        self.num_bandits = self.bandits.shape[0]   # 기계 : 3 개
        self.num_actions = self.bandits.shape[1]  # ACtion : 4 개
        
    
    def getBandit(self):
        # 각각의 에피소드에 대해 랜덤한 상태를 반환
        self.state = np.random.randint(0, len(self.bandits)) # 0 or 1 or 2
        return self.state
    
    
    def pullArm(self, action):
        # 랜덤한 수를 얻는다.
        # 밴딧들이 손잡이 목록에 해당하는 값을 받으면 보상을 반환함!
        bandit = self.bandits[self.state, action] # ex : [0.2, 0 , 0.0, -5], [0.1, -5 , 1, 0.25], [-5, 5, 5, 5]] ...
        result = np.random.randn(1)
        if result > bandit:
            # 양의 보상을 반환한다.
            return 1
        else:
            # 음의 보상을 반환한다.        
            return -1

### 정책 기반 Agent

- 입력으로 **현재 State**를 받아 **Action**을 반환하는게 전부
- 이렇게 함으로써 **Agent**는 **Environment**의 **State**를 조건으로 삼아 **Action**을 취하게 되는데, 이는 완전한 강화학습 문제를 해결하기 위해 한 걸음 더 나아가는 중요한 단계이다.
- 이 **Agent**는 1개의 가중치 세트를 이용하는데, 각 가중치의 값은 주어진 밴딧의 특정 손잡이를 선탤할 때 반환되는 값의 추정값이다.
- 정책 경사 방법을 사용해, 선택된 **Action**에 대해 더 큰 보상을 받는 쪽으로 이동하도록 **Agent**를 업데이트 한다.

In [271]:
class agent():
    def __init__(self, lr, s_size, a_size):
        # 네트워크의 피드포워드 부분, 에이전트는 상태를 받아서 액션을 출력한다.
        self.state_in = tf.placeholder(shape = [1], dtype = tf.int32)
        state_in_OH = slim.one_hot_encoding(self.state_in, s_size)
        output = slim.fully_connected(state_in_OH \
                                      ,a_size \
                                      ,biases_initializer = None \
                                      ,activation_fn = tf.nn.sigmoid \
                                      ,weights_initializer = tf.ones_initializer())
        self.output = tf.reshape(output, [-1])
        self.chosen_action = tf.argmax(self.output, 0)
        
        
        # 학습 과정을 구현한다.
        # 비용을 계산하기 위해 보상과 선택된 액션을 네트워크에 피드하고,
        # 네트워크를 업데이트하는 데에 이를 이용한다.
        self.reward_holder = tf.placeholder(shape = [1], dtype = tf.float32)
        self.action_holder = tf.placeholder(shape = [1], dtype = tf.int32)
        self.reponsible_weight = tf.slice(self.output, self.action_holder, [1])
        self.loss = -(tf.log(self.reponsible_weight) * self.reward_holder)
        optimizer = tf.train.GradientDescentOptimizer(learning_rate = lr)
        self.update = optimizer.minimize(self.loss)

### Agent 학습시키기

- **Agent**는 **Environment**의 **State**를 알아내고, **Action**을 취하고, **Reward**을 받음으로써 학습할 것이다. 이 세가지를 이용함으로써, 주어진 상태에서 시간의 흐름에 따라 최고의 **Reward**을 받을 수 있는 **Action**을 더 자주 선택할 수 있도록 네트워크를 적절하게 업데이트하는 방법을 알 수 있을 것이다.

In [272]:
# Tensorflow 그래프를 리셋한다.
tf.reset_default_graph()

# Bandit 로드한다.
cBandit = contextual_bandit()
# Agent 로드한다.
myAgent = agent(lr = 0.001, s_size = cBandit.num_bandits, a_size = cBandit.num_actions)
# Network 내부를 들여다보기 위해 평가할 가중치
weights = tf.trainable_variables()[0]


# Agent를 학습시킬 전체 에피소드 수 설정
total_episodes = 10000

# Bandit에 대한 점수판을 0으로 설정
total_reward = np.zeros([cBandit.num_bandits, cBandit.num_actions])


# Random Action을 취할 가능설 설정
e = 0.1

init = tf.global_variables_initializer()


# 텐서플로 그래프 론칭
with tf.Session() as sess:
    sess.run(init)
    i = 0
    while i < total_episodes:
        # 환경상태로부터 상태 가져오기
        s = cBandit.getBandit()
        
        # 네트워크로부터 랜덤한 액션 또는 하나의 앤셕을 선택한다.
        if np.random.rand(1) < e:
            action = np.random.randint(cBandit.num_actions)
        else:
            action = sess.run(myAgent.chosen_action, feed_dict = {myAgent.state_in:[s]})


        # 주어진 벤딧에 대해 액션을 취한 데 대한 보상을 얻는다.
        reward = cBandit.pullArm(action)


        # 네트워크를 업데이트 한다.
        feed_dict = {myAgent.reward_holder:[reward] \
                    ,myAgent.action_holder:[action] \
                    ,myAgent.state_in:[s]}

        _, ww = sess.run([myAgent.update, weights], feed_dict = feed_dict)


        # 보상의 총계 업데이트
        total_reward[s, action] += reward
        if i%500 == 0:
            print("Mean reward for each of the " + str(cBandit.num_bandits) + " bandits: " + str(np.mean(total_reward, axis = 1)))
        
        i += 1
    
    
    
for a in range(cBandit.num_bandits):
    print("The Agent thinks action " + str(np.argmax(ww[a]+1)) + " for bandit " + str(a + 1) + " is the most promising...")
    if np.argmax(ww[a]) == np.argmin(cBandit.bandits[a]):
        print("...and it was right!")
    else:
        print("...and it was wrong!")

Mean reward for each of the 3 bandits: [ 0.   -0.25  0.  ]
Mean reward for each of the 3 bandits: [34.5  40.5  35.75]
Mean reward for each of the 3 bandits: [74.   74.5  69.75]
Mean reward for each of the 3 bandits: [109.25 113.5  106.  ]
Mean reward for each of the 3 bandits: [147.   153.25 144.5 ]
Mean reward for each of the 3 bandits: [182.   192.25 183.5 ]
Mean reward for each of the 3 bandits: [221.25 230.25 215.75]
Mean reward for each of the 3 bandits: [261.5  269.25 249.5 ]
Mean reward for each of the 3 bandits: [298.   307.75 284.  ]
Mean reward for each of the 3 bandits: [341.75 346.75 314.25]
Mean reward for each of the 3 bandits: [381.75 378.5  351.  ]
Mean reward for each of the 3 bandits: [417.   415.75 392.  ]
Mean reward for each of the 3 bandits: [450.   458.25 431.5 ]
Mean reward for each of the 3 bandits: [493.75 493.25 466.75]
Mean reward for each of the 3 bandits: [532.25 530.25 502.25]
Mean reward for each of the 3 bandits: [571.25 562.5  542.  ]
Mean reward for e