# The upper confidence bound 알고리즘 
#### UCB
#### - epsilon greedy, softmax exploration에서는 확률을 통해 랜덤 액션 선택 
    - 액션을 랜덤하게 선택하는 것은 여러 레버를 탐험하는 것에는 유용 
    - 하지만, 좋은 보상을 얻기는 힘듦
    - 또한, 초기에는 성적이 나쁘지만 사실은 좋은 레버를 놓칠수도 있음 
    
####  이런 점을 해결하는 UCB알고리즘 
- 불확실한 낙관주의 ..(optimism in the face of uncertainty) 근거 

- 신뢰구간 (confidence interval)을 기반으로 최적의 레버를 선택 
    - 신뢰구간 예시)
    - 레버1: 0.3  / 레버2: 0.8 의 보상을 줌 
    - 이때, 하나의 라운드에서 레버2가 좋은 보상을 주었다고 최적의 레버라 생각하면 안됨 
    - 레버를 여러번 당기고 각 레버의 평균보상값이 최대인 레버를 선택해야 함 
    - 각 레버의 정확한 평균값을 찾을 때, 신뢰구간이 필요 
    - 신뢰구간: 레버의 평균보상값이 있는 구간을 지정 
    
        - 레버1의 신뢰구간=[0.2, 0.9] : 레버1의 평균보상값이 0.2 ~ 0.9 
        - 0.2: 하위 신뢰 경계 
        - 0.9: 상위 신뢰 경계 (UCB) 
        
- UCB는 탐험을 위해 높은 UCB를 갖는 슬롯머신을 선택 

#### 예시 
<img src = "./image/UCB.PNG">

- 세개의 슬롯머신을 각 10번씩 수행했을 때의 신뢰 구간 
- 슬롯머신3이 가장 높은 UCB값을 가짐 
    - 10번밖에 수행하지 않았기 때문에 슬롯머신3이 좋은 보상을 제공한다는 결론을 내기에는 섣부름 
    - 수행횟수가 증가할수록, 신뢰구간은 더 정확해지고, 좁아지고, 실제값에 가까워짐
    
<img src = "./image/UCB2.PNG">   

- 수행횟수를 더 늘림
- 이제 UCB값이 가장 높은 슬롯머신2를 선택할 수 있음

####  UCB알고리즘 순서 
- 1. 평균보상합과 UCB가 높은 액션(레버)를 선택
- 2. 레버를 당기고 보상을 얻음 
- 3. 레버의 보상과 신뢰구간을 업데이트 

#### UCB계산 
<img src = "./image/UCB3.PNG">   
- N(a): 레버가 당겨진 횟수 
- t: 전체 라운드(반복) 횟수
- 어떤 레버를 당길지 
<img src = "./image/UCB4.PNG">   


In [1]:
import gym
import gym_bandits
import numpy as np
import math
import random

In [2]:
env = gym.make("BanditTenArmedGaussian-v0")

[33mWARN: Environment '<class 'gym_bandits.bandit.BanditTenArmedGaussian'>' has deprecated methods '_step' and '_reset' rather than 'step' and 'reset'. Compatibility code invoked. Set _gym_disable_underscore_compat = True to disable this behavior.[0m


- UCB함수 정의

In [7]:
def UCB(iters):
    ucb = np.zeros(10)
    
    #모든 레버 탐색 
    if iters < 10:
        return iters #i
    
    else:
        for i in range(10):
            
            #UCB계산 
            upper_bound = math.sqrt((2*math.log(sum(count))) / count[arm])
            
            #Q값에 UCB값 더하기 
            ucb[arm] = Q[arm] + upper_bound
            
        #최대값을 갖는 레버     
        return (np.argmax(ucb))

In [8]:
num_rounds = 20000


count = np.zeros(10)

sum_rewards = np.zeros(10)

Q = np.zeros(10)

In [9]:
env.reset()

for i in range(num_rounds):
    
    
    arm = UCB(i)
    
   
    observation, reward, done, info = env.step(arm) 
    
    
    count[arm] += 1
    
    
    sum_rewards[arm]+=reward
    
    
    Q[arm] = sum_rewards[arm]/count[arm]
    
    
    
print( 'The optimal arm is {}'.format(np.argmax(Q)))

The optimal arm is 8
