# The Thomson sampling 알고리즘 
#### - 사전분포(prior distribution) 를 기반으로한 확률 알고리즘
#### - TS 전략 
- 각 k 레버의 평균 보상에 대해 사전분포 계산 
    - 각 k 레버에서 n개의 샘플을 추출하여 k 분포 계산
    - 이러한 초기 분포는 실제 분포와 일치하지 않음 
    - 이때의 k분포를 사전 분포라 함
    <img src="./image/TS.PNG">
    
- 베르누이 보상을 가지기 때문에, 사전분포를 계산하기 위해서는 베타분포 사용 
    - 베타 분포의 [알파, 베타]값은 0과 1사이 값 
    - 알파: 긍정 보상을 얻은 횟수 
    - 베타: 부정 보상을 얻은 횟수 
    
#### - TS 알고리즘 순서 
- 1. 각 k분포에 대해 값을 샘플링하고 그 값을 초기 평균으로 사용 
- 2. 가장 높은 초기 평균을 갖는 레버를 선택하고 관찰과 보상을 얻음
- 3. 초기 분포를 수정하는데에 관찰된 보상을 사용 
- 몇 번의 반복후에는 초기 분포가 실제 분포와 비슷해져 갈 것 
<img src="./image/TS2.PNG">

In [1]:
import gym
import gym_bandits
import numpy as np
import math
import random

In [2]:
env = gym.make("BanditTenArmedGaussian-v0")
env.reset()

[33mWARN: Environment '<class 'gym_bandits.bandit.BanditTenArmedGaussian'>' has deprecated methods '_step' and '_reset' rather than 'step' and 'reset'. Compatibility code invoked. Set _gym_disable_underscore_compat = True to disable this behavior.[0m


0

In [4]:
def thompson_sampling(alpha,beta):
    
    samples = [np.random.beta(alpha[i]+1,beta[i]+1) for i in range(10)]
    #np.random.beta(알파, 베타): 베타함수에서 샘플링
    return np.argmax(samples)

In [5]:
num_rounds = 20000

count = np.zeros(10)

sum_rewards = np.zeros(10)


Q = np.zeros(10)

# alpha, beta 값 초기화
alpha = np.ones(10)
beta = np.ones(10)

In [6]:

for i in range(num_rounds):
    
    arm = thompson_sampling(alpha,beta)
    
    observation, reward, done, info = env.step(arm) 
  
    count[arm] += 1
    
    sum_rewards[arm]+=reward
  
    Q[arm] = sum_rewards[arm]/count[arm]

    # 긍정 보상이면 alpha 증가 
    if reward >0: 
        alpha[arm] += 1
        
    # 부정 보상이면 beta 증가
    else:
        beta[arm] += 1
    
print( 'The optimal arm is {}'.format(np.argmax(Q)))

The optimal arm is 4
