In [None]:
import numpy as np
import matplotlib.pyplot as plt
import random

### Case 1 : AI 환경 정의
* 동일한 게임이 설치된 5개의 슬롯머신
* 슬롯머신이 판돈을 가져가면 보상은 -1이 되고 게임 참가자가 판돈을 따내면 
보상은 +1
* 목표 - 게임을 1000번 했을 때의 최대 금액을 얻는 전략 수립
* 돈을 딸 확률이 가장 높은 슬롯머신을 찾으면 된다
* 각 슬롯머신별 확률은 단순시행을 늘리면 쉽게 얻을 수 있으나, 최소한의 시도로 찾는 것이 중요 

In [None]:
# 전환율과 샘플 수 설정하기

conversionRates = [0.15, 0.04, 0.13, 0.11, 0.05]
N = 2000
d = len(conversionRates)

In [None]:
# 승리 조건에 따른 데이터셋 생성하기

X = np.zeros((N, d))
for i in range(N):
  for j in range(d):
    if np.random.rand() < conversionRates[j]:
      X[i][j] = 1

In [None]:
print(X[:10])

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 0. 1. 1. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0.]]


In [None]:
# 승패를 셀 배열 설정하기
nPosReward = np.zeros(d)
nNegReward = np.zeros(d)

In [None]:
# 베타 분포를 통해 최고의 슬롯머신을 선택하고 승패를 업데이트
# 베타 분포 B(a,b)에서 매개변수 a가 클수록 분포가 오른쪽으로 더 많이 이동하고, 매개변수 b가 클수록 왼쪽으로 더 많이 이동한다.
# 슬롯머신이 1(성공)을 더 많이 반환하면 분포가 오른쪽으로, 0(실패)를 반환하면 왼쪽으로 움직인다.

for i in range(N):
  selected = 0
  maxRandom = 0
  for j in range(d):
    randomBeta = np.random.beta(nPosReward[j] + 1, nNegReward[j] + 1) # 
    if randomBeta > maxRandom:
      maxRandom = randomBeta
      selected = j
  if X[i][selected] == 1:
    nPosReward[selected] += 1
  else:
    nNegReward[selected] += 1

In [None]:
# 결론

nSelected = nPosReward + nNegReward
for i in range(d):
  print('Machine number ' + str(i + 1) + ' was selected ' + str(nSelected[i]) + ' times')
print('Conclusion: Best machine is machine number ' + str(np.argmax(nSelected) + 1))

Machine number 1 was selected 1395.0 times
Machine number 2 was selected 49.0 times
Machine number 3 was selected 181.0 times
Machine number 4 was selected 292.0 times
Machine number 5 was selected 83.0 times
Conclusion: Best machine is machine number 1


### Case 2: AI 환경 정의
* 쇼핑몰 회사에서 10000명의 고객 샘플을 대상으로 9개의 특정한 광고 전략 대비 유료회원 전환율을 측정
* Case 1과 사실상 동일한 환경. 10000 row * 9 column의 데이터셋 생성
* Case 1과 마찬가지로 전환율은 데이터셋 제작과 평가에만 쓰임

In [None]:
# 매개변수 설정

N = 10000
d =9

In [None]:
#시뮬레이션 내 환경 생성

conversion_rates = [0.05, 0.13, 0.09, 0.16, 0.11, 0.04, 0.20, 0.08, 0.01]
X = np.array(np.zeros([N, d]))
for i in range(N):
  for j in range(d):
    if np.random.rand() <= conversion_rates[j]:
      X[i,j] = 1

In [None]:
print(X[:10])

[[0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [None]:
# 무작위 선택과 톰슨 샘플링 구현

 


In [None]:
strategies_selected_rs = []     # 라운드마다 무작위 선택 알고리즘에 의해 선택된 전략을 포함한 리스트

strategies_selected_ts = []     # 라운드마다 톰슨 샘플링 모델에게 선택된 전략을 포함한 리스트

total_reward_rs = 0            # 무작위 선택 알고리즘에 의해 라운드가 반복될 때마다 누적된 보상의 총합

total_reward_ts = 0             # 톰슨 샘플링 모델에 의해 라운드가 반복될 때마다 누적된 보상의 총합

numbers_of_rewards_1 = [0] * d   # 각 전략이 보상으로 1을 받은 횟수

numbers_of_rewards_0 = [0] * d   # 각 전략이 보상으로 0을 받은 횟수

In [None]:

for n in range(0, N):
  strategy_rs = random.randrange(d)
  strategies_selected_rs.append(strategy_rs)
  reward_rs = X[n, strategy_rs]
  total_reward_rs = total_reward_rs + reward_rs
  strategy_ts = 0
  max_random = 0
  for i in range(0, d):
    random_beta = random.betavariate(numbers_of_rewards_1[i] + 1, numbers_of_rewards_0[i] + 1) # 톰슨 샘플링
    if random_beta > max_random:
      max_random = random_beta  
      strategy_ts = i
  
  reward_ts = X[n, strategy_ts]
  if reward_ts == 1:
    numbers_of_rewards_1[strategy_ts] = numbers_of_rewards_1[strategy_ts] + 1
  else:
    numbers_of_rewards_0[strategy_ts] = numbers_of_rewards_0[strategy_ts] + 1
  
  strategies_selected_ts.append(strategy_ts)
  


# 상대 수익률 계산
relative_return = (total_reward_ts - total_reward_rs) / total_reward_rs * 100
print("Relative Return : "f"{relative_return:.0f}")



Relative Return : -100


In [None]:
tmeplist = []
for i in range (1,10):
  for j in range(1, 10):
    tmeplist.append(np.random.beta(i,j))

len(tmeplist)



81

In [None]:
print(np.mean(tmeplist[0:9]))
print(np.mean(tmeplist[10:19]))
print(np.mean(tmeplist[20:29]))
print(np.mean(tmeplist[30:39]))
print(np.mean(tmeplist[40:49]))
print(np.mean(tmeplist[50:59]))
print(np.mean(tmeplist[60:69]))
print(np.mean(tmeplist[70:79]))


0.18899828717103456
0.3737016578061614
0.44869131111580607
0.45054955163712823
0.549315506742202
0.5009708277659487
0.5600852989725098
0.5945719399712057
