# 다중 슬롯머신 문제

## 문제 설명

- 동일한 게임을 수행하는 5개의 슬롯 머신

  - 각 슬롯머신의 성공률은 다름

- 돈을 걸고 슬롯 머신을 돌리면 0배 또는 2배를 땀

- 게임을 1000번 수행했을 때 최대 금액을 따려면 어떻게 해야 하는가?

## 톰슨 샘플링 모델

- 최소한의 비용으로 가장 후한 슬롯머신 찾기

In [1]:
import numpy as np

### 각 슬롯머신의 승률 리스트

In [19]:
conversion_rate = [0.15, 0.04, 0.13, 0.11, 0.05]

### 샘플 수 설정

In [20]:
N = 100

### 각 샘플마다 모든 슬롯머신에 대한 승패의 집합 정의

- `X`는 각 슬롯머신의 승패 여부를 기록

In [22]:
X = np.zeros(shape=(N, len(conversion_rate)))

for i in range(N):
    for j in range(len(conversion_rate)):
        # 샘플 수만큼 각 슬롯머신을 돌린 결과를 기록
        if np.random.rand() < conversion_rate[j]:
            X[i][j] = 1

### 슬롯머신 결과를 담을 리스트

- 사전 확률에 반영됨

In [23]:
win_count = np.zeros(N)
lose_count = np.zeros(N)

### 베타 분포로부터 난수를 취해 전체 슬롯머신에서 가장 높은 값을 찾기

- `win_count`와 `lose_count`는 지금까지 관찰했던 값들: **사전 확률**을 구하는 데 반영

- `random_beta`는 사전 확률을 업데이트하기 위한 값

  - 현재까지 관측했던 값을 바탕으로 계산한 각 슬롯머신의 성공 확률: 한 가지 가능한 실현값

In [24]:
for i in range(N):
    # 현재 선택된 슬롯머신의 인덱스
    selected = 0
    # 가장 높은 승률을 슬롯머신의 승률
    max_random = 0

    for j in range(len(conversion_rate)):
        # 베타 확률 분포로부터 각 슬롯 머신의 성공 확률에 대한 추정치 업데이트
        random_beta = np.random.beta(win_count[j] + 1, lose_count[j] + 1)

        # 랜덤 값이 지금까지 관측한 최고 값보다 큰 경우
        if random_beta > max_random:
            # 관측치 업데이트
            max_random = random_beta
            selected = j

            # 슬롯머신 결과 리스트 업데이트
            if X[i][selected] == 1:
                win_count[selected] += 1
            else:
                lose_count[selected] += 1

### 가장 승률이 좋다고 짐작되는 슬롯머신 출력

In [25]:
selected = win_count + lose_count

for i in range(len(conversion_rate)):
    print(f"Machine {str(i + 1)} was selected {str(selected[i])} times.")

print(f"best machine is: {str(np.argmax(selected) + 1)}")

Machine 1 was selected 100.0 times.
Machine 2 was selected 49.0 times.
Machine 3 was selected 70.0 times.
Machine 4 was selected 14.0 times.
Machine 5 was selected 17.0 times.
best machine is: 1
