## [Multi-Armed Bandit (MAB) 演算法](https://vwo.com/blog/multi-armed-bandit-algorithm/)
定義：一種檢驗方法，常用於網站測試。對比於傳統的統計學實驗設計方法，可以更快速的做出決策，尤其針對有多種策略。

In [12]:
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [38]:
# 隨機產生一個數(均勻分配)
# a = np.random.rand()
a = random.random()
print(a)

# 將策略按照機率排序
strategy = {'A': 0.3, 'B': 0.2, 'C': 0.5}
max_strategy = sorted(strategy.items(), key=lambda x: x[1], reverse=True)
print(max_strategy)

# 透過策略機率產生選項
s = random.choices(population=list(strategy.keys()), weights=strategy.values(), k=1)[0]
print(s)

0.15175389894853386
[('C', 0.5), ('A', 0.3), ('B', 0.2)]
C


In [39]:
# 測試是否真的按照機率
d = {'A': 0, 'B': 0, 'C': 0}
for i in range(10000):
    s = random.choices(population=list(strategy.keys()), weights=strategy.values(), k=1)[0]
    d[s] += 1
print(d)

{'A': 2964, 'B': 1976, 'C': 5060}


In [25]:
random.random()

0.5592206228739368

In [47]:
import random

def multi_arm_bandit(strategy: dict, epsilon: float):
    """
        (epsilon-greedy algorith)版本: 
            意義:
                改善了抽樣過程，加入了在實驗過程中學到的資訊，減少非最優處理的機率。
                其中 epsilon 為超參數可控制。
            步驟:
                1. 產生一個介於0~1 之間的隨機數 a
                2. 如果 a 若再 0 ~ epsilon 之間，則產生一個隨機數 b ，
                    根據策略的不同範圍決定這次要 **使用** 哪一個策略。
                3. 如果 a >= epsilon，則顯示目前為止 **使用** 機率最高的策略。
            
    """
    max_strategy = sorted(strategy.items(), key=lambda x: x[1], reverse=True)[0][0] # [('C', 0.5), ('A', 0.3), ('B', 0.2)]
    a = random.random()
    
    if a < epsilon:
        return max_strategy
    else:
        s = random.choices(population=list(strategy.keys()), weights=strategy.values(), k=1)[0]
        return s

In [46]:
multi_arm_bandit(strategy, 0.1)

'A'