Link: [geeksforgeeks](https://www.geeksforgeeks.org/machine-learning/multi-armed-bandit-problem-in-reinforcement-learning/)

[github](https://gibberblot.github.io/rl-notes/single-agent/multi-armed-bandits.html)

Cách trình bày bài toán: 

Thompson sampling là một cách tiếp cận Bayes, nó duy trì phân phối xác suất cho phần thưởng của mỗi nhanh và chọn nhánh dựa trên các mẫu từ các phân phối này. 

Thống kê Bayes: pp suy luận thống kê dựa trên định lý Bayes để cập nhật xác suất của một giả thuyết khi có thêm dữ liệu hoặc bằng chứng mới. Định lý Bayes: 
$$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$$
- Xs tiên nghiệm P(A): niềm tin hoặc kiến thức ban đầu về xs xảy ra của giả thuyết trước khi có dữ liệu mới 
- Khả năng P(B|A): xs của dữ liệu ta quan sát được nếu giả thuyết đúng  
- Xs hậu nghiệm P(A|B): niềm tin đã được cập nhật sau khi kếp hợp dữ liệu mới 

Phân phối $\beta$: phụ thuộc vào 2 tham số $\alpha$ và $\beta$. Một số ứng dụng VD: ước tính thời gian hoàn thành công việc dựa trên 3 mốc: lạc quan, khả thi nhất và bi quan; mô hình quá tỉ lệ nợ xấu (PD) hoặc rủi ro trong danh mục đầu tư. 

Hàm mật độ xác suất: 
$$p(\lambda) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} \lambda^{\alpha-1} (1 - \lambda)^{\beta-1}$$
với: 
$$\Gamma(z) = \int_{0}^{\infty} t^{z-1} \exp(-t) dt $$

- Khi $\alpha = \beta$: phân phối đều 
- Khi $\alpha < \beta$: đồ thị có xu hướng lệch trái, như vậy cặp $(\alpha, \beta)$ này được sử dụng khi ta dự đoán $\lambda < 0.5$
- Khi $\alpha > \beta$ ngược lại 

### Triển khai 

In [1]:
import numpy as np

In [None]:
class ThompsonSampling: 
    def __init__(self, n_arms):
        self.n_arms = n_arms
        self.successes = np.zeros(n_arms)
        self.failures = np.zeros(n_arms)

    def select_arm(self):
        sampled_values = np.random.beta(self.successes + 1, self.failures + 1)
        # trả về một mảng số thực giữa khoảng [0,1] được lấy theo phân phối beta 
        return np.argmax(sampled_values)
    
    def update(self, chosen_arm, reward): 
        if(reward > 0):
            self.successes[chosen_arm] += 1
        else: 
            self.failures[chosen_arm] += 1

In [None]:
agent = ThompsonSampling(n_arms = 10)
total_reward = 0

for t in range(10000):
    arm = agent.select_arm()
    reward = reward[arm, t]
    agent.update(arm, reward)
    total_reward += reward 

print(f"Total reward: ", round(total_reward, 4))