# MARKOV CHAIN MONTE CARLO (MCMC)
BS Vương Kiến Thanh

1. [MCMC là gì?](#1)
2. [Các loại MCMC và điểm mạnh, điểm yếu của chúng](#2)
    - [Metropolis Hasting](#21)
    - [Gibbs sampling](#22)
    - [HMC](#23)
3. [Chẩn đoán cho chuỗi MCMC](#3)
    - Trace plot
    - Rank plot

---
## 1. MCMC là gì? <a name="1"></a>
Là thuật toán để thu thập các sample của posterior. Posterior này chưa được biết và có thể rất phức tạp, là joint prob của nhiều parameter.  

Điều kiện cần của MCMC là một hàm $f(x)$ **đồng dạng** với mật độ xác suất $\text{PDF}(x)$. Do đó, MCMC rất có ích trong bayes vì mẫu số (marginalizing constant) trong Bayes' theorem tính rất khó.

Đầu ra của MCMC là các mẫu parameter của posterior. Từ đó, chúng ta có thể vẽ historgram, density, khoảng CI 95% (hoặc 78%, 97%, tùy bạn chọn), tính loss function,..

---
## 2. Các loại MCMC và điểm mạnh, điểm yếu của chúng <a name="2"></a>

demo: https://chi-feng.github.io/mcmc-demo/app.html

### a. Metropolis <a name="21"></a>
Là ông tổ các thuật toán MCMC hiện đại. Dùng *symmetric proposal distribution*.

Mô phỏng MCMC đơn giản bằng `python`:
- `init_state` là param khởi đầu, có thể từ prior. 
- `num_samp` là số lượng mẫu muốn thu thập từ posterior.
- `f` là hàm posterior, hoặc dùng prior nhân với likelihood

```python
def simple_mcmc(f, num_samp, likelihood):
    states = []
    current = f()  # mẫu posterior đầu tiên
    for i in range(1, num_samp):
        states.append(current)
        movement = f() # mẫu posterior thứ hai
        curr_prob = likelihood(current)
        next_prob = likelihood(movement)
        acceptance = min(next_prob/curr_prob, 1)
        if acceptance > np.random.uniform(0, 1):
            current = movement
    return states
```

### b. Gibbs sampling <a name="22"></a>

Thuật toán *Metropolis* dùng *symmetric proposal*, điều này đồng nghĩa với MCMC chain có thể bị dậm chân tại chỗ tại một vị trí nào đó.  
Ta cần một thuật toán MCMC cho phép *asymmetric proposal*, trong đó có *Metropolis Hasting*, là một pp tổng quát hơn.

*Gibbs sampling* là một biến thể của *Metropolis Hasting*, cho phép proposal hiệu quả hơn.

Trong thực hành, người ta dùng phần mềm như **BUGS** ( Bayesian inference Using Gibbs Sampling ) hoặc **JAGS** ( Just Another Gibbs Sampler ) để tự động hóa việc sampling.

**Nhược điểm:**
- Conjugate prior được dùng trong Gibbs sampling. Đôi khi ta không muốn dùng conjugate prior vì chúng không phù hợp.
- Số lượng parameter quá lớn thì Gibbs sampling không chạy được.

### c. Hamiltonian Monte Carlo <a name="23"></a>

HMC là phương pháp hiện đại, dùng đạo hàm trong thuật toán,..  
Và ngày càng nhiều pp HMC tân tiến hơn, như `NUTS` ( No-U-Turn Sampler ), `HMC2`,..

**Ưu điểm:**
- Xử lý được data với số lượng param cực lớn, có thể hàng chục nghìn param.

**Nhược điểm:**
- HMC không xử lý được parameter dạng biến rời rạc, do đó phải lồng ghép một phương pháp khác.
- Có thể bị [divergent transition](https://mc-stan.org/docs/2_19/reference-manual/divergent-transitions)

---
## 3. Chẩn đoán cho chuỗi MCMC <a name="3"></a>

Một chuỗi MCMC tốt sẽ có trace plot ổn định ( stable ) và rank plot trộn đều ( well-mixing ).

#### Ví dụ đây là một traceplot tốt (stable)
<img src="https://jpreszler.rbind.io/post/2019-09-28-bad-traceplots_files/figure-html/unnamed-chunk-10-1.png" width=50%>

#### Còn đây là traceplot xấu
<img src="https://jpreszler.rbind.io/post/2019-09-28-bad-traceplots_files/figure-html/unnamed-chunk-2-1.png" width=50%>

---

#### Tương tự, đây là một rank plot tốt (well-mixing)
<img src="https://pbs.twimg.com/media/EMI3Ve8WoAIAB7q?format=jpg&name=medium" width=60%>

#### Còn đây là rankplot xấu
<img src="https://pbs.twimg.com/media/EMI166HWoAEz5Mg?format=png&name=900x900" width=60%>

## Hai hàm vẽ trace plot và rank plot đều có trong [arviz](https://arviz-devs.github.io/arviz/index.html) (python) và [rethinking](https://github.com/rmcelreath/rethinking) (R language)

## Kết luận:
Bài này giới thiệu cơ bản về MCMC, trong đó `NUTS` là công cụ hiện đại.  
**Bạn không cần phải hiểu sâu các công cụ này, quan trọng nhất là kết quả của công cụ.**  
MCMC đã chứng minh được sức mạnh của nó, với ngày này rất nhiều người dùng chúng.  
Việc chẩn đoán kết quả MCMC cũng dễ dàng, thông qua *trace plot* và *rank plot*.  

Hi vọng sau bài này, các bạn sẽ thấy rằng Bayes stats không khó, mà thực sự nó rất dễ sử dụng, hay hơn đống hỗn độn các test kiểm định ngoài kia.