# An experiment/simulation to understand Simpson Paradox

## Motivation

Thông qua một ví dụ về thử nghiệm ngẫu nhiên có kiểm soát (RCT hay A/B test) trong một chiến dịch Marketing, ta sẽ thấy được:

- Sự khác biệt giữa quan sát ngẫu nhiên trong quần thể (population) và khi có sự xuất hiện của 1 RCT;
- Hạn chế của thống kê quy ước trong cả hai trường hợp -> tầm quan trọng của suy luận nhân quả.



In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style("whitegrid")
sns.set_palette("Set1")

## Scenario 1: Random observed data

Marketer có trong tay 1 `DataFrame` gồm 2 biến binary:

- `T`: 0 ~ không thực hiện chiến dịch quảng cáo mới, 1 ~ có thực hiện
- `Y`: 0 ~ không mua hàng trong session đầu ngay sau chiến dịch, 1 ~ có mua.

In [None]:
def simulate_bin(sample_size=1000, force_treatment=None, obs_confouder=False):
    """
    Simulate a binary outcome Y from a binary treatment T and a binary confounder C.
    """
    p_c = 0.5
    p_t_c = [0.8, 0.2]
    p_y_tc = [0.1, 0.3, 0.7, 0.9]
    
    c = np.random.binomial(n=1, p=p_c, size=sample_size)

    if force_treatment is not None:
        assert(len(force_treatment) == sample_size)
        t = force_treatment
    else:
        p_t = np.choose(c, p_t_c)
        t = np.random.binomial(n=1, p=p_t, size=sample_size)
        
    p_y = np.choose(c*2 + t, p_y_tc)
    y = np.random.binomial(n=1, p=p_y, size=sample_size)

    if obs_confouder:
        return pd.DataFrame({"T": t, "Y": y, "C": c})
        
    return pd.DataFrame({"T": t, "Y": y})
    

## Scenario 2: RCT

## Explanation

## Backdoor adjustment with `DoWhy`

## Conclusion

1. Dữ liệu bản thân nó không quan trọng bằng **quá trình/cơ chế** sinh dữ liệu;
2. Khi thực hiện RCT, cần chú ý tới **confounders**. Đồng thời RCT cũng sẽ ảnh hưởng trực tiếp đến tính ngẫu nhiên của dữ liệu (ta đã thay đổi quá khứ);
3. **Association/Correlation** khác/không tương đương với **Causal relationship**;
4. Simpson paradox là một trường hợp cực đoan khi RCT không kiểm soát tốt confounders, vi phạm giả định về **tính độc lập có điều kiện** của can thiệp (treatment);
5. Nếu quy trình phân tích không được dẫn đường bởi quy luật nhân quả, rất dễ rơi vào bẫy nghịch lý, dẫn đến **quyết định sai lầm**.

## References

- BS Le Ngoc Kha Nhi: <https://www.lengockhanhi.com/post/ngh%E1%BB%8Bch-l%C3%BD-simpson>