## Description
유사한 질병간 분류를 도와주는 biomarker 'X'의 효용성에 대해서 평가하려고 한다.각 질병을 가진 환자를 대상으로 실험을 진행해야할 필요가 있고 특정 질병의 환자들에서 'X'의 존재가 많다는 결과가 나오길 바란다.이 경우에 각각의 질병은 Multi-Armed-Bandit(MAB) 기준으로 각 arm 이라고 할 수 있다. 조사자는 순차적으로 각 질병의 환자들을 테스트 해서 'X' 의 수치를 검사한다.만약 어떤 환자에게서 X가 발견이 되면 reward로 1, 발견되지 않으면 0. biomarker 'X' 의 효용성의 근거를 뒷받침하기 위해서는 특정 질병군의 기대 reward 가 차이나게 다른질병보다 높아야한다.단순히 가장 높은게 아니라 아웃라이어처럼 극단적으로 높아야함. 동시에 최소한의 비용으로 테스트를 해야함

* outlier arm
* 기준은 3 alpha

## setting

* outlier arm은 다른 arm보다 훨신 높은 기대 보상을 가짐
* outlier arm의 기준은 통계에서 일반적으로 사용하는 k - sigma
* 평균은 $\mu$, 편차를 $\sigma$ 라고 하면, outlier의 threshold는 다음과 같다
$$
\theta = \mu + k\sigma
$$





In [17]:
import numpy as np
from scipy import stats

In [121]:
class MAB():
    
    def __init__(self, prob):
        self.prob = prob
        self.n_arms = len(prob)
        
        
    def draw(self):
        
        reward = []
        for i in range(self.n_arms):
            reward.append(np.random.binomial(1,self.prob[i],1)[0])
        
        return reward
        

def estimate(n, mab):
    
    reward_array = np.zeros((3,n))
    
    for i in range(n):
        reward_array[:,i] = mab.draw()
        mu = reward_array[:,:i].mean(axis=1).mean()
        sd = np.sqrt(np.mean((mu - reward_array[:,:i].mean(axis=1))**2))
        theta = mu + 3*sd
        
        if (theta < reward_array[:,:i].mean(axis=1)).sum() != 0:
            break
    
    k = np.where((theta < reward_array[:,:i].mean(axis=1))==1)[0]
    return reward_array, mu, sd
    

In [122]:
prob = [0.3, 0.6, 0.7]
mab = MAB(prob)

In [141]:
r, mu, sd = estimate(5000 , mab)



In [142]:
sd

0.170101484034649

In [82]:
def update_delta(delta, n, T):
    return (6*delta)/((np.pi**2)*(n+1)*(T**2))

In [81]:
z
p_hat = (success + 
beta_i = 
beta_theta = 

3.141592653589793

## Algorithms
### 3.1 Round - Robin Algorithms
arm 을 차례대로 연속적으로 선택하는 방식(arm1 -> arm2 -> arm3 -> arm1...) 이며 조건에 부합하는 순간 종료. 특정 arm이 outlier로 판단되면 종료된다.

각각의 arm의 confidence interval이 겹치지 않게 되면 종료. 특정 arm의 평균과 threshold와의 각 confidence interval이 겹치지 않는다면 outlier라 판단못함

$$
CI(y) = R\sqrt{\frac {1} {2m_i} log(\frac {1} {\delta'})} \\
CI(threshold) = R\sqrt{\frac {l(k)} {2h(m)} log(\frac {1} {\delta'})} 
$$
R = b - a ( boundary)



(array([[0., 0., 1., ..., 0., 0., 0.],
        [1., 0., 1., ..., 0., 1., 0.],
        [1., 1., 0., ..., 0., 1., 1.]]),
 array([], dtype=int32))

array([0.01, 0.  , 0.01])

(array([0, 1, 2], dtype=int32),)