# Bandit-Problem

## bandit的主要问题之一：如何平衡探索(explore)和利用(exploit)  
  
  平衡探索与利用问题，也叫做EE平衡问题，是在人们在作选择时客观存在的问题之一。探索与利用是相互矛盾的，互为阴阳。探索可以让你进行新的尝试而避免陷入一味的保守，但是新的尝试带来的也可能是不尽人意。利用只会使用自己当前最满意的选择而无法获得其他选择带来新鲜感，但是也省去了一味的盲目尝试且节约了时间精力。  
  
当然，最不费脑地平衡探索与利用的方就是随机选择，这也就是生活常看到的拿不定主意的时候抛个骰子的情景。人生那么长，不可能把所有选择都交给随机的骰子，从实际生活中看，人们作选择的时候总是会考量一番而避免瞎蒙，可以预见地是，随机选择极大可能会使自己过得很惨。那么除了随机选择方法之外，目前平衡探索和利用这一阴一阳的方法主要有如下4种：  
- uniform greedy方法  
- $\epsilon$ greedy方法  
- UCB方法   
- Tompson sampling方法  

衡量这些方法，其实就是看在时间 $t$ 我们根据这些方法作出选择时是否有遗憾 $regret$，以及慢慢人生路上会累积多少遗憾$regrets$，因此用累积遗憾来衡量这些方法的好坏 $ regrets=\sum regret(t) $。如果这个方法让你感到无比遗憾和后悔时，那么这个方法对你来说就是不好的方法。

## 方法效果对比

In [1]:
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
from matplotlib import style
style.use('ggplot')
params = [0.5, 1, 2, 3]
x = np.linspace(0, 1, 100)
f, ax = plt.subplots(len(params), len(params), sharex=True, sharey=True)
for i in range(4):
    for j in range(4):
        alpha = params[i]
        beta = params[j]
        pdf = stats.beta(alpha, beta).pdf(x)
        ax[i, j].plot(x, pdf)
        ax[i, j].plot(0, 0, label='alpha={:3.2f}\nbeta={:3.2f}'.format(alpha, beta), alpha=0)
        plt.setp(ax[i, j], xticks=[0.0, 0.2, 0.4, 0.6, 0.8, 1.0], yticks=[0,2,4,6,8,10])
        ax[i, j].legend(fontsize=10)
ax[3, 0].set_xlabel('theta', fontsize=16)
ax[0, 0].set_ylabel('pdf(theta)', fontsize=16)
plt.suptitle('Beta PDF', fontsize=16)
plt.tight_layout()
plt.show()


<matplotlib.figure.Figure at 0x161aafd0320>