# 課題4

この課題では与えられた問題において、LinUCBとトンプソンサンプリングを実装し、100回試行した後でregretの平均値について比較する。
ここではregretの計算式として、最も良い報酬の期待値を出す行動を$i^{\star}$としたとき、
\begin{align}
\text{regret} = (a_{i^{\star}} - a_{j})^{\top} \theta^{\star}
\end{align}
となるようにした。最初に実装に使う変数の設定等を行う。

In [1]:
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(seed = 42)
T = 10000
LinUCB_regret = []
thompson_regret = []
a = np.array([[np.cos(i * np.pi / 4), np.sin(i * np.pi / 4)] 
              for i in range(1, 9)])
theta_star = np.array([3, 1])

In [2]:
mu = [a[i].T @ theta_star for i in range(8)]
i_star = np.argmax(mu)

### LinUCB

まずLinUCBを実装する。実装は以下のようになる。

In [3]:
squared_sigma = 1
squared_sigma_0 = 1
alpha = 0.5
inv_A = (squared_sigma_0 / squared_sigma) * np.eye(2) 
b = np.zeros(2)

for loop in range(100):
    regret = 0
    for t in range(T):
        theta_hat = inv_A @ b
        mu_bar = []
        for i in range(8):
            ainv_Aa = a[i].T @ inv_A @ a[i]
            mu_bar.append(a[i].T @ theta_hat 
                + (alpha * np.sqrt(np.log(t + 1))) 
                          * np.sqrt(squared_sigma) * np.sqrt(ainv_Aa))
        i_obj = np.argmax(np.array(mu_bar))
        regret += (a[i_star] - a[i_obj]).T @ theta_star
        x = np.random.normal(a[i_obj].T @ theta_star, 1)
        aa_matrix = a[i_obj].reshape(-1, 1) @ a[i_obj].reshape(-1, 1).T
        ainv_Aa = a[i_obj].T @ inv_A @ a[i_obj]
        c = inv_A @ aa_matrix @ inv_A
        inv_A = inv_A - (c / (1 + ainv_Aa))
        b = b + a[i_obj] * x
    LinUCB_regret.append(regret)

### トンプソンサンプリング

次にトンプソンサンプリングを実装する。実装は以下のようになる。

In [4]:
squared_sigma = 1
squared_sigma_0 = 1
inv_A = (squared_sigma_0 / squared_sigma) * np.eye(2) 
b = np.zeros(2)

for loop in range(100):
    regret = 0
    for t in range(T):
        theta_tilde = np.random.multivariate_normal(inv_A @ b, 
                                                    squared_sigma * inv_A)
        mu_bar = []
        for i in range(8):
            mu_bar.append(a[i].T @ theta_tilde)
        i_obj = np.argmax(mu_bar)
        regret += (a[i_star] - a[i_obj]).T @ theta_star
        x = np.random.normal(a[i_obj].T @ theta_star, 1)
        aa_matrix = a[i_obj].reshape(-1, 1) @ a[i_obj].reshape(-1, 1).T
        ainv_Aa = a[i_obj].T @ inv_A @ a[i_obj]
        c = inv_A @ aa_matrix @ inv_A
        inv_A = inv_A - (c / (1 + ainv_Aa))
        b = b + a[i_obj] * x
    thompson_regret.append(regret)

### まとめ

以上のより、$T=10000$の時、LinUCBとトンプソンサンプリングを100回試行した時のregretの平均値はそれぞれ、

In [5]:
print(f"LinUCBのregretの平均値             :\
    {np.array(LinUCB_regret).mean()}")
print(f"トンプソンサンプリングのregretの平均値 :\
    {np.array(thompson_regret).mean()}")

LinUCB                            :    6.033629277645632
トンプソンサンプリングのregretの平均値 :    0.5099372387684071


となっている。この結果を見るとLinUCBのregretの平均値はトンプソンサンプリングのregret平均値よりも大きいものになっていることがわかる。