In [6]:
import numpy as np

In [26]:
class AE20B108_LINUCB:
  def __init__(self, num_dim, num_samples, sigma):
    self.__num_dim = num_dim
    self.__num_samples = num_samples
    self.__sigma = sigma
    self.__num_arms = 4
    self.__gamma = 0.001
    self.__delta = 0.0001
    self.__confidence = np.power(self.__gamma, 0.5) + np.sqrt(2*np.log(1/self.__delta) + num_dim*np.log(1 + (num_samples)/(self.__gamma*num_dim)))
    self.__arm_sets = np.random.random((num_arms, num_dim))
    self.__A = np.eye(num_dim)
    self.__B = np.zeros(num_dim)
    self.__theta_hat = np.zeros(num_dim)
    self.__t = 0
    self.__prev_action = None

  def get_action(self,reward):
    if not self.__prev_action is None:
      self.__A += np.dot(self.__arm_sets[self.__prev_action],self.__arm_sets[self.__prev_action])
      self.__B += reward*self.__arm_sets[self.__prev_action]
    if self.__t < self.__num_arms:
      action = self.__t
    else:
        UCB = [self.calc_UCB(arm) for arm in self.__arm_sets]
        action =  np.argmax(UCB)
        self.__A += np.dot(self.__arm_sets[self.__prev_action],self.__arm_sets[self.__prev_action])
        self.__B += reward*self.__arm_sets[self.__prev_action]
    self.__t+=1
    self.__prev_action = action
    return action

  def calc_UCB(self,x):
    A_inv = np.linalg.inv(self.__A)
    self.__theta_hat = A_inv @ self.__B
    UCB = self.__theta_hat.T @ x + self.__confidence*np.sqrt(x.T@A_inv@x)
    return UCB

In [27]:
class Environment:
  def __init__(self,theta_star,mean,sigma,agent):
    self.__num_samples = num_samples
    self.__theta_star = theta_star
    self.__mean = mean
    self.__reward = -100
    self.__action = np.zeros((num_samples,num_dim),dtype = float)
    self.__agent = agent
    self.__regret = 0

  def run(self):
    for i in range(self.__num_samples):
      self.__action[i,:] = self.__agent.get_action(self.__reward)
      self.__reward = np.dot(self.__action[i,:],theta_star)+sigma*np.random.randn()
    return self.__action

In [28]:
num_samples = 100
num_arms = 4
num_dim = 10
theta_star = 2*(np.random.rand(num_dim,)-0.5)
sigma = 1
agent = AE20B108_LINUCB(num_dim,num_samples,sigma)
env = Environment(num_dim,theta_star,sigma,agent)
action_list= env.run()


In [29]:
action_list

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2., 2., 2., 2., 2., 2.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 