# LinUCB

Esse notebook está sendo utilizado para entender melhor sobre o algoritmo LinUCB

## Importações

In [1]:
import numpy as np

## Testando em um cenário simples, apenas dois possíveis arms e dois contextos

### Executando de forma não interativa

In [2]:
# Para o braço 1:

# Contextos
X_1 = np.array([
    [0], [0], [0], [0], [0], [0], [0], [0], [0], [0],
    [1], [1], [1], [1], [1], [1], [1], [1], [1], [1]
])

# Recompensas
y_1 = np.array([
    [1], [1], [1], [1], [1], [1], [1], [1], [0], [0],
    [0], [0], [0], [0], [0], [0], [0], [0], [1], [1]
])

# Escolher o arm 1 no contexto 0 leva à 80% de chance de recompensa 1, e 20% de chance de recompensa 0
# Escolher o arm 1 no contexto 1 leva à 20% de chance de recompensa 1, e 80% de chance de recompensa 0

In [3]:
# Para o braço 2:

# Contextos
X_2 = np.array([
    [0], [0], [0], [0], [0], [0], [0], [0], [0], [0],
    [1], [1], [1], [1], [1], [1], [1], [1], [1], [1]
])

# Recompensas
y_2 = np.array([
    [0], [0], [0], [0], [0], [0], [0], [0], [1], [1],
    [1], [1], [1], [1], [1], [1], [1], [1], [0], [0]
])

# Escolher o arm 1 no contexto 0 leva à 20% de chance de recompensa 1, e 80% de chance de recompensa 0
# Escolher o arm 1 no contexto 1 leva à 80% de chance de recompensa 1, e 20% de chance de recompensa 0

In [4]:
def calculate_params_by_OLS(x: np.ndarray, y: np.ndarray, use_identity: bool = False):
    """
    Calculate the parameters w and b using the Ordinary Least Squares method
    Args:
      x (ndarray (m,)): Data, m examples 
      y (ndarray (m,)): target values
    Returns:
      w, b (scalar): model parameters
    """
    x = np.concatenate((x, np.ones((x.shape[0], 1))), axis=1)
    x_transpose = x.T

    if use_identity:
        w = np.linalg.inv(x_transpose.dot(x) + np.identity(x.shape[1])).dot(x_transpose).dot(y)
    else:
        w = np.linalg.inv(x_transpose.dot(x)).dot(x_transpose).dot(y)
  
    return w

In [5]:
theta_1 = calculate_params_by_OLS(X_1, y_1, use_identity=False)

print(f"Theta para o braço 1: {theta_1}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_1)[0]}")  # Precisa adicionar o 1 no final do vetor de contexto, ele é o bias (intercept)
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_1)[0]}")

Theta para o braço 1: [[-0.6]
 [ 0.8]]
Para o contexto 0, a recompensa esperada é 0.8
Para o contexto 1, a recompensa esperada é 0.19999999999999996


In [6]:
theta_2 = calculate_params_by_OLS(X_2, y_2, use_identity=False)

print(f"Theta para o braço 2: {theta_2}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_2)[0]}")
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_2)[0]}")

Theta para o braço 2: [[0.6]
 [0.2]]
Para o contexto 0, a recompensa esperada é 0.2
Para o contexto 1, a recompensa esperada é 0.8


In [7]:
theta_1 = calculate_params_by_OLS(X_1, y_1, use_identity=True)

print(f"Theta para o braço 1: {theta_1}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_1)[0]}")
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_1)[0]}")

Theta para o braço 1: [[-0.44274809]
 [ 0.6870229 ]]
Para o contexto 0, a recompensa esperada é 0.6870229007633588
Para o contexto 1, a recompensa esperada é 0.2442748091603053


In [8]:
theta_2 = calculate_params_by_OLS(X_2, y_2, use_identity=True)

print(f"Theta para o braço 2: {theta_2}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_2)[0]}")
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_2)[0]}")

Theta para o braço 2: [[0.51908397]
 [0.22900763]]
Para o contexto 0, a recompensa esperada é 0.22900763358778625
Para o contexto 1, a recompensa esperada é 0.748091603053435


In [19]:
def calculate_params_by_OLS_interactive(x, y):
    x = np.concatenate((x, np.ones((x.shape[0], 1))), axis=1)
    A = np.identity(x.shape[1])
    b = np.zeros((x.shape[1],))

    for i in range(x.shape[0]):
        x_t = x[i].reshape(1, -1)
        A += x_t.T @ x_t
        b += y[i] * x_t[0]
    
    return (np.linalg.inv(A) @ b).T

In [20]:
theta_1 = calculate_params_by_OLS_interactive(X_1, y_1)

print(f"Theta para o braço 1: {theta_1}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_1)}")
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_1)}")

Theta para o braço 1: [-0.44274809  0.6870229 ]
Para o contexto 0, a recompensa esperada é 0.6870229007633588
Para o contexto 1, a recompensa esperada é 0.2442748091603053


In [21]:
theta_2 = calculate_params_by_OLS_interactive(X_2, y_2)

print(f"Theta para o braço 2: {theta_2}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_2)}")
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_2)}")

Theta para o braço 2: [0.51908397 0.22900763]
Para o contexto 0, a recompensa esperada é 0.2290076335877863
Para o contexto 1, a recompensa esperada é 0.748091603053435


In [12]:
qnt = 15

X_1_bias = np.concatenate((X_1, np.ones((X_1.shape[0], 1))), axis=1)
identity = np.identity(X_1_bias.shape[1])

A_1 = X_1_bias[:qnt].T @ X_1_bias[:qnt] + identity

A_1_interactive = identity
b_1_interactive = np.zeros((X_1_bias.shape[1],))
for i in range(qnt):
    x = X_1_bias[i].reshape(1, -1)
    A_1_interactive += x.T @ x
    b_1_interactive += y_1[i] * x[0]

print(A_1)
print(A_1_interactive)

[[ 6.  5.]
 [ 5. 16.]]
[[ 6.  5.]
 [ 5. 16.]]


In [42]:
def calculate_params_by_OLS_interactive(x, y, alpha):
    x = np.concatenate((x, np.ones((x.shape[0], 1))), axis=1)
    A = np.identity(x.shape[1])
    b = np.zeros((x.shape[1],))

    for i in range(x.shape[0]):
        x_t = x[i].reshape(1, -1)
        A += x_t.T @ x_t
        b += y[i] * x_t[0]

        exploration_value = alpha * np.sqrt(x_t @ np.linalg.inv(A) @ x_t.T)
        print(exploration_value)
    
    return (np.linalg.inv(A) @ b).T

In [44]:
theta_1 = calculate_params_by_OLS_interactive(X_1, y_1, 0.5)

print(f"Theta para o braço 1: {theta_1}")
print(f"Para o contexto 0, a recompensa esperada é {np.array([0, 1]).dot(theta_1)}")
print(f"Para o contexto 1, a recompensa esperada é {np.array([1, 1]).dot(theta_1)}")

[[0.35355339]]
[[0.28867513]]
[[0.25]]
[[0.2236068]]
[[0.20412415]]
[[0.18898224]]
[[0.1767767]]
[[0.16666667]]
[[0.15811388]]
[[0.15075567]]
[[0.36115756]]
[[0.29277002]]
[[0.25264558]]
[[0.22549381]]
[[0.20555661]]
[[0.19011728]]
[[0.17770466]]
[[0.16744367]]
[[0.15877684]]
[[0.15132998]]
Theta para o braço 1: [-0.44274809  0.6870229 ]
Para o contexto 0, a recompensa esperada é 0.6870229007633588
Para o contexto 1, a recompensa esperada é 0.2442748091603053


In [45]:
theta_2 = calculate_params_by_OLS_interactive(X_2, y_2, 0.5)

[[0.35355339]]
[[0.28867513]]
[[0.25]]
[[0.2236068]]
[[0.20412415]]
[[0.18898224]]
[[0.1767767]]
[[0.16666667]]
[[0.15811388]]
[[0.15075567]]
[[0.36115756]]
[[0.29277002]]
[[0.25264558]]
[[0.22549381]]
[[0.20555661]]
[[0.19011728]]
[[0.17770466]]
[[0.16744367]]
[[0.15877684]]
[[0.15132998]]
