# 102_6.1_式理解.ipynb

### $
p(r_{u,t:t+11} \mid x_u, a_{u,t-h:t+11})
=
p(r_{u,t} \mid x_u, a_{u,t-h:t}) \,
p(r_{u,t+1:t+11} \mid x_u, a_{u,t-h+1:t+11}, r_{u,t})
$ - (6.9)

$
\textcolor{red}{
p(r_{u,t:t+11} \mid x_u, a_{u,t-h:t+11})
}
=
p(r_{u,t} \mid x_u, a_{u,t-h:t}) \,
p(r_{u,t+1:t+11} \mid x_u, a_{u,t-h+1:t+11}, r_{u,t})
$

左辺:  
ユーザの状態$x_u$と$t-h$から$t+11$までに取った行動$a_{u,t-h:t+11}$に基づく、  
ユーザ$u$が時刻$t$から$t+11$までに得る報酬$r_{u, t:t+11}$の確率分布

$
p(r_{u,t:t+11} \mid x_u, a_{u,t-h:t+11})
=
\textcolor{red}{
p(r_{u,t} \mid x_u, a_{u,t-h:t}) \,
}
p(r_{u,t+1:t+11} \mid x_u, a_{u,t-h+1:t+11}, r_{u,t})
$

右辺①:  
ユーザの状態$x_u$と$t-h$から$t$までに取った行動$a_{u,t-h:t}$に基づく、  
ユーザ$u$が時刻$t$に得る報酬$r_{u, t}$の確率分布

$
p(r_{u,t:t+11} \mid x_u, a_{u,t-h:t+11})
=
p(r_{u,t} \mid x_u, a_{u,t-h:t}) \,
\textcolor{red}{
p(r_{u,t+1:t+11} \mid x_u, a_{u,t-h+1:t+11}, r_{u,t})
}
$

右辺②:  
ユーザの状態$x_u$と$t-h+1$から$t+11$までに取った行動$a_{u,t-h:t}$と時刻$t$における報酬$r_{u,t}$に基づく、  
ユーザ$u$が時刻$t$に得る報酬$r_{u, t:t+11}$の確率分布

## 流れ確認
- 「num_data」固定
- 「_」固定

In [1]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
from pandas import DataFrame
from tqdm import tqdm
from sklearn.utils import check_random_state
import seaborn as sns
import matplotlib.pyplot as plt
import japanize_matplotlib
plt.style.use('ggplot')
y_label_dict = {"se": "平均二乗誤差", "bias": "二乗バイアス", "variance": "バリアンス", "selection": "方策選択"}

from dataset import generate_synthetic_data, calc_true_value
from estimators import calc_online, calc_ips, calc_new
from utils import eps_greedy_policy, softmax_policy, aggregate_simulation_results

In [2]:
## シミュレーション設定
# num_runs = 1000 # シミュレーションの繰り返し回数
dim_context = 10 # 特徴量xの次元
num_data = 500 # ログデータのサイズ
num_actions = 4 # 行動数, |A|
T = 12 # 総時点数
eps = 0.0 # データ収集方策のパラメータ, これは共通サポートの仮定を満たさない
beta = -5 # 評価方策のパラメータ
random_state = 12345
random_ = check_random_state(random_state)
num_data_list = [250, 500, 1000, 2000, 4000] # ログデータのサイズ

In [3]:
num_data = 500

## 期待報酬関数を定義するためのパラメータを抽出
random_ = check_random_state(random_state)
theta = random_.normal(size=(dim_context, num_actions))
M = random_.normal(size=(dim_context, num_actions))
b = random_.normal(size=(1, num_actions))
W = random_.uniform(0, 1, size=(T, T))
## データ収集方策と評価方策の真の性能(policy value)を近似
policy_value_of_pi0, policy_value_of_pi = calc_true_value(
    dim_context=dim_context, num_actions=num_actions,
    theta=theta, M=M, b=b, W=W, T=T, beta=beta, eps=eps,
)

In [4]:
_ = 0
## データ収集方策が形成する分布に従いログデータを生成
offline_logged_data = generate_synthetic_data(
    num_data=num_data, dim_context=dim_context, num_actions=num_actions,
    theta=theta, M=M, b=b, W=W, T=T, eps=eps, random_state=_
)
online_experiment_data = generate_synthetic_data(
    num_data=num_data, dim_context=dim_context, num_actions=num_actions,
    theta=theta, M=M, b=b, W=W, T=1, beta=beta, is_online=True, random_state=_
)

## ログデータ上における評価方策の行動選択確率を計算
pi = softmax_policy(beta * offline_logged_data["base_q_func"])

## ログデータを用いてオフ方策評価を実行する
estimated_policy_values, selection_result = dict(), dict()
V_hat_online, selection_result_online = calc_online(online_experiment_data)
estimated_policy_values["online"] = V_hat_online
selection_result["online"] = selection_result_online
V_hat_ips, selection_result_ips = calc_ips(offline_logged_data, pi)
estimated_policy_values["ips"] = V_hat_ips
selection_result["ips"] = selection_result_ips
V_hat_new, selection_result_new = calc_new(offline_logged_data, online_experiment_data, pi)
estimated_policy_values["new"] = V_hat_new
selection_result["new"] = selection_result_new
# estimated_policy_value_list.append(estimated_policy_values)
# selection_result_list.append(selection_result)

estimated_policy_values, selection_result

({'online': 0.2121460664550819,
  'ips': 0.0014043631786101057,
  'new': 0.17601989678339033},
 {'online': False, 'ips': False, 'new': True})

## 提案方策理解

In [7]:
pi

array([[0.32842448, 0.2384514 , 0.21651261, 0.21661151],
       [0.24759125, 0.24736038, 0.25688764, 0.24816074],
       [0.30134211, 0.30134209, 0.19865696, 0.19865884],
       ...,
       [0.25028098, 0.24990716, 0.24990593, 0.24990594],
       [0.33578588, 0.22140293, 0.22140272, 0.22140847],
       [0.21374615, 0.29020368, 0.27882679, 0.21722338]])

In [8]:
pi.shape

(500, 4)

## 推定量詳細確認
### online

In [26]:
df = pd.DataFrame([])
dataset_online = online_experiment_data
"""短期実験におけるAVG推定量を実行する."""
r_on, w_on = dataset_online["r_t"], dataset_online["w"]
df['r_on'] = dataset_online["r_t"].flatten()
df['w_on'] = dataset_online["w"].flatten()

display(df.head())
print('├─r_on: 2024/04テスト時の報酬')
print('└─w_on: 2024/04テスト時の新方策フラグ')

Unnamed: 0,r_on,w_on
0,1.563695,0
1,0.24604,1
2,0.159205,0
3,0.261394,0
4,0.608946,0


├─r_on: 2024/04テスト時の報酬
└─w_on: 2024/04テスト時の新方策フラグ


In [30]:
estimated_value_of_pi   = df[df['w_on']==1]['r_on'].mean()
estimated_value_of_pi_0 = df[df['w_on']==0]['r_on'].mean()
estimated_value_of_pi, estimated_value_of_pi_0
print(f'新方策による報酬期待値: {estimated_value_of_pi:.3f}')
print('└─2024/04テスト時の新方策フラグが1のデータの報酬平均値')
print('')
print(f'旧方策による報酬期待値: {estimated_value_of_pi_0:.3f}')
print('└─2024/04テスト時の新方策フラグが0のデータの報酬平均値')
print('')
print('今回の推定量を用いると、「新方策 < 旧方策」と判断する')

新方策による報酬期待値: 0.212
└─2024/04テスト時の新方策フラグが1のデータの報酬平均値

旧方策による報酬期待値: 0.510
└─2024/04テスト時の新方策フラグが0のデータの報酬平均値

今回の推定量を用いると、「新方策 < 旧方策」と判断する


In [33]:
# 計算整合確認
"""短期実験におけるAVG推定量を実行する."""
dataset_online = online_experiment_data
r_on, w_on = dataset_online["r_t"], dataset_online["w"]

estimated_value_of_pi = (w_on * r_on.mean(1)).sum() / w_on.sum()
estimated_value_of_pi_0 = ((1 - w_on) * r_on.mean(1)).sum() / (1 - w_on).sum()
selection_result = estimated_value_of_pi > estimated_value_of_pi_0

estimated_value_of_pi, estimated_value_of_pi, selection_result

(0.2121460664550819, 0.2121460664550819, False)

In [34]:
# 問題なし

### IPS

In [59]:
dataset = offline_logged_data

num_data, T = dataset["num_data"], dataset["T"]
a_t, r_t, pi_0 = dataset["a_t"], dataset["r_t"], dataset["pi_0"]

target_pscore = np.zeros((num_data, T), dtype=float)
logging_pscore = np.zeros((num_data, T), dtype=float)
for t in range(T):
    target_pscore[:, t] = pi[np.arange(num_data), a_t[:, t]]
    logging_pscore[:, t] = pi_0[np.arange(num_data), a_t[:, t]]
w_t = target_pscore / logging_pscore  # importance weights

ips_estimate = 0.0
for t in range(T):
    ips_estimate += w_t[:, : t + 1].prod(1) * r_t[:, t] / T # 1ヶ月分の報酬に換算するためにTで割っていると理解

estimated_value_of_pi = ips_estimate.mean()
estimated_value_of_pi_0 = (r_t.mean(1)).mean()
selection_result = estimated_value_of_pi > estimated_value_of_pi_0

print(f'新方策による報酬期待値: {estimated_value_of_pi:.3f}')
print('')
print(f'旧方策による報酬期待値: {estimated_value_of_pi_0:.3f}')
print('')
print('今回の推定量を用いると、「新方策 < 旧方策」と判断する')

新方策による報酬期待値: 0.001

旧方策による報酬期待値: 0.078

今回の推定量を用いると、「新方策 < 旧方策」と判断する


In [60]:
# 関数そのまま使いつつ理解したので確認は省略する